【小果解读生信图】功能超级强大的箱线图,你会看吗?
转自公众号:云生信学生物信息学
http://mp.weixin.qq.com/s?__biz=MzAwNjE0MDY3MQ==&mid=2650750890&idx=2&sn=ecbaed663a0a8f4bb7cbb46bea71bb21
点击蓝字 / 关注我们
做了生信分析,拿到一堆数据,看不懂图怎么办?
火山图、热图、散点图、箱线图、瀑布图···这么多类型的图都咋看?
风险模型预后评估图、GO-KEGG富集分析图、GSEA富集分析图···这些图又代表了什么结果?
最新栏目【小果解读生信图】上线啦,讲火山图、热图、相关性散点图、GSEA图等
感谢粉丝朋友们的关注,小果的新栏目可以继续更新
应粉丝朋友的要求,这次讲讲功能超级强大的箱线图
话不多说,先看图,这应该是大家最常见到的箱线图
1. 什么是箱线图?
箱线图(BoxPlot)也称为箱形图、箱须图或盒式图等,是用于显示一组数据分散情况的统计图,它能同时反映数据统计量和整体分布,成为现在最常用的统计图形之一。
2. 箱线图怎么看?
线
箱子中间横线:代表中位数,如果是标准正态分布,中位数和平均值是一样的,位置在小箱子的中间位置;
箱子上边和下边线:代表上四分位数(75thQuantile,箱子上边线,Q3)和下四分位数(25thQuantile,箱子的下边线Q1);
箱子延伸出去的2根竖线和横线:竖线代表的是1.5倍的IQR区间,横线代表箱线图的上下限,上限=Q3+1.5IQR,下限= Q1-1.5 IQR
点
每一个点代表一个样本, 如果数据有存在离群点即异常值,他们超出上限或者下限,此时将离群点以“圆点”形式进行展示;
箱子大小
代表的是四分位数间距(IQR),是统计离散度的度量,等于第75和第25百分位数之间的差异,即:IQR = Q3-Q1;
注: 一般上下限值等于上边说的Q1-1.5IQR和Q3+1.5IQR,但是当数据中没有达到上下限的数值,那就用最大值和最小值来替换,这也是造成两个线经常不等长的原因之一。比如在上图中,由于数据中最小值要大于下限值,所以下限值那条线就用此数据中的最小值来代替,而不是Q1-1.5IQR。而对于上限来说,由于数据中包含等于上限值的数,所以就用Q3+1.5IQR来表示。而对于大于上限值的一个数据,属于2.7个方差之外的数值,被视为异常值。
3. 箱线图怎么用?
1)可用于判断一组数据中的最大值、最小值、上四分位数、中位数和下四分位数,以及数值范围;
2)判断异常值:位于上限和下限之外的点,为异常值,因此箱线图也是判断异常值的一种很好的方法;
3)判断数据的波动情况:箱体部分代表了50%的数值,因此箱体的宽度可在一定程度上反应50%数值的波动情况。箱体越窄或越扁,说明数据波动性越小,数据越稳定;箱体越宽,说明数据波动性越大,数据越不稳定;
4. 箱线图什么时候用?
1)箱线图是针对连续性变量的,若为离散型变量,不适合使用箱形图;
2) 当一组数据中存在特别大或特别小的异常值时,会将箱线图的箱体压的很扁,有时可能只会剩下一条线,这时不太适合使用箱线图,或者试着进行对数变换;
3)当一组数据中存在很多异常值时,会导致箱线图呈现很奇怪的形状,这时也不太适合使用箱线图;
4)当只有一个连续型变量时,并不适合画箱线图,直方图是更常见的选择;
5)箱线图最有效的使用途径是作比较,配合一个或者多个定性数据,画分组箱线图。
再来张不一样的
(ps:不一样的只是形式,解图的方法还是不变滴,万变不离其宗)
可变宽度箱线图(Variable Width Box Plot):箱子的宽度反映出样本的大小,样本量越大,箱子越宽
缺口箱线图(Notched Box Plot):中位数的值用缺口表示,缺口的宽度可表示中位数的置信区间,方便比较几组数据中位数的差别
小提琴图(Violin Plot):这类图相当于是箱线图和密度分布图的结合,箱线图展示了分位数的位置,密度分布图展示了任意位置的密度
箱线图的解读有没有让生信小白们豁然开朗呀?还有问题的话欢迎给小果留言或私信哦,为了让这个系列能一直更新,朋友们快来多多留言支持吧
小果有话说
……
如果您的时间和精力有限或者缺乏相关经验,并且对生信分析和思路设计有所需要的话,小果非常乐意为您提供免费思路评估、付费生信分析和定制生信思路设计等服务,欢迎咨询!
扫码咨询小果
往期推荐