【小果解读生信图】功能超级强大的箱线图,你会看吗?






【小果解读生信图】功能超级强大的箱线图,你会看吗?

eryun  生信果  2023-12-12 19:01:02


点击蓝字 / 关注我们



做了生信分析,拿到一堆数据,看不懂图怎么办?

火山图、热图、散点图、箱线图、瀑布图···这么多类型的图都咋看?

风险模型预后评估图、GO-KEGG富集分析图、GSEA富集分析图···这些图又代表了什么结果?

最新栏目【小果解读生信图】上线啦,讲火山图、热图、相关性散点图、GSEA图等

感谢粉丝朋友们的关注,小果的新栏目可以继续更新

应粉丝朋友的要求,这次讲讲功能超级强大的箱线图

话不多说,先看图,这应该是大家最常见到的箱线图



1. 什么是箱线图?

箱线图(BoxPlot)也称为箱形图、箱须图或盒式图等,是用于显示一组数据分散情况的统计图,它能同时反映数据统计量和整体分布,成为现在最常用的统计图形之一。



2. 箱线图怎么看?


线


箱子中间横线:代表中位数,如果是标准正态分布,中位数和平均值是一样的,位置在小箱子的中间位置;

箱子上边和下边线:代表上四分位数(75thQuantile,箱子上边线,Q3)和下四分位数(25thQuantile,箱子的下边线Q1);

箱子延伸出去的2根竖线和横线:竖线代表的是1.5倍的IQR区间,横线代表箱线图的上下限,上限=Q3+1.5IQR,下限= Q1-1.5 IQR




每一个点代表一个样本, 如果数据有存在离群点即异常值,他们超出上限或者下限,此时将离群点以“圆点”形式进行展示;



箱子大小


代表的是四分位数间距(IQR),是统计离散度的度量,等于第75和第25百分位数之间的差异,即:IQR = Q3-Q1;

: 一般上下限值等于上边说的Q1-1.5IQR和Q3+1.5IQR,但是当数据中没有达到上下限的数值,那就用最大值和最小值来替换,这也是造成两个线经常不等长的原因之一。比如在上图中,由于数据中最小值要大于下限值,所以下限值那条线就用此数据中的最小值来代替,而不是Q1-1.5IQR。而对于上限来说,由于数据中包含等于上限值的数,所以就用Q3+1.5IQR来表示。而对于大于上限值的一个数据,属于2.7个方差之外的数值,被视为异常值。


3. 箱线图怎么用?

1)可用于判断一组数据中的最大值、最小值、上四分位数、中位数和下四分位数,以及数值范围;

2)判断异常值:位于上限和下限之外的点,为异常值,因此箱线图也是判断异常值的一种很好的方法;

3)判断数据的波动情况:箱体部分代表了50%的数值,因此箱体的宽度可在一定程度上反应50%数值的波动情况。箱体越窄或越扁,说明数据波动性越小,数据越稳定;箱体越宽,说明数据波动性越大,数据越不稳定;



4. 箱线图什么时候用?

1)箱线图是针对连续性变量的,若为离散型变量,不适合使用箱形图;

2) 当一组数据中存在特别大或特别小的异常值时,会将箱线图的箱体压的很扁,有时可能只会剩下一条线,这时不太适合使用箱线图,或者试着进行对数变换;

3)当一组数据中存在很多异常值时,会导致箱线图呈现很奇怪的形状,这时也不太适合使用箱线图;

4)当只有一个连续型变量时,并不适合画箱线图,直方图是更常见的选择;

5)箱线图最有效的使用途径是作比较,配合一个或者多个定性数据,画分组箱线图。

再来张不一样的

(ps:不一样的只是形式,解图的方法还是不变滴,万变不离其宗)


可变宽度箱线图(Variable Width Box Plot):箱子的宽度反映出样本的大小,样本量越大,箱子越宽


缺口箱线图(Notched Box Plot):中位数的值用缺口表示,缺口的宽度可表示中位数的置信区间,方便比较几组数据中位数的差别


小提琴图(Violin Plot):这类图相当于是箱线图和密度分布图的结合,箱线图展示了分位数的位置,密度分布图展示了任意位置的密度


箱线图的解读有没有让生信小白们豁然开朗呀?还有问题的话欢迎给小果留言或私信哦,为了让这个系列能一直更新,朋友们快来多多留言支持吧 


小果有话说

……

如果您的时间和精力有限或者缺乏相关经验,并且对生信分析和思路设计有所需要的话,小果非常乐意为您提供免费思路评估、付费生信分析和定制生信思路设计等服务,欢迎咨询!


扫码咨询小果



往期推荐

1.搭建生信分析流水线,如工厂一样24小时运转Snakemake——进阶命令
2.比blast还优秀的序列比对工具?HMMER来了
3.对单细胞分析毫无头绪?让popsicleR领你入门
4.小果带你绘制ROC曲线评估生存预测能力
5.软件包安装、打怪快又好,1024G存储的生信服务器;还有比这更省钱的嘛!!!