如何轻松绘制棒棒糖图?3分钟教你学会nature级别的数据处理!

今天小果给大家带来的教程是棒棒糖图的绘制方法,棒棒糖图(Lollipop Chart)是一种数据可视化的图表类型,是柱形图的“超级变形”版,通过用线条和圆圈来表示数据的大小和分布,可以横向或纵向展示数据,特别适合分类变量较多的情况。说到这里,想必大家都能想到棒棒糖图是一种非常契合生信分析的展示方法!那么应该如何绘制棒棒糖图呢?如何才能绘制好一个顶尖的棒棒糖图呢?快跟着小果来做吧!

为了体现小果的专业程度,小果特地挑选了一篇发表在Nature communications上的文章——Obesity-associated changes in molecular biology of primary breast cancer。这篇文献使用超过2000名患者的数据,对未经治疗的原发性乳腺癌(BC)患者的生物学差异进行了研究,确定了超重或肥胖患者与瘦弱患者之间普遍存在的几种不同的基因组改变,通过单细胞谱检测不同细胞区室中明显的变化,最终发现明肥胖与炎症样表型有关,患者肥胖可能在BC的异质性中起着重要作用,应该在BC治疗中加以考虑。

在这篇文章对数据处理的初步处理中,使用了数据的关联性分析,而分析的结果就是用棒棒糖图展示的。考虑到本次复现的数据量比较大,小果推荐大家租赁我们的服务器进行本次的复现学习~

Step 1 导入ICGC数据

ICGC是指国际癌症基因组学联盟,首先从该网站的数据库中获取与BC相关的基因数据,在这里小果已经帮大家整理好了,关注公众号后即可领取。在导入数据之前,先导入本次数据处理所需的R包:dplyr,stringr,openxlsx。然后导入临床数据表格Nik-Zainal_et-al_1_ClinicalPathology_withBMI.csv,检查BMI 的可用性和分类变量之间的相关性,检查结果如下图所示,是对BMI的可用性进行的相关性检验。接着过滤数据,导入突变数据,拷贝数变异数据,突变和重排的特征数据,突变负荷数据,单碱基测序衰老上下文数据(所有的SBS),单碱基测序衰老上下文数据( BC基因中的致癌 SBS ),基因表达数据,至此,所有的ICGC数据导入完毕。

ICGC_clinpath_BMIavailability.csv

Step 2 导入METABRIC数据

METABRIC是一个国际合作的研究项目,旨在对乳腺癌进行深入的分子分类和生物学研究。METABRIC项目的数据库对大规模的分子分析和临床数据进行了整合,所以在这里我们还需要导入和BC相关的数据。这里的导入流程和ICGC数据的导入流程是相似的,相信聪明如小伙伴可以自己完成!当然,小果也整理好了相关的代码,也可以根据小果整理的代码完成。输入输出的结果如图:

data_clinical_patient.txt

METABRIC_clinpath_BMIavailability.csv

data_clinical_patient.txt中的是患有BC的病人的临床数据,METABRIC_clinpath_BMIavailability.csv中的数据则是METABRIC的BMI数据的可用性的和分类变量之间的相关性。

Step 3 导入ELBC数据

ELBC是由欧洲机构收集的原发性浸润性小叶癌样本(ELBC),其导入方式和前两个步骤也是相似的,小伙伴们直接套用代码即可~

Step 4 分析基因表达和临床病理特征之间的关联性

在导入所需的数据之后,需要对基因的表达以及临床的病理特征之间进行关联性分析,在本篇文章中使用的是Fisher检验。检验的结果如下图,通过p-value的值即可判断关联性的大小。

ICGC_clinpath_BMIcat.csv

Step 5分析临床特征和体细胞突变的关联性

这一步骤中需要对上述三个数据库中导入的数据进行和体细胞突变的关联性分析,首先对

METABRIC和ICGC数据库中的数据进行处理:读取数据,对BMI与体细胞基因突变进行关联性分析,检索功能(蛋白质)域数据,再对BMI 与热点突变进行关联性分析,最后绘制频率图与数量图。

最后利用棒棒糖图对结果进行展示,如下图所示,是我们依据突变频率以及突变数量绘制的棒棒糖图,小果只截取了其中的一部分,图的纵轴是”Mutation frequency (lean & overweight)”也就是瘦体型和超重体型的突变频率,横轴是蛋白质结构中的特定区域或特征,对于蛋白质的功能和相互作用具有重要的影响,例如图中的Notch,NOD domain就是对细胞生命活动有影响的结构域。

METABRIC_ICGC_LollipopPlot_NST_ERnHER2n_NOTCH1_count.pdf

METABRIC_ICGC_LollipopPlot_NST_ERnHER2n_PIK3CA_count

小果在图中仅仅展示了METABRIC和ICGC数据库中的一部分数据绘制的棒棒糖图,小伙伴们根据给定的代码可以生成其他数据的棒棒糖图哦。

今天的棒棒糖图的绘制教程就到这里啦~,小果用文献的数据作为实例,手把手教大家绘制了文献中使用的棒棒糖图,大家在学会之后可以使用其他公开的数据库进行尝试哦,如果有任何疑问欢迎关注小果,试一试我们的云生信小工具哟,只要输入合适的数据就可以直接绘制想要的图呢,链接:http://www.biocloudservice.com/home.html