中西合璧的最佳典范,IF15+太牛啦!SEER结合中国医院数据库,南京医科大学团队带你花样玩转数据库!






中西合璧的最佳典范,IF15+太牛啦!SEER结合中国医院数据库,南京医科大学团队带你花样玩转数据库!

小途  生信果  2024-05-11 19:00:41

SEER数据库(网址:https://seer.cancer.gov/)是美国国家癌症研究所和人口科学部门于1973年发起的监测流行病学和生存结果的项目。该数据库记录了各种9大类癌种信息:乳腺肿瘤、结肠与直肠肿瘤、其他消化系统肿瘤、女性生殖系统肿瘤、淋巴系统肿瘤与血液系统肿瘤、男性生殖肿瘤、呼吸系统肿瘤、泌尿系统肿瘤及其他尚未确定的类型。(近年来,通过SEER数据库挖掘数据发表的文章数量急剧增加,它能够在短时间获取大量临床回顾性资料。学会挖掘、使用其中的数据就能发高分文章!关注小途,给你提供帮助!)今天,小途看到了一篇最新的SEER数据库结合中国医院数据库的最新文章,来自南京医科大学IF 15.3题目为:肿瘤沉积和淋巴结阳性比例对III期结直肠癌预后的价值:一项回顾性队列研究。现在,小途带着小伙伴们一起来解读一下他们是怎么做的吧!

首先,研究团队发现在结直肠癌(CRC)中,肿瘤沉积物(TD)仅用于指导淋巴结阴性患者的N分期。但目前还不清楚TD联合淋巴结阳性比率(LNR)在III期结直肠癌中的预后价值。基于这一点发现,该团队分析了31,139例诊断为III期CRC的合格患者的数据,其中包括来自监测、流行病学和最终结果(SEER)数据库的30,230例作为训练集,来自两家中国医院的909例作为验证集。采用Kaplan-Meier法和Cox回归模型评估TD和LNR与肿瘤特异性生存(CSS)和总生存(OS)的相关性(用于用估计患者生存率、生存分析和绘制生存曲线的好方法,思路清晰明确)。最终得出的结论是,TD和LNR是III期CRC的独立预后预测因子。TD和LNR的结合可用于识别结直肠癌死亡高危人群。研究的亮点在于该团队分析了TD联合淋巴结阳性比率(LNR)在III期结直肠癌中的预后价值,以及TD联合LNR有改善预后预测的潜力。同时,使用的数据来自SEER和中国医院数据库获取,能够直接快速简单的获得数据结果。小途认为SEER数据库还是大有可为!相信只要小伙伴们学会运用和挖掘,在原有的数据库中挖掘新选题、新思路、新方向,就能一举拿下好文章!有小伙伴有发文需求又缺乏思路?关注生信路,小途这里有好想法,不管小伙伴们是想要学习生信分析+验证、SEER、NHANES数据库分析复现等等,小途都可以满足各位小伙伴的需求噢!    

l题目:肿瘤沉积和淋巴结阳性比例对III期结直肠癌预后的价值:一项回顾性队列研究

l杂志:International Journal of Surgery

l影响因子:IF=15.3

l发表时间:2024年3月

研究背景

结直肠癌是全球癌症相关死亡的第二大原因其5年总生存率从I期的92%到IV期的11%不等。虽然TNM分期(肿瘤分期系统)目前用于指导治疗,但其准确性受到III期CRC在肿瘤侵袭深度和淋巴结转移数量方面的异质性的限制。国际辅助化疗持续时间评估(IDEA)根据化疗持续时间将III期结肠癌分为高危组(T4或/和N2)和低危组(T1-3 N1)。然而,大约30%的III期CRC病例会复发,其中大多数最终因疾病进展而死于该疾病。因此,确定III期CRC的新的预测标志物是必要的。在转移性结直肠癌中,与左侧肿瘤相比,右侧肿瘤与女性性别、年龄较大、粘液组织学、KRAS突变和更差的预后有关。到目前为止,还没有报道评估转移性淋巴结和总淋巴结的预后价值。因此,本研究进行了回顾性队列研究,评估TD和LNR的预后价值,并根据III期CRC的肿瘤侧边进行分层分析。    

          

数据来源

生存结果来自SEER数据库;验证集中的生存结果来自基于电话的主动随访和中国的死亡率登记系统。

          

研究思路

①分类变量采用卡方检验,连续变量采用Wilcoxon秩和检验。      

②使用X-tile软件来确定训练集中LNR的最佳截止值后,再通过Kaplan-Meier检验中基于生存时间和结果的最大x平方值评分来确定该值。

③根据确定的截止值将患者分为低LNR组(L-LNR)和高LNR组(H-LNR),生存率分析采用KaplanMeier法和log-rank检验。

④使用对比检验方法计算异质性的P值,以评估研究变量对肿瘤侧边分层预后的影响。在多变量Cox回归模型中纳入显著的单变量。

⑤对组织学(腺癌、粘液腺癌、印戒细胞癌)、诊断年份(连续)和放疗(否/是)进行额外调整,随后进行敏感性分析。

⑥根据结直肠癌的诊断年份进行了分层分析。采用多变量Cox回归模型评估单个或组合变量对CSS的相对贡献;之后利用随时间变化的受试者工作特征(ROC)曲线和曲线下面积(AUC)来评价其判别能力。   

⑦过校准曲线和Hosmer-Lemeshow拟合优度检验来评估模型的校准(双尾P值小于0.05表示有统计学意义)

          

主要结果

患者基线特征

共有30,230例患者符合训练集,909例患者纳入验证集。两组患者CRC诊断的中位年龄分别为64岁(IQR, 54-74岁)和66岁(IQR, 58-74岁)。相应的中位随访时间分别为38 (IQR, 17-67)和38 (IQR, 22-61)个月。5年CSS率为72.6%、70.8%,5年OS率为64.9%、63.4%。患者根据TD和LNR的基线特征见表1。在训练集中,7909例患者(26.2%)患有TD,其中2996例(37.9%)患有pN1a/b, 1774例(22.4%)患有pN1c, 3139例(39.7%)患有pN2期肿瘤。此外,3794例(12.6%)患者有H-LNR,其中233例(6.1%)有pN1a/b, 3561例(93.9%)有pN2。在验证集中,有247例(27.2%)患者检测到td阳性,147例(16.2%)患者检测到H-LNR。两组患者中,TD阳性和H-LNR阳性患者分化差、T3-4分期、PNI存在的可能性高于不具备这些特征的患者(P<0.01)。             

   

表1两组患者的肿瘤沉积和淋巴结比例特征。

          

肿瘤沉积和淋巴结比例与预后的关系        

该研究将TD和LNR的联合变量分为TD阴性/L-LNR、中间(TD阳性/L-LNR或TD阴性/H-LNR)和TD阳性/H-LNR三个亚组。结果显示,联合变量有效地对预后进行分层,训练集的5年CSS分别为79.0%、63.2%、37.9%,验证集的5年CSS分别为78.9%、60.2%、44.5%。与TD阴性/L-LNR患者相比,TD阳性/H-LNR患者在训练集中CRC特异性死亡的风险为4.09倍和4.60倍的风险.(图1)。    

CSS的Kaplan-Meier图由TD (A)、LNR (B)以及TD和LNR (C)在训练集中的组合变量组成。CSS:癌症特异性生存期;TD,肿瘤沉积;TD-n, TD -阴性;TD-p, TD阳性;LNR:淋巴结比例;L-LNR,低LNR;H-LNR,高LNR。         

同时,当患者在训练集中被分层为低危(T1-3N1)和高危(T4和/或N2)组时,低危(T1-3N1)组的5年CSS发生率分别为84.1%、74.7%和49.7%。在两个危险组中,TD阳性/H-LNR肿瘤患者的CSS最差。值得注意的是,TD阳性/H-LNR的低危肿瘤患者的5年CSS低于TD阴性/L-LNR的高危肿瘤患者。根据肿瘤侧侧性Kaplan-Meier分析肿瘤沉积物和淋巴结比例的预后价值显示,在训练集中,TD阳性和H-LNR患者在左侧亚组和右侧亚组的CSS更差。在训练集中,当以肿瘤侧边分层时,联合变量(TD阴性/L-LNR、中间和TD阳性/H-LNR)仍然对预后有显著分层。左侧亚组5年CSS发生率分别为81.7%、68.0%和46.3% ;右侧亚组分别为76.0%、55.7%和27.4%。右侧TD阳性/H-LNR患者预后最差,左侧TD阴性/L-LNR患者预后相对较好,5年CSS率分别为27.4%和81.7%(图2)。  

图2左侧亚组(A)和右侧亚组(B)的联合变量CSS。TD,肿瘤沉积;TD-n, TD -阴性;TD-p, TD正;LNR:淋巴结比例;L-LNR,低LNR;H-LNR,高LNR。

          

单项或组合变量对CSS预测的相对贡献及nomogram预测模型的建立

该研究分析发现在对组织学、诊断年份和放疗进行额外调整后,结果是稳定的。随后进行的敏感性分析显示,TD和LNR与CSS和OS的相关性基本不变,并且在训练集和验证集中,TD和LNR的预后关联在结直肠癌诊断的整个年份是一致的。

他们的研究使用多变量模型进一步分析了单个或组合变量对CSS的相对贡献。结果表明,在具有TD的训练集模型中,对CSS贡献最大的4个因素分别是T阶段(14.03%)、N阶段(12.77%)、年龄(10.50%)和TD(10.42%)(图3A)。在有LNR的模型中,LNR在T期(14.58%)之后排名第二(12.14%),超过年龄(10.32%)和PNI(10.31%)(图3B)。在结合TD和LNR变量的模型中,得到它对CSS的贡献最大(24.26%),其次是T期(12.02%)、N期(9.19%)和年龄(9.04%)(图3C)。      

图3在训练集(C)和验证集(D)中,TD (A)、LNR (B)和组合变量对CSS的相对贡献。TD,肿瘤沉积;LNR:淋巴结比例;CSS:癌症特异性生存期;N,总检查淋巴结;CEA,癌胚抗原;PNI,神经周围浸润。

          

接着,他们使用基于多变量Cox模型的显著变量构建了一个nomogram(图4A)。结果表明,训练集中3年和5年CSS的AUC值分别为0.75和0.72,验证集中的AUC值分别为0.64和0.65(图4B和4C)。通过校准曲线得到在训练集中的预测和观测CSS概率之间表现出良好的一致性(图4D和4E),X平方值为10.35,对应的P值为0.24。   

图4训练集(B)和验证集(C)的正态图模型(A)和具有AUC值的ROC曲线。校准曲线显示了训练集(D和E)和验证集(F和G)中预测和观察到的CSS概率。ROC,受试者工作特征曲线;AUC:曲线下面积;CSS,癌症特异性生存。TD,肿瘤沉积;LNR:淋巴结比例;N,总检查淋巴结;CEA,癌胚抗原;PNI,神经周围浸润。

          

文章小结

在这项研究中,作者的研究结果证明TD和LNR是III期CRC的独立预后因素。同时,发现了TD和LNR的联合变量是CSS的强预测因子。因此,这些理论可作为辅助临床实践的工具。在他们的研究结果后也提到了他们研究有一些局限性,例如遗漏数据,如患者的行为和整体健康状况、具体化疗药物、随访护理细节等。但结果通过后续研究人员的发掘和探索能够得到完善。小途认为一篇好的文章不在于此刻文章的结果如何,而是使用发展的眼光去思考分析。小伙伴们在思考的过程中可以借鉴文章的不足去发掘数据库或者分析方法的新思路,帮助自己梳理自己的文章方向!关注小途,把这类方法和生信热点全都告诉你!!    

      

小果还提供思路设计、定制生信分析、文献思路复现;有需要的小伙伴欢迎直接扫码咨询小果,竭诚为您的科研助力!


定制生信分析

服务器租赁

扫码咨询小果



往期回顾

01

1024G存储的生信服务器,两人成团,1人免单!

02

单个数据库用腻了?多数据库“组合拳”带你打开免疫浸润新思路!

03

孟德尔随机化的准备工作,GWAS数据的网站下载方法

04

跟着小果学复现-手把手带你拿下IF=46.9Nature 级别的主成分分析(PCA)图!!