中文

English

高效挖掘TCGA病理生存数据,人生就是博-尊龙凯时助力科研创新

发布时间:2025-08-11   信息来源:尊龙凯时官方编辑

听说TCGA数据库中收录了1000多例乳腺癌病人的数据,我专注于研究三阴性乳腺癌,想知道如何筛选出这些样本进行独立分析。阅读完本文,相信您能找到答案。

高效挖掘TCGA病理生存数据,人生就是博-尊龙凯时助力科研创新

什么是TCGA数据库?TCGA(The Cancer Genome Atlas,癌症基因组图谱计划)利用基因组分析技术,特别是大规模基因组测序,对人类所有类型的癌症(包括33种癌症、超过20000个样本)的基因组变异进行全面绘制和系统分析,旨在发现致癌基因和抑癌基因的小变异,深入了解癌细胞的发生与发展机制,从而开发出新的诊断和治疗方法,并提出一套新的“癌症预防策略”。该计划由美国国家癌症研究所(NCI)和国家人类基因组研究所(NHGRI)联合进行。我们可以在官方网站上找到项目的详细介绍,包括疾病、病例、样本及数据,还可以获取项目的研究成果。

需要注意的是,TCGA数据库于2016年初停止更新,其数据下载功能已迁移至GDC网站。早在几年前,吉凯就开始利用这个数据库的数据为客户提供分析,使用的早期网站截图成为我们培训资料的一部分。

那么,如何获取TCGA数据库中的病理、生存和治疗数据呢?网络上有很多操作指南,其中一类是基于R语言的代码,用于下载和分析组学数据;另一类则是介绍数据库中包含的疾病、样本及组学数据的信息。除了学习笔记,还有一些网站如ualcan和Kaplan-Meierplotter,提供TCGA部分组学数据及生存分析结果,便于医学生快速获取信息。但对于癌症研究的学者而言,这些信息很难完全满足细节应用的需求。

如何快速查找研究方向癌症在数据库中有哪些样本?这些病人的临床病理信息有哪些?是否含有详细的疾病亚型信息、与生存期相关的数据?这些病人是否有相应的治疗方案和疗效数据?为了解决这些疑问,接下来我们讨论如何快速从指定网页获取TCGA数据库的病理和治疗相关文件,以帮助我们判断样本是否满足分析需求。

以TCGA-LIHC(肝癌)为例,首先访问GDC网站首页,按箭头指示选择数据库-TCGA,然后选择疾病类型-LIHC。接着,在左侧栏中选择数据类别(Data Category)为临床数据(clinical)及数据格式(Data Format)为bcrbiotab,这样可以看到8个文本文件。选择框出的四个文件并添加至购物车。进入购物车后,下载相关文件,稍等即可获得包含这四个文件的压缩包。解压后将得到以下内容:

  • 包含377个LIHC病人的详细病理和生存信息,包括年龄、性别、病史、病理分级、临床分析等。
  • 后续补充的跟踪随访信息,可以依照收录日期更新第一个文件。
  • 病人化疗信息。
  • 病人放疗信息。

凭借这四个文件中的详尽信息,我们可以全面了解数据库中收录的样本是否符合我们的研究需求。针对病理与预后分析,还可以根据个性化需求进行样本选择,以获得更精准的研究结果。

如何将病理预后数据与组学数据结合呢?TCGA的每个样本都有对应的条形码(barcode),格式为TCGA-XX-XXXX,通过该信息可以将不同组学数据与病理数据匹配。以TCGA-LIHC的RNAseq为例,选择数据库和疾病后,依然在左侧信息栏进行操作。在TissueType部分选择肿瘤(tumor),在TumorDescriptor部分将显示多种选项,包括原位瘤、复发瘤和转移瘤。对于肝癌,我们可以发现有3个病人提供了复发瘤样本,而此处我们只选择371个原位瘤样本,点击左侧的样本信息表(Sample Sheet)进行下载。此时,右侧的Manifest下载可以作为下载工具的输入文件来下载这371个文件。

下载后可查看包含RNAseq数据的样本信息,通过CaseID与病理数据进行匹配,就能确认选取的样本是否包含RNAseq数据。

总结来说,目前大多研究针对特定疾病亚型或对治疗反应显著的样本进行分析。TCGA样本包含详尽的患者临床资料,支持深入分析。本文的分享可以帮助研究者以最快的速度了解自己研究方向是否能在TCGA数据库中找到对应的样本,及这些样本是否具备组学数据。对于深度发掘相关病理信息的需求,欢迎关注“人生就是博-尊龙凯时”的直播活动。