TCGA中GBM的RNA 您所在的位置:网站首页 tcga基因和临床数据合并 TCGA中GBM的RNA

TCGA中GBM的RNA

2024-07-11 19:59| 来源: 网络整理| 查看: 265

找出胶质细胞瘤特异性甲基化区域,为临床诊断提供理论依据

步骤: 1、查找数据:下载TCGA中GBM的RNA-seq和甲基化数据 2、甲基化数据分析,正常肿瘤对比,进行差异甲基化分析,找出肿瘤样本中高甲基化区域 3、对RNA-seq数据进行分析,正常肿瘤对比,差异表达基因的筛选,找出肿瘤样本中低表达基因。 4、结合甲基化和RNA-seq数据,将高甲基化和低表达基因取交集,这些基因很可能属于抑癌基因,与抑癌基因取交集,再结合promoter区域的CpG整合分析,寻找候选靶标。 5、对找出的靶标进行验证,利用pubmed以及其他数据库,反向验证靶标的

可靠性

一、数据下载

首先进入TCGA下载数据GBM的RNA-seq和甲基化数据,从下表可见GBM共有172套RNA-seq数据以及437套DNA甲基化数据,由于TCGA提供Infinium HumanMethylation27 BeadChip和Infinium HumanMethylation450 BeadChip两种芯片平台的数据,为了避免后续不同芯片平台间数据合并的困难,仅下载HumanMethylation450的芯片数据,共计154套。

图表 1TCGA数据汇总

二、初步整理数据

使用TCGA-Assembler.2.0.5进行GBM数据批量下载与初步整理,并且绘制RNA-seq 基因表达量盒型 图 以及甲基化芯片数据盒型图 ,由于数据量较大,此处不贴图。

三、整体可视化

首先对于甲基化数据,选取ID为TCGA.06.AABW.11A.31D.A368.05的数据,查看总体甲基化程度。由于每个位点真实情况只存在:甲基化/非甲基化两种,所以对全部位点甲基化程度进行统计,也应该是大部分位点处于“完全甲基化”(Methylation state=1)和“完全非甲基化”(Methylation state=0)两种状态,下图绘制了数据的频数柱状图,可以明显看出形状处于“两头高,中间低”,反向说明芯片数据质量较好。

图表 2单个样本CpG甲基化程度统计

接下来,对多个样本绘制CpG甲基化程度小提琴图,同一行是同一个病人,左边样本来源于Primary Solid Tumor,右边样本来源于Recurrent Solid Tumor,除了甲基化程度大部分分布于0和1附近外,还能看出来源于同一病人肿瘤的甲基化程度依旧会有略微差异。

TCGA barcode:https://wiki.nci.nih.gov/display/TCGA/TCGA+barcode

图表 3小提琴图

同样的,对于RNA-seq数据也可以进行一些初步可视化,除了数据下载后绘制的盒型图,亦可以进行PCA初步查看数据分布,下图左为PCA陡坡图,反映了第一主成分、第二主成分…等等所拥有信息量的比例,下图右为使用PCA1和PCA2绘制的散点图,可以发现5个正常样本距离较近,从侧面反映数据可信度较好。

最后,对于RNA-seq表达谱数据,使用系统聚类方法,绘制树状图,可以发现5个正常样本距离也是很近,数据质量还行。

四、差异甲基化区域筛选

为了更加科学高效地筛选差异甲基化位点,参考bioconductor中甲基化芯片的分析流程,使用minfi包进行差异甲基化分析,得到差异甲基化位点。

http://www.bioconductor.org/help/workflows/methylationArrayAnalysis/

在检测的526733个CpG位点中,共有4927个CpG位点P值 40.00

Length > 100

CpG island详细信息: Length 101 (1086..1186) Length 105 (1366..1470)

这七个CpG基本都在CpGisland中,具体序列见附录

九、靶标基因相关讨论

进入Gene数据库搜索NUAK1相关内容,可以发现基因全称NUAK family kinase 1,还是个激酶,激酶的话就对调控会有很大作用了,而在HPA RNA-seq normal tissues项目中,又看出来这个激酶在脑中表达量明显高于其他组织,这又与发生在脑部的GBM不谋而合。

图表 12 NUAK1相关讨论

十、分子机制探讨

对于肿瘤组织中高甲基化CpG附近的,并且在肿瘤样本中低表达的intersect共计274个基因,使用Gene Ontology进行富集分析,可以明显发现在GO biological process生物学过程中的“神经系统发育”、“化学性突触传递”和“细胞膜的组织”等部分里面有着富集,特别是“中枢神经系统的髓鞘形成”,富集程度达到26.95倍,这又与研究的多发生于脑补的GBM有着密切的联系,反向验证实验结果的正确性。

图表 13 GO富集分析

十一、FurtherMore

根据生物学知识可以得到,CpG的甲基化会调控基因的转录,因此,Transcript Start Site(TSS)附近的甲基化程度值得进行一番深入研究,选用人类基因组hg19版本,对23056基因共计46489个转录起始位点,进行转录起始位点富集甲基化程度统计。

统计TSS前后5000bp内CpG甲基化程度,并且使用曲线进行拟合,可以发现TSS处的CpG Methylation水平明显降低,这也与科学常识相吻合。

图表 14 TSS附近甲基化程度



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有