TCGA数据库:ATAC 您所在的位置:网站首页 tcga数据处理后得出的deg数据处理 TCGA数据库:ATAC

TCGA数据库:ATAC

2024-04-21 06:34| 来源: 网络整理| 查看: 265

往期相关文章:

TCGA数据库:miRNA数据下载与整理

一文就会TCGA数据库基因表达差异分析

一个R脚本解决某类功能基因(比如m6A甲基化)临床预后模型分析流程

肿瘤免疫细胞浸润与临床相关性分析

一文解决TCGA数据库临床数据下载与整理

一. 背景知识

每一条染色单体由单个线性DNA分子组成。细胞核中的DNA是经过高度有序的包装,否则就是一团乱麻,不利于DNA复制和表达调控。这种有序的状态才能保证基因组的复制和表达调控能准确和高效进行。

包装分为多个水平,核小体核心颗粒(nucleosome core particle)、染色小体(chromatosome)、 30 nm水平染色质纤丝(30 nm fibre)和高于30 nm水平的染色体包装。在细胞周期的不同时期,DNA的浓缩程度不同,间期表现为染色质具有转录活性,而中期染色体是转录惰性。细胞主要处于分裂间期,所以DNA大部分时间都是染色质而不是染色体,只不过大家喜欢用染色体泛指染色质和染色体。

很久之前大家喜欢研究中期的染色体,原因是光学显微镜只能看的到这种高度浓缩状态的DNA结构。不过中期染色体在转录上是惰性的,没有研究间期染色体的意义大。后来技术发展了,大家就开始通过荧光蛋白标记技术以及显微镜技术研究间期染色质的三维结构和动态。比如说,间期染色体其实并非随机地弥漫在细胞核中,不同的染色体占据相对独立的空间,染色体在细胞核所占的空间称之为染色体领地(chromosome territory, CT)。研究发现,贫基因(gene-porr)的染色体领域一般倾向于靠近核膜,而富含基因(gene-rich)的染色体领地通常位于细胞核内部。这也反应了人类社会的情况,富人处于核心区,穷人在边缘地带。

除了染色体细胞核内的三维结构外,还需要谈谈和转录调控相关的染色质的核小体。用内切核糖酶--微球菌核酸酶(micrococcal nuclease, MNase, MN酶)处理染色质可以得到单个核小体。核小体是染色质的基本结构,由DNA、蛋白质和RNA组成的一种致密结构。组蛋白是由2个H3-H4二聚体,2个H2A-H2B二聚体形成的八聚体,直径约为10 nm, 组蛋白八聚体和DNA结合在一起形成的核心颗粒包含146bp DNA。DNA暴露在核小体表面使得其能被特定的核酸酶接近并切割。

染色质结构改变会发生在与转录起始相关或与DNA的某种结构特征相关的特定位点。当染色质用DNA酶I(DNase)消化时,第一个效果就是在双链体中特定的超敏位点(hypersenitive site)引入缺口,这种敏感性可以反应染色质中DNA的可及性(accessible),也就是说这些是染色质中DNA由于未组装成通常核小体结构而特别暴露出的结构。

许多超敏位点与基因表达有关。每个活性基因在启动子区域都存在一个超敏位点。大部分超敏位点仅存在于相关基因正在被表达的或正在准备表达的细胞染色中;基因表达不活跃时他们则不出现。

ATAC-seq (Assay for Transposase-Accessible Chromatin withhigh throughput sequencing)是由斯坦福大学William J.Greenleaf和Howard Y. Chang实验室开发的用于研究染色质开放性(可及性)的方法,原理是通过Tn5转座酶切割暴露的DNA并同时连接上特异性的adapters,然后连接上adapters的DNA片段被分离出来用于二代测序。

真核生物的核DNA与组蛋白结合形成染色体的基本结构单位核小体,核小体再经逐步的压缩折叠最终形成染色体高级结构。DNA的复制,或基因的转录都需要将DNA的紧密结构打开,从而允许一些调控因子结合(转录因子或其他调控因子)。这部分打开的染色质, 就叫开放染色质,打开的染色质允许其他调控因子(启动子、增强子、绝缘子、沉默子等)结合的特性称为染色质的可及性。

MNase:能切割出单个核小体, DNase能识别超敏位点,ATAC-Seq所需要的Tn5 transposase

文献:Transposition of native chromatin for fast and sensitive epigenomic profiling of open chromatin, DNDNA-binding proteins and nucleosome position.

背景知识,来自网络资料总结。

二.数据下载

数据下载地址:

https://gdc.cancer.gov/about-data/publications/ATACseq-AWG

我们从TCGA官网下载ATAC-seq数据,下载界面如下。我们可以选择红色部分,可以下载raw count,也可以下载normalize count。下载了数据的话,我们就可以得到每个肿瘤的ATAC数据矩阵。原始数据下载比较麻烦,需要申请,而且分析也比较麻烦,需要Linux系统,我们这里下载标准化后的数据,同时,也要下载Lookup table for various TCGA sample identifiers文件,这个用于样本名称的转换。

下载后的数据压缩包解压后,就可以得到各种癌症ATAC的数据。

我们随便打开一个看一下。

seqnames表示染色体,start和end分别表示peak的起始位置, name表示peak的名字,score越高说明查找的peak越准确。其他列表示每个样品在peak中的表达量(标准化后的)。

下载的Lookup table for various TCGA sample identifiers文件我们打开看一看。

bam_prefix stanfordUUID aliquot_id Case_UUID Case_IDBRCA-000CFD9F-ADDF-4304-9E60-6041549E189C-X017-S06-L011-B1-T1-P040 000CFD9F-ADDF-4304-9E60-6041549E189C TCGA-A7-A13F-01A-31-A615-42 2cf68894-168b-458b-af4f-53cad72989a8 TCGA-A7-A13F-01A-31-A615-42BRCA-000CFD9F-ADDF-4304-9E60-6041549E189C-X017-S06-L012-B1-T2-P046 000CFD9F-ADDF-4304-9E60-6041549E189C TCGA-A7-A13F-01A-31-A615-42 2cf68894-168b-458b-af4f-53cad72989a8 TCGA-A7-A13F-01A-31-A615-42PCPG-007124EC-1F9B-4FCB-BC6E-DB8C25FD9146-X033-S03-L098-B1-T1-P073 007124EC-1F9B-4FCB-BC6E-DB8C25FD9146 TCGA-RM-A68W-01A-31-A644-42 1a1cf490-8bd4-4a99-bf3a-34f06435de86 TCGA-RM-A68W-01A-31-A644-42PCPG-007124EC-1F9B-4FCB-BC6E-DB8C25FD9146-X033-S03-L100-B1-T2-P077 007124EC-1F9B-4FCB-BC6E-DB8C25FD9146 TCGA-RM-A68W-01A-31-A644-42 1a1cf490-8bd4-4a99-bf3a-34f06435de86 TCGA-RM-A68W-01A-31-A644-42STAD-00DFAA4D-DE64-4476-9546-18E728653046-X029-S06-L011-B1-T1-P072 00DFAA4D-DE64-4476-9546-18E728653046 TCGA-BR-A4J1-01A-31-A646-42 e9a98a44-83f2-490c-b053-1e953ebd4e7e TCGA-BR-A4J1-01A-31-A646-42STAD-00DFAA4D-DE64-4476-9546-18E728653046-X029-S06-L012-B1-T2-P077 00DFAA4D-DE64-4476-9546-18E728653046 TCGA-BR-A4J1-01A-31-A646-42 e9a98a44-83f2-490c-b053-1e953ebd4e7e TCGA-BR-A4J1-01A-31-A646-42

bam_prefix栏是ATAC-Seq样本中,样品的名称,Case_ID就是TCGA病人的Barcode。

了解文件信息后,我们就需要利用R语言整理数据。需要整理成下面几个类型的数据。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有