R语言进行TCGA配对样本差异基因分析 您所在的位置:网站首页 r语言基因差异表达分析代码 R语言进行TCGA配对样本差异基因分析

R语言进行TCGA配对样本差异基因分析

2024-02-12 06:37| 来源: 网络整理| 查看: 265

之前的一个推文是从UCSC XENA获取TCGA的表达和表型数据,然后利用代码对表达数据进行了ID注释,以及mRNA、lncRNA和miRNA的区分筛选,最后将患者ID和临床信息进行配比,用于后续分析。详细内容见推文:《利用R代码从UCSC XENA下载mRNA, lncRNA, miRNA表达数据并匹配临床信息》。

本期我将继续上次的内容,从TCGA 546个头颈癌数据集(Tumor = 502,Normal = 44)中,提取出43对癌和癌旁样本,并做配对差异分析, 然后绘制某个基因的配对箱式图。实际上TCGA好多癌症比如头颈癌、肝癌等,都有癌和癌旁的数据,且癌和癌旁都是一一配对的关系。所以在分析癌vs.癌旁的过程中,可以选择普通的差异分析,例如头颈癌的502个癌vs.44癌旁;另外一种思路是从中挑选出配对的癌vs.癌旁进行配对差异分析,例如头颈癌的43个癌vs.43个癌旁。实际上,同一个数据的非配对分析和配对分析差异还是很大的,详见我之前写过的一个帖子《差异分析|DESeq2完成配对样本的差异分析》。

关于DEseq2配对差异分析,很少有帖子涉及 (生信宝典注:不是很少有帖子涉及,而是看有没有发现,配对的个体信息可以视作一个批次因素,在DESeq2差异基因分析和批次效应移除,   高通量数据中批次效应的鉴定和处理 - 系列总结和更新,    典型医学设计实验GEO数据分析 (step-by-step) - Limma差异分析、火山图、功能富集中都有类似的处理方式)。

总结来说,拿到配对设计的数据,如果不进行配对分析而用常规的差异分析,这样的结果可能会大不相同。因此,在分析数据的时候,一定要明白实验设计。

下面代码展示了如何从546个样本中挑选出一一配对的癌和癌旁数据,并进行DEseq2配对差异分析。

remove(list = ls()) ##加载包 suppressMessages(library(DESeq2)) suppressMessages(library(dplyr)) library(ggplot2) library(ggpubr) library(ggthemes) 1. 加载数据

首先,读入上期推文中处理好的表达矩阵(仅含mRNA)和表型数据。

# 1.1 表达矩阵 expr_data


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有