生物信息学入门 使用 GEO基因芯片数据进行差异表达分析(DEG) | 您所在的位置:网站首页 › 基因芯片表达谱聚类分析 › 生物信息学入门 使用 GEO基因芯片数据进行差异表达分析(DEG) |
差异表达分析通常作为根据基因表达矩阵进行生物信息学分析的第一步,有助于我们观察基因在不同样本中的表达差异,从而确定要研究的基因和表型之间的联系。常用的基因表达数据来自基因芯片或高通量测序。虽然矩阵看起来差不多,但是由于服从不同的分布,因此在进行差异表达的时候需要用不同的方法。对于一般的生命科学领域科研人员来说,了解晦涩的算法并没有太大价值。本文力求精简,从数据——算法——结果三个方面给出最简单的示范。注意:文中代码仅适用于基因芯片的counts数据!使用的是limma算法! 基于TCGA的FPKM数据进行差异表达的算法可以参考:(还没写,过几天补充) 1.数据准备 数据准备包括表达矩阵和分组矩阵。 表达矩阵: 分组矩阵 第一列为样本名称,第二列为组名称,注意每一列都要有列名 2. 使用Limma包进行差异分析 首先要安装limma包和gplots包 source("http://bioconductor.org/biocLite.R") biocLite("Limma") biocLite("gplots")读取数据 #DGE for microarray by limma library('gplots') library('limma') setwd("C:/Users/lenovo/DEG") foldChange=0.5 #fold change=1意思是差异是两倍 padj=0.01#padj=0.05意思是矫正后P值小于0.05 rawexprSet=read.csv("express-counts2.csv",header=TRUE,row.names=1,check.names = FALSE) #读取矩阵文件,这是输入的数据路径,改成自己的文件名# dim(rawexprSet) exprSet=log2(rawexprSet) par(mfrow=c(1,2)) boxplot(data.frame(exprSet),col="blue") ## 画箱式图,比较数据分布情况 exprSet[1:5,1:5] group |
CopyRight 2018-2019 实验室设备网 版权所有 |