为什么热图里的值还有负数? 您所在的位置:网站首页 lg是以10为底还是以2为底 为什么热图里的值还有负数?

为什么热图里的值还有负数?

2023-04-18 15:42| 来源: 网络整理| 查看: 265

在我们常见的文献中总会有RNA-seq或者ChIP-seq等组学分析中见到这种相对表达量(relative expression)或者富集程度(enrichment)的热图,有的文章中也用标准分数(Z-score)表示,而图中的取值范围却是有正有负,这是为什么呢?

事实上,其实是我们对数据进行了对数转换(log transformation),也就是我们常说的取log。通常使用以10为底(log10)、以2为底(log2)和自然对数(loge)。

所以我们为什么要取对数呢?是因为我们平常得到的表达矩阵中,不同样本之间同一个基因表达差异过大,也存在不同基因在同一样本之间差异过大,都不能很好的进行可视化。并且,对数函数为单调增函数,取对数后不会影响数据的性质以及其之间的相对关系。

如果我们有一个非常大的数据范围,那么较小的值可能会被较大的值淹没。即使是标准化过的表达量画出来的热图也是不忍直视!

这就显得数据均一化显得尤为重要。平常如果需要表达量的差异比较,一般会将数据先进行对数转换[log2 (expression +1)],再进行后续处理分析。

为什么会在原始数据基础上+1?对数转换的对象不能是负数或者0,但是有时有的gene表达量为0,会影响我们的对数转换,所以要对所有数据+1,能够保证结果不会报错。

当然,常见的方法可以是取log,或者计算Z-score,也可以利用R种的scale函数,都是缩小数据的绝对数值,能够放在一起做对比。

Z-score计算公式(同scale函数方法):

均一化的方法:

#1 画图前,scale均一化 rawdata = t(scale(t(rawdata))) #2 画图时 pheatmap(rawdata,scale="row/column")#可以选择以行或者列进行均一化

p.s: practice makes perfect



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有