数据挖掘中的LogFC,p值和FDR值是什么? 您所在的位置:网站首页 fdr校正P值范围 数据挖掘中的LogFC,p值和FDR值是什么?

数据挖掘中的LogFC,p值和FDR值是什么?

2024-07-12 11:44| 来源: 网络整理| 查看: 265

GEO数据挖掘或转录组分析差异表达基因时,结果中会出现Log2FC,p值和FDR值,这三个值是生信技能树生信爆款入门课程geo数据挖掘差异基因筛选提到的重点。这些个值是什么意思呢?为拓展课堂所学知识,现在对他们做下总结。

1logFC 1.1 logFC是什么

差异倍数(fold change),fold change翻译过来就是倍数变化。limma接受的输入参数就是一个表达矩阵,而且是log后的表达矩阵(以2为底)。

1.2logFC计算举例

logFC这一列的值,其实就是输入的表达矩阵中case一组的平均表达量减去control一组的平均表达量的值,那么就会有正负之分,代表了case相当于control组来说,该基因是上调还是下调。 假设A基因表达值为1,B表达值为3,那么B的表达就是A的3倍。一般我们都用count、TPM或FPKM来衡量基因表达水平,所以基因表达值肯定是非负数,那么fold change的取值就是(0, +∞)。 为什么我们经常看到差异基因里负数代表下调、正数代表上调?因为我们用了log2 fold change。 当expr(A) < expr(B)时,B对A的fold change就大于1,log2 fold change就大于0(见下图),B相对A就是上调; 当expr(A) > expr(B)时,B对A的fold change就小于1,log2 fold change就小于0。通常为了防止取log2时产生NA,我们会给表达值加1(或者一个极小的数),也就是log2(B+1) - log2(A+1)。

image.png 1.3为什么不直接用表达之差,差直接有正负啊?

假设A表达为1,B表达为8,C表达为64;直接用差B相对A就上调了7,C就相对B上调了56;用log2 fold change,B相对A就上调了3,C相对B也只上调了3. 通过测序观察我们发现,不同基因在细胞里的表达差异非常巨大,所以直接用差显然不合适,用log2 fold change更能表示相对的变化趋势。

1.4logFC取值多少合适呢

log2FC中的FC即 fold change,表示两样品(组)间表达量的比值,对其取以2为底的对数之后即为log2FC。一般默认取log2FC绝对值大于1为差异基因的筛选标准; 据多数文献报道 有取1得 , 1/2/1.5 也都有。这个没有规定,你想多少都可以,也要结合自己的数据,如果取1.5你找不到差异基因就不找了把数据扔了吗。 可以,这个标准由自己定,在神经系统方面,微小的变化都会产生效应。另外自己注意看看芯片数据是不是有批次效应,如果不去除批次效应,计算差异gene可能存在问题。另外,甲基化信号值的差异分析也许不应该是看logFC,也要注意哦。

2.P值

值是在统计学的范畴假设检验首先必须要有假设,我们假设A和B的表达没有差异(H0,零假设),然后基于此假设,通过t test(以RT-PCR为例)算出我们观测到的A和B出现的概率,就得到了P-value,如果P-value



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有