理论

2024-06-01 08:25| 来源: 网络整理| 查看: 265

在高通量测序数据的分析中，仅仅靠raw read counts描述基因的表达量是远远不够的。受限于测序过程中的技术因素影响，read counts对于基因表达量的反映存在一定偏好（bias）。因此，Mortazavi等人提出了RPKM/FPKM的方法对read counts进行normalization以使基因表达量的比较可以在不同文库间进行。随后，Mortazavi等人更是提出了考虑转录本长度分布情况的TPM方法。本文将会简要说明为什么我们要对read counts进行normalization，以及RPKM，FPKM，TPM是什么，并通过一个简单地例子阐述为什么TPM才是被更多人认同的方法。

为什么我们要进行Normalization

我们之所以说测序得到的read counts并不是其mRNA丰度的忠实反映，是因为read counts的数量会受到多种因素的影响，例如：

测序深度：某些低表达量的基因只有在较高的测序深度时才能检测到。一般而言，随着测序深度的增加，基因种类以及可变剪接体的数目也会增加。同时，测序深度高的样本read counts也会较高。 Effect of sequencing depth

在上图中，样本A中的基因表达量是样本B的两倍，但这是由于测序深度引起的结果，而非真实存在的差异。

基因长度：由于高通量测序是将cDNA碎片化后再进行测序的，因此越长的基因产生的碎片也会更多，在测序中也会更加容易被检测到。所以对基因长度的校正也是十分有必要的。 Effect of gene length

在这个图里，基因X和Y的真实表达量是一致的，但是基因X的reads会比基因Y要多，这是由于基因X的基因长度较长所致的。

除了上述两个主要因素外，还会有其他因素对read counts的检测有所影响，例如转录组的组成，GC含量，random hexamers引起的测序偏好等等。由于上述因素的存在，导致在不同样本间使用read counts 进行比较是不太现实的，人们便提出了许多对read counts进行Normalization的方法。本文在此简单地介绍使用最为广泛却最受质疑的RPKM/FPKM，以及受到更多人认可的TPM。

RPKM/FPKM

RPKM: Reads per kilo base per million mapped reads

FPKM: Fragments per kilo base per million mapped reads

RPKM

从RPKM的公式中我们可以看到，RPKM对基因长度（gene length）以及测序深度（mapped reads from library）都进行了校正。而FPKM只是RPKM的双端测序（pair-end）版本。

TPM

TPM: Transcript per million

TPM的计算公式如下所示：

TPM

同RPKM一样，TPM对基因的长度进行了校正，计算比对到基因上的reads/基因长度得到长度校正的表达量 reads per kilobase (RPK)。再以文库中RPK之和作为Scale Factor求出TPM。

相比于RPKM使用read counts之和来作为文库校正因子，TPM使用RPK之和作为文库校正因子的好处是考虑了不同样本间的基因长度的分布。因为RPK是一个对基因长度进行校正后的表达量单位，所以RPK之和也不会再带入基因长度的bias。因此，如果需要比较的样本之间转录本分布不一致时（例如不同物种RNA-seq的比较），使用TPM是一个较佳的Normalization方案。

一个例子

以下有ABCD四个基因，并同时进行了三次重复的测序（rep1，rep2，rep3）。首先，可以看出由于基因长度的关系，B基因的read counts都是较其余的基因较高的（排除D而言）。其次，可以看出rep3的测序深度较高，得到的read counts也较多，同时还检测到其余两个重复中没有检测到的D基因（低丰度基因）。不管是测序深度还是基因长度的严重地干扰了我们对不同样本的基因表达量比较。因此，我们采用RPKM和TPM的方法进行Normalization后，再来比较其中的差异。

为了方便起见，以下的函数省略了kilo base，million base的转换

RPKM

【本文地址】

公司简介

联系我们