【精选】关于RNA 您所在的位置:网站首页 对原始数据进行标准化处理有什么作用 【精选】关于RNA

【精选】关于RNA

2023-11-10 00:33| 来源: 网络整理| 查看: 265

在这里插入图片描述

图片来自网络 

我们都知道,在RNA seq 测序的过程中,我们测完序的最终目的是想根据测序的结果,最终分析得到差异基因以及潜在可能的功能分析,那么在进行差异分析以及对表达量进行分析的时候,对基因原始的Count 进行标准化,消除由于测序过程中单个基因自身的长度以及测序深度对数据的影响,是非常关键的一步。

RNAseq 测序,对于一个基因的Count 的计数呢,主要是基于匹配到该基因的外显子上的数目,那么按照这样理解的话,基因越长,比对到该基因(外显子)上的count 数就越多;而影响Count 的另一个因素就是测序深度,也就是该基因在测序的过程中每百万碱基检测到的数目,测序深度越大,那么本次RNA seq 中的所有read count都会增加,因在差异化以及探索表达量的过程中呢,需要对基因长度和测序深度进行标准化,消除这2个因素带来的影响,从而准确的确定基因在样本中是真实的差异表达。

那讲到了这里我们就需要来理解一下在RNA seq 的Count 数进行标准化的常用方法:

常用的方法,包括

1.C(R)PM究竟指什么呢?在常见的分析中,它出现在那里呢?

参考链接(链接:https://cloud.tencent.com/developer/article/1484078  (名称RNA-seq的counts值,RPM, RPKM, FPKM, TPM 的异同))

Deseq2 的分析方法 (https://www.jianshu.com/p/bdf2b72b8761  4. edgeR/limma/DESeq2差异基因分析→ggplot2作火山图→biomaRt转换ID并注释)

RPM/CPM: RPM (Reads per million mapped reads)Calculate Formula: RPM=Number of reads mapped to a gene *10^6/ Total number of mapped reads from given library

R(C)PM:通过10^6标准化了测序深度的影响,但是没有考虑测序长度的影响。

RPM适合用于产生的read 读数不受基因长度的影响,比如miRNA-seq测序,miRNA的长度一般在20-24个碱基之间。

  Deseq2和edgeR 差异分析时,主要涉及CPM数据的归一化

(参考帖子 https://www.jianshu.com/p/2689e9a1d10c DESeq2详细用法)

通常情况下,Deseq2和edgeR进行差异化的分析的时候,都会对数据进行归一化处理,它们的处理方式呢,主要是基于CPM即RPM的分析,然后再通过标准化因子size factor  进行处理,得到一个近似为同方差的值矩阵(沿均值范围具有恒定的方差),这个矩阵可以用于后续的聚类以及PCA 分析以及差异分析。

关于Deseq2

dds


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有