二代测序数据统计分析中为什么是负二项分布? 您所在的位置:网站首页 二项分布曲线图的主要特征 二代测序数据统计分析中为什么是负二项分布?

二代测序数据统计分析中为什么是负二项分布?

2024-06-30 21:56| 来源: 网络整理| 查看: 265

本文转载自“universebiologygirl”,已获授权

1. 转录组数据统计推断的难题

在RNA-seq中进行两组间的差异分析是最正常不过的了

我们在其它实验中同样会遇到类似的分析,通常,我们可以用方差分析判定两组“分布”数据间是否存在显著差异。原理是:当组间方差大于组内方差(误差效应),并且统计学显著时,则认为组间处理是可以引起差异的。

那这不就是咱们学过的统计学里普普通通的假设检验问题吗?用熟悉的算法简单地进行计算,分分钟就能搞定吧——凸样凸拿衣服,骚年要是事情都那么简单,要科学家干嘛,问题就在于:常规方法搞不定啊!

其实统计学家也很无奈啊,看看我们转录组实验得到的这些数据吧:我们的实验只进行少得可怜的生物学重复(n 0 时,α -> ∞,此时overdispersion

3. 方差估计

在生物学重复很少时,我们是很难准确计算每个基因表达的标准差的(相当于这个数据集的离散程度)。我们很可能会低估数据的离散程度。

被逼无奈的科学家提出了一个假设:表达丰度相似的基因,在总体上标准差应该也是相似的。我们把不同生物学重复中表达丰度相同的基因的总标准差取个平均值,低于这个值的都用这个值,高于这个值的就用算出来的值。

(以上图来自 H. J. Pimentel, et al. Differential analysis of RNA-Seq incorporatingquantification uncertainty. bioRxiv, 2016)

参考资料:

(1) 【生信修炼手册】负二项分布在差异分析中的应用

(2) 【 生信百科】转录组差异表达筛选的真相

(3) 【生信媛】RNA-seq分析中的dispersion,你知道吗?

(4) H. J. Pimentel, et al. Differential analysis of RNA-Seq incorporatingquantification uncertainty. bioRxiv, 2016

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有