微生物专题 您所在的位置:网站首页 sci柱状图要求 微生物专题

微生物专题

2023-03-15 19:38| 来源: 网络整理| 查看: 265

微生物16S结题报告里面的分析内容非常丰富,包含各种复杂的分析方法、算法和统计学概念。本文根据已发表文献(16S或者16S+代谢组)中出现的次数,从中挑出以下7项常见分析内容进行重点解析,助您从冗长的结题报告中快速筛选出核心分析内容,用于文章撰写。

1. 相对丰度柱形图(用于查看优势物种类型和丰度)

根据物种注释结果,选取每个样本或分组在各分类水平(Phylum、Class、Order、Family、Genus)上最大丰度排名前10 的物种,生成物种相对丰度柱形累加图,以便直观查看各样本在不同分类水平上,相对丰度较高的物种及其比例。

■ ■■■■

门水平相对丰度柱形图(左图为样本,右图为组)

横坐标是样本名(组名);纵坐标(RelativeAbundance)表示相对丰度;Others表示图中这 10个门之外的其他所有门的相对丰度之和

2. α多样性(用于分析样本内物种多样性)

α多样性用于分析样本内(Within-community)的微生物群落多样性,通过单样本的多样性分析(Alpha多样性)可以反映样本内的微生物群落的丰富度和多样性。在结题报告中,采用7种常用指数来度量α多样性:Observedspecies、Chao1和Ace反映样本中物种丰富度,但不考虑每个物种的均匀度(物种的占比情况);Shannon、Simpson、goodscoverage和PDwhole tree即反映物种的丰富度也反映物种均匀度。

同时,α多样性指数箱型图,用于分析α多样性组间差异,可以直观的反映组内物种多样性的中位数、离散程度、最大值、最小值、异常值。通过T-test、wilcox、Tukey、Kruskal-Wallis检验(只有 2个分组时进行 T-test和 wilcox秩和检验,分组大于 2时进行 Tukey和 Kruskal-Wallis检验)分析组间物种多样性差异是否显著。以observed_species 和shannon指数为例,其组间差异分析的箱形图如下:

■ ■■■■

observed_species和shannon指数组间差异箱形图

3. β多样性(用于分析样本间物种组成差异)

β多样性是度量不同样本间菌群组成的相似度大小的指标,即关注各样本间的菌群组成差异。只有当样本(组)间菌群组成存在差异,才有可能进一步探讨菌群与疾病(不同处理条件)的关系。在报告中,采用PCA、PCoA、NMDS三种分析方法来考察和区分样本间的菌群组成差异。

首先根据所有样本的物种注释结果和OTUs的丰度信息,将相同分类的OTUs 信息合并处理得到物种丰度信息表(ProfilingTable)。同时利用 OTUs之间的系统发生关系,进一步计算Unifrac 距离(UnweightedUnifrac)。Unifrac距离是一种利用各样本中微生物序列间的进化信息计算样本间距离,两个以上的样本,则得到一个距离矩阵。然后,利用OTUs 的丰度信息对Unifrac 距离(UnweightedUnifrac)进一步构建Weighted Unifrac 距离。最后,通过多变量统计学方法主成分分析(PCA,PrincipalComponent Analysis),主坐标分析(PCoA,PrincipalCo-ordinates Analysis),无度量多维标定法(NMDS,Non-MetricMulti-Dimensional Scaling),非加权组平均聚类分析(UPGMA,UnweightedPair-group Method with Arithmetic Means)分析以及Beta 多样性指数组间差异分析等方法,从中发现不同样本(组)间的差异。

■ ■■■■

β多样性分析(PCA、PCoA、NMDS)

上图中每一个点代表一个样本,相同颜色的点来自同一个分组,两点之间距离越近表明两者的物种组成结构越相似,落构成差异越小。PCA/PCoA图中:横坐标表示主成分1,纵坐标表示主成分2,百分比表示主成分对样本差异的贡献值;NMDS图中:Stress小于0.2时,说明可以准确反映样本间的差异程度。由于每个项目的实验设计和样本菌群组成差异巨大,无法预先知道哪种β多样性分析方法是将样本间菌群差异区分开的最优方法。因此,在报告中提供了多种β多样性分析方法和图片,在撰写文章时,您只需从中选出最能解释生物学问题的图片展示在文章中即可。

4. Lefse分析(筛选Biomarker)

通过前面的分析找到有显著差异的两组之后,需要知道两组之间的差异是由哪些菌群引起的,即差异微生物的筛选,也是biomarker的筛选。LefSe分析(LDAEffectSize)是一种用于发现和解释高维度生物标识(基因、通路和分类单元)的分析工具,可以用于进行两个或多个分组的比较,它强调统计意义和生物相关性,能够在组与组之间寻找具有统计学差异的Biomarker。

■ ■■■■

左:LDA值分布柱形图;右:物种分类学分枝图

左图LDA值分布柱状图中展示了LDA Score 大于设定值(默认设置为4)的物种,即组间具有统计学差异的Biomarker。展示了不同组中丰度差异显著的物种,柱状图的长度代表差异物种的影响大小(即为LDAScore),柱状图的颜色代表各自的组别;右分支图中,由内至外辐射的圆圈代表了由门至属(或种)的分类级别。在不同分类级别上的每一个小圆圈代表该水平下的一个分类,小圆圈直径大小与相对丰度大小呈正比。着色原则:无显著差异的物种统一着色为黄色,差异物种Biomarker跟随组进行着色,红色节点表示在红色组别中起到重要作用的微生物类群,绿色节点表示在绿色组别中起到重要作用的微生物类群,若图中某一组缺失,则表明此组中并无差异显著的物种,故此组缺失。图中英文字母表示的物种名称在右侧图例中进行展示

5. 随机森林分析(biomarker验证)

随机森林属于集成类型的机器学习算法,利用自助聚集(bootstrapaggregating)重抽样方法从原始样本中有放回的抽取多个样本作为训练集,对训练集进行决策树建模,然后组合多个决策树的预测,通过投票得出最终预测结果。

■ ■■■■

变量重要性排序图

左图MeanDecreaseAccuracy衡量把一个变量的取值变为随机数,随机森林预测准确性的降低程度。该值越大表示该变量的重要性越大。横坐标:平均下降准确度,纵坐标:排名前50重要物种;右图MeanDecreaseGini通过基尼(Gini)指数计算每个变量对分类树每个节点上观测值的异质性的影响,从而比较变量 的重要性。该值越大表示该变量的重要性越大。横坐标:平均下降Gini指数,纵坐标:排名前50重要物种。

根据随机森林方法筛选出的最佳模型,绘制ROC曲线,ROC是一种常用的统计学分析方法,在医学研究中主要用于评价诊断试验的效能。在报告中,通过绘制ROC曲线,并计算ROC曲线下面积(AUC),来确定哪种菌(群)具有最佳的诊断价值。

■ ■■■■

ROC曲线

横坐标:假阳性(Specificity)比例,纵坐标:真阳性(Sensitivity)比例,ROC曲线越靠近左上角,试验的准确性就越高。若AUC值为1.0,反映出对两个群组的完美区分,且不存在预测误差。若AUC值在1.0和0.5之间,在AUC>0.5的情况下,AUC越接近于1,说明诊断效果越好。AUC在0.5~0.7时有较低准确性,AUC在0.7~0.9时有一定准确性,AUC在0.9以上时有较高准确性。AUC=0.5时,说明诊断方法完全不起作用,无诊断价值。AUC大爆发!平均IF>10 | 项目文章(大湾区)遍地开花

●大爆发!平均IF=15 | 项目文章(武汉地区)遍地开花

客服微信:metware888

咨询电话:027-62433042

邮箱:[email protected]

网址:www.metware.cn

我就知道你“在看”



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有