WGCNA结果如何解读?(入门cainiao必看)

您所在的位置:网站首页 weigh是什么 WGCNA结果如何解读?(入门cainiao必看)

WGCNA结果如何解读?(入门cainiao必看)

2024-07-13 07:08:00| 来源: 网络整理| 查看: 265

        前面的视频我们也介绍了WGCNA,大家去搜索引擎去搜WGCNA肯定也会找到很多教程。其实我们最重要的一步是理解算法的原理(关于WGCNA的入门知识和概念请大家务必参考文献[1]),跑完这个代码,能够对结果进行一个正确的解读。我在专栏里也提到WGCNA的一个应用现状和存在的问题。那么如何解WGCNA的结果?这一篇会进行详细介绍。在正式介绍之前,我首先要指出WGCNA构建的是一个相关网络,在解读的时候一定要注意,我们得到的是一个相关性的结果,它不能导出因果关系。所以大家务必记住这句话,相关不代表因果,这是很重要的。

        那要如何应用呢?可不可以用到一个疾病的机制研究?是可以的,但是我们单纯以WGCNA的结果来进行一个机制的解读,那是夸大了计算机分析的结果,是不合理的。生物的问题终归要回到生物实验去解答。WGCNA得到的是一个相关性的结果,它可以为后续实验提供重要线索。比如我们用WGCNA进行一个疾病标记物的挖掘,那是可以的,但是如果说你要研究疾病的机制,WGCNA其实只是第一步。大家可以去看它在Nature杂志文章中的应用,WGCNA只是论文中数据分析或者生物信息学分析的一个工具,只是论文内容的一小部分。如果说是疾病标记物的挖掘,我们后续还需要在临床样本中进行一个实验的验证,毕竟生老病死是大事,生物的问题最终还是要在生物样本里面验证。如果是研究疾病机制的话,我们根据WGCNA提供的线索,实验验证要做的是基因敲除,或者基因过表达/干扰等等,以观察这个基因和表型间真实的关系。如果敲除了表型的确发生变化,那因果关系是可以确立的。但是具体是如何调控的?特别是我们体内的基因很多,调控关系很复杂。后续可以用分子生物学手段去研究,比如说以转录因子或者说蛋白蛋白相互作用的方式,所以我们可以采用比如免疫共沉淀或者说酵母双杂交或者转录因子分析的一些方法来进行机制研究,这才算是一个完整的研究的思路,形成一个有利于病人的完整论文(倘若要把分子用于疾病诊断、治疗和预后)。但是目前有一些论文直接从WGCNA推到疾病机制,这是夸大了数据分析的结果,是严重的错误。研究机制需要更多不同技术手段获得的实验数据来支持。迈尔舍恩伯格在《大数据时代》里说,“要相关,不要因果” ,在大数据时代,有相关就够了。这句话在标记物挖掘方面存在一定合理性。

        所以我们下面介绍一下如何解读WGCNA的结果。首先是不同的实验设计获得的实验数据不同,可能会有不同的一个分析方法,但是利用WGCNA进行模块鉴定的这个流程都是一致,本质上它是一个数据降维的过程,成千上万的基因转变为几十个模块。不管你实验如何设计,这个流程它是不变的,只不过我们最后得到的模块,如何跟现有的样本数据进行一个关联,使用不同的方法。所以我这边总结了一下,主要有三种常见的实验设计方式。第一种是没有实验分组的数据,比如说都是某种肿瘤的组学数据。第二种的话是有实验分组的,比如说实验组跟对照组,这是两组的,或者说有三组,比如说对照组,实验组,然后治疗组等。第三种情况是一个时间序列的实验设计,就比如说每隔三个小时进行一个取样,然后得到的这个转录组或者其他的组学数据。这三种实验,它的WGCNA结果和样本数据的关联可能用不一样的方法。第一步进行共表达模块鉴定这个是一模一样程,也就是我们把所有的样本,如果你没有特殊需求的话,是把所有的样本拿来构建这个基因共表达网络,并进行一个共表达模块的鉴定。那么第一种情,比如说肿瘤的病理分型,现在乳腺癌有很多不同的病理分型。这时候我们的模块可以跟这些分型进行一个关联。因为它是一个分类数据啊,也就类别数据。所以一般我们比如说可以用模块ME值进行一个聚类的分析。然后我们看聚类树啊,应该不同的亚型,它应该是聚类到不同的树枝下面,所以通过这个聚类树,其实我们大致可以看出,哪一些模块在哪一个病理分型里面,它的表达量是高的或者低的。当然,这个聚类是一个定性的,如果要定量,可以使用ANOVA进行分析(注意多重检验的P值需要进行校正如显著性阈值修改为0.05/n),看哪些模块ME值在不同病理分型中存在差异。如果病理分型是有序的分类变量,就说这个疾病它的一个程度是越来越严重的,那时候那这时候你就可以把它转换为数值,然后跟我们模块基因表达ME进行一个相关分析,看哪个模块和肿瘤发展最相关。因为两者量纲不一样,所以可以进行Sperman秩相关分析,获得相关系数R和对应P值。此外,NCBI GEO或者TCGA中肿瘤的样本一般都有生存时间数据,因此可以简单应用每个模块ME的高低进行样本分组,然后2组进行生存分析比较(log rank test),发现哪个模块和病人生存时间相关。当然,复杂一些的话,可以采用多个模块的表达组合进行分组,如模块A高表达+模块C低表达为1组,模块A低表达+模块C高表达为1组,再进行生存分析。也可以和其他数据关联,比如现如今很火的cibersort免疫细胞组分数据。第二种情况就是分组的数据,这是比较常见的一个实验设计。不管什么样的实验设计,对于我们鉴定到的模块,每一个样本都有对应的模块基因表达ME。所以我们通过简单的分析比如说t检验或者非参检验来看每个模块在实验对照组中是否存在差异,也可以得到模块表达是上调还是下调,你就用实验组-对照组的ME。我们经常看到的文献里面,一般都是这种情况。所以直接就是把实验组标成1,对照处标成0。这时候ME再跟这个实验分组进行相关分析。特别是我们样本量多的时候,这个要注意,相关系数有时候很低,比如说0.1或者0.2以下,但是P值很显著,这个其实没有任何意义,就说这个模块P值是很显著,但是因为他相关系数太低了。如果我们把这个模块跟某种性状,比如说实验分组,用散点图画出来。我们再去看啊,就可以看到如果相关性是0.1还是0.2的话,这个图没有什么规律,虽然说他因为样本量比较多,而导致较低的P值。第三种情况就是一个时间序列的实验设计啊,比如说这个样本,我们是每隔三个小时进行一个采样。时间序列的话,我们一般会关注两个点。一个点就是随着时间,这个模块基因表达ME会发生什么变化?是一直上调,还是说他会像一个周期性的sin曲线,就是成一个节律的表达模式。如果这个基因表达可能会越来越高或者越来越低,可能具有趋势性,所以随时间发展一直上调(一定时间范围内)。但是有些情况他没有这个趋势存在,就比如说他是一个节律相关的一个模块。所以这个模块他在白天12小时的时候他表达高,它的ME值应该也是最高,然后在晚上12点的ME值最低呀,所以它是成一个节律性波动,就是说在一定范围内随时间呈周期波动。节律相关的一个模块,比如说我们鉴定到这个模块,在正常里面它是成节律性的变化,在疾病里面他这个节律变化消失了。那我们就可以发现,可能这个疾病它是跟节律的异常是相关的。所以主要是这三种常见的一个实验设计,它的WGCNA结果应该如何与样本的属性数据进行一个整合,应该就是用这个思路。最后的话我们介绍一下视频中的那个流程,它得到的结果有很多包括图形和表格,它到底什么含义,要如何解读?

主要参考文献

[1] 权重基因共表达网络分析在生物医学中的应用 https://cjb.ijournals.cn/cjbcn/article/abstract/gc17111791

注:版权所有,转载请注明出处,或者给本文点赞



【本文地址】

公司简介

联系我们

今日新闻


点击排行

实验室常用的仪器、试剂和
说到实验室常用到的东西,主要就分为仪器、试剂和耗
不用再找了,全球10大实验
01、赛默飞世尔科技(热电)Thermo Fisher Scientif
三代水柜的量产巅峰T-72坦
作者:寞寒最近,西边闹腾挺大,本来小寞以为忙完这
通风柜跟实验室通风系统有
说到通风柜跟实验室通风,不少人都纠结二者到底是不
集消毒杀菌、烘干收纳为一
厨房是家里细菌较多的地方,潮湿的环境、没有完全密
实验室设备之全钢实验台如
全钢实验台是实验室家具中较为重要的家具之一,很多

推荐新闻


图片新闻

实验室药品柜的特性有哪些
实验室药品柜是实验室家具的重要组成部分之一,主要
小学科学实验中有哪些教学
计算机 计算器 一般 打孔器 打气筒 仪器车 显微镜
实验室各种仪器原理动图讲
1.紫外分光光谱UV分析原理:吸收紫外光能量,引起分
高中化学常见仪器及实验装
1、可加热仪器:2、计量仪器:(1)仪器A的名称:量
微生物操作主要设备和器具
今天盘点一下微生物操作主要设备和器具,别嫌我啰嗦
浅谈通风柜使用基本常识
 众所周知,通风柜功能中最主要的就是排气功能。在

专题文章

    CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭