没有生物学重复的转录组数据怎么进行差异分析? 您所在的位置:网站首页 没有上限的组中值 没有生物学重复的转录组数据怎么进行差异分析?

没有生物学重复的转录组数据怎么进行差异分析?

2024-06-30 19:00| 来源: 网络整理| 查看: 265

设置生物学重复这个环节也是你实验设计很重要的一part,设置的好对你下游分析也有利,通常我们做转录组测序,需要的样本量每组至少为3个生物学重复,这个处理起来就很合理,并且现在流行的差异分析软件DEseq2,limma,edgeR等等都是针对有重复的数据去做的,但有时候会不幸碰到样品测序失败不能用,导致每组就给你剩一个重复时候该怎么办,之前我有批数据就是这样,但是办法总比困难多不能放过任何实验数据,搜了搜其实还是有一些方法可以去解决的,在这里介绍下我搜到的几种方法。

假如现在你手头有如下文件(test.txt),只有俩样品RPKM_A (对照) 和RPKM_B (处理), 值为标准化后的RPKM。

图片.png 1. 根据foldchange直接筛选

之前在一篇中文文献中见到有人用这种方法,作者自定义差异基因的标准:至少有一组RPKM值大于5,且满足foldchange(差异倍数) > 2,我们可以在LInux中直接可以用awk进行过滤,其实Excel、R中也可以操作,根据个人习惯吧。代码如下:

### 上调基因######## # 提取B组大于等于5,A组等于0的基因。 less test.txt | gawk '{if (($2==0)&&($3>=5)) print $0}' > up.txt # 提取A、B俩组至少有一组大于等于5,且B组值/A组值大于等于2 less test.txt | gawk '{if (($2!=0)&&($3!=0)) print $0}'|gawk '{if (($2>=5)||($3>=5)) print $0}'|sed '1d'|gawk '{if ($3/$2>=2) print $0}' >> up.txt ### 下调基因######### # 提取A组大于等于55,B组等于0的基因 less test.txt | gawk '{if (($2>=5)&&($3==0)) print $0}' > down.txt # 提取A、B俩组至少有一组大于等于5,且A组值/B组值大于等于2 less test.txt | gawk '{if (($2!=0)&&($3!=0)) print $0}'|gawk '{if (($2>=5)||($3>=5)) print $0}'|sed '1d'|gawk '{if ($2/$3>=2) print $0}' >> down.txt 2. edgeR包

这种方法我在提到过,edgeR包可以做无重复的差异分析,不过需要认为指定一个dispersion值(设置BCV值),这样得到的结果比较主观,不同的人就可以有不同的结果。通常如果是实验控制的好的人类数据,那么选择BCV=0.4,比较好的模式生物选择BCV=0.1。参考

代码如下:

library(edgeR) ##跟DESeq2一样,导入数据,预处理(用了cpm函数) exprSet


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有