目前最好最完整的SOAPdenovo使用说明 您所在的位置:网站首页 生或死6下载那个版本最全最好最完整 目前最好最完整的SOAPdenovo使用说明

目前最好最完整的SOAPdenovo使用说明

2024-07-17 23:54| 来源: 网络整理| 查看: 265

由于丹麦人国家基因组项目的原因,近期我整理了一份关于SOAPdenovo2的使用说明,内容包括了程序使用、参数的详细说明、参数如何调整、各个主要输出文件的格式说明等,而且我敢说这是目前最好最全的!

简介

SOAPdenovo(目前最新版是SOAPdenovo2)是一种应用de Bruijn graph组装短read的方法,它以kerm为节点单位,利用de Bruijn图的方法实现全基因组的组装,与其他短序列组装软件相比,它可以进行大型基因组,比如人类基因组的组装,组装结果更加准确可靠,可以通过组装的结果非常准确地鉴别出基因组上的序列结构性变异,为构建全基因组参考序列和以低测序成本对未知基因组实施精确分析创造了可能。

下载地址:http://soap.genomics.org.cn/soapdenovo.html

安装:

下载SOAPdenovo的压缩包解压缩将得到可执行文件SOAPdenovo和一个配置文件的模板example.contig使用程序及参数

SOAPdenovo可以一步跑完,也可以分成四步单独跑,一步跑完的脚本:

./SOAPdenovo all -s lib.cfg -K 29 -D 1 -o ant >>ass.log

四步单独跑的脚本:

./SOAPdenovo pregraph -s lib.cfg -d 1 -K 29 -o ant >pregraph.log ./SOAPdenovo contig -g ant -D 1 -M 3 >contig.log ./SOAPdenovo map -s lib23.cfg -g ant >map.log ./SOAPdenovo scaff -g ant -F >scaff.log 参数说明用法:/PathToProgram/SOAPdenovo all -s configFile [-K kmer -d KmerFreqCutOff -D EdgeCovCutoff -M mergeLevel -R -u -G gapLenDiff -L minContigLen -p n_cpu] -o Output -s STR 配置文件 -o STR 输出文件的文件名前缀 -g STR 输入文件的文件名前缀 -K INT 输入的K-mer值大小,默认值23,取值范围 13-63 -p INT 程序运行时设定的线程数,默认值8 -R 利用read鉴别短的重复序列,默认值不进行此操作 -d INT 去除频数不大于该值的k-mer,默认值为0 -D INT 去除频数不大于该值的由k-mer连接的边,默认值为1,即该边上每个点的频数都小于等于1时才去除 -M INT 连接contig时合并相似序列的等级,默认值为1,最大值3。 -F 利用read对scaffold中的gap进行填补,默认不执行 -u 构建scaffold前不屏蔽高覆盖度的contig,这里高频率覆盖度指平均contig覆盖深度的2倍。默认屏蔽 -G INT 估计gap的大小和实际补gap的大小的差异,默认值为50bp。 -L 用于构建scaffold的contig的最短长度,默认为:Kmer参数值 ×2 使用方法及示例

(1)示例

SOAPdenovo all -s HCB.lib -K 25 -d -o test

(2) 输入文件 configFile,配置文件内容如下,非程序生成,需要软件使用者自己配置。各个说明参考如下:

# 以“#”开头的行是注释内容 # maximal read length (read的最大长度) # 该值一般设置的比实际read读长稍微短一些,截去测序最后的部分,具体长度看测序质量 max_rd_len=50 [LIB] # 文库信息以此开头 # 文库平均插入长度,一般取插入片段分布图中给出的文库大小 avg_ins=200 #序列是否需要被反转,目前的测序技术,插入片段大于等于2k的采用了环化,所以对于插入长度大于等于2k文库,序列需要反转,reverse_seq=1,小片段设为0 reverse_seq=0 # 该文库中的read序列在组装的哪些过程(contig/scaff/fill)中用到 # 设为1:只用于构建contig; # 设为2:只用于构建scaffold; # 设为3:同时用于构建contig和scaffold; # 设为4:只用于补洞 # [注意]短插入片段(=2k)设为2,不用于构建contig,只用于构建scaffold,454single 长reads只用于补洞。 asm_flags=3 # rank该值取整数,决定了reads用于构建scaffold的次序,值越低,数据越优先用于构建scaffold。 # 设置了同样rank的文库数据会同时用于组装scaffold。 # 一般将短插入片段设为1;2k设为2;5k设为3;10k设为4; # 当某个档的数据量较大时,也可以将其分为多个档,同样,当某档数据量不足够时,可以将多个档的数据合在一起构建scaffold。 # 这里说的数据量够与不够是从该档的测序覆盖度和物理覆盖度两个方面来考虑的。 rank=1 # 可选参数,pair_num_cutoff该参数规定了连接两个contig 或者是pre-scaffold 的可信连接的阈值,即,当连接数大于该值,连接才算有效。短插入片段(100)时,可根据前面的有效连接数,适当提高pair_num_cutoff值,即提高scaffold连接要求的最少关系数

182483 scaffolds&singleton sum up 1990259817bp, with average length 10906 the longest is 6561520bp,scaffold N50 is 836795 bp, scaffold N90 is 157667 bp

scaffold 统计信息,将是根据rank分梯度的统计:

Done with 13301 scaffolds, 2161915 gaps finished, 2527441 gaps overall

-F 参数补洞的统计信息。

参数调整

一般组装时需要调整的参数,主要分两种:

一种是针对脚本中的参数改动:如调整 -K -R -d -D -M -K 值一般与基因组的特性和数据量相关,目前用到的SOAPdenovo软件主要有两个版本,grape1123和grape63mer,其中grape1123是最新版的组装软件,K值范围13-31,grape63mer是可以使用大kmer的组装版本,K值范围13-63。

【经验】:植物基因组的组装采用大kmer效果会比较好(要求短片段reads长度75bp),动物基因组很少有用到大kmer后有明显改进效果的,且动物基因组的组装K值一般设置为27和29较多。

-R参数,对于动物基因组,R参数一般不设置,植物基因组由于较多的repeat区,则设置R参数后,效果更好。注意,设置-R时,一般使用-M 的默认值。(熊猫基因组组装时得出的结论)

-M 参数,0-3,默认值1。一般杂合率为千分之几就设为几。熊猫基因组组装时-M 2 。

-d 参数,对于没有纠错,没有处理的质量又较差的原始数据,kmer的频数为1的很多的数据的组装,一般设置为-d 1 则足够。对于处理过,或者是测序质量较好的数据,可以不用设置。数据量很多时,也可以以-d 参数去除部分质量稍差的数据。

-D 参数,默认为1,一般不用另行设置。

第二种,从map这一过程去调节参数。可以调整配置文件的map_len的值和调整文件*.peGrads。

当文库插入片段分布图中文库大小与实验给出的文库大小差异很大时,调整*.peGrads文件中的插入片段大小。

根据每一档数据的数据量去调整文库的rank等级。当该文库的数据量很多或者是在构建scaffold的过程中的冲突数很多时,可是适当的调大第四列 的pair_num_cutoff,把条件设置的更严一些。

内存估计

SOAPdenovo的四个步骤消耗的内存是不一样的,其中第一步消耗的内存最多,使用没有纠错的的reads,(K31)其内存使用是(k



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有