基因组Survey测序分析 您所在的位置:网站首页 测序数据是什么意思 基因组Survey测序分析

基因组Survey测序分析

#基因组Survey测序分析| 来源: 网络整理| 查看: 265

3 分析结果 3.1 测序结果统计

        使用医蛭样品的基因组DNA构建270 bp文库,在 Illumina Hiseq测序平台测序并过滤得到12.43 Gb高质量的数据,总测序深度约为76 ×,测序数据Q20比例均在95.34%以上,Q30比例均在89.23%以上,满足合同要求的50 ×以上的测序数据量。文库高质量的数据量的统计信息见表2。

表2   样品测序结果统计表

Library Data (Gb) Depth (×) Q20 (%) Q30 (%) 270 bp 8.96 54 96.27 90.93 270 bp_add 3.47 21 95.34 89.23 Total 12.43 76 — —

注:Library:调研图的测序文库;Data (Gb):相应测序文库的测序数据量;Depth (×):测序深度;Q20 (%):测序质量值在20以上的碱基比例;Q30 (%):测序质量值在30以上的碱基比例。

3.2 样本质量评估 3.2.1 样品污染评估

        样品如果存在污染不仅会降低有效数据量,同时还会影响调研图分析结果的准确性,导致基因组大小、杂合率、重复序列比例和GC含量等基因组特征评估结果出现较大偏差,使得基因组组装建库策略出现偏差,最终影响后续的基因组组装效果。为了判断提取的样品DNA是否受到污染,我们从测序得到的270 bp文库中,随机取10,000条单端reads,与NT库进行BLAST[1]比对,270 bp文库能够比对上NT库的reads分别占总reads数的1.71%,其中比对到xx 和xx上的reads数分别占比对上NT库reads数的34.5%和6.43%,这两个物种皆为医蛭的近缘物种,且比对结果中未发现植物等异常比对,因此该样品测序数据不存在污染,可用于基因组调研图分析。一般的评估标准:如果有一定比例的reads比对上进化距离较远的物种如植物,微生物等,则判断样品可能存在污染,需要进一步检查原因。具体比对统计表见表3。

表3   270 bp文库NT库比对详表

Species Aligned percentage (%) A 34.5 B 6.43 C 2.92 D 2.92 E 2.33

注:Species:比对上的物种名称;Aligned percentage (%):比对到该物种的reads占所有比上NT库reads的比例。

3.2.2 线粒体含量评估

        由于线粒体中存在核酸序列,如果物种测序文库中线粒体DNA含量过高时,会影响后期基因组组装。因此评估文库中线粒体DNA含量对判断数据能否用于后续基因组组装非常必要。为了评估测序数据中线粒体的含量,我们利用Illumina Hiseq测序得到的270 bp文库与医蛭近缘物种的线粒体序列(42,362 bp)进行SOAP[2]比对。比对结果发现双端比上的reads数为166,占总reads的0.00%,单端比上的reads数为13,占总reads的0.00%,这两个的比例都低于经验值5%。由此判断270 bp文库测序数据的质体含量很低,不影响后期基因组的组装。比对统计结果见表4。

表4-1   270 bp文库SOAP比对结果统计表

Type Aligned reads number Total reads number Percentage (%) Paired-read 166 59,800,490 0.00 Single-read 13 59,800,490 0.00

注:Type:比对上的reads的类型;Aligned reads number:比对上的reads条数;Total reads number:总的reads条数;Percentage (%):比对上的reads占总的比例。

3.3 基因组特征评估

        利用基因组调研图进行基因组特征的评估,分为四个方面:

1) 评估基因组大小;

2) 评估重复序列比例;

3) 评估杂合情况;

4) GC含量情况。

3.3.1 基因组大小、重复序列比例和杂合率评估

        利用270 bp文库数据构建k=19的kmer分布图(见图3),进行基因组大小、重复序列比率和杂合率的评估。由图3知,平均kmer深度即主峰对应的kmer深度为62。kmer深度出现在主峰对应深度2倍以上的序列为重复序列,即深度大于125的kmer序列为重复序列。kmer深度出现在主峰对应深度一半处的序列为杂合序列,即深度出现在31附近的kmer序列为杂合序列。根据kmer深度信息,总kmer数目/平均kmer深度即为基因组大小,估计基因组大小约162.99 Mbp。依据kmer分布情况,估计重复序列含量约16.23%,评估出的杂合率约为1.79%,因此该物种基因组属于高杂合的复杂基因组。

图3 Kmer分布图

3.3.2 评估GC含量

        基因组GC含量对二代基因组测序的随机性有较大影响。过高(>65%)或过低(



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有