重磅综述

您所在的位置:网站首页 单倍体基因组和基因组区别 重磅综述

重磅综述

2024-07-14 17:34:51| 来源: 网络整理| 查看: 265

随着测序技术的飞速进步, 三代测序正式踏入了基因组学. 三代测序主要分为两类: 第一类是美国Pacific Bioscience公司研发的单分子实时测序技术, 其CCS模式产生的HiFi读数准确度可以达到99%, 长度可以达到15 kb[ 16 , 17 ] . 第二类是Oxford Nanopore Technologies公司的纳米孔测序技术, 在测序精度上略低于HiFi reads(读长, 指的是测序仪单次测序所得到的碱基序列), 但长度可以达到10~100 kb. 目前三代测序是基因组组装中所用的主流测序手段, 如马铃薯[18] 、野苹果[19] 、西番莲[20] 等. 长读长测序技术极大地提高了组装的连续性, 平均contig N50水平(contig N50是一种用于衡量基因组组装质量的指标, 它是指所有contig的长度从小到大排序后, 加起来达到基因组总长度的50%对应contig的长度)从2010年(99.5±48.1) kb增加到了2020年的(3395.2±735.4) kb[5] . 与此同时, Hi-C[21] 、BioNano光学图谱[22] 以及Pore-C[23] 等技术的推出, 可以呈现染色体内部互作信号, 将线性的测序数据提升到立体空间水平, 从而应用于染色体水平辅助组装. 由此可见, 测序技术是组装基因组的根基, 测序技术的发展使得测序成本日趋下降, 读长持续升高, 测序质量逐步提升, 极大地推动着植物基因组学的发展.

1.3 组装算法发展概况

一个高质量完整基因组不仅依托测序技术, 组装算法对其也至关重要. 无论是一代Sanger测序、二代NGS测序乃至三代长读长测序, 相比于基因组的长度仍是有限的. 测序结果犹如一块块拼图碎片而基因组是最后的图案, 组装算法的目的就是将众多的测序片段, 找到其中正确的前后关系并将其拼接起来. 目前主要的算法可以分为三大类.

第一类贪婪算法. 贪婪算法首先选择满足一定要求的读长序列作为contig的种子, 然后寻找和读长序列的两端含有重叠区域的读长序列, 对选作种子的读长序列进行扩展, 直到当前拼接的序列两端无法继续扩展. 采用贪婪算法的软件主要有: SHARCGS[24] , SSAKE[25] 和VCAKE[26] . 若存在两个及以上的读长序列与当前拼接的序列的某一段含有重叠区域时, 算法无法确定应该选择哪一条读长序列进行扩展, 因此当遇到这种情况时贪婪算法所拼接的contig的长度往往较短, 所以目前组装工具大多基于下述两种方法(图2).

第二类OLC(overlap-layout-consensus)算法. 该方法主要应用于一代测序数据以及三代数据的长读长组装. 其主要原理是通过reads之间两两比较找到相互重叠的部分, 以此找到局部拼接最优解, 随后构建区域图从而将reads拼接至contig以及scaffolds(图2). 采用OLC算法的组装软件有Canu[27] , MECAT[28] , NECAT[29] .

第三类DBG(de Bruijn graph, 德布鲁因图)算法. OLC主要针对读长较长的片段, 对于二代长度为100~150 bp的序列而言, 因其信息过于碎片化并不是十分适用, 因此需要DBG等算法进行优化. DBG算法首先将序列k-mer化, 所谓k-mer即长度为k步长为1的子序列. 根据k-mer的交叠关系, 将有k−1碱基重叠的k-mer连接起来构建德布鲁因图, 消除由测序引起的错误后, 拼接至contig水平. 采用DBG算法的软件有Velvet[30] , ABySS[31] , SOAPdenovo[32] .

由于PacBio CCS和Nanopore在长度上的优势, 三代长读长测序已成为应用最广泛的组装测序手段. 目前已有针对HiFi数据的组装软件, 比如Hifiasm[33] 以及HiCanu[34] , Hifiasm可以在单个机器上多线程运行, 在较少的资源消耗下快速完成基因组组装. HiCanu也是组装PacBio CCS数据的常用软件之一, 其组装流程可以分为三个阶段: 校正、修整和装配. 由此可见, 有效的组装算法将会在已有测序数据的基础上助力基因组装, 提高组装连续性, 节约组装时间与计算资源, 加快复杂基因组的组装.

2 植物复杂基因组组装策略

植物基因组的组装一般可以分成如下步骤(图3). (ⅰ) 基因组特征评估: 在组装前首先需要对待组装的物种进行基因组调查(survey)从而评估基因组大小、杂合度、GC含量、重复序列等重要的基因组特征, 这几点决定了物种组装的难度以及成本[35] . (ⅱ) 基因组初步组装: 通过短reads之间的交叠关系构建成无缝隙(gap)的contig(重叠群, 通过reads的交叠关系拼接而成的长片段). 随后根据大片段文库以及双端测序调整contig的排序以及方向, 将contig进一步组装成更长的片段scaffold. (ⅲ) 使用Hi-C数据或者近缘种信息将contig或scaffold挂载至染色体. (ⅳ) 基因组质量评估: 初步组装好的基因组需要通过BUSCO、HiC热图、近缘种共线性等方式评估组装质量.

随着测序技术和组装算法的不断改进, 大部分的简单基因组(基因组大小不超过1 Gb, 杂合度小于0.5%, 重复序列低于50%, GC含量在35%~65%之间[36] )可通过多种测序技术结合组装算法有效解决. 在10年前, 多国合作耗费许多人力和时间才完成了马铃薯基因组[37] . 如今, 单个团队使用HiFi结合Hi-C图谱构建的染色体水平基因组, 可以将contig N50提高500倍以上(从32 kb到17.3 Mb).

在植物基因组中, 相当大一部分的基因组属于复杂基因组. 复杂基因组指的是一类无法直接使用常规的测序和组装方法进行解析的基因组, 通常包括以下特点: 基因组杂合率大于0.8%、重复序列占比高于60%、GC含量高于65%或低于35%、高倍性以及难以去除异源DNA污染等[38] . 中国农业科学院深圳农业基因组研究所唐蝶和周倩[39] 2021年在《生物技术通报》上发表的名为“植物基因组组装技术研究进展”的综述文章, 已详细地阐述了复杂基因组组装的进展以及策略, 因此本文只做简单介绍.

2.1 长读长测序是解决高重复基因组组装的关键

重复序列一直是基因组装过程中一个难题, 主要原因是由于重复序列含量高并且分布在基因组的不同位置, 往往造成组装的基因组小于实际的基因组大小. 在自然界中重复序列在各物种的比例从病毒(小于1%)、细菌(3%左右)、人(47%)、玉米(77%~85%)逐步升高. 在一个44种植物和68种脊椎动物全基因组重复水平和基因组大小的关系研究中发现, 植物基因组的重复序列明显高于脊椎动物[40] . 但同时重复序列在物种进化和功能调控中扮演着重要的角色.

目前发表了如火炬松(22 Gb, 重复序列82%)[41] 、银杏(10 Gb, 重复序列80%)[42] 、大蒜(16.9 Gb, 重复序列91.3%)[43] 的基因组数据. 二代数据因为其读长较短往往无法跨过重复序列, 因此在overlap构建contig的过程中可能会丢失掉许多片段, 三代数据更可能跨过重复区段, 因此极大地提高了重复序列的区分度, 组装的完整性以及准确性. 例如, 银杏基因组采用了PacBio数据重新组装过后对比二代组装contig N50从48 kb[42] 提升至1.58 Mb[44] , 由此可见, 高精度的长读长测序将显著改善高重复基因组组装.

2.2 去冗余算法实现高杂合二倍体单套基因组组装

因远缘杂交、自交不亲和以及无性繁殖等特性, 许多植物基因组高度杂合, 含有频繁的等位基因变异, 如自交不亲和茶树基因组杂合度高达2.8%[45] . 这种高度的杂合性导致同源片段的一致性较小, 使得基因组组装时出现许多分支结构, 更容易引起错误, 破坏组装的准确性和连续性.

长读长测序的出现同样驱动了高杂合基因组组装领域的进步. 在通过reads重叠构建初步的组装图后, 长逾10 kb的三代测序reads(表1)能够横跨数个单核苷酸多态性(single nucleotide polymorphisms, SNPs)位点, 为临近的SNPs位点提供相位信息, 进而帮助解开杂合区域的分支结构, 拓展组装局部的连续性, 产生高度连续的contig组装. 然而, 高度杂合的基因组区域会在局部形成复杂的组装图. 尽管上述方法能够大幅提升contig的连续性, 但在拆解复杂的局部组装图时仍会产生错误组装, 将两套不同单倍型的基因序列混在一起, 形成遗传信息的冗杂, 对下游分析造成困扰. 因此初始contig通常需要去除冗余序列, 才能获得准确的单套基因组组装.

表 1

不同测序技术特点

Sanger NGS Pacbio CCS Oxford Nanopore 测序长度 600~1000 bp 100~150 bp 10~20 kb 10~100 kb 错误率


【本文地址】

公司简介

联系我们

今日新闻


点击排行

实验室常用的仪器、试剂和
说到实验室常用到的东西,主要就分为仪器、试剂和耗
不用再找了,全球10大实验
01、赛默飞世尔科技(热电)Thermo Fisher Scientif
三代水柜的量产巅峰T-72坦
作者:寞寒最近,西边闹腾挺大,本来小寞以为忙完这
通风柜跟实验室通风系统有
说到通风柜跟实验室通风,不少人都纠结二者到底是不
集消毒杀菌、烘干收纳为一
厨房是家里细菌较多的地方,潮湿的环境、没有完全密
实验室设备之全钢实验台如
全钢实验台是实验室家具中较为重要的家具之一,很多

推荐新闻


图片新闻

实验室药品柜的特性有哪些
实验室药品柜是实验室家具的重要组成部分之一,主要
小学科学实验中有哪些教学
计算机 计算器 一般 打孔器 打气筒 仪器车 显微镜
实验室各种仪器原理动图讲
1.紫外分光光谱UV分析原理:吸收紫外光能量,引起分
高中化学常见仪器及实验装
1、可加热仪器:2、计量仪器:(1)仪器A的名称:量
微生物操作主要设备和器具
今天盘点一下微生物操作主要设备和器具,别嫌我啰嗦
浅谈通风柜使用基本常识
 众所周知,通风柜功能中最主要的就是排气功能。在

专题文章

    CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭