高质量基因捕获测序如何实现？

2024-04-25 16:50| 来源: 网络整理| 查看: 265

近十几年来，NGS（二代测序技术）的快速发展使得DNA测序成本大幅降低，然而就现阶段而言，全基因组重测序的成本依然很高，且得到的海量数据分析速度缓慢，无法大规模地应用。靶向测序技术可以将感兴趣的基因组区域富集出来测序，单个样本测序数据产出少且分析速度较快，因此更能经济高效地发挥NGS技术的优势，广泛应用到临床检测、健康筛查等众多领域。另外，靶向测序可以对目标区域进行深度测序，增加了目标区域内遗传变异的检测灵敏度和准确性。

在技术原理上，靶向测序的方法主要分为两种：杂交捕获测序和多重扩增子测序。多重扩增子测序即针对感兴趣的目标区域，设计多重PCR引物进行扩增富集并进行测序的技术。通常适用于检测几十到几千个位点，或几十kb以下的区域。杂交捕获测序，目前应用的主要是液相杂交捕获测序，即基于碱基互补配对原理，设计合成核酸探针，对DNA文库进行基于液相环境的目标区域杂交富集，并进行测序。液相杂交捕获测序可适用于几kb到上百Mb的基因组目标区域的检测，可检测SNV，InDel，CNV，SV，基因融合等变异。对于液相杂交捕获测序，会涉及到探针序列设计，探针合成，液相杂交捕获等多个技术卡点，整个实验过程较为复杂，从商业化公司定制试剂盒成为主流的选择。目前已有数家公司提供探针个性化定制服务，即基于客户提供的感兴趣的基因组目标区域，设计合成捕获探针，交付液相杂交捕获个性化定制试剂盒，国内有艾吉泰康等，国外有Agilent，Nimblegen，IDT等。

那么，如何评估液相杂交捕获测序的数据质量，以及如何实现高质量的捕获测序呢？

目标区域捕获测序的数据质量主要通过以下数据指标来评价：目标区域覆盖度、捕获特异性、目标区域覆盖均一性等。

目标区域覆盖度是很容易理解的，就是对于想要检测的目标区域，能够被测到的比例是多少，或者反过来说遗漏掉了多少。最理想情况是感兴趣的目标区域都能被覆盖到，但是由于探针设计时会考虑各种因素，如GC含量、序列的特征、序列的拷贝数等。由于有些区域的探针会影响到整个panel的效果，为了保证整体的基因捕获效果，会选择放弃这一小部分区域的捕获，这个比例大约是0.1-3%。目标区域捕获是基于碱基互补配对原则的，会允许一些碱基的错配，因此在捕获富集感兴趣的目标区域的同时，探针也会结合一些序列相似的非目标区域。在做目标区域捕获测序时，因为落在目标区域内的数据对于检测才是有意义的，因此我们会期望测序数据更多地落在目标区域，更少的落在非目标区域。落在目标区域的数据占总数据的比例，就是捕获特异性，即捕获效率。捕获效率高，就意味着测序数据的利用率高。如图1所展现的，B数据捕获特异性是高于A数据的。

图1 捕获数据可视化示意图那么如何有效提升捕获效率呢？提升捕获效率的方式有很多：优化探针的设计方法，改进重复序列封闭组分、接头封闭组分，优化杂交条件包括缓冲液、杂交流程、漂洗严谨性等等。在探针设计时，需要评估覆盖位置的序列特征，如果探针有很多落在重复序列区，或者高拷贝序列区，则探针会结合较多的非目标区域。设计更加特异性的探针则可以有效减少非特异序列的结合，提升捕获特异性。在杂交捕获过程中，重复序列导至的文库之间互相结合，以及文库接头序列导至的文库之间互相结合，均会导至非特异性捕获。通过添加高效的重复序列封闭组分和接头封闭组分，可以显著降低上述文库之间的结合，从而大幅提升捕获效率（图2）。杂交和漂洗的严谨性是影响捕获效率的重要因素，通过降低盐离子浓度和升高漂洗温度都会增加漂洗严谨性，更高的漂洗严谨性则会带来更高的捕获效率。但是对于漂洗的调整要尤为慎重，漂洗条件的改变在带来捕获效率的收益时，也会影响覆盖均一性。

图2 重复序列封闭组分和接头封闭组分除了捕获特异性之外，还应该重点关注的技术指标是目标区域的覆盖均一性。通俗来讲，就是每个区域的覆盖深度是不是均匀。如图1所示，可以很直观地看到，A数据的目标基因1的覆盖深度远远高于平均深度，而目标基因2，覆盖深度远远低于平均深度；而B数据目标区域的覆盖就相对要均一很多。那么我们为什么要关注覆盖均一性这个指标呢？因为如果覆盖均一性不好，即使测了100X平均深度的数据，仍然会有很多区域的覆盖是少于20X的，那么对这些区域的遗传变异检测就是不准确的。

那么用什么数据指标来评价覆盖均一性呢？对于捕获测序数据，如果我们对目标区域每个位点的深度做一下统计，会发现深度的分布是符合泊松分布的（如图3，近似正态分布）。对于均一性好的数据，测100X的平均深度，则大部分区域的深度都接近100X，其深度的分布图会呈现很窄的峰（蓝色）；而均一性不好的数据，其位点深度分布会更离散，则会呈现很宽的峰（黑色）。在平均深度的50%的位置拉一条竖线，那么分布曲线在竖线左侧的积分面积就是低于50%平均深度的位点的比例。那么我们可以知道，均一性好的数据，低于50%平均深度的位点就会很少，即50%平均深度的覆盖度会比较高。而均一性不好的数据，就会有很大比例的位点覆盖深度是低于50%平均深度的。因此我们会用20%平均深度的覆盖度或50%平均深度的覆盖度来评价数据的均一性。

图3 位点测序深度分布图更为直观的，我们可以用累计深度分布图来分析（图4），在一定测序平均深度情况下深度和覆盖度的关系。我们可以在平均深度和20%平均深度，50%平均深度的位置拉一条垂线，这样就可以直接算出20%平均深度的覆盖度和50%平均深度的覆盖度。如果数据均一性比较好(蓝色)，那么随着深度增加，覆盖度就会下降较慢，20%平均深度的覆盖度和50%平均深度的覆盖度就会比较高；如果数据均一性不好(灰色)，那么随着深度增加，覆盖度就会下降较快，20%平均深度的覆盖度和50%平均深度的覆盖度就会比较低。

图4 位点测序深度累积分布图

那么覆盖均一性高意义在哪儿呢？覆盖均一性高，可以节省测序数据。举例来说，如果我们做的是遗传病的遗传变异检测，那么可能会要求测序数据对于目标区域的20X覆盖度达到98%，即98%的目标区域能够测20X以上的深度。如果测序数据的20%平均深度的覆盖度是98%，那么我们需要把目标区域平均深度测到100X。那么如果测序数据覆盖均一性有了较大的提升，20%平均深度的覆盖度达到了99%以上， 40%平均深度的覆盖度就达到了98%，那么我们在目标区域平均深度为50X的时候就可以达到目标区域的20X覆盖度达到98%的目标了，这样就可以节省50%的测序数据。如何实现对目标区域高度均一的覆盖呢？首先是文库的均一性，文库构建时，采用无序列偏差的DNA片段化方法，以及采用GC含量偏好性低的扩增酶，控制PCR扩增的循环数，有助于得到均一性较好的文库。由于不同序列的探针结合目标DNA片段的效率是不同的，在探针设计时需要预测探针的结合能力，并在探针合成时合理调整探针的比例，对结合能力弱的探针进行补偿。为了对目标区域进行高均一性覆盖，需要采用高度优化的杂交缓冲液和杂交实验流程进行捕获实验。卓越的技术指标是捕获测序技术的应用前提，而实验操作的简捷性则是靶向捕获技术广泛应用的必要保障，也是实验人员普遍关心的。简捷的实验操作可以大幅降低实验人员的工作量，节省实际动手操作的时间。将多管试剂在PCR仪上移液混合操作简化成单管实验操作，可以极大地简化实验操作，实验人员操作起来也更加从容。另外，多个文库混合在一个反应里进行杂交捕获，可有效降低实验成本，大幅提升实验操作效率（图5）。

图5 多杂实验示意图艾吉泰康可以为客户提供全面覆盖DNA变异检测和表观遗传修饰检测，匹配Illumina、BGI/MGI、Ion Torrent等多个测序平台的TargetSeq OneTM液相杂交捕获技术体系，包括捕获产品的定制开发和相应的技术服务。TargetSeq One液相杂交捕获体系，采用高度优化的试剂组分和简捷的实验流程，在保证捕获效率的同时，实现了极高的覆盖均一性，具有以下显著优势：Ÿ One Tube：一管杂交方案，操作简捷，所有杂交试剂在放入PCR仪之前完成混合，无需在PCR仪上进行移液操作。多个文库混合在一块进行杂交，有效降低人力成本和试剂成本。Ÿ One Round：探针设计制备一次成型，无需多轮调试优化即可保证捕获效果。Ÿ One Day：提供快速杂交的实验方案，两小时快速杂交即可达到理想效果，可大幅度缩短实验时间，只需一天即可完成建库和捕获实验。Ÿ One System：一个体系，同时支持BisCap®和MethCap®目标区域DNA甲基化捕获。采用TargetSeqOne体系，在单个文库杂交捕获，以及四个文库、八个文库混合杂交捕获的实验中（NCC癌症变异检测Panel），TargetSeq One捕获特异性（图6）和覆盖均一性（图7）均有极致的数据表现。

图6 TargetSeq One捕获效率

图7 TargetSeq One覆盖均一性

【本文地址】

公司简介

联系我们