基于DNA分子通行的纳米孔实时高通量测序系统及方法与流程 您所在的位置:网站首页 高通量测序的概念和特点 基于DNA分子通行的纳米孔实时高通量测序系统及方法与流程

基于DNA分子通行的纳米孔实时高通量测序系统及方法与流程

2024-07-14 05:28| 来源: 网络整理| 查看: 265

基于DNA分子通行的纳米孔实时高通量测序系统及方法与流程基于dna分子通行的纳米孔实时高通量测序系统及方法技术领域1.本发明涉及dna分子通信、dna测序以及编译码等领域,涉及基于分子料斗的纳米孔测序方法及其插入、重复、删除等测序错误的纠错算法。

背景技术:

2.新冠病毒疫情在全世界传播的三年以来,快速病原检测、dna/rna高通量测序的需求呈指数级增长。同时,在信息爆炸时代,当前的存储技术因物理极限,无法长时间存储,存储性能的提升是以高能耗为代价的。由于dna双螺旋结构高稳定性、高信息密度的特点,dna存储能够实现高信息量、超长时间、超低能耗的存储方式,其性能超越当前硅基磁质的存储方式,并提供具备生物兼容性和环保的生物启发式计算通信存储方式的革命性思维。由于如今pcr等生物技术的快速发展,使我们能够以更具成本效益的方式大规模地操纵dna分子,实现大规模dna测序、dna编辑的落地应用。在这些能够改变商业模式的应用中,实现高通量实时的dna测序是其中关键的挑战。3.目前,dna分子测序的主要方法有三种:4.第一代测序方法,主要是sanger测序,其主要采用双脱氧链终止法:采用dna复制原理。其技术核心是双脱氧核苷三磷酸(ddntp)的使用,由于缺少3’‑oh基团,不具有与另一个脱氧核糖核苷三磷酸(dntp)连接形成磷酸二酯键的能力,这些双脱氧核苷三磷酸(ddntp)可用来中止dna链的延伸。此外,这些双脱氧核苷三磷酸(ddntp)上连接有放射性同位素或荧光标记基团,因此可以被自动化的仪器或凝胶成像系统所检测到。此方法测序通量低,而且价格昂贵,不适用于大规模分子通信。5.第二代测序方法,主要有illumina测序平台,其使用克隆单分子阵列技术。首先将目的dna片段打断成100-200bp,随机连接到固相基质上,经过bst聚合酶延伸和甲酸胺变性的桥聚合酶链式反应(pcr)循环,生成大量的dna簇,之后的反应与sanger法类似。illumina主要的缺点是测序长度短,100bp以上错误率就会大大提高,并且在做短序列的读取在做基因组装的时候,遇到大的重复片段就会很麻烦。6.第三代测序技术是指单分子测序技术,在对dna测序时,不需要经过聚合酶链式反应(pcr)扩增,实现了对每一条dna分子的单独测序。其中最流行的第三代测序方法是纳米孔测序。其采用电泳技术,借助电泳驱动单个分子逐一通过纳米孔来实现测序的。由于纳米孔的直径非常细小,仅允许单个核酸聚合物通过,四种核苷酸的空间构象不一样,因此当它们通过纳米孔时,所引起的电流变化不一样。由多个核苷酸组成的dna或rna链通过纳米孔时,检测通过纳米孔电流的强度变化,即可判断通过的核苷酸类型,从而进行实时测序。其主要优点是:单分子测序,测序读长长,超过150kb,测序速度快,可以对测序数据进行实时监控,并且其测序机器轻巧方便携带。第三代测序方法,用dna分子通信系统架构,实现高通量实时的纠错次序方法。基于蛋白轨道的分子料斗机制能够实现dna链在分子轨道上高速稳定移动,控制dna链稳定穿过纳米孔,完成测序过程。实验常用的分子料斗包含驱动蛋白和动力蛋白,通过连续的硫醇二硫化物交换反应,化学反应产生的力和外部电场驱动力共同驱动dna链移动。装载着带有信息的dna序列沿着纳米孔内部轨道,定向移动数百步,不会脱离管道。dna链整体的运动方向由外部施加的电场强度决定,单个分子料斗沿化学棘轮控制的纳米孔中的轨道移动。然而,即使施加固定的电位,由于纳米孔内料斗构象不稳定性,会存在单一碱基位的回跳现象,从而重读已测序过的碱基序列,导致外部测量所得的离子电流存在相似的重复段,导致译码时产生冗余,解码出现错误的信息。目前处理分子料斗回跳产生的错误现有方法:(1)多次重读;(2)多重序列对比算法(msa);(3)混合纠错;(4)cd-hit软件聚类算法;多次重读方法是采用当分子料斗携带dna序列移动到纳米孔结点,改变外加电势让分子料斗改变运动方向,再次进入纳米孔中的蛋白质轨道对离子电流读取,提高dna序列读取次数,从而减少分子料斗回跳产生的误差,但是成本过高,测序时间过长,需要通过大量读取次数才能降低误码。多重序列对比算法(msa)通过将测序得到的碱基序列相互比对,使相同残基位点位于同一列,以便发现不完全一样的序列之间相似成分,形成有尽可能多的列具有相同字符,但是没有办法处理及其相似的带有不同信息的碱基片段序列,该算法会误认为同一条碱基序列片段,从而造成新的误码。混合纠错法通过接收端收到长读取和短读取数据两个序列数据源,若检查的误码情况在接收端纠错能力范围以内,则进行自动纠错,若是超过了接收端的纠错能力,但是能检测出来,则反馈信道请求发射端重新发送,来进行减少错误,但是该方法需要足够的测序深度,成本过高。cd-hit软件聚类算法:是一种在cd-hit软件上运行的增量聚类方法,首先对输入的序列根据序列的长短进行排序,并从最长到最短的顺序处理它们。将最长的序列自动的分为第一类并作为第一类的代表序列,然后将剩下的序列与在其之前发现的代表性序列进行比较,根据序列相似性将其归为其中的一类或成为新的一个聚类的代表序列,如此遍历所有序列完成聚类过程。在默认方式中,序列仅和每一个聚类中的代表性序列(为这类中的最长序列)进行比较而不和这个类中的其他序列进行比对。在准确模式下,序列会和每个聚类中的所有序列进行比较然后决定是成为新的一类还是归为其中的一类中。但是其工作量大,且成本较高。

技术实现要素:

7.有鉴于此,本发明的目的在于提供一种基于dna分子通行的纳米孔实时高通量测序系统及方法,该方法利用去重算法减少第三代单分子测序技术中的冗余序列。8.为达到上述目的,本发明提供如下技术方案:9.本发明提供的基于dna分子通行的纳米孔实时高通量测序系统,包括dna编码模块、分子料斗装载dna序列链模块、纳米孔测序模块和dna解码模块;10.所述dna编码模块,用于将用户需要的传输数据通过碱基配对存储在dna序列中;11.所述分子料斗装载dna序列链模块,用于将已编码得到的dna序列与分子料斗链接,用于在纳米孔蛋白轨道上进行运输,装载dna链的分子马达在轨道上传输;12.所述纳米孔测序模块,通过不同碱基对阻断电流的能力不同,而导致产生的电流检测不同,从而完成实时测序;13.所述dna解码模块,用于消除分子料斗在纳米孔中蛋白质轨道上回跳而造成的冗余误码。14.进一步,所述碱基配对采用沃森-克里克碱基配对。15.进一步,所述dna解码模块采用重复数据删除算法。16.进一步,所述dna编码模块采用采用lt码,所述lt码编码按照以下步骤进行:17.首先源信息被分成k个长度为l的输入符号;度数d是从每个输出符号的度数分布中随机生成的;d个输入符号被统一选择并一起异或以输出编码符号;接收到的编码符号数n应满足n≥k;18.随后,将编码符号映射到dna碱基中,遵循19.最后将相应的寡核苷酸序列输出。20.进一步,所述dna解码模块中的重复数据删除算法按照以下步骤进行:21.第一步骤,数据初始化,输入所读取的寡核苷酸序列xn,n为寡核苷酸序列xn的碱基个数,定义最大限度回跳反步的次数为n,定义寡核苷酸序列xn中单个碱基为xn,定义因分子料斗发生回跳反步,而造成误码的碱基序列段为sn+1,sn+1∈xn,定义冗余序列y;22.第二步骤,若在读取dna序列时发生了回跳反步,且定义最大限度回跳反步次数为n,分子料斗发生了回跳反步,,将已读取的寡核苷酸碱基xn赋值给碱基序列段sn+1(i)中进行纠错循环,若检测到纠错序列sn+1(i)中第i个碱基sn+1(i)与第i+2n个碱基sn+1(i+2n)相等,则将所读取寡核苷酸序列xn赋值到冗余y中,并且将造成误码的碱基序列段sn+1中的第i+2n个碱基sn+1(i+2n)从原dna读取序列xn中移除,随后将dna读取序列xn中的碱基序列个数n更新,同时更新dna读取序列xn,更新后退次数n=n-1,直到最大连续后退次数n=0为止,结束纠错程序,至此达到去除重复数据的目的。23.本发明提供的基于dna分子通行的纳米孔实时高通量测序方法,包括以下步骤:24.通过dna纳米孔测序得到碱基sn+1(i)序列;25.设置最大连续回跳反步后退次数n,引入冗余序列y;26.将碱基sn+1(i)序列值赋给xn;27.判断碱基sn+1(i)序列与碱基sn+1(i+2n)序列是否相同,如果是,则碱基序列视作由于分子料斗回跳而产生的冗余,并将冗余碱基加入到冗余序列y中;将碱基sn+1(i+2n)从序列xn中移除,达成去重,更新去掉冗余碱基后的序列xn;并进入下一步;如果否,则进入下一步;28.更新后退次数n=n-1,直到最大连续后退次数n=0为止。29.进一步,所述通过dna纳米孔测序得到碱基sn+1(i)序列按照以下步骤进行:30.将用户需要的传输数据通过碱基配对存储在dna序列中;31.将已编码得到的dna序列与分子料斗链接,用于在纳米孔蛋白轨道上进行运输,装载dna链的分子马达在轨道上传输;32.通过不同碱基对阻断电流的能力不同,而导致产生的电流检测不同,从而完成实时测序。33.进一步,所述碱基配对采用沃森-克里克碱基配对。34.进一步,所述将用户需要的传输数据通过碱基配对存储在dna序列中采用lt码来实现,所述lt码编码按照以下步骤进行:35.首先源信息被分成k个长度为l的输入符号;度数d是从每个输出符号的度数分布中随机生成的;d个输入符号被统一选择并一起异或以输出编码符号;接收到的编码符号数n应满足n≥k;36.随后,将编码符号映射到dna碱基中,遵循37.最后将相应的寡核苷酸序列输出。38.本发明的有益效果在于:39.本发明提供的基于dna分子通行的纳米孔实时高通量测序系统及方法,面向第三代dna测序方法,以前沿的dna分子通信系统启发。发射端装载根据信源编码后的dna链,借助带有轨道的分子料斗机制构成信道,实现稳定可控的高速传输,并对所需要传输的dna序列进行(luby transform)lt信道纠错编码,接收端通过两端加入电势的纳米孔,dna链通过纳米孔时可以获得由不同碱基不同程度阻断电流而引发的电流变化,通过实时信息处理转换成序列信息,从而实现dna高通量测序;同时本发明提供了一种解决重复数据删除错误的lt实时纠错算法,来消除料斗回跳而产生的冗余信息;40.本发明的有益效果在于:41.本发明提供的基于dna分子通行的纳米孔实时高通量测序系统及方法,该系统可以视为分子通信过程,装载已进行编码的dna链的轨道起点为发送机,带有信息的dna链为信使分子,装载dna链的分子马达在轨道上传输介质为定向通信信道,终端穿过纳米孔则视为接收机,通过接收过程不同碱基阻断电流能力不同,引起的电流检测完成实时测序。从而完成dna测序向分子通信的一种映射,该系统提供了一种不同于扩散通信的替代范式,并提供一种高速率、可控的通信。并且由于分子马达在轨道上可能存在前后运动,导致穿孔纳米孔过程中会出现重复检测和漏检,造成误码,为减少冗余而开发的重复数据删除算法正在发挥作用,消除由料斗后退引起的冗余,从而可以降低这类误码带来的高昂通信成本,获得更大的信噪比,便于推广dna分子通信的应用。42.本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。附图说明43.为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:44.图1为dna分子纳米孔测序的通信系统示意图,dna序列链在电势作用下通过纳米孔,在蛋白质轨道上进行单步跳跃。45.图2为分子料斗的化学结构。46.图3为带有轨道的分子料斗通信系统方案。47.图4为分子料斗沿轨道传播的状态模型。48.图5为分子料斗后跳导致测出的重复序列。49.图6为重复数据删除算法的伪代码。50.图7为去重算法流程图。51.图8为基于matlab的对所以出的重复数据删除算法仿真验证。52.图9为基于matlab的最佳误码率性能和lt编码的最佳误码率性能比较。53.图10为基于matlab的不同冗余度和pj的编码方案的误码率比较。54.图中:1、半胱氨酸,2、蛋白质轨道,3、分子料斗,4、双硫键连结,5、碱基序列,α表示分子料斗状态变更为向前运动的速率,β表示分子料斗状态变更为向后运动的速率,v表示分子料斗在蛋白质轨道上平均移动速率。具体实施方式55.下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好的理解本发明并能予以实施,但所举实施例不作为对本发明的限定。56.实施例157.如图1所示,本实施例提供的基于dna分子通行的纳米孔实时高通量测序系统及方法,目的在于消除分子料斗在纳米孔蛋白质轨道上回跳而产生的冗余信息。为达到上述目的,本实施例提供了以下技术方案。58.本实施例提供的基于dna分子通信的纳米孔实时高通量测序系统,包括dna编码模块、分子料斗装载dna序列链模块、纳米孔测序模块和dna解码模块;59.所述dna编码模块,用于将用户需要的传输数据通过沃森-克里克碱基配对存储在dna序列中;60.所述分子料斗装载dna序列链模块,用于将已编码得到的dna序列与分子料斗链接,便于在纳米孔蛋白轨道上进行运输测序,可视为通信系统中的发射端模块,装载dna链的分子马达在轨道上传输介质为定向通信信道;61.所述纳米孔测序模块,通过不同碱基对阻断电流的能力不同,而导致产生的电流检测不同,从而完成实时测序;62.所述dna解码模块,用于降低由分子料斗在纳米孔中蛋白质轨道上回跳而造成的冗余误码。63.本实施例中所述dna解码模块采用重复数据删除算法。64.本实施例中的dna分子定向通信编码采用lt码,lt码编码包括以下内容。65.lt码是一种经典的喷泉码,其特点是码率灵活,编解码复杂度低,由michael luby首次提出。这项工作将lt码应用于基于轨道的分子通信(mc)系统,因为它的编码/解码过程不需要严格的码率。在这里,编码过程列举如下:66.1)源信息首先被分成k个长度为l的输入符号;67.2)度数d是从每个输出符号的度数分布中随机生成的;68.3)d个输入符号被统一选择并一起异或以输出编码符号。69.需要额外的冗余来解码lt码中的信息,接收到的编码符号数n应满足n≥k。70.随后,编码符号映射到dna碱基中,遵循最后将相应的寡核苷酸序列输出。71.本实施例中,测序过程中的后退会导致读数出现不希望的重复序列。换言之,携带轨道的分子料斗分子通信(mmtmc)中的干扰不会干扰信息比特的值,其冗余是通过信息序列的重复来增加的。当测序中发生连续反步时,它会形成一个独特的双对称区域。此外,重复模式与源序列本身高度相关,具有特定的统计特征。72.所述基于lt编码的重复数据删除算法包括两个步骤,第一个步骤为数据初始化,输入所读取的寡核苷酸序列xn,定义变量sn+1,将所读取的dna序列加入到没有冗余的可能序列y中;第二阶段,若在读取序列时发生了回跳反步,且定义最大限度回跳反步持续时间为n,将所读取的序列xn在sn+1中进行循环,若序列中前i个碱基与第i+2n个碱基相等,则将所读取序列xn加入到序列y中,并且将sn+1中第i+2n个碱基从序列xn中移除,随后将xn序列与x序列中的碱基数n更新,至此达到去除重复数据的目的。73.实施例274.如图1所示,图1为dna分子纳米孔测序的通信系统示意图如下:携带着单链dna序列的分子料斗在电势作用下通过纳米孔,并且在化学能和电势的共同作用下在蛋白质轨道上进行单步跳跃。而分子料斗连续的单步跳跃则是通过在跨膜电位下连续的硫醇-二硫键交换反应来完成。分子料斗沿着设计的轨道进行单步跳动,该轨道建立在一个蛋白质纳米孔,a-溶血素(ahl)内,由多个排列整齐的半胱氨酸残基阵列组成。分子料斗结构中的硫醇官能团与立足点半胱氨酸残基上的巯基发生反应,形成双硫键。每个单步跳跃步进反应都具有严格的区域选择性,这使得料斗始终与轨道结合,同时使其具有较高的加工性和方向性移动。75.如图2所示,图2为载体分子料斗-二硫键共轭物结构,该料斗被安装在dna链的5’端,使其通过一个纳米孔逐步移动。76.如图3所示,图3为携带蛋白质轨道的分子料斗(mmt)系统方案,整个系统分为发送端、信道、接收端三个部分;77.发送端由dna编码和分子料斗装载编码好的dna序列两个步骤组成,其中编码方法使用lt编码方案;78.在信道部分,装载着dna序列的分子料斗沿着两端都带有电势的轨道进行单步跳跃,不同类型的碱基会使轨道两端电势差发生对应的变化;79.接收端由纳米孔测序和信息解码两部分组成,dna纳米孔在进行测序后,将测得的碱基序列输送给解码端,解码端进行信息解码。80.如图4所示,图4为分子料斗沿轨道传播的状态模型示意图如下:其中通道被认为是一个一维通道。在传播过程中,料斗的运动会在每个节点处随机切换为两种状态,向前运动和向后运动,可以描述为马尔科夫过程。α是料斗移动到前进状态(+)的概率,而β是移动到后退状态(-)的概率。并且其前进或者后退的速度都为v。81.如图5所示,图5为分子料斗后跳导致测出的重复序列示意图如下:上面是原始序列,而底部是接收的序列,红色所标记的碱基发生连续的后退。当在测序过程中发生连续的后退时,所检测出来的dna序列会形成一个独特的双对称区域。带有黑色下划线的蓝色字母突出显示了该重复序列的对称区域。82.如图6所示,图6为去重算法伪代码,图7为去重算法流程图,去重算法流程如下:83.第一步骤为数据初始化,输入所读取的寡核苷酸序列xn,定义变量sn+1,将所读取的dna序列加入到冗余序列y中;第二步骤,若在读取dna序列时发生了回跳反步,且定义最大限度回跳反步次数为n,分子料斗发生了回跳反步,,将已读取的寡核苷酸碱基xn赋值给碱基序列段sn+1(i)中进行纠错循环,若检测到纠错序列sn+1(i)中第i个碱基sn+1(i)与第i+2n个碱基sn+1(i+2n)相等,则将所读取寡核苷酸序列xn赋值到冗余y中,并且将造成误码的碱基序列段sn+1中的第i+2n个碱基sn+1(i+2n)从原dna读取序列xn中移除,随后将dna读取序列xn中的碱基序列个数n更新,同时更新dna读取序列xn,更新后退次数n=n-1,直到最大连续后退次数n=0为止,结束纠错程序,至此达到去除重复数据的目的。84.下面结合图7中的流程图进行详细说明:85.算法开始,将纳米孔测序所得的序列xn与所设定的去重碱基序列sn+1输入系统,其中n表示所读取得碱基的个数;86.引入两个变量:冗余序列y,料斗在测序过程中后退步次数最大值n;87.将已经得到的读取出的碱基序列xn赋值给所设定的去重碱基序列sn+1;88.判断sn+1序列中第i个碱基sn+1(i)序列与第i+2n个碱基sn+1(i+2n)序列是否相同,如果是,则碱基序列视作由于分子料斗回跳而产生的冗余,并将冗余碱基加入到冗余序列y中;将碱基sn+1(i+2n)序列从已读取的序列xn中移除,达成去重,更新去掉冗余碱基后的序列xn;并进入下一步;如果否,则进入下一步;89.更新后退次数,将后退次数减1设定为n=n-1;90.判断最大连续后退次数n是否为0,若判断为是,则结束去重算法,输出所得的序列即为去重后的碱基序列;若判断结果为否,则回到第四步,再次运行代码。91.本实施例流程图中的后退次数n表示最大限度回跳反步持续时间;92.本实施例中的所述通过dna纳米孔测序得到碱基sn+1(i)序列是根据基于dna分子通行的纳米孔实时高通量测序系统来进行的。93.如图8所示,图8为基于matlab的对所以出的重复数据删除算法仿真验证,本实施例通过matlab软件对该方法进行仿真,dna序列平均读取长度为500bp,纳米孔检测dna序列移位速度:450bp/秒,分子料斗回跳概率为12%,具体如下:94.在matlab中将横轴设置为检测序列长度,纵轴设置为成功恢复原始序列百分比。图中四条折线分别对应代表pj=0.025,pj=0.05,pj=0.075,pj=0.1时的仿真模拟情况,其中pj是指分子料斗发生后退的概率。可以看出,随着所检测序列长度的增加,成功恢复曲线显著下降。并且后退概率pj越小dna序列成功恢复的概率越高。其中,所提到的成功恢复是指将接收到的序列恢复到原始序列的概率,这是衡量重复数据删除算法性能的后验概率。95.如图9所示,图9为基于matlab的最佳误码率性能和lt编码的最佳误码率性能比较。96.在matlab中将横轴设定为发生后跳的概率,纵轴设定为平均误码率。图中红线表示最佳误码率性能,蓝线表示lt编码的最佳误码率性能。在最优误码率模拟中,假设每个核苷酸的发送概率相等。从图中可以看出,平均误码率(ber)随着后退概率pj的增加而增加,这表明高pj会导致更多的测序错误。lt编码的误码率曲线高于最优误码率曲线,其偏差可归因于lt编码和解码处理的随机性。97.如图10所示,图10为基于matlab的不同冗余度和pj的编码方案的误码率比较。在matlab中将横轴设定为成功解码所需的冗余信息的比例,将纵轴设定为平均误码率,其中不同颜色的实线分别表示后退概率pj=0.025,pj=0.05,pj=0.075和pj=0.1时有重复数据删除算法对应的误码率,而与实线颜色相对应的虚线则表示没有使用重复数据删除算法时对应的误码率。从图中可以看出随着后退概率pj的增加,误码率曲线总体上有向后偏移的趋势,这表明需要更多的符号来推导出源信息。并且在后退概率pj特定时,所提出的重复数据删除算法有助于减少序列冗余,加速解码过程,进一步降低了携带蛋白质轨道的分子料斗分子通信(mmtmc)系统的误码率。98.以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有