【陈巍翻译】视频:华大测序仪碱基判读 您所在的位置:网站首页 分析仪cal是什么意思 【陈巍翻译】视频:华大测序仪碱基判读

【陈巍翻译】视频:华大测序仪碱基判读

2024-06-04 12:13| 来源: 网络整理| 查看: 265

并将所有信息生成我们的第六张图,也就是FASTQ数据和报告。

回到我们的测序平台。

我们现在有G50,DNBSEQ-G50型的测序仪,它是个两种光通道的测序系统。我们还有DNBSEQ-G400和T7测序仪。它们都是有4种光通道的测序系统。

让我先向您介绍有4种光通道的测序系统。首先我们知道,我们知道对于4色荧光系统意味着4种碱基分别被4种不同的荧光素标记。因此我们可以用激光激发,来得到四个荧光强度值。

您可以在这里看到它们,这里有四张不同的图片,每张图片代表一种碱基。如果将所有四个大图片组合在一起,您就将获得最终结果(知道哪个点是哪种碱基)。

在这里我想给你扩展一个小定义。因此这里显示的每个方块代表一个F.O.V.。F.O.V.是什么意思?F.O.V.代表“视野”。

这是相机拍照的区域。就以我们的大型DMBSEQ400型的流通池为例。可以看到(一张芯片上)有四个通道。每个通道可分为6列和72行。总共有6x72,共计432个视野(F.O.V.)。

因为我刚才提到的DNBSEQ-G400是4色系统。如果我们考虑到有四个不同的碱基,那么在每个周期中,相机必须为每个F.O.V拍四张照片。

因此,要覆盖完整一个通道,将需要拍4x6x72张照片。这些照片将用于后续分析。这就是4色荧光测序仪的情况。

与我们的4色荧光的测序仪相比,2色荧光的测序仪在每个周期(对每个F.O.V.)仅拍摄2张图片。你在第一张图片这里,看到这个发出绿色的荧光团。这第2图是另一种荧光基团发出的荧光。将两张图片合并后,再进行显示然后您会看到有些DNB碱基,这些碱基只能被1号激光所激发。这代表这是T碱基,例如这些绿色的点。

第二个激光可以发射的是C碱基。两种激光都可以激发的是A基。其余在这个周期中不发光的是G碱基。与4色荧光测序仪相同,2色荧光通道测序器也用在DNBSEQ测序中。而且只用2张图片就可以提供4种碱基的所有信息。

保存完所有原始图像后,下一步是注册图像并从每张图片中提取光强度。在这一步中,我们必须知道DNBSEQ测序平台使用的流通池中的小点是按特定图案排列的。

我们对这些小点的图案做了很多修饰。

除了在DMB区域外,我们还设计了一些DNB无法绑定的区域。该非DNB绑定区域包括几条垂直线和水平线。我称这些线为跟踪线。跟踪线的区域称为跟踪区域。单根垂直和水平跟踪线之间的交点就是交叉点。其余的则是测序区。

在成像配准步骤中,碱基判读软件首先要做的事情,就是整个F.O.V.中找到交叉点。并在交叉点的帮助下将单个F.O.V.可以再次分为很多块。然后开始注册DNB,并提取(每个DNB所发出的)光强度。我想强调几件事。

众所周知,跟踪区域中是不结合DNB的。

而且正是正确的跨度,可以正确提取F.O.V.中光强度。我们将在测序报告中进行分析,其中有一个称为背景的参数,它代表跟踪区域的强度。关于提取光强度,我们继续进行下一步,即信号校正。

这是我们之前讨论4色荧光原理时所使用的图。说实话,这是理想中的A T C G四种碱基被单独激发的情况。并且四种碱基中,只会被读出一种碱基。但是,在真实情况中,A碱基会被T碱基的信号所干扰。并且这个T碱基,也会受到A碱基的信号干扰。G碱基与C碱基之间,也会发生相同的情况。这些现象我们称之为“交叉干扰”。

在所有四个彩色荧光测序平台中,AT和GC之间存在相互干扰的问题。这种信号干扰会影响我们的测序精度这就是为什么我们需要添加一个校正步骤。那么什么是“交叉干扰”?为什么存在?。

要了解这些,我们必须先了解4色荧光4通道测序系统的工作原理。让我们画一个座标轴的框架。X轴是波长。Y轴是归一化后的荧光强度。

如果我们假设A / T的荧光强度与波长的关系,就得到这样分布。因此,通常T的波长要比A的波长更长,并且A和T的波长分别有交叉。A和T都受一个激光器的激发而发出,我们称其为1号激光器。在这个激发下,A和T都发出光。为了捕获光强度,更好地捕获光强度,我们为A和T分别设置了两个单独的滤光片。在滤光片的帮助下,只有能够通过滤光片的光波长才可以被检测到。

因此,我们仍然可以看到这里有一个用黄色表示的区域,在这里T的信号也可以通过A碱基的滤光片。那是来自T base的信号干扰。同样,我们也为T设置了滤光片,在这里A的信号通过T的滤光片,这就是来自A碱基的干扰。

除了A和T之外,G和C也发生了相同的事情(交叉干扰)。我们使用2号激光进行激发。C和G有两个单独的滤光片。他们仍然受到相邻碱基的干扰。

除了要纠正交叉干扰,我们还需要考虑另一件事,也就是所谓的“滞后”与“超前”。“滞后”是什么,让我们看一下右侧的图片。我们已经在平台上加载的基本的测序单位就是DNA纳米球,它是用线性滚环扩增的方法产生的。有300到500份相同的副本,通常在添加碱基时,每份副本都是相同的。但不幸的是,并非所有的步骤都是完美的。

让我们先看一下正确的情况。这里我们处于第三个循环。第1个副本有一个黄色的碱基。第2个副本也是黄色碱基。但是第3个副本加上了第二个绿色碱基,他在加碱基时落后于其他副本。我们称这种现象为“滞后”。然后第4个副本是常规的黄色碱基。但第五个副本已添加了红色的第四个碱基。他多加了一个碱基,我们称这种情况为“超前”。

让我们回到左图。当出现“滞后”或“超前”时,我们看中间的这行,是第2个循环应该是抓到T碱基,但是它被应该是第1个循环的A、和应该是第3个循环的C的信号所干扰。

这就是为什么我们需要相应地纠正“滞后”和“超前”干扰。有人可能会问我们影响大不大?这对我们的测序有重大影响吗?。

答案是“不大”。

因为我们的每个DNB有300个以上的副本。即使一个循环后有一个副本出现“滞后”或“超前”,仍然有至少299个正常副本快速总结一下:强光度校正步骤,主要用于校正“交叉干扰”、“滞后”和“超前”。

实际上,例如在测序过程中,例如,如果我们使用的是PE100,我们将在正向序列、和反向序列的末尾都多测一个碱基,以校正前一个循环得到的值。例如用第101个循环的值来校正第100个循环的“超前”的值。而第202个循环的值将用于对第201个循环的值进行校正。没有导致高滞后、或超前值的原因。

这些可能会受到温度的影响,例如酶的活性,或者在测序过程中的裂解过程没有100%完成。并且还有像GC含量高,仪器的流体试剂的质量问题、或存储条件不正确这些,都可能导致高的“滞后”或“超前”。

如果您在自己的实验中遇到这些问题,最好在我们的现场应用科学家的帮助下进行检查。

保存完注册好后,提取并校正强度的图像将进入下一步处理。计算分数和判读碱基。

在这一步中,我们需要了解一些定义。首先是质量得分。这意味着质量表中基于估算的碱基判读的错误概率。通过使用大肠杆菌样本(的基因组DNA测序)来训练测序仪,并找出光强度和碱基信息之间的相关性,生成这个质量表。此质量表是用于真实测序和碱基判读的参考。质量得分本身等于出错可能性的对数值,乘以10,再去掉“-”号,ErrP代表“基本错误率”(ErrorPossibility Rate)。

例如,我们通常会说“Q30超过85%”。并且这意味着85%的碱基的质量值大于30。85%的碱基的准确率高于99.9%。

所以我想强调一件事,因为每个平台都有自己独特的设置。例如,(各家测序仪公司定的)质量表是不同的。

因此我们无法将(我司的)Q30的Q值与其他平台进行比较。

我们需要在比对或生物信息学分析之后才能看到真实的错误率或真实的准确性。好。我刚才所说的都与四色荧光测序系统有关。

那2色荧光测序系统怎么样?。明显的区别在这里标记为红色弓形标示的区域。

首先,是初始样本图像采集步骤(是不同于4色系统的)。

使用相机系统时,(2色系统)只会得到两张照片。其次是信号校正阶段。只有两个荧光基团,每个荧光基团可以由一个特定的激光发射。因此交叉干扰就不会象4色荧光系统的那么多。

您可以看到右侧的图,发光点是分开的。

彼此之间几乎没有交叉。在完成所有前面的步骤之后,我们现在来了解测序报告。

首先,有一些关于如何操作的问题,例如:如何导出数据以及如何查看测序报告。以及我们报告中的哪些指标对我们的评估更为重要,例如:一旦测序完成,我们需要先导出数据。

来看我们的测序仪。进入用户界面。

我们可以使用我们的帐户、密码登录。点击右上角的菜单图标。单击“维护”,您将找到几个文件夹。

这里有流通池ID的名称,然后选择导出包含FASTQ指标报告或其他报告的测序报告。当然,您必须选择目标地址并单击导出。因为这是一个很大的数据,所以您必须等待更长的时间。您的数据将成功导出到硬盘。

但同时如果您有服务器,我们也可以自动连接到服务器,这样就可以自动传输数据。所以现在导出数据后,将(有测序数据的)硬盘驱动器插入计算机。打开硬盘驱动器,您将找到一个文件夹,名称为“exports present date”。

单击它并选择目标流通池ID。然后选择第一条泳道。您会看到这里有四个基本报告,即allCycleHeatMap,bestFovReport,heatmapReport和summaryReport。

那就是我们接下来要讨论的报告。

这就是测序报告的结构。

摘要报告包含“基本信息”,包括“Q30”、“序列编号”或“碱基判读信息”、“FASTQ统计信息”。

所有循环的热图显示了每个循环的F.O.V.的详细信息。热图报告是从每个泳道来的F.O.V.的信息。最好的F.O.V.报告很容易理解。就是测序中最好的那个F.O.V.的摘要报告。

让我们看一下摘要报告,也是最重要的那一个。它是这样展示的,它们首先是两个表格,左侧是摘要信息,右侧是生化信息。我们可以一一遍历所有参数。软件版本号就是碱基判读软件的版本号。模板版本是报告模板版本。因此有时我们的现场应用工程师会找您,会找您要求更新软件这是您的碱基判读软件的当前版本。

参考是指参考基因组序列。这里显示为NULL,因为我们尚未在测序仪中进行比对(没有设定参考基因组的名称)。如果我们设定了(参考基因组的名称),这里会向您显示您选择比对的参考基因组。

芯片产出率,它还要考虑我们流通池中有一些空白区域。同样,例如,如果流通池上有气泡,那片芯片的产出率会降低。所以通常芯片的产出率总是比ESR低一点。

我所说的432个图像区域,是整个泳道中所承载的6列乘72行,共432个F.O.V。

接下来的三个参数是将是最重要的,即总序列数,Q30,拆分率。仅以DNBSEQ-G400为例,大的流动池FCL ,可产生超过16亿个序列。因此,每条泳道平均应超过4亿条。在这里,您可以看到第一条泳道有接近5亿条序列。

Q30当然是指质量得分。

拆分率,拆分率意味着用现存条形码库进行自动化拆分,可以拆分出来的比例。

“超前”和“滞后”值是我之前已经提到过的参数。Runon 1 Runon 2就是,Runon 1来自正向序列的超前值。Runon 2就是来自反向序列的超前值。

表示落后一个碱基(的比例),或超前一个碱基(的比例)。

偏移值是指在每个F.O.V的每个循环中,分别在X和Y方向上,相对于第一个循环的偏移值。

ACGT的平均恢复值,是指反向序列的光强度,与正向序列的光强度的比值。这个参数,展示的是双端测序(中第2端,反向端测序)的进行情况。

那是第一张表,接下来我们再过第二张表。

首先是ISW版本,也就是控制软件版本,该软件将控制我们的摄像头系统和芯片座的运动。机器ID是测序仪的ID。序列类型是您在测序开始时选择的测序策略。这里是自定义按钮,但您可能会选择PE100(双端各100个碱基)、SE50(单端50个碱基)或其他测序方式。配方版本是指配方的版本。测序日期和时间。试剂ID,试剂ID是我们测序试剂盒的ID。

流动槽位置A,因为G400具有2个流动槽和2个芯片座。两个流动槽分别被称为分为:“A侧”和“B侧”。该报告是用A侧的流动槽来测的。

DNB ID是您在测序器中输入的DNB ID。

条形码类型是指条形码文件的名称,条形码文件是条形码文件放置的位置。

正向测序100个循环,这意味着正向测序中有100个循环。反向测序有100个循环。条形码测序有10个循环。

其余的,只有当您使用双条形码产品时才会使用双条形码。

最后一个,其余的暗反应,暗反应的周期是指暗反应的周期数。“暗反应”是指有碱基掺入的步骤,但在暗反应过程中不会进行拍照。

好,前两个表已经说完了。我们接下来看看其余的。

下一部分是碱基判读信息。我们首先要知道的是DNB数量。

DNB数量显示的是流通池上的斑点数量。这是一个固定的数字。

剩下的就是“超前值”,“滞后值”,以及它的大概范围,即0.1%。那是很低的。

下一个数字是关于原始光强度。

我们在这里看到,X轴是循环数,因为那是双端测序,PE100方式是210个循环。Y轴代表原始光强度。原始光强度本身是图像处理后所有DNB的平均信号强度的趋势。

它是直接来自相机的绝对原始光强度。

下一个将是RHO强度。“RHO强度”是指在校正了“交叉干扰”、“滞后”和“超前”之后的光强度。下一个将是我们的背景参数“背景”。正如我之前所说的,“背景”是来自轨迹线轨迹区域的光强度,是流通池本身的光强度。因此在图中您会看到它所覆盖的区域是相对稳定的,因为它不是来自于DNB的,而是来自流通池的。

下一个定义是“SNR”。SNR代表“信噪比”。因此,假设我们将如果将碱基A的信号当作信号,把来自其他三个碱基CGT的光强作为标准偏差(也就是噪声),就得到了“SNR”(信噪比)。

BIC和FIT值,BIC是可以判读出碱基的,占所有DNB的百分比。FIT值代表交叉干扰值,代表每个碱基的信号和噪声之间的差异的分布。

未过滤的Q30,未过滤的Q30是每个循环中,未经过滤的序列中Q30的占比趋势。我们在这里看到每个循环的Q30的比例,并且是未过滤的,始终都超过至少80%。

超前,每个循环的“超前”的趋势。和“滞后”,每个循环中的“滞后”的趋势。因此“超前”,“滞后”和“超前”的值始终是相对固定的数。我们不能(将“滞后”与“超前”)减少到零,它们总会是一个固定的数字,而且很低。

偏移值,每个循环的整个泳道的偏移值。这表明我们的相机和芯片保持对准的情况。(这个参数)主要用于故障排除,如果偏移值太大,我们最好检查一下相机和芯片座之间的对准情况。

条形码拆分率,条形码拆分率是您所使用的每个条形码(所得到的序列数量)的百分比的直方图。在(将混合库)拆分后,这会显示每个条形码可以拆分(得到的序列数量)的百分比。因此,如果您把所有的百分比加总,则将有超过99%的百分比,这将是第一张表中的数字,即拆分率。

下一部分是FASTQ统计信息。这里告诉你Q值得分是什么情况。以及我们检测到的序列的数量,碱基的数量,GC百分比,Q10,Q20和Q30的百分比,以及估计的错误率。

这张图显示碱基的分布情况,可用于根据物种的碱基分布来看(测序过程)是否存在问题。像在相应物种中一样,GC分布就是总体GC的百分比。(还可以看)在FASTQ之后,是否存在任何问题。这是估计的错误率,估计的错误率是根据质量值是推算的。这是所谓的估计值,不是真正的错误率。因此实际错误率只能在做了生物信息学分析后,比对(到参考基因组上)后才能得到。但这(个错误率)只是给你参考。

平均质量分布是每个循环的平均质量值。而且您在这里看到,全部200个循环的质量得分都在35以上。

质量比例分布。我们以某种方式将Q0-Q10,Q10-Q20、Q20-Q30,Q30-Q40分为四个不同的间隔区间。我们将通过碱基分布看到各个区间内各有多少个碱基,例如区间Q30-Q40。如果看到绿色的(区间),它的百分比将超过90%。因此这意味着90%的(碱基的)质量都在该Q30-Q40间隔内。

这就是第一个报告,摘要报告。我们将看一下其余的(报告)。

例如,我再次单击第一张图,全循环热图,如果我们打开它,我们将看到它的布局是:6列,72行。

每个绿点代表一个“视野”(F.O.V.)。。在所有循环热图中,您可以选择每个循环的布局图,例如第21个循环。DNB负载的指标,此处显示了在那个特定的循环中在每个视频(F.O.V.)中检测到多少DNB。当然我们还可以看到其他参数,例如Q30,例如在第15循环每个F.O.V.的Q30值。而且有很多参数,例如我所说的:BIC值、FIT值、滞后、超前。

例如所有背景。那就是所有循环的热图。

最佳视野(F.O.V.)报告,就这个泳道,在对所有的F.O.V.在排名之,您可知道这是最好的一个F.O.V.。我们选择所有F.O.V.,并将它们相互比较。横跨210个循环,选择出最佳的那个F.O.V.,那是那个最好的F.O.V.的报告。

接下来是热图报告。热图报告是所有循环的简化报告。就像,它不可能选择所有的周期。这里的分数是平均值。我们还可以选择指标,例如平均的Q30比例,或其他一些参数。可以某种方式对每个F.O.V.进行排名。第一个将是其中最好的,在另一个文件中会有表述。

上面就是三份报告的剩余部分。

今天的演讲结束,谢谢您的关注。

如果您对今天有关碱基检出和测序报告的主题有任何疑问,可以随时提交问题。返回搜狐,查看更多



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有