生物信息学名词解释

2023-10-21 07:39| 来源: 网络整理| 查看: 265

何谓K-mer

所谓Kmer，即为一段长度为k的DNA片段，是由测序reads剪切一部分得到的。k为一个奇数，k=几，就为几mer。

比如：我的测序reads长度为100bp，我将这100bp打断成17bp的短片段，打断后的17bp段片段就叫17mer，可以获得（100-17+1）条k-mer序列。

Table1 k-mers for GTAGAGCTGT.

kk-mers1G,T,A,G,A,G,C,T,G,T3GTA,TAG,AGA,GAG,AGC,GCT,CTG,TGT5GTAGA,TAGAG,AGAGC,GAGCT,AGCTG,GCTGT7GTAGAGC,TAGAGCT,AGAGCTG,GAGCTGT9GTAGAGCTG,TAGAGCTGT

不同reads间的重叠长度不均匀，而相邻k-mers有且仅有一个碱基差异。

K-mer的作用利用k-mer拼接出Contig。

Contig的长度与k值的大小密切相关。k值越大，k-mers能跨过更多长度较短的重复序列，有利于Contig的组装，何事都有两面，k值越大，得到的k-mers的数量会越少，k-mers彼此相连，建立感情的机会就越少，反而不利于Contig的组装。在实际的分析中，需要根据物种基因组特征、测序数据的大小等等因素综合考虑，反复尝试。

Figure1 General workflow of the de novo assembly of a whole genome.

在这里插入图片描述上图展示的是全基因组de nove组装的流程。

识别测序错误、杂合等位基因和重复序列的reads。

Figure2 K-mer histogram. 在这里插入图片描述

上图称为K-mer直方图，横轴是指K-mer深度，D(k)；纵轴是指D(k)的频率，f(D(k))。怎么来理解这张图呢？

举个例子，一组K-mers由K={ATT,ATA,GTG,GCA,GCA,CAT,CAT,TAT,TAT,TAT,TAT}组成，f(D(k))的计算为：f(1)=3 {ATT,ATA,GTG}, f(2)=4 {GCA,GCA}和{CAT,CAT} , f(3)=0, f(4)=4 {TAT,TAT,TAT,TAT}。

在测序深度足够的情况下，理想的K-mer直方图呈现正态分布（蓝色曲线）。存在测序错误的reads，在直方图中呈指数递减的曲线（红色曲线）。杂合等位基因产生的小峰出现在主峰下方（黄色曲线）。由于重复结构(repetitive structures)和拷贝获得区域(copy-gained regions )的存在，会在主峰的右侧出现小峰（绿色、紫色曲线）。

通过K-mer估计基因组大小及杂合度。

可以通过测序深度，reads长度以及K-mer的深度和大小来估计基因组大小。 D = D ’ l D k − m e r = D ′ l l − k + 1 D={{D’l}\over{D_{k-mer}}}={{{D'l}\over{l-k+1}}} D=Dk−merD’l=l−k+1D′l

G = N b a s e D = N r e a d ( l − k + 1 ) D ′ G={{N_{base}}\over{D}}={{{N_{read}}(l-k+1)}\over{D'}} G=DNbase=D′Nread(l−k+1)

其中D和G分别是reads的测序深度和基因组大小；l是reads平均长度；k是K-mer大小；D‘是K-mer直方图中峰值处的K-mer的深度；Nk-mer=(l-k+1) 是一个read中k-mers的数量；Nbase是测序碱基的数量，其中Nread=Nbase/l 是测序reads的数量。

利用上方的公式就可以在全基因组从头组装之前评估基因组的大小。

参考资料：

[1] Sohn Jang-Il,Nam Jin-Wu. The present and future of de novo whole-genome assembly.[J]. Briefings in bioinformatics,2018,19(1):

[2] https://bioinformatics.uconn.edu/genome-size-estimation-tutorial/#

【本文地址】

公司简介

联系我们