多倍体又分为异源多倍体和同源多倍体,其调研图的情况更为复杂。以四倍体为例,异源四倍体又被称为双二倍体,从k-mer分析的角度来说,其调研图和二倍体并无太大差异。虽然如此,他们的染色体之间仍然存在一定的相似性,所以在主峰二倍的位置上往往存在一个小的凸起,这样的凸起和高重复率的二倍体调研图非常接近。如下图是一个异源四倍体的调研图:
Figure 3一个异源四倍体的调研图,主峰位于212深度,三个峰的比例为1:2:4
同源四倍体的两套亚基因组之间的区别比异源四倍体更为接近,体现在调研图上就是在主峰的二倍位置处有一个明显隆起的峰。如果存在一定的杂合率,调研图上就会存在三个比例为1:2:4的峰,但如果基因组的杂合率很低,杂合峰不明显,此时调研图看起来和二倍体仍然非常接近。
不同的倍性对整套基因组的大小影响不大,所以面对多倍体时,调研图的结果尽量同时结合流式细胞仪或者核型来判断。对于杂合率约在0.5%~20%左右,重复序列不超过约40%的物种,也可以利用smudgeplot软件1对杂合k-mer进行分析,得到可能的物种倍性,从而辅助基因组杂合率和重复序列的估计。
Smudgeplot通过寻找杂合k-mer来研究基因组的倍性,其定义的杂合k-mer对指的是一对k-mer之间只相差一个碱基,且没有第三个k-mer与他们再相差一个碱基(如ATGATCA, ATGCTCA, ATGGTCA)。对于一个AB形式的杂合,smudgeplot试图从所有k-mer中寻找一对杂合k-mer,而对于一个AAB形式的杂合,smudgeplot试图寻找两条相同的k-mer和一条它们的杂合k-mer,在图中表示为更高的亮度。如下图对一个四倍体的smudgeplot分析,可以明显的看出AABB杂合模式附近的k-mer数量明显高于其它k-mer,左上角也描述了这个结果。
Figure 4一个四倍体的smudgeplot分析结果,横轴是杂合k-mer对的深度占总深度的比例,纵轴是所有k-mer对的总深度,二者的交点即代表了不同的杂合结构。交点的亮度代表了落入其中的k-mer数。
需要注意的是,调研图一般需要50x以上的数据对基因组进行评估,在测序深度不足的情况下,调研图可能无法很好的形成真正意义上的峰,此时好的选择是加测数据,重新绘制调研图进行评估。
[1] Ranallo-Benavidez, T.R., Jaron, K.S. & Schatz, M.C. GenomeScope 2.0 and Smudgeplot for reference-free profiling of polyploid genomes. Nat Commun 11, 1432 (2020).
|