stacks基础:SNP、基因座、等位基因、基因型、单倍型的概念 |
您所在的位置:网站首页 › 两栏排版图片 › stacks基础:SNP、基因座、等位基因、基因型、单倍型的概念 |
相关系列第一期请戳:stacks拆包RAD-seq过程中 process_radtags没有自己需要的限制性内切酶怎么办? 在stacks运行完毕后,会有*.alleles.tsv.gz, *.snp.tsv.gz, *.matchs.tsv.gz等结果文件生成,如果对SNP、基因座(locus)、等位基因(alleles)、基因型(genotype)和单倍型(haplotypes)的概念没有深刻的理解的话,要读懂这些结果文件是非常困难的,本文将以解析这些概念为切入点,解读stacks产生的结果文件。 SNPsnp的定义是单核苷酸多态性(single nucleotide polymorphism),SNP所表现的多态性只涉及到单个碱基的变异,这种变异可由单个碱基的转换(transition)或颠换(transversion)所引起,如图1所示,也可由碱基的插入或缺失所致。但通常所说的SNP并不包括后两种情况。 图1.SNP(灰色表示男性的X染色体,蓝色表示男性的Y染色体)打开stacks产生的结果文件GZ1.tags.tsv.gz,这是ustacks运行结束后生成的,原文件内容截取部分如下: [bash]# less GZ1.tags.tsv.gz# ustacks version 2.2; generated on 2020-12-31 21:57:221 2 consensus AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTCATCCCTA 0 0 01 2 model OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOUUUUUOOUUUUUOOOEEOEOOOUUUUUUUU 1 2 primary 0 282_7_2116_32106_32390/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA 1 2 primary 0 282_7_2116_32136_32408/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA 1 2 primary 0 282_7_2218_1834_36346/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA 1 2 primary 1 236_6_1105_23206_10679/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTNNNNNNNN 1 2 primary 1 236_6_2211_23409_10187/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTNNNNNNNN 1 2 primary 1 282_7_1207_5792_18063/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTNNNNNNNN 1 2 primary 1 282_7_1207_8166_18450/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTNNNNNNNN 1 2 primary 1 282_7_1207_5558_18537/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTNNNNNNNN 1 2 primary 1 282_7_1217_3112_55262/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTNNNNNNNN 1 2 primary 1 282_7_1217_2869_55965/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTNNNNNNNN为了方便观察,我们把目光聚焦到后半段: 1 2 consensus AAATTGTTTCCTGTTAGGTCAAAATTTCATCCCTA1 2 model OOOOOUUUUUOOUUUUUOOOEEOEOOOUUUUUUUU 1 2 primary 0 AAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA 1 2 primary 0 AAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA 1 2 primary 0 AAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA 1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN 1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN 1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN 1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN 1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN 1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTGNNNNNNN 1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTGNNNNNNN第一行是consensus,是由样本的多个locus形成的一致性序列,第二行是model,表明在形成一致性序列的时候,每个位点的一致性状况,O代表完全一致,U代表Unknown,E代表SNP位点。如果locus中有掩码N的存在或者变异的位点占总数太少(比如倒数第8个位点有8条locus是G,两条locus是G,那么该位点的model也是U)。 基因型(genotype)、基因座(locus)、等位基因(alleles)等位基因(Alleles)是同源染色体的相同位置上基因的变体,比如图2种的显性等位基因C和隐性等位基因c,他们控制着同一性状的不同形态。 基因型(Genotype)是染色体特定位置上等位基因的组合,比如图2中的BB、aa和Cc。 基因座(Locus)是一个空间上的概念,它指的是染色体特定位置的DNA片段。当DNA序列达到一定长度时,那么它在染色体的位置就是唯一的,能够表示一个基因座。 图2.基因型、基因座、等位基因打开populations.marker.tsv,该文件主要记录等位基因与基因型的映射关系,截取部分内容整理如下: [bash]# less populations.marker.tsvCatalog Locus IDTotal GenotypesMax Genotype FreqsFGenotype Map1616.66667aa:1(16.7%);bb:1(16.7%);cc:1(16.7%);dd:1(16.7%);ee:1(16.7%);ff:1(16.7%);ANNATN:a;NATACG:b;NGCATG:c;NGTCCG:d;NNNNNA:e;TNNNNN:f;19333.33333aa:1(33.3%);ab:1(33.3%);ac:1(33.3%);AA:a;AC:b;GA:c;20250.00000ad:1(50.0%);bc:1(50.0%);ACTACC:a;ATTCAC:b;ATTCAG:c;GCCACC:d;39450.00000aa:2(50.0%);ab:1(25.0%);ac:1(25.0%);AA:a;AC:b;GA:c;404295.23810aa:40(95.2%);ab:1(2.4%);ac:1(2.4%);GG:a;GT:b;TG:c;42333.33333aa:1(33.3%);bb:1(33.3%);cc:1(33.3%);ATTTNNCG:a;CAGAGGTA:b;CNNNCCTA:c;单倍型(haplotypes)一组DNA变异(如SNP和indels)在同一位点上彼此相邻,往往会一起遗传,这种SNPs位点的组合称之为单倍型(如图3所示)。图3表示男性群体中的Y染色体某一locus的变异情况,所谓单倍型既是该locus上SNP位点的组合。图3.单倍型打开GZ1.alleles.tsv.gz文件 # ustacks version 2.2; generated on 2020-12-31 21:57:221 2 AAA 70.00 71 2 TGT 30.00 31 3 CA 35.29 61 3 CG 5.88 11 3 TA 5.88 11 3 TG 17.65 31 4 GGTC 30.77 41 4 GGTT 30.77 41 4 TAGC 38.46 51 5 A 38.46 51 5 C 61.54 81 6 CAAAA 53.33 81 6 CAGAA 20.00 31 6 GCGGC 26.67 41 10 AGGTT 62.50 51 10 CATAA 37.50 31 11 CGCC 13.79 41 11 CGCT 10.34 3与刚才的GZ1.tags.tsv.gz文件作为对比,可以发现GZ1.alleles.tsv.gz的前两行就是对下面内容的SNP位点的组合情况进行记录。同样的GZ1.snps.tsv.gz也是对GZ1.tags.tsv.gz的snp位点进行单独的统计。1 2 consensus AAATTGTTTCCTGTTAGGTCAAAATTTCATCCCTA1 2 model OOOOOUUUUUOOUUUUUOOOEEOEOOOUUUUUUUU 1 2 primary 0 AAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA 1 2 primary 0 AAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA 1 2 primary 0 AAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA 1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN 1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN 1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN 1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN 1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN 1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTGNNNNNNN 1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTGNNNNNNNEND |
今日新闻 |
点击排行 |
|
推荐新闻 |
图片新闻 |
|
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭 |