stacks基础:SNP、基因座、等位基因、基因型、单倍型的概念

您所在的位置:网站首页 两栏排版图片 stacks基础:SNP、基因座、等位基因、基因型、单倍型的概念

stacks基础:SNP、基因座、等位基因、基因型、单倍型的概念

2024-07-01 12:31:42| 来源: 网络整理| 查看: 265

相关系列第一期请戳:stacks拆包RAD-seq过程中 process_radtags没有自己需要的限制性内切酶怎么办?

在stacks运行完毕后,会有*.alleles.tsv.gz, *.snp.tsv.gz, *.matchs.tsv.gz等结果文件生成,如果对SNP、基因座(locus)、等位基因(alleles)、基因型(genotype)和单倍型(haplotypes)的概念没有深刻的理解的话,要读懂这些结果文件是非常困难的,本文将以解析这些概念为切入点,解读stacks产生的结果文件。

SNP

snp的定义是单核苷酸多态性(single nucleotide polymorphism),SNP所表现的多态性只涉及到单个碱基的变异,这种变异可由单个碱基的转换(transition)或颠换(transversion)所引起,如图1所示,也可由碱基的插入或缺失所致。但通常所说的SNP并不包括后两种情况。 

图1.SNP(灰色表示男性的X染色体,蓝色表示男性的Y染色体)

   打开stacks产生的结果文件GZ1.tags.tsv.gz,这是ustacks运行结束后生成的,原文件内容截取部分如下:

[bash]# less GZ1.tags.tsv.gz# ustacks version 2.2; generated on 2020-12-31 21:57:221 2 consensus AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTCATCCCTA 0 0 01 2 model OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOUUUUUOOUUUUUOOOEEOEOOOUUUUUUUU 1 2 primary 0 282_7_2116_32106_32390/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA 1 2 primary 0 282_7_2116_32136_32408/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA 1 2 primary 0 282_7_2218_1834_36346/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA 1 2 primary 1 236_6_1105_23206_10679/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTNNNNNNNN 1 2 primary 1 236_6_2211_23409_10187/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTNNNNNNNN 1 2 primary 1 282_7_1207_5792_18063/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTNNNNNNNN 1 2 primary 1 282_7_1207_8166_18450/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTNNNNNNNN 1 2 primary 1 282_7_1207_5558_18537/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTNNNNNNNN 1 2 primary 1 282_7_1217_3112_55262/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTNNNNNNNN 1 2 primary 1 282_7_1217_2869_55965/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTNNNNNNNN

为了方便观察,我们把目光聚焦到后半段:

1 2 consensus AAATTGTTTCCTGTTAGGTCAAAATTTCATCCCTA1 2 model OOOOOUUUUUOOUUUUUOOOEEOEOOOUUUUUUUU 1 2 primary 0 AAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA 1 2 primary 0 AAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA 1 2 primary 0 AAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA 1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN 1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN 1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN 1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN 1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN 1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTGNNNNNNN 1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTGNNNNNNN

第一行是consensus,是由样本的多个locus形成的一致性序列,第二行是model,表明在形成一致性序列的时候,每个位点的一致性状况,O代表完全一致,U代表Unknown,E代表SNP位点。如果locus中有掩码N的存在或者变异的位点占总数太少(比如倒数第8个位点有8条locus是G,两条locus是G,那么该位点的model也是U)。

基因型(genotype)、基因座(locus)、等位基因(alleles)

等位基因(Alleles)是同源染色体的相同位置上基因的变体,比如图2种的显性等位基因C和隐性等位基因c,他们控制着同一性状的不同形态。 

  基因型(Genotype)是染色体特定位置上等位基因的组合,比如图2中的BB、aa和Cc。 

  基因座(Locus)是一个空间上的概念,它指的是染色体特定位置的DNA片段。当DNA序列达到一定长度时,那么它在染色体的位置就是唯一的,能够表示一个基因座。 

图2.基因型、基因座、等位基因

  打开populations.marker.tsv,该文件主要记录等位基因与基因型的映射关系,截取部分内容整理如下: 

[bash]# less populations.marker.tsvCatalog Locus IDTotal GenotypesMax Genotype FreqsFGenotype Map1616.66667aa:1(16.7%);bb:1(16.7%);cc:1(16.7%);dd:1(16.7%);ee:1(16.7%);ff:1(16.7%);ANNATN:a;NATACG:b;NGCATG:c;NGTCCG:d;NNNNNA:e;TNNNNN:f;19333.33333aa:1(33.3%);ab:1(33.3%);ac:1(33.3%);AA:a;AC:b;GA:c;20250.00000ad:1(50.0%);bc:1(50.0%);ACTACC:a;ATTCAC:b;ATTCAG:c;GCCACC:d;39450.00000aa:2(50.0%);ab:1(25.0%);ac:1(25.0%);AA:a;AC:b;GA:c;404295.23810aa:40(95.2%);ab:1(2.4%);ac:1(2.4%);GG:a;GT:b;TG:c;42333.33333aa:1(33.3%);bb:1(33.3%);cc:1(33.3%);ATTTNNCG:a;CAGAGGTA:b;CNNNCCTA:c;单倍型(haplotypes)一组DNA变异(如SNP和indels)在同一位点上彼此相邻,往往会一起遗传,这种SNPs位点的组合称之为单倍型(如图3所示)。图3表示男性群体中的Y染色体某一locus的变异情况,所谓单倍型既是该locus上SNP位点的组合。

图3.单倍型

打开GZ1.alleles.tsv.gz文件

# ustacks version 2.2; generated on 2020-12-31 21:57:221 2 AAA 70.00 71 2 TGT 30.00 31 3 CA 35.29 61 3 CG 5.88 11 3 TA 5.88 11 3 TG 17.65 31 4 GGTC 30.77 41 4 GGTT 30.77 41 4 TAGC 38.46 51 5 A 38.46 51 5 C 61.54 81 6 CAAAA 53.33 81 6 CAGAA 20.00 31 6 GCGGC 26.67 41 10 AGGTT 62.50 51 10 CATAA 37.50 31 11 CGCC 13.79 41 11 CGCT 10.34 3

与刚才的GZ1.tags.tsv.gz文件作为对比,可以发现GZ1.alleles.tsv.gz的前两行就是对下面内容的SNP位点的组合情况进行记录。同样的GZ1.snps.tsv.gz也是对GZ1.tags.tsv.gz的snp位点进行单独的统计。1 2 consensus AAATTGTTTCCTGTTAGGTCAAAATTTCATCCCTA1 2 model OOOOOUUUUUOOUUUUUOOOEEOEOOOUUUUUUUU 1 2 primary 0 AAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA 1 2 primary 0 AAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA 1 2 primary 0 AAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA 1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN 1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN 1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN 1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN 1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN 1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTGNNNNNNN 1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTGNNNNNNN

END



【本文地址】

公司简介

联系我们

今日新闻


点击排行

实验室常用的仪器、试剂和
说到实验室常用到的东西,主要就分为仪器、试剂和耗
不用再找了,全球10大实验
01、赛默飞世尔科技(热电)Thermo Fisher Scientif
三代水柜的量产巅峰T-72坦
作者:寞寒最近,西边闹腾挺大,本来小寞以为忙完这
通风柜跟实验室通风系统有
说到通风柜跟实验室通风,不少人都纠结二者到底是不
集消毒杀菌、烘干收纳为一
厨房是家里细菌较多的地方,潮湿的环境、没有完全密
实验室设备之全钢实验台如
全钢实验台是实验室家具中较为重要的家具之一,很多

推荐新闻


图片新闻

实验室药品柜的特性有哪些
实验室药品柜是实验室家具的重要组成部分之一,主要
小学科学实验中有哪些教学
计算机 计算器 一般 打孔器 打气筒 仪器车 显微镜
实验室各种仪器原理动图讲
1.紫外分光光谱UV分析原理:吸收紫外光能量,引起分
高中化学常见仪器及实验装
1、可加热仪器:2、计量仪器:(1)仪器A的名称:量
微生物操作主要设备和器具
今天盘点一下微生物操作主要设备和器具,别嫌我啰嗦
浅谈通风柜使用基本常识
 众所周知,通风柜功能中最主要的就是排气功能。在

专题文章

    CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭