看不懂报告里的变异?学习完这篇文章你就清楚了 您所在的位置:网站首页 wi11is环变异是什么意思 看不懂报告里的变异?学习完这篇文章你就清楚了

看不懂报告里的变异?学习完这篇文章你就清楚了

2024-07-11 04:41| 来源: 网络整理| 查看: 265

拿到一份NGS检测报告,面对报告中基因多种多样的字母、数字和符号的写法,是不是一时分不清其中含义呢?测序数据经生信分析后,结果参照HGVS规则注释,当你吃透本篇文章中的写法规则后,检测报告便一目了然。

  首先我们说说HGVS是什么

HGVS,全称Human Genome Variation Society(人类基因组变异协会)。该协会是人类遗传学协会国际基金委(International Federation of Human Genetics Societies)和人类基因组组织(Human Genome Organization,HUGO)的附属机构。协会主要负责发现和分类包括人群分布与表型相关联的人类基因组变异,并根据方法学与信息学的发展来对数据及相关的临床变异进行更新。由该协会制定的变异命名规则被最为广泛地进行使用。

序列变异的命名必须符合精准、明确、稳定的原则,具备一定的灵活度以描述所有已知的变异类型。2000年HGVS提出一套全面的变异命名指导意见,得到了学术界广泛的接受,并成为分子诊断领域的标准变异命名规则。2015年HGVS推出新的版本HGVS15.11,修正了原来版本的错误,去除繁琐的表述,增加了对复杂突变的命名规则。 

下面我们就详细展开规则中的各项内容

首先参考序列被分为不同的层次,不同的层次有对应的表述形式,用前缀字母来区分,如:g. 基因组参考序列c. 编码DNA参考序列(起始密码子开始)n. 非编码DNA参考序列 m. 线粒体DNA参考序列r. RNA参考序列p. 蛋白质参考序列。

64181654759247223

各层次的序列存在不同的变异形式,以下将各类形式列举:

替换(>):一个核苷酸被另一个核苷酸取代如:g.1318G>T,表示在基因组层面,第1318位的G被T所取代。

缺失(del):一个或多个核苷酸发生缺失如:g.3661_3706del,表示在基因组层面,第3661位到3706位的序列发生缺失倒位(inv):多个核苷酸被反向互补的核苷酸取代(实质上是染色体发生了倒位)如:g.495_499inv,表示在基因组层面,第495位到499位的序列突变为反向互补的序列。

54611654759247379

重复(dup):变异位置的3’端有一个或多个相同的核苷酸插入(实质上是参考序列发生了重复)如:g.3661_3706dup,表示在基因组层面,第3661位到3706位的序列突变为反向互补的序列。

插入(ins):一个或多个核苷酸增添到某个位置上,且这些核苷酸与该位置序列不相同(以区分dup)如:g.7339_7340insTAGG,表示在基因组层面,第7339位到7340位的序列插入了一段TAGG序列。

54611654759247379

易位(con):变异位置的一段核苷酸被基因组中另外一区域的一段核苷酸取代如:g.333_590con1844_2101,表示在基因组层面,第333位到590位的序列被第1844位到2101位的序列取代。

插入缺失(delins/indel):一个或多个核苷酸被另外的一个或多个核苷酸取代,且不属于替换,倒位,易位如:g.112_117delinsTG,表示在基因组层面,第112位到117位的序列发生缺失,并插入了一段TG序列。

54611654759247379

对于序列中的编号,HGVS也有严格的书写规则,不同层次的变异也有不同的编号①基因组参考序列:从参考序列的第一个核苷酸开始编号,编号从“1”开始,表示为g.1,g.2,g.3,不出现“+”,“-”,“*”等符号。

76611654759247812

②编码序列:在分子诊断领域,使用编码序列来表示变异更为普遍,因为这种表示方式能够获知变异的具体位置信息(外显子/内含子,起始密码子/终止密码子,变异的氨基酸编号)。

76611654759247812

A.编码序列层面从起始密码子开始编号,编号从“1”开始,各外显子的编号是连续的,内含子及UTR不编号起始密码子上游的区域表示为c.-1,c.-2,c.-3等,终止密码子下游的区域表示为c.*1,c.*2,c.*3等。

B.内含子区域根据最近的外显子进行编号,靠近内含子5’端的变异,根据上游外显子的位置进行编号,如c.187+1,表示上游外显子最后一个核苷酸为187,变异为内含子5’端开始的第1个核苷酸。靠近内含子3’端的变异,根据下游外显子的位置进行编号,如c.188-1,表示下游外显子第一个核苷酸为188,变异为内含子3’端开始的第1个核苷酸。

1711654759247944

C.UTR编号规则类似于内含子,如c.-123,c.*345等。而对于UTR中的内含子也有类似的规则,如c.-55+23,表示上游外显子最后一个核苷酸为-55(起始密码子上游第55位核苷酸),变异为内含子5’端开始的第23个核苷酸c.*55-23,表示下游外显子第一个核苷酸为55 (终止密码子下游第55位核苷酸),变异为内含子3’端开始的第23个核苷酸。

13891654759248091

③非编码序列:非编码DNA的编号从参考序列的第一个核苷酸开始编号,编号从“1”开始,表示为n.1,n.2,n.3,内含子不编号,内含子区域表示方式与编码序列的方式相同。

25341654759248330 以上是DNA水平不同层面的书写规则。

对于RNA层面的变异表述与DNA层面的表述形式相似,掌握DNA的规则后便可轻易看懂RNA的书写,例如以下几种。

r.1318g>ur.3661_3706delr.3661_3706dupr.112_117delinsug和DNA的区别在于,核酸序列使用小写字母表示,并用“u”代替“t”。

91001654759248382

具体举例说明:

A.RNA层面的表述——剪接位点的突变(splicing variant)例如编码序列的变异c.650-1G>C,可能引起的剪接位点变化:①r.649_650ins[650-52_650-2;g>c],表示RNA层面,7号内含子3’端第2位到52的核酸序列插入到转录本RNA第649和650位核苷酸之间,7号内含子3’端第1位核苷酸发生了G替换为C的变异。这种变异的实质:7号内含子3’端第1位核苷酸发生变异,导致初始转录RNA剪接位点发生变化(剪接发生在7号内含子3’端第52位和第53位核苷酸之间),7号内含子的一段序列(3’端第2位到第52位核苷酸)保留在成熟转录本中。

B.RNA层面的表述——剪接位点的突变例如编码序列的变异c.650-1G>C,可能引起的剪接位点变化:②r.650_831del,表示RNA层面,8号外显子第650位到831位的核酸序列缺失。这种变异的实质:同①,7号内含子3’端第1位核苷酸发生变异,导致初始转录RNA剪接位点发生变化(剪接发生在8号外显子第831位和第832位核苷酸之间),最终成熟的转录本RNA中缺失了8号外显子的一段序列(第650位到第831位核苷酸)。

51981654759248565

最后让我们再看向最为常见且最易懂的蛋白质水平变化:

蛋白质参考序列:从第一个氨基酸开始编号,编号从“1”开始,变异的氨基酸使用通用简写符号表示(3位或1位字母简写)对于最为常见且最易看懂的蛋白质层面的变异表述,有以下几种示例:

76611654759247812

①体现突变氨基酸p.Arg490Ser或p.R490S,表示在蛋白质层面,第490位的精氨酸变异为丝氨酸BRAF V600E,BRAF蛋白第600位的缬氨酸变异为谷氨酸EGFR T790M,EGFR蛋白第790位的苏氨酸变异为甲硫氨酸

②体现突变导致终止或移框无义突变(nonsense,*)

p.Trp78Ter或p.Trp78*,表示在蛋白质层面,第78位的色氨酸变异为终止密码子(无义突变)移框突变(frame shift,fs)p.Arg97ProfsTer23,表示在蛋白质层面,发生了移框突变,第97位的精氨酸变异为脯氨酸,且从第97位重新开始编号(从1开始),移框突变发生后第23位突变为终止密码子

③体现插入/缺失:

p.Asp388_Gln393del,表示在蛋白质层面,第388位天冬氨酸到393位谷氨酰胺之间缺失5个氨基酸。

43441654759248693

除此之外,完整的HGVS变异命名还必须包括变异参考序列,参考序列使用NCBI(美国生物信息中心)或EBI(欧洲生物信息研究所)的公共数据库的ID,包括序列的accession号和版本号(version number)。如NC_# (e.g. NC_000023.10),NG_# (e.g. NG_012232.1),NM_# (e.g. NM_004006.2)等。   如果一种变异不能在以上参考基因组中找到,则应选择Locus Reference Genomic sequence(LRG)数据库的参考序列,如LRG_199,LRG_304等。

SVD-WG正在考虑使用Ensembl数据库的参考序列,如ENSG00000182533.6, ENST00000357033.8, ENSP00000354923.3等,主要一个问题是Ensembl数据库下载的参考序列不带版本号。完整的变异书写形式如:                                         NG_012232.1(NM_004006.2):c.357+1G>ANC_000023.10(NM_004006.2):c.357+1G>ALRG_199t1:c.357+1G>ANCBI RefSeq Accession NumbersNCBI的RefSeq(Reference Sequence)是一个收录DNA、RNA和蛋白质序列的免费数据库,RefSeq提供了多个物种大量的基因组、转录本和翻译产物序列信息。   RefSeq中每条给定的序列都有一个独特的编号(Accession Number),其书写形式通常为NN_NNNNN.N,前缀的NN用于区分序列的来源(基因组序列、转录本序列或蛋白序列等),中间的NNNNN是位数不等的数字,是序列的编码,最后的N是该序列的版本号,原始版本数值为1,新版本在原数值上加1,表示序列信息较前一版本有更新。

18261654759248778

Accession Number前缀常见分类有以下几种:AC 完整的可供选择的注释的基因组序列(主要为病毒或原核生物)NG 不完整的基因组区域(不转录的假基因或难注释的基因组区域)NC 完整的可供参考的基因组序列NM 编码蛋白的转录本序列(通常是经验证过的序列)NR 非编码的转录本序列NP 蛋白质序列,与NM或NC对应。

23661654759248829

在NCBI中无法找到参考基因组的,可以参考Locus Reference Genomic(LRG)数据库。2008年EMBL-EBI,NCBI,HGVS等团体在RefSeqGene计划的基础上成立了LRG计划,旨在建立通用的变异报道参考标准。新的计划将解决原有变异表述系统的不足(包括参考序列版本号一致性的问题),提供一套清晰明确一致的临床相关基因座变异报道规则。    LRG整合了Ensembl,NCBI,UCSC基因组浏览器以提供基因组可视化分析,并涵盖各数据库现存的注释信息,基因组版本包括了GRCh37,GRCh38。LRG使用更精简的参考序列编号,对于一个变异基因通常只使用一个ID来表示(避免参考序列版本号变化带来的麻烦),临床的变异报道均经过专家人工监管、注释。

69741654759248916

熟练掌握这些命名规则后,不但能轻易看懂报告中的各种突变,进一步还可以根据自己的需求查找相关的资料,获取更多的有用信息,希望这篇文章能给大家带来帮助!



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有