基因转录本选择 您所在的位置:网站首页 基因座代码各表达意思 基因转录本选择

基因转录本选择

2024-07-13 22:31| 来源: 网络整理| 查看: 265

本文作者:Sunny-King

发布时间:2022-08-01 21:55:38 星期一

本文链接:https://www.cnblogs.com/Sunny-King/p/Bioinformatics-Transcript.html

通常多个基因会有多个不同的转录本,包括不同的外显子组合。在突变注释的过程中往往会因为基因转录本的选择不同导致同一个突变对应不同的注释结果。在搜索对应证据时出现异常现象,因此尽可能的保证转录本的唯一性,可以更好地满足需求。

一、RefSeq Select标准

RefSeq数据库包含每个蛋白质编码基因的一个代表或Select转录本。该转录本通过多种选择标准选择,包括在临床数据库中使用(例如位点参考基因组)、转录本表达、编码区保守性、转录本和蛋白长度以及与Swiss-Prot标准亚型的一致性。RefSeq的Select转录本通常有良好的存档数据支持,表达良好,保守,代表基因的生物学特性。

NCBI开发了一个Pipeline,根据多个评判标准来确定一个RefSeq Select转录本。

其中有些选择标准是特定于人类基因组的,例如,一个基因如果在公共LRG(Locus Reference Genomic,位点参考基因组)的RefSeq Gene集合中,则该转录本作为优先选择的转录本。有些选择标准适用于范围内的所有种群,如由RNA-seq跨内含子比对计算的表达评分。下图是NCBI选择RefSeq Select转录本的流程示意图。该流程由RefSeq的专家输入和QA进行补充,这些专家确保RefSeq Select转录本的质量,并在复杂位点和其他自动化选择不理想的基因中加入人为的选择。

无法显示图片时显示的文字 RefSeq Select Flowchart [图片来源于NCBI官网] 1、RefSeq选择标准的描述(基于人类的RefSeq Select) Curated RefSeq选择:如果确定一个已知的RefSeq转录本是该基因的最佳转录本,则该基因选择该转录本。 先前作为临床标准使用:如果已知的RefSeq转录本已经在公共LRG记录中作为参考转录本使用,则它将是默认的RefSeq Select选择。如果多个RefSeq转录本符合此标准,则用其他的标准从中选择最好的。 (NM_, NP_, NR_)和(XM_, XP_, XR_) 的RefSeqs: 在人类和小鼠RefSeq选择集中,默认选择前者RefSeqs。 登记类型(NM_/XM_ vs NR_/XR_):对于蛋白质编码基因,优先选择编码的RefSeqs (NM_, XM_)。 转录本编码区域的保守性:编码区域的进化保守性是基于PhyloCSF数据计算的。PhyloCSF是一种利用代表一系列分类群的多种生物的编码区域的排列来确定单个碱基的蛋白质编码潜能的方法。PhyloCSF评分是根据密码子替换频率计算的。阳性PhyloCSF评分表明编码区(CDS)核苷酸的保守性。优先考虑在CDS中有更多积极评分基础的成绩单,将分数相似的成绩单(在90个bp的最大值内)作为同等对待。 转录本表达: 根据单个内含子的阅读分数(横跨内含子的短读RNA-seq序列的数量,也称为拆分阅读)计算每个转录本的复合表达分数,该分数基于RefSeq注释中使用的短读RNA-seq研究和可用的长读数据的结合。该评分会惩罚比其相邻的内含子代表少的内含子,并倾向于更多的剪接作为支持全长转录本的代理。相似表达分数的成绩单被认为表达相同。 与Swiss-Prot规范匹配的蛋白质:编码与Swiss-Prot规范亚型相匹配的蛋白质的转录本。 CAGE表达:此标准适用于从不同转录起始位点(TSSs)或启动子产生转录本的基因。转录本的表达水平由一种被称为基因表达帽分析(CAGE)的高通量测序技术来指示,该技术从生物样本中生成mRNA池5个末端的全基因组快照。RefSeq Select管道利用了RefSeq处理的CAGE集群,这些集群是根据CAGE集群和FANTOM联盟提供的TSS数据计算出来的。与具有最高CAGE得分(总标签计数)的CAGE集群关联的转录本,与得分在最高CAGE得分70%以内的CAGE集群关联的转录本,被认为是同等表达的。 PhyloCSF阴性评分:PhyloCSF阴性评分可能表明CDS碱基不保守。负分最少的蛋白编码转录本优先于其他转录本。注:PhyloCSF在某些情况下有局限性,例如非常短的外显子。这类情况需要人工审查。 最大蛋白质长度:该标准选择编码最长蛋白质的转录本。 核苷酸长度:该标准选择最长的转录本。 最低转录本表达:与某一基因相关的所有转录本中,表达得分最低的转录本。 最古老的加入:当上述标准无法选择最终的转录本时,选择最老的转录本。

对于上述每项标准,都有一个打分。然后对一组基因的转录本进行逐级判断,以确定一个比其他转录本得分更高的唯一转录本。例如,如果所有编码转录本都有类似PhyloCSF评分的CDSes(标准#5),但有一个具有明显更好的表达(标准#6),那么就选择该转录本。如何访问RefSeq Select记录?根据所查看的NCBI资源,有多个标记来区分RefSeq Select转录本与一个基因的其他转录本。

RefSeq Select是一组有代表性的转录本,实验数据可以很好地支持这些转录本,使用转录本表达水平和编码区进化保护等代理来代表基因的生物学特性。 在选择转录本时,我们还尝试将RefSeq Select与其他数据库中表示一个或多个代表性/规范形式的数据同步,例如,位点参考基因组(LRG)数据集中的Swiss-Prot规范亚型和参考转录本。因此,在进化分析、比较基因组学和临床变异报告等可能只需要每个基因使用一个转录本的研究和应用中,RefSeq Select转录本是一个基因的代表性转录本。用户不需要应用自己的标准(不同用户之间可能不一致)来选择具有代表性的文本。值得注意的是,对于可能需要每个基因单个转录本的应用,推荐使用RefSeq Select集;但这并不会降低其余转录本和蛋白质的重要性。

二、MANE方案

2018年,NCBI和EMBL-EBI(欧洲分子生物学实验室-欧洲生物信息学研究所)宣布了一个新的合作项目,名为来自NCBI和EMBL-EBI (MANE)的匹配注释。该项目旨在为每个人类蛋白质编码基因提供一套匹配的转录本。该集合中的转录本在RefSeq和Ensembl-GENCODE基因集合中被相同的注释。

Morales, J., Pujar, S., Loveland, J.E. et al. A joint NCBI and EMBL-EBI transcript set for clinical genomics and research. Nature 604, 310–315 (2022). https://doi.org/10.1038/s41586-022-04558-8

该项目通过多种标准确定了一个转录本集合MANE Select集,对于绝大多数人类编码蛋白都确定了唯一的转录本,但是对于一些仅凭Select转录本不足以报告所有目前已知的临床变异,提供了MANE Plus Clinical集。

数据集下载路径:https://ftp.ncbi.nlm.nih.gov/refseq/MANE/MANE_human/



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有