【4.7.3.4】结构比较 您所在的位置:网站首页 蛋白质中的aa是什么意思 【4.7.3.4】结构比较

【4.7.3.4】结构比较

2024-02-16 03:22| 来源: 网络整理| 查看: 265

我们开发了一种新的评分功能,即模板建模评分(TM-score, template modeling score),以通过扩展全球距离测试(GDT, Global Distance Test)和MaxSub中使用的方法来评估蛋白质结构模板的质量和预测的全长模型。

首先,利用蛋白质大小依赖性量表来消除先前分数的固有蛋白质大小依赖性,并适当地考虑随机蛋白质结构对。 其次,不是设置特定的距离截止值,而是仅计算误差低于截止值的分数,而是在提议的分数中评估对齐/建模中的所有残基对。

为了比较各种评分功能,我们使用threading程序PROSPECTOR_3为1489个中小型蛋白质构建了大规模的结构模板基准集,并使用MODELLER和TASSER构建了全长模型。与GDT和MaxSub评分功能相比,初始threading对齐的TM得分显示出与最终全长模型的质量更强的相关性。 TM分数在最近的CASP5实验中被进一步用作对所有“新fold”目标的评估,并且与人类专家的视觉评估结果非常吻合。这些数据表明,TM-评分是对蛋白质结构预测的全自动评估的有用补充。可从 https://zhanglab.ccmb.med.umich.edu/TM-score/ 免费下载TM-score的可执行程序。

附件内容

很少有研究是完全新颖的,TM-score 也不例外,它其实是LG-score的改进MaxSub的改进。

1997年,Michael Levitt,这位日后的诺贝尔奖得主,与他的博后Mark Gerstein,目前耶鲁大学生物医学信息学、分子生物物理与生物化学、计算机学的三聘教授,出于统一比较蛋白序列相似度和结构相似度的想法,提出了Levitt-Gerstein score,也就是 LG-score(公式12)。[6] LG-score 是首个不依赖于序列的结构对齐打分。

2000年,Siew等人提出 MaxSub 算法,包括一种结构重叠对齐算法和一种基于 LG-score 的结构相似度打分(公式13)。[7]

2004年,张阳与导师 Skolnick设计出template modeling score,也就是 TM-score(公式14),评估全长模型的预测,消除蛋白质的大小对结构打分的影响;更重要地,TM-score 可判断2个相比较的结构是否属于同一 fold,即在整体结构或拓扑层级评价结构。[5]

相对于 LG-score,MaxSub 去掉了未匹配残基的空位罚分(gap penalty),并且去掉了无用的常数 M,代之以 1/LN,从而在优化过程中需要最大化地重合两个比较结构的子结构,只考虑对齐后 di ≤ d0 的残基,尽可能地增加 LT;相对于 MaxSub,TM-score 则将常数 d0 替换为一个 LN 的函数,从而使得整体打分没有链长依赖。

理解 TM-score 的物理含义以及它相对 LG-score 和 MaxSub 的改进,关键在于理解公式14中的 d0 —— d0 是天然结构的长度(LN)的函数,可是为什么令 di 除以 d0 就能消除链长依赖?

注意公式14中 di 的定义,它其实就是单个残基的 RMSD,它的均值我们在公式8中已经给出。因此,di 的均值可以由公式15近似表示。作者发现,令常数 h = 0.75,则 di 的均值可以进一步用更简单的函数形式近似,即公式14中的 d0。

现在我们清楚了 TM-score 的物理意义:

LG-score + rRMSD —> TM-score

也就是说,依然如 RMSD 一般对齐两个相比较的结构,只不过这两个结构未必含有相同个数的残基,也就是可以只对齐结构的一个子集;对齐后,依然考虑两两对齐的残基之间的距离,只不过将这个距离除以它的统计平均值,并且这个平均值是链长的函数。

那么,由此可以凭直觉猜测 TM-score 有3大优势(改进):

不依赖链长,具体原因我们上面分析了。 不依赖序列(sequence independent),不需要两个相比较的结构有同样数目的残基。 最大程度地对齐两个结构的子集 —— 可衡量两个结构的整体拓扑。因为必须打分必须要除以 LN,所以,需要尽可能找到两个结构的最大的相似子集。

6年后,2010年,针对上述的第3点,张阳与学生 XU Jinrui 考察了 TM-score 在判断蛋白质 fold 方面的意义,量化了 TM-score 打分的统计意义:TM-score = 0.5 意味着两个比较的结构“很可能”同属一个 fold。[8] 这篇文章可能是 TM-score 获得巨大关注并被广为应用的原因 —— 我把我自己阐释清楚,从而别人也明白我。己知,而后人知。

一、前言

典型的基于比较建模/基于线程的蛋白质结构预测程序包括两个步骤:

查找与目标序列(即模板)相关的已知结构 基于模板构建全长模型

通常通过模型中等效原子与本构结构之间的均方根均方根偏差(RMSD)来评估所得全长模型的质量。但是,仅RMSD不足以估计初始模板的质量,因为对齐覆盖率在不同方法中可能会非常不同。显然,具有2ÅRMSD的模板到本地具有50%对齐覆盖率的模板并不能对于结构建模而言,它肯定比RMSD为3 Å但对准覆盖率为80%的模型更好。虽然模板对齐区域在前者中较好,因为对齐的残基较少,但生成的全长模型的质量可能较差。在开发有效的折叠识别算法期间,模板评估问题变得尤为重要,因为不同的序列-结构比对方案或参数可能会导致不同程度的比对置信度,并伴随着比对损失或增益。因此,一个单一的评估分数必须具有适当的对准精度(accuracy)和覆盖(coverage)范围之间的平衡,并且与最终全长模型的质量密切相关。同样重要的是,它必须区分随机预测和统计上重要的预测。

与上述问题高度相关,已经开发了一些有趣的评分功能,用于不同长度的两种结构的序列相关比较(与序列无关的结构比对算法相比)。例如,使用MaxSub, Siew和他的同事试图确定最大的子结构,其中两个结构叠加后的等效残基之间的距离小于某个阈值,例如3.5Å。由于MaxSub评分功能仅计算子结构中包含的那些残基,因此省略了子结构外部模板的空间信息。 例如,图1(a)显示了2sas_原始结构的MaxSub叠加和从线程程序PROSPECTOR_3获得的模板比对(94%的覆盖率,这是比对的残基数与靶标残留物数的比值),距离为3.5Å的残基对以红色突出显示(覆盖率50%),其余对齐的残基以黄色突出显示。 因此,图1(b)(原始对齐方式具有94%的覆盖率)和图1(c)(“对齐良好”的部分具有50%覆盖率)中的模板具有相同的MaxSub分数,该分数仅与集合相关红色残留物。但是,用于最终全长结构建模的模板的功能可能会显着不同。 例如,使用结构构建程序“模型”(MODELLER),图1(b)中的模板将生成一个全长模型,其RMSD来自本机为4.4Å, 而图1(c)中的模板产生的全长模型的RMSD值为12.5Å。通过进一步的说明,在PROSPECTOR_3比对的大型基准测试集中(见下文),有81个案例的MaxSub得分在0.4到0.45之间。由MODELLER建立的最终全长型号的RMSD值在3.5至35.7Å之间变化,标准偏差为4.8Å。因此,Maxsub得分与所得全长模型的质量之间没有明显的相关性。

在他们的GDT_TS评分功能中,Zemla和同事进一步确定了与几个不同阈值截止值相关的多个最大子结构(例如,最近的CASP5实验中使用的1、2、4和8 A)。 GDT_TS分数定义为具有四个不同距离阈值的子结构目标序列的平均覆盖率。 由于GDT_TS分数仅关注子结构的大小,因此模板/模型和本机结构的详细匹配信息会被部分遗漏(例如,与本机的偏差范围为4.1– 8AÂ的残基对评分功能的贡献相同 )。Zemla通过引入更多距离阈值进一步解决了这个问题。

与这些评分功能相关的另一个问题是评分大小对所评估蛋白质大小的依赖性。 换句话说,必须解决以下问题:一对随机相关结构的对应得分值将是多少。 在图2中,我们绘制了蛋白质数据库(PDB)中成对序列同一性小于30%的随机结构对的平均MaxSub和GDT得分与蛋白质长度的关系。 这些分数显示了蛋白质大小的幂律依赖性。 显然,给定的绝对得分(例如GDT 0.4或MaxSub 0.3)可以反映出针对400个残基的目标的显着比对,但它接近于PDB中针对40个残基的目标的随机选择。 这种明显的大小依赖性使得这些评分函数的绝对量级变得毫无意义。

当通过结构比对或RMSD计算来测量结构相似性时,许多作者还观察到了随机相关结构对对结构相似性的显着蛋白质大小依赖性。 为了消除对蛋白质大小的依赖性,Levitt和Gerstein和Ortiz及其同事根据其随机结构数据库的统计信息,将其结构比对得分转换为统计显着性得分,称为P值。 对于他们的相对RMSD,Betancourt和Skolnick用大小和回转半径相似的随机结构对中的平均RMSD对RMSD进行归一化。 在RMSD-100评分中,Carugo和Pongor将RMSD除以 $ 1+ \sqrt{N/100}$的因子,其中N代表蛋白质长度。

在本文中,我们扩展了上述方法,并开发了用于评估线程(threading)模板的新评分功能,我们将其称为模板建模(TM)得分。我们的目的之一是重新缩放结构建模错误,以便分数值与随机相关结构对的蛋白质大小无关。由于线程模板最重要的用途之一是简化最终结构建模,因此我们的第二个目标是使初始模板的分数与最终全长模型的质量紧密相关。当然,正如许多作者所指出的那样,RMSD并不是完整模型质量的完美指标。除了随机结构对的显着大小依赖性外,当模型的其他部分具有较大的预测误差时,RMSD无法识别预测良好的子结构。在文学中,还有许多其他测量蛋白质建模质量的方法。以MAMMOTH为例,Ortiz及其同事通过比较本地和全局相似性来评估结构。在此,作为许多可能的选择之一,我们使用相对于RMSD(rRMSD)的Z分数表示来对最终全长模型的质量进行评分。我们考虑了一个大分数的基准蛋白质组,该序列涵盖了所有少于200个残基的蛋白质的35%序列同一性的当前PDB。初始模板的TM得分以及Maxsub和GDT_TS分数是根据它们与广泛使用的蛋白质建模建立的基准目标中最终全长模型质量的相关性进行评估的软件模型。

二、材料和方法 2.1 评分功能

我们的评分功能是Levitt–Gerstein(LG)评分的一种变体,该分数最初用于与序列无关的结构比对:

其中LN是自然结构的长度,LT是对齐的残基到模板结构的长度,di是第i对对齐的残基之间的距离,d0是将匹配差异归一化的标度。 “最大值”表示最佳空间叠加后的最大值。 TM分数的值始终介于(0,1]之间,更好的模板具有较高的TM分数。MaxSub中也使用了类似的公式,但求和仅限于那些具有di< d0的残基。 在LiveBench中,Rychlewski和同事定义了一个3维分数,其功能与LG分数相似,但格式与LG-score不同;在S-score中,Cristobal和同事使用 未归一的LG得分,包括空位罚分。如下所示,模板比对中的缺口数与最终模型的质量无关。

在所有上述方法中,d0的值都是恒定的。 例如,MaxSub中的d0为3.5Å,S-SCORE和原始LG分数为d0= 5Å。如图2所示,这些处理导致分数对随机蛋白质对中蛋白质大小的幂律依赖性。 在图3中,我们从PDB计算出具有成对序列同一性



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有