干货 您所在的位置:网站首页 亲和力定义及物理意义 干货

干货

2023-07-18 16:20| 来源: 网络整理| 查看: 265

其中,能量由范德华力项,静电力项,氢键项,去溶剂化项组成。

常见的基于物理的打分函数

COMBINE, GoldScore,MedusaScore,Linear Interaction Energy (LIE),Linear Response Approximation (LRA),MM-PBSA/GBSA。

优点

能够很好利用现代力场开发,量化计算,溶剂化模型等理论模拟计算方法的研究进展。

缺点

由于构成能量函数的每个单项的内在偏差,实际计算的结果可能会远远大于实验观察值的偏差(实验观察值波动的典型范围在3~18kcal/mol),需要用经验参数拟合实验观察值与最后的计算结果从而得到最终函数形式。

基于回归(regression-based)的打分函数

按传统划分此类打分函数是基于经验的打分函数。

能量函数推导原理

经验打分函数通过求和一些权重化的独立项的能量贡献来计算蛋白质-配体结合的结合力,每个项代表蛋白质-配体结合中一个重要的能量因子。基于经验的打分函数的每一个独立项通过回归的方法进行权重因子(在函数的每个独立项前设置参数)的计算。

下面以ChemScore的表达式为例子作进一步解释:

其中,“S”代表rewardingscores,分别对应氢键,金属离子配位,亲脂的rewarding scores。“P”代表penalty rewards,分别对应冻结旋转键,内部应变能,空间碰撞。如果需要共价对接或限制对接,可能会受到额外处罚。

常见的基于回归的打分函数

PLP, ChemScore, X-Score,GlideScore。

优点

基于经验的打分函数在第一地点(配体-靶标蛋白结合点)进行校准,从拟合的角度看,拟合操作本身所保留信息相对于其他打分函数会更加完整。另外与基于物理的打分函数的单一项对比,相应的基于经验的单一项的物理意义更加直观(比如基于物理的打分函数的氢键项是通过二体或多体力场函数来表达,而基于经验的氢键项则没有这些表达式。)。采用直观函数形式的结果实际上是双刃的。一方面,它是一个技术优势,因为它便于实现任何合理的想法。这样一个例子是GlideScore-XP,它可以说是目前最复杂的经验评分函数。GlideScore-XP的设计强调通过奖励或惩罚某些相互作用模式来识别蛋白质结合位点的多样性。特别感兴趣的是将氢键分为中性-中性、中性-带电和带电类型,除了考虑蛋白质和配体之间的疏水接触外,还使用单独术语解释“疏水外壳”。添加或删除单个术语的便利性也使得为某些分子系统开发定制的评分函数以获得更好的性能成为可能。

缺点

1 某些相互作用模式的缺失。采用直观的函数形式增加了这些方法的经验性质。经验评分函数仅包括常见的蛋白质-配体相互作用模式。不太常见的相互作用模式,尽管很强,而且特殊的,如阳离子-π相互作用,通常被忽略,因为它们在回归分析中并不显著。或者,如果某个因素不能被人以直接的方式解释,例如熵因子,它也不可能被包括在内。因此,在经验评分函数的框架内建立对蛋白质-配体结合中所有可能因素的全面和一致的描述是相当困难的。

2 因其是基于对实验数据的直接拟合,所以数据集本身存在的一些误差,比如不同方法、不同来源的实验值造成的误差,对结果的影响会更加明显。

注意

经验打分函数和基于物理的方法之间的界限往往不像人们想象的那样明显。事实上,两者都将结合自由能的蛋白质-配体分解成单独的能量项。此外,基于物理的方法可以引入经验参数来调和其能量项的贡献,就像经验打分函数一样。然而,将经验打分函数与基于物理的方法分开来讨论仍然是有帮助的。它们之间的主要区别在于,基于物理的方法从其他成熟的模型中借用了完整的理论框架,包括能量函数形式和相关参数;而经验打分函数通常采用灵活、直观的函数形式,是从头设计组成的。

基于知识(knowledge-based)的打分函数

也有人将此类打分函数称为平均力势(potential of mean force)打分函数。

能量函数推导原理

基于知识打分函数通过求和蛋白质-配体对统计势函数来计算蛋白质-配体结合的结合力(fitness),而距离依赖的势函数ωij(r)由反玻尔兹曼分析推导。

其中ρij(r)是在距离r处,原子对i-j的数值密度,ρij*是相同原子对在原子间相互作用假定为零的参考状态下的数值密度。通过这种方法,假设成对接触的发生频率是其对蛋白质-配体结合的能量贡献的一种度量。如果特定的成对接触比参考状态(即随机分布)下更频繁发生,,则表示给定原子对之间的能量是有利的相互作用;如果不经常发生,则表示不利的相互作用。为了获得所需的成对电位,标准方法是使用一组来自PDB的蛋白质-配体复合结构作为训练集,即“知识库”。蛋白质侧和配体侧的原子根据其分子环境被分类为许多简并原子类型。然后,根据在公式4的训练集中观察到的原子对的出现频率,推导出每个可能的原子对的距离依赖势。

常见的基于知识的打分函数

Muegge’s PMF, DrugScore,IT-Score,KECSA。

优点

作为一个起源于液体统计力学分析的基本思想,逆玻尔兹曼分析可以有效地将原子间距离的柱状图转换为平均力势。其优点是:1 概念和计算简单。2 不受实验数据约束。

缺点

蛋白质和配体都不是液体中原子的随机组合。相反,分子中的原子被共价键按一定的顺序约束。因此,式4中考虑的参考状态不符合真实参考状态的定义。由于同样的原因,不同原子对的出现并不是完全独立的。一些分析指出,在实际的蛋白质-配体复合结构中,某些原子对的出现频率不应假定为Boltzmann分布[ 7-8]。 尽管由式4得出的统计势函数通常被认为是平均力势函数的近似值。 这一解释实际上并不可靠。

基于描述符(descriptor-based)的打分函数

也有人将此类打分函数称为机器学习(Machine Learning)打分函数。

能量函数推导原理

首先构建具有一定物理意义(虽然有一定的模糊性)的描述符,比如描述特殊相互作用的描述符(静电相互作用、氢键或芳香堆叠)、几何描述符(表面或形状特性)和传统的基于配体的描述符(分子量、可旋转单键数等)等,然后建立机器学习计算模型,继而由机器学习算法推导能量函数,通常函数形式为非线性的灵活多变的表达式,没有固定的形式。

常见的基于描述符的打分函数

NNScore, RF-Score, SFCscore,and ID-Score。

优点

与上面的其他打分函数相比,基于描述符(机器学习)的打分函数所计算的结果与实验数据的相关性更好。

缺点

当前大部分基于机器学习的打分函数开发者将此模型作为黑匣子来使用,打分函数的形式不具有明显可解释的物理意义,没有明确或者充分考虑溶剂效应,熵效应,多体效应。

附:CASF-2016采用的主流打分函数分类汇总

图 1 CASF-2016采用的主流打分函数分类汇总[9]

评价打分函数的Metrics

打分能力(Scoring Power)

不同配体,不同靶标蛋白。打分能力通过计算打分函数产生的binding score与实验binding data(通常是logKa)的线性相关性来进行评估。常用的定量化indicator是Pearson’s correlation coefficient(R),Standard Deviation(SD)可以作为辅助的indicator。

其中xi 是第i个复合物根据打分函数计算出来的结合力,yi 是第i个复合物的实验结合力, a是回归线的截距,b是回归线的斜率。

排序能力(Ranking Power)

不同配体,同一靶标蛋白。在给定不同配体的精确binding pose的前提下,对同一个靶标蛋白结合不同配体进行排序以找出最佳的配体-蛋白组合。常用的定量化indicators有Spearman’s rank correlationcoefficient(ρ),Kendall’s rankcorrelation coefficient(τ),PredictiveIndex(PI)。

其中,rxi是第i个复合物根据打分函数计算得到的排序,yi是第i个复合物根据实验亲和力得到的排序,n是排序的总样本数。

其中,Pconcord 代表排序一致的对数,Pdiscord代表排序不一致的对数,一对用(xi ,yi)表示,如果x的排序与y的排序一致(比如xi >x j 且 yi >yj, or x i



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

      专题文章
        CopyRight 2018-2019 实验室设备网 版权所有