在blast中E值(E | 您所在的位置:网站首页 › de值ee值是什么意思 › 在blast中E值(E |
在 blast 中 E 值 (E-value) 是什么?
一般的,当我们使用 BLAST (是一种用于在数据库当寻找任何蛋白质或者基因序列与你的目 标序列一致的程序) 时, 我们会注意到这里有一个 E 值。 那么这个 E-value 是什么呢?怎么 来理解这个值呢?
下面是一个平常的 blast 结果,
Sequences producing significant alignments: Score (S) E gi|83574104|Moth_2374|sporulation –
prote… 202 2e-53 gi|83573446|Moth_1696|Sporulation –
prote… 112 1e-26 gi|83571874|Moth_0087|sporulation –
prote… 95 3e-21 gi|83573435|Moth_1685|Substrate-binding - …
27 1.0 后面有两个值,一个是 S 值,一个 E 值。可以发现,结果是依据 S 值的高低来显示的。
S 值表示两序列的同源性,分值越高表明它们之间相似的程度越大。
E 值就是 S 值可靠性的评价。 它表明在随机的情况下, 其它序列与目标序列相似度要大于这 条显示的序列的可能性。 所以它的分值越低越好。
E 值的计算:
E=Kmn(e -lambda*S ) 其中, K 和 lambda 与数据库和算法有关,是个常量; m 代表目标序列的长度, n 代表数据库 的大小, S 就是前面提到的 S 值。
通常来讲, 我们认为 E 值小于 10 -5 就是比较可性的 S 值结果。 我们可以想象, 相同的数据库, E=0.001 时如果有 1000 条都有机会 S 值比现在这个要高的话, 那么不 E 设置为 10 -6 时可能就会 只得到一条结果,就是 S 值最可靠的那个。
但是 E 值也不是万能的。它在以下几个情况下有局限性:
1. 当目标序列过小时, E 值会偏大,因为无法得到较高的 S 值。
2. 当两序列同源性虽然高,但有较大的 gap (空隙)时, S 值会下降。这个时候 gap scores 就非常有用。
3. 有些序列的非功能区有较低的随机性时,可能会造成两序列较高的同源性。
BLAST 试图去避免这些问题,但是还是应该自己有个清晰的概念。
E 值总结:
|
CopyRight 2018-2019 实验室设备网 版权所有 |