自然语言处理的评价指标 |
您所在的位置:网站首页 › 语言模型的评价指标是BLEU › 自然语言处理的评价指标 |
自然语言处理 机器翻译常用的评价度量: 客观评价指标 BLEUROUGEMETEORCIDEr 主观评价指标人工阅读,流畅度,相关度. 助盲度(评价生成语句对一个实力缺陷的人去理解其意思有多大的帮助) BLEU详细请参考机器翻译评价指标-BLEU 和 机器翻译自动评估-BLEU算法详解 和 机器翻译评价指标之BLEU详细计算过程 当然很多人对BLEU持保留意见 请参考: NLP 中评价文本输出都有哪些方法?为什么要小心使用 BLEU? BLEU(Bilingual Evaluation understudy) 是一种流行的机器翻译评价指标,一种基于精度的相似度量方法, 用于分析候选译文和参考译文中n元组共同出现的程度. 由IBM于2002年提出. 对于一个待翻译句子, 候选译文可以表示为Ci 而对应的一组参考译文可以表示为Si={s_i1, s_i2,.}, n-gram表示n个单词长度的词组集合,令Wk表示第k组可能的n-grams, hk(ci)表示Wk在候选译文Ci中出现的额次数, hk(sij)表示Wk在参考译文sij中出现的次数,BLEU则按下式计算对应语句语料库层面上的重合精度: C P n ( C , S ) = ∑ i ∑ k m i n ( h k ( c i ) , m a x j h k ( s i j ) ) / ∑ i ∑ k h k ( c i ) CP_n(C,S) = \sum_i\sum_k min(h_k(c_i), max_j h_k(s_{ij})) / \sum_i\sum_k h_k(c_i) CPn(C,S)=i∑k∑min(hk(ci),maxjhk(sij))/i∑k∑hk(ci) 其中k表示了可能存在的n-gram序号,容易看出CPn(C,S)是一个精确度度量, 但因为普通的CPn值计算并不能评价翻译的完整性,但是这个属性对于评价翻译的质量不可或缺,因此研究者们在最后的BLEU_N值之前加入BP惩罚因子. BP惩罚因子(Brevity Penalty),如下,其中l_c 表示候选译文Ci的长度,l_s表示参考译文Sij的有效长度(当存在多个参考译文时, 选取和l_c最接近的长度), b ( C , S ) = { 1 , l c > l s e 1 − l s / l c , l c < = l s b(C,S)=\begin{cases} 1, & l_c > l_s\\ e^{1-l_s/l_c}, & l_c |
今日新闻 |
点击排行 |
|
推荐新闻 |
图片新闻 |
|
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭 |