The Mathematics of Statistical Machine Translation: Parameter Estimation

2023-11-12 21:03| 来源: 网络整理| 查看: 265

这篇论文描述了一系列五个统计模型的翻译过程，并给出了通过一些互译的句对来估计这些模型的参数的算法。而且这些互译的句对是词对齐的。

对于任何给定的这样的句对，我们的每个模型都为每个可能的字词对齐序列分配一个概率。我们给出了寻找这些排列中最可能的排列的算法。该算法虽然不是最优的(指不一定会达到最好的效果，也就是次优)，但可以很好地解释句子对中的逐字关系。我们有大量来自加拿大议会会议记录的法语和英语数据。因此，我们的工作仅限于这两种语言; 但我们觉得，因为我们的算法只有很少的语言相关内容，所以它们在其他语言对上也能很好地工作。同样，由于我们的算法的语言内容极少，我们也觉得，有理由认为，任何足够大的双语语料库中都存在逐字逐句的语料。

1.引入

机器可处理的双语文本越来越多，激发了人们从这些文本中提取有语言价值信息的兴趣。例如，最近的一些论文处理了从平行语料库自动获得对齐句对的问题(Warwick和Russell 1990;Brown,Lai,and Mercer 1991;Gale and Church 1991b;Kay 1991)。Brown et al. (1990) assert和Brown, Lai, and Mercer(1991)以及Gale and Church (1991b)都表明，在不检查句子所包含的单词的情况下，可以获得对齐的句对。Brown、Lai和Mercer的算法基于句子包含的单词数量，而Gale和Church的算法基于句子包含的字符数量。从这两种工作中可以学到的经验是，简单的统计方法可以令人惊讶地成功地实现有趣的语言目标。在这里，我们解决了该工作的一个自然扩展:在对齐的句子中匹配单词。

在最近的论文中，Brown等人(1988,1990)提出了一种统计方法来实现从法语到英语的机器翻译。在1990的论文工作中,他们概括了一个算法，用来估算一个英语单词被转化为任何特定法文单词的可能性，并且会把概率展示出来。估算完概率后,这些概率可以用于一个翻译过程中用的统计模型，把英语句子和法语句子中的单词对齐(见他们论文中的图3)。通过这种方法得到的词对齐句对给双语词典编撰和机器翻译提供了很有价值的资源。

第2节是我们的统计机器翻译方法的一个大纲。根据这个大纲，我们开发了一些术语和符号来描述成对句子的逐词对齐。在第4节中，我们描述了翻译过程的一系列模型，并对从数据估计参数的算法进行了非正式的讨论。我们写第四部分有两个目的:第一，为感兴趣的读者提供足够的细节来重现我们的结果，第二，保持大学微积分水平的数学。讨论中一些比较困难的部分被推迟到附录中。在第5节中，我们从加拿大Hansard数据(Brown, Lai, and Mercer 1991)中收集了大量对齐的句子对，并通过估计这些模型的参数获得了结果。对于一些英语单词，我们展示了翻译概率，它为统计方法从大型语料库中提取语言有趣的相关性提供了令人信服的证据。我们还展示了几个句子的自动派生字词对齐

在第6节中，我们讨论了我们的模型的一些缺点，并提出了一些修改方案以解决其中的一些问题。

在最后一节中，我们讨论了我们工作的意义以及将其扩展到其他语言对的可能性。

最后，论文包含了两个附录：一个用来总结符号，另一个用来收集我们所描述的各种模型的公式，并填补我们开发过程中偶尔出现的坑。

2.统计翻译

1949年，华伦·韦弗(Warren Weaver)提出将统计和密码分析技术应用到使用计算机将文本从一种自然语言翻译成另一种自然语言的问题上(发表于韦弗1955年版)。由于各种哲学和理论上的原因，这方面的努力很快就被放弃了，但在当时最先进的计算机与今天的数字手表同台的时代，任何统计方法都注定要面临计算能力的匮乏。今天，统计方法在机器翻译研究中的富有成果的应用，对于任何一个拥有装备良好的工作站的人来说都是可以计算的。

一串英语单词，e，可以用许多不同的方法翻译成一串法语单词。通常，了解e出现的广义语境可能有助于筛选可接受的法语翻译，但即便如此，许多可接受的翻译会被剩下; 他们之间的选择很大程度上取决于个人品味。在统计翻译中，我们认为每一个法语字符串f，都是e的可能翻译。我们为每一对字符串**(e,f)分配一个数字Pr(f|e)，我们将其解释为，当遇到e时，译者产生f作为其译文的概率。我们进一步认为，当一个以法语为母语的人创造出一串法语单词时，他实际上已经构思出了一串英语单词，并在心里进行了翻译。给定一个法语字符串f**，我们的翻译系统的工作就是找到母语为英语的人在生成f时想到的字符串e。我们通过选择Pr(e|f)最大的英语字符串e来减少出错的机会。通过贝叶斯定理，我们可以写出 P r ( e ∣ f ) = P r ( e ) P r ( f ∣ e ) P r ( f ) Pr(e|f)=\frac{Pr(e)Pr(f|e)}{Pr(f)} Pr(e∣f)=Pr(f)Pr(e)Pr(f∣e) 既然分母是和e独立的，那么找到最大的分子也就是找到一个e可以满足 arg ⁡ max ⁡ e P r ( e ) P r ( f ∣ e ) ( 2 ) \mathop {\arg\max}_{e} Pr(e)Pr(f|e) \qquad\qquad (2) argmaxePr(e)Pr(f∣e)(2)

作为人类将一段话从法语翻译成英语的过程的一种表现，这个等式充其量只是一种幻想。很难想象有人会在脑海中快速浏览所有英语短文的列表，计算短文的先验概率**Pr(e)和给定英语短文的法语短文的条件概率Pr(f|e)**的乘积。相反，有一种压倒一切的直觉呼吁，认为一个译者首先要理解法语，然后用英语表达他已经掌握的意思。在构建机器翻译系统时，许多人都受到了这一直觉的指导。

另一方面，仅仅从正式的观点来看，**(2)式是完全充分的。条件分布Pr(f|e)是一个庞大的表，它将0到1之间的实数与法语段落和英语段落的每一个可能配对联系起来。只要对这个配对进行适当的选择，就可以实现任意高质量的翻译。当然，通过逐个检查法语和英语文章来构建Pr(f|e)是不可能的。即使我们把注意力限制在一部典型小说的段落上，这样的段落也太多了。但这只是一个实践问题，不是原则上的问题。因此，统计翻译的本质问题不是一个哲学问题，而是一个经验问题:我们是否能够构造出足够好的分布Pr(e)和Pr(f|e)**的近似值，以达到可接受的翻译质量?

式(2)总结了统计翻译实践中提出的三个计算挑战:估计语言模型概率，Pr(e);翻译模型概率估计，Pr(f|e);并设计一个有效的和快速的次优搜索英语字符串的方法，使**Pr(e)pr(f|e)**最大化。我们称这些问题为语言建模问题、翻译建模问题和搜索问题。

机器翻译的语言建模问题与语音识别的问题本质上是相同的，并且已经在那篇文章的的其他地方进行了处理(例如，参见Maltese和Mancini[1992]的最新论文及其参考文献)。我们希望在以后的论文中处理上面三个问题中的搜索问题。本文主要研究翻译建模问题。然而，在我们转向这个问题之前，我们应该解决一个可能引起一些读者关注的问题:为什么我们评估Pr(e)和Pr(f|e)而不是直接评估Pr(e|f) ?我们真正感兴趣的是后一种可能性。我们不应该用这种直接的方法把我们的问题（指搜索、语言建模、翻译建模）从3个减少到2个吗?（这样做可以把语言模型概率给省略掉，因为只要把f和e的翻译概率统统罗列出来，再找到一个足够快速的搜索方法，就可以实现这样的过程）如果我们可以充分估计Pr(f|e)，为什么我们不能把整个过程反过来来估计**Pr(e|f)**呢?

为了明白这个观点，想象我们把法语和英语串分成了两部分，一部分是结构良好的，另一部分是不合规范的。这并不是一个很精确的划分观念，意会就好。（法语举例我就删了，相信大家也看不懂）比如好的：I live in a house,甚至Colorless green ideas sleep furiously（这句话结构是良好的，但是句义有问题（没有颜色的绿色构想凶猛的睡觉。。。），所以原文用了甚至）；坏的：I in live house。当我们把一个法语串翻译成英文的时候，我们可以想象从一个结构良好的法语串像从弹簧上弹射到一个结构良好的英文串海洋里面，并且希望能在英文串海洋里面不错的一个串上着陆。因此，重要的是，我们的Pr(e|f)模型尽可能地将其概率集中在格式良好的英语字符串上。但是我们的模型Pr(f|e)把它的概率集中在结构良好的法语串上并不重要。对于所有形式良好的法语串，用同样的倍数，把概率分散到形式不佳的法语串上，对我们的翻译没有影响:关于函数f(x)最大化的论证也使得任意正常数c的*cf(x)*最大化。正如我们将在下面看到的，我们的翻译模型是浪费的，到处都是概率，大部分概率都浪费在结构不好的法语字符串上。事实上，正如我们在4.5节中所讨论的，我们的两个模型在完全不是字符串的事情上浪费了大量的概率，例如，{有几个不同的第二个单词，但没有第一个单词。【several different second words but no first word.不明白什么意思，翻不动了】} 如果我们将这些模型中的一个直接转到模型Pr(e|f)，这个模型只有很小的概率可以在结构良好的英语串中发现一个合适的串。

式(2)中的两个因子相互配合。对于英语字符串，无论其结构是好是坏，其翻译模型的概率都是很大的，这些字符串中有必要的单词，并且在大致正确的位置解释法语。对于格式良好的英语字符串，无论其与法语的连接如何，其语言模型概率都很大。综合起来，它们产生了一个很大的可能性，即结构良好的英语字符串可以很好地解释法语。我们不能简单地通过改变我们的翻译模型来实现这一点。

3.对齐

做一点定义：

translation：一对互相翻译的句对。用(法语串|英语串)表示，当字符串是句子结尾时，我们通常会省略结束符，除非它是问号或感叹号。

例子：(Qu’aurions-nous pu faire?|What could we have done?)

Brown et al.(1990)介绍一对字符串之间的对齐的概念，作为一个对象，指示法语字符串中的每个单词在英语字符串中的起源单词。图1以图形方式显示了从一些英语单词到一些法语单词的连线，我们称之为连接。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ev5XHk8x-1596863429720)(C:%5CUsers%5C95436%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5Cimage-20200517120301424.png)] 图1中的对齐有7个连接:(The, Le)， (program, programme)，等等。按照Brown et.al的符号，我们将这种对齐方式写成*(Le programme a ete mis en application |And the(1) program(2) has(3) been(4)implemented(5,6,7))*英文单词后面的数字列表显示了法语单词字符串中与之连接的单词的位置。因为这里And与任何法语单词都没有关联，所以后面没有数字列表。我们认为每一个排列都有一定的概率是正确的，因此我们发现(Le方案a ete mis en应用和(1、2、3、4、5、6、7)方案已经实现)完全可以接受。当然，我们期望它的可能性比图1中所示的对齐要小得多。

【本文地址】

公司简介

联系我们