第一范文网 - 专业文章范例文档资料分享平台

机器翻译研究综述

来源:用户分享 时间:2025/6/1 15:30:08 本文由loading 分享 下载这篇文档手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xxxxxxx或QQ:xxxxxx 处理(尽可能给您提供完整文档),感谢您的支持与谅解。

起来;在翻译一个新句子的时候,直接到语料库中查找,如果发现相同的句子,直接输出译文,否则交给人去翻译,但可以通过系统提供一个相似的句子作为参考译文。该方法的优缺点主要有: ? 翻译质量有保证;

? 随着使用时间的增长,匹配成功率逐步提高;

? 特别适用于重复率高的文本翻译,例如公司的产品说明书; ? 与语言无关,适用于各种语言对;

? 缺点是在刚开始使用时匹配成功率不高,无法给出较为合理的参考译文。

2.5.3 基于统计的机器翻译方法

如果说在机器翻译研究的初期,基于规则的方法是主流,吸引了大部分的研究人员的注意力的话,那现在就是基于统计方法大显身手的时候,目前基于规则的方法的研究依然在进行,只不过,更多的是作为统计机器翻译方法的补充方法。

其基本思想是为翻译过程建立模型,把翻译理解为搜索问题,即从所有可能的译文中选择概率最大的译文,而同为基于语料库方法的实例翻译方法则无需建立统计模型。在基于实例的翻译方法中,语言知识表现为实例本身,而统计机器翻译汇总,翻译知识表现为模型参数[7]。

基于统计方法的优点:

1) 无需人工编写规则,利用语料库直接训练得到机器翻译系统; 2) 系统开发周期短;

3) 只要有足够多的语料,很容易适应新的领域或者语种。 缺点是:

1) 时空开销大,进行模型参数的计算需要消耗较多的计算资源;

2) 数据稀疏问题严重,当语料缺乏或语料的覆盖面不够全的时候就容易出

现无法统计出需要的语言知识的情况;

3) 对语料库依赖严重,所有的工作都建立在语料库的基础上,好的语料库

可以产生较好的翻译结果,反之就会影响到翻译质量。 4) 有时需要规则的方法进行辅助

基于统计的机器翻译方法主要有以下3种: ? 基于词的统计机器翻译 ? 基于短语的机器翻译 ? 基于句法的统计机器翻译 下面就是这3种方法的详细介绍。

2.5.3.1 基于词的统计机器翻译

在基于统计的机器翻译方法中首先发展起来的就是基于词的机器翻译方法。IBM公司的Peter F. Brown 等人在1990年提出了基于统计的机器翻译方法,他们使用的就是基于词的机器翻译方法[10]。

他们为翻译建立了概率模型,在文献中他们使用的英语句子和法语句子之间的翻译作为实例。

假设人一个英语句子e和法语句子f,我们定义f翻译成e的概率为:

于是将f翻译成e的问题就变成求解问题:通过提出噪声信道模型将以上计算公式改写为

.

其中P(E)为语言模型,反应“E像一个英语句子”的程度:称为流利度。P(F|E)为翻译模型,反应“F像E的程度”:称为忠诚度。在研究中,采用N元语法模型计算P(E),在文献[11]中提出了5个基本的翻译模型用于计算P(F|E),进一步完善了基于词的机器翻译方法,也为统计机器翻译方法奠定了坚实的基础。

而自从IBM提出了统计机器翻译模型之后,一些研究人员也在做着改进的工作,由于对位模型是统计机器翻译方法中的关键模型,所以对对位模型的改进工作也受到很大的关注。Vogel在1996年提出了基于首序隐马尔可夫的词对位模型[12]是一项比较重要的改进工作,这种方法也常被称为首序对位模型[1]。在首序对位模型中,他们认为在一个句子内的所有的词并不是在各个位置上随意分布的,而是趋向于聚类的,即在一种语言的一个句子中临近的单词,在对应的另外一种语言中的单词同样会有这种临近关系。Vogel等人通过对一些欧洲语言对的分析,认为临近词在两种语言的句子内相对位置之间的差小于3[12]。

另外,王野翊在1998年提出了另外一种对位模型的改进方法——基于结构的对位模型[13]。由于IBM的模型完全没有考虑句子的结构信息,使得人们怀疑IBM的模型能否在句法结构相差加大的语言对中获得成功[14]。基于结构的对位模型的基本思想是,首先通过粗对齐模型对源语言和目标语言的短语进行对齐,然后利用细化的对齐模型对短语内的单词进行对齐。王野翊的实验表明,结构的引入不仅使统计机器翻译的正确率有所提高,同时还提高了整个系统的效率。

2.5.3.2 基于短语的机器翻译模型

基于词的翻译模型存在一定的问题[7]:

? 以词作为翻译的最小单位,对于一个词翻译到多个词的情况,都分解成一个

词到一个词的概率

? 只刻画了词到词的翻译概率,词翻译的时候没有考虑上下文,难以刻画一定

的搭配、习惯用法的解释

? 次序调整的复杂性,IBM模型中词序调整模型过于简单,很难刻画复杂的次

序调整规律

Daniel Marcu 在2002年提出了基于短语的联合概率翻译模型[15],而P. Koehn等人在2003年提出了短语翻译对的提取方法[16]。 其基本思想是[15]:

? 把训练语料库中所有对齐的短语机器翻译概率存储起来,作为一部带概率的

短语词典

? 这里的短语是任意连续的词串,不一定是一个独立的语言单位

? 翻译的时候将输入句子与短语词典进行匹配,选择最好的短语划分,将得到

的短语译文重新排序,得到最优的译文

Richard Zens提出了使用单调搜索算法[17]进行短语对齐的翻译方法。而从目前实现的系统看基于短语的翻译模型是目前最成功的翻译模型。基于短语的翻译模型在形式上类似于基于实例的翻译方法,区别在于引入了统计模型,在性能上远远超过基于实例的方法。关于对基于短语的机器翻译模型的进一步改进就进入到了另外一个方法中——基于句法的机器翻译模型。

而目前使用较为广泛的机器翻译系统有:(1)法老(Pharaoh)由Philip Kohnn开发,性能远高于基于词的系统;(2)丝路(SilkRoad)是一个基于短语的汉英统计机器翻译系统;(3)摩西(Moses)是最新的开源统计机器翻译工具,具有很高的性能和效率。

2.5.3.3 基于句法的机器翻译模型

尽管从实践的角度看,基于短语的机器翻译模型是最性能最好的,但是在方法理论层面上,该方法依然存在一些不足[7]:

a) 产生的句子不符合语法

短语的简单组合,没有句法结构 b) 无法表示不连续的短语搭配的翻译

召开了一次关于···的会议——hold a meeting on··· c) 无法进行长距离的语序调整

解决的方法就是在翻译的过程中引入句法结构。

基于句法的统计机器翻译模型包括形式上基于句法的模型和语言学上基于句法的模型:

1) 形式上基于句法的模型

不使用语言学方法获取句法结构,所有的句法结构直接从未标准的语料库中自动学习得到。该类方法中有两种具体方法:1、基于反向转换文法的翻译模型;2、基于层次短语的翻译模型。 2) 语言学上基于句法的模型

必须使用语言学知识才能获取句法结构,完成翻译过程。句法模型通常都是从句法树库中训练得到,常用的方法有:1、树到树的翻译模型;2、树到串的翻译模型。

2.5.3.3.1 基于反向转换文法的机器翻译模型

香港科技大学的吴德凯教授在1995年提出了基于反向转换文法的机器翻译模型(ITG, Inversion Transduction Grammar)[18]。从本质上讲,反向转换文法就是一个面向双语的上下文无关文法。该方法从词语对齐的双语语料库中自动抽取规则,因此该方法就是一个基于统计的机器翻译方法。需要对源语言句子进行概率化的句法分析过程,在句法分析完成的同时也生成了译文的句法结构和译文句子。

如果建立的语料库是平行语料库,文献[19]考虑了在平行语料库中分析的可能性,提出了随机转换文法(SITG, Stochastic Inversion Grammar)。通过一个给定

的双语句对,利用SITG和动态规划算法可以计算出该句对的最佳句法结构,像单语种的句法分析过程一样,通过计算分析结构的最大似然概率来实现结构歧义消解[19]。

吴德凯教授在文献[20]中将反向转换文法的方法进一步完善,使其能够很好的应用到机器翻译工作中。

文献[21]中提出了一个容许A*启发式搜索的同步解析方法来对反向转换文法的内容进行改进,该方法可以用更快的速度得到最佳对齐结果,同时也能在第一时间内得到最佳的翻译结果,并且在BLEU评测中取得在相同计算量的情况下更高的分数。文献[22]将SITG应用到基于短语的翻译方法,通过双语对齐语料和SITG方法完善词对齐方法,解决IBM模型中关于词对齐方法的缺陷,进而改进短语对齐的方法,使得基于短语对齐方法的机器翻译方法有更好的性能。

2.5.3.3.2 基于层次短语的翻译模型

UMD的David Chiang(蒋伟)在2005年提出了基于层次短语的翻译模型[23]。David Chiang在他的讲义[24]中提到:

? 传统的基于短语的翻译模型中,短语是平面的,不能嵌套 ? 在层次短语模型中,引入了嵌套的层次短语

? 采用平行上下文无关语法作为理论基础,只使用唯一的非终结符标记 ? 效果比传统的短语模型有很大的提高

该方法不破坏基于短语的翻译方法的优势,而是利用这些优势:因为短语有助于实现次序调整,类似于句法分析,在对源语言进行嵌套短语分析的同时,产生目标语言结构。

但是在文献[23]中还没有对具体的短语抽取方法进行详细的说明,而在基于层次短语的翻译模型中,短语翻译对的抽取是该方法的核心内容,所以David Chiang在文献[25]中提出了分层短语抽取算法,而Franz J. Och等人也提出了相应的短语抽取算法[26],使得该方法进一步完善,目前这两种方法是基于层次短语翻译模型最为常用的短语抽取方法。文献[27]中提出了一种基于多层过滤的短语对儿抽取方法,该方法能从当前句对儿中生成多层次短语,而不像在传统的方法中根据给定的词对齐结果只能生成固定模式的一种短语对儿,并且该方法不需要利用句法知识来对生成的短语对儿进行过滤。

另外还有大量的研究工作围绕一些特殊短语,包括命名实体、书名、电影名、专业术语等翻译对儿的提取[1]。

2.5.3.3.3 树到树的翻译模型

基于句法分析的翻译模型在近几年的统计翻译方法研究中得到了广泛的关注,树到树的翻译模型是基于句法的翻译模型中的一种。树到树的翻译模型即再源语言端和目标语言端都需要句法树,都需要进行详细的句法分析。

其基本过程是首先得到源语言句子的句法分析树,通过树到树的映射规则或转录机将源语言句子树转换成目标语言句子树。林德康在2004年提出了利用树到树的映射规则[28]实现翻译的方法,而Chris Quirk在2005年从转录机[29]的角度提出了树到树的方法。

搜索更多关于: 机器翻译研究综述 的文档
机器翻译研究综述.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.diyifanwen.net/c3rx632vgeb0h1lk029t9_2.html(转载请注明文章来源)
热门推荐
Copyright © 2012-2023 第一范文网 版权所有 免责声明 | 联系我们
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:xxxxxx 邮箱:xxxxxx@qq.com
渝ICP备2023013149号
Top