|
机器翻译的回顾与展望
发布时间: 2004-9-27 15:29:00 文章作者:王宜 |
|
自 20 世纪 30 年代初法国科学家 G·B·阿尔楚尼提出机器翻译的设想至今,机器翻译经历了"两次高潮,两次低落"。计算机的发展水平,人们对自然语言理解的认识水平,以及人们对机器翻译的需求水平,是机器翻译发展过程中的三个决定因素。
一、机器翻译的发展
20 世纪 50 年代初,计算机的出现和冷战时期情报翻译的需求,促成了机器翻译历史上的第一次研究热潮,英国工程师布斯(A.D.Booth)和美国工程师韦弗(W.Weaver)在讨论电子计算机的应用范围时,就提出了利用计算机进行语言自动翻译的想法。在学术界的积极倡导和企业的大力支持下,机器翻译研究一时兴盛起来。1954年,美国乔治敦大学在国际商用机器公司(IBM公司)的协同下,进行了世界上第一次机器翻译试验,把几个简单的俄语句子翻译成英语,接着,苏联、英国、日本也进行了机器翻译试验,机器翻译出现热潮。早期的机器翻译大多受到韦弗的影响,把机器翻译看成一种机械的解读密码的过程,而没有没有意识到机器翻译在词法分析、句法分析以及语义分析等方面的复杂性。由于对自然语言认识水平低,机器翻译的质量很差。1966年,在ALPAC报告的影响下,机器翻译研究走向低潮。
从 60 年代中期到 80 年代初,计算语言学和人工智能获得了长足进步,人们在利用计算机处理自然语言方面有了很大进步,这为下一个高潮期的到来奠定了基础。作为智能信息处理的一个重要领域,机器翻译重新受到各国的重视。许多发达国家相继投入了巨额资金研究和开发机器翻译,形成机器翻译的第二次高潮。欧共体的 EURORA 计划和 DLT 系统,日本的 Mu 系统和 ODA 计划,以及美国 SYSTRAN 的机器翻译研究等,都是这个时期著名的机器翻译研究项目。在重视语言知识的表示机制的同时,人们开始着手机器翻译策略的研究。除了传统的基于规则的翻译方法,基于实例的机器翻译、基于统计的机器翻译等新的机器翻译方ú欢嫌肯帧5?90 年代初,再一次因翻译效果不如人意而落入低潮。
上世纪 90 年代中期以来,随着互联网的迅猛发展,经济全球化时代的到来,人们对机器翻译软件的需求日益增长。为了让国外的用户更容易接受自己的产品,许多公司机构都希望把各种用户文档翻译成当地语言。电子商务的逐步广泛开展,以及使用不同语言的人们交往的不断增多,使得不同国家的人们在经济和社会生活中的交流日益广泛。而语言不通是阻碍使用不同语言的人们交流的一个瓶颈,机器翻译则成为打破这个瓶颈的一个重要途径,因此人们再一次对机器翻译寄予厚望。
二、机器翻译方法
目前,与机器翻译相关的产品大体可以归为如下两类,一是全文自动翻译,二是计算机辅助翻译。这些软件大多采用了以下的方法:
模拟人脑的翻译处理过程,即先对原文进行分析、理解,弄清原文表达的意思,生成译文。原文表达的意义与分析的深度有关,虽然分析越深,对原文表达内容的把握也就越丰富,生成的质量就越高,但随着分析深度的增强,难度增强,分析结果的可靠度下降。在对自然语言的认识尚未取得突破之前,现有的翻译系统往往采取折衷的办法,即主要依靠句法分析,有限使用语义分析,辅之以语料标注和翻译库。这些系统的译文可信度一般徘徊在 70% 以下。
将不同语言的字词都看作符号,根据已经存在的大规模原译文语料库,计算出不同符号字符串之间存在翻译对应关系的可能性。在翻译处理时,将最大可能对应的字符串作为原文字串的翻译结果。该方法在一定程度上避免了知识库构建的庞大工作量,建立的数学模型可以通过细化翻译单位的颗粒度和丰富环境参数提高翻译质量,但是语料库的合理建设和计算模型的精确建立也是十分困难的。该方法一般只是作为翻译的辅助手段而存在。
在不断积累的正确翻译知识的基础上。对于新的翻译任务,首先在建立的记忆库中寻找。若以前翻译过,直接得到高质量的翻译结果。对于某些系统而言,还可以在准确查找失败后找一个最相近的语句的译文作为构造基础,对差异进行改动,从而得到译文。如果语言是一个可以列举的有限集合,这类方法的效果是显然的,但因为语言生成的无限性,该类方法对于通用机器翻译系统的作用是有限的。此外,这一方法也无法解决相同原文对应不同译文的难题,通常作为辅助手段存在。
机器翻译的主流产品,即全文的机器翻译,与过去相比没有多少提高。而机器翻译的整体水平主要是由全文机器翻译的来衡量的。前两次机器翻译的高潮,研究和探索机器翻译方法和开发机器翻译系统并重,参加者以研究机构为主体。他们在以前的理论和技术积累的基础上,投入大量精力研究和开发新一代的机器翻译系统。与之形成对比的是,现在的机器翻译热是强大的市场需求的产物,使用的仍然是以前的语言学理论,因此其翻译质量没有获得实质性的提高。
三、机器翻译技术的展望
作为自然语言处理的一个应用领域,机器翻译研究能否有所突破的关键在于对语言知识体系的认知和重构。计算机的自然语言理解处理首先需要建立一个定位适当的模拟大脑语言感知过程的理论模式。没有这样的理论模式,就不会有与大脑语言感知过程相类似的理解处理总体方案;没有这样的理解处理方案,就不会有语言信息深层处理技术的突破。仅纠缠于语法、逻辑和统计的传统自然语言理解理论、方法与技术,虽然在语言表层和浅层进行了大量的研究,但并未在语言感知过程这一关键问题上做出实质性的工作或取得实质性的进展。这就是为什么 20 年来机器翻译的正确率始终徘徊于 70% 以下的根本原因。21 世纪的中国机器翻译研究将呈现以下几个趋势:
机器翻译的研究和开发仍将是 21 世纪自然语言处理的一个重要课题。它涉及人工智能、语言学、计算机科学和认知科学等多学科领域。一个成熟的翻译系统不太可能一蹴而就。然而,千里之行,始于足下,不断的探索和积累定能帮助我们早日实现这一目标 |

