当前位置:北京金橄榄翻译公司>>翻译知识>>正文

翻译的经验的理性是机器翻译无法取代的

日期:2010-2-27 | 关键词:机器翻译北京翻译公司 | 分类: 翻译知识

“规则”先行1954年,世界上第一台机器翻译系统IBM701诞生,它只有250条俄语词汇、6条基本语法规则以及49个俄语翻译例句,通过直接翻译的方法,完成了世界上第一次机器翻译实验。所谓直译法,即把源语言中的单词或句子直接替换成相应目标语的单词或句子,必要时对词序进行适当的调整。直接法一般是针对特殊的语言对来设计,系统移植比较困难,缺乏通用性。典型直接法翻译系统是Systran系统,是美国在乔治敦大学机器翻译系统的基础上进一步开发的,设计之初只能完成从俄文到英文的翻译,后来则可以完成多语种之间的互译。这个系统不仅对后来机器翻译的发展有很大影响,目前仍有不少翻译系统采用直接法。在直译方法逐步改进的同时,基于转换的方法也相伴而生。所谓基于转换,就是对句子结构进行层次分析,在词对词翻译的基础上,根据不同语言的不同规则生成相应的译文。这种方法必需要三部字典:源语字典、源语—目标语双语字典和目标语字典。最直观的例子就是中英文互译,中国人的名字是先姓后名,美国人的名字是先名后姓;中文句子是主谓宾加名词短语,英文句子是主谓宾加从句。诸如此类的不同规则,在转换法的翻译过程中,都需要通过三部字典中的特定描述才能顺利转化,否则翻译的结果不敢想象。另外还有一种方法是中间语法,它是把源语言经过分析转换成对所有语言都适合的一种句法—语义表示,由此转换成译语。也就是说,基于这种方法的翻译系统主要有两个阶段:从源语言到中间语言,再从中间语言到目标语言。这种方法有一个典型的好处:经济实惠。当需要多种语言翻译的时候,可以直接通过中间语言翻译到目标语言,而不需要每一种语言都设立一套规则程序。假如有6种语言需要彼此相互翻译,采用基于转换的方法需要30个语言转换模块,反正一对语言一个模块。而采用中间语法的系统只需要12个模块。但是,目前基于中间语法的实用系统比较少,因为这种方法的技术难度比较大。需要指出的是,以上三种方法是机器翻译传统的理性主义方法,统称为基于规则的方法。机器翻译发展历史的前面三十多年里,这些方法在自然语言处理及机器翻译的应用中发挥了重要的作用。目前,大多数实用型机器翻译系统都是以基于规则为主。整体而言,基于规则方法的翻译系统的特点是覆盖面宽,但译文质量不高。


“统计”兴起随着九十年代互联网的广泛使用,整个社会的信息呈现爆炸趋势,机器翻译的需求一下子凸显起来。与此同时,人们对于提高机器翻译的质量和速度有了新的想法。基于“统计”的方法类别因此产生。实际上,1949年就有人提出了基于统计的机器翻译方法,后来由于乔姆斯基等人的批判,这种方法很快就被放弃了。批判的理由主要是一点:语言是无限的,基于经验主义的统计描述无法满足语言的实际要求。另外,限于当时的计算机速度,统计的价值也无从谈起。相对简单的一种是基于实例的方法,其基本思想由日本的长尾真教授提出来。他探讨了外语初学者的基本模式,发现初学外语的人总是记住最基本的英语句子和对应的日本句子,而后做替换练习。对于机器翻译系统而言,系统的主要知识源就是双语对照的实例库,不需要什么字典、语法规则库之类的东西,核心的问题就是通过最大限度的统计,得出双语对照实例库。理论上,实例库越大,翻译精度越高。基于实例的方法初推之时,得到很多人的推崇。一段时候后,该方法的问题出现了。由于语言的实际需求量非常庞大,基于该方法的翻译系统往往只有限定在比较窄的或者专业的领域时,效果才能达到使用要求。另外相对困难的一种则是基于统计的方法。该方法通过一系列异常繁杂的算法,计算后得出一个翻译模型,然后通过对翻译模型的解码实现翻译过程。通俗点说,就是对一种语言进行数学统计,哪两个词在一起使用的次数多,哪两个句子的搭配可能性大,按照概率计算,最终统计出一个统计模型,也叫语料库。翻译的时候,拿着要翻译的句子直接对照语料库检索即可。大家熟知的Google在线翻译,背后的技术就是采用的基于统计方法。其基本的运行原理是通过搜索大量的双语网页内容,将其作为资料库,然后由电脑自动选取最常见的词与词的对应,最后给出翻译结果。尽管Google的技术如此先进,但它还是经常闹出各种“翻译笑话”。

各有长短 混合搭配

应该说,无论是直译法、转换法、中间语法,还是实例法和统计法,都是各有长短。作为理性主义范畴,前面三者属于基于规则的方法。它的典型缺点是技术粒度太大,即计算机语言无法完全描述实际语言组合中,无限丰富的规则。而作为经验主义范畴,后面二者属于基于统计的方法,其典型缺点则是数据稀疏。也就是说,任何高性能的计算机都无法统计出所有短语的使用情况,由于语言的无限总是存在疏漏的。随着两种方法的各自缺陷逐步为人们所认识,自上个世纪90年代以来,机器翻译系统的实现越来越多地集成了不同的方法和策略,单纯使用一种方法实现一个机器翻译系统的方式越来越少了。比如尼伦伯格提出了多引擎概念,即系统中集成多种机器翻译的实现方法,每种方法构成的翻译模块作为一个引擎,所以这种机制被称为多引擎机器翻译系统。

 


本文出自:北京金橄榄翻译公司
本文链接:http://www.bbsren.cn/jiqifanyi.html