机器翻译是怎么脱胎换骨的?梅宏院士为你独家揭秘!

         十年前网民们还在吐槽机器翻译软件还没有小学生翻译得好。当时,一个广为流传的段子是:

“How are you(你好吗)?会被翻译成怎么是你?”,

How old are you(你多大了)?会被翻译成怎么老是你

一笑之余,机器翻译似乎被等同成了不靠谱的翻译。

2018年,机器汉英翻译已经能够达到6级水平10年间,机器翻译技术的背后到底有着怎样翻天覆地的变化呢?

来看我们的独家揭秘吧!

中国科学院院士、全国信息技术标准化委员会大数据标准工作组组长、知名战略科学家梅宏,走进《中国经济大讲堂》,用通俗易懂的语言带你领略机器翻译技术的前世今生: 

QQ图片20180315173950.jpg

梅宏:大家知道,机器翻译是很难的一件事情,我们人工翻译都不是那么容易。过去我们做机器翻译都是怎么做的呢?

手工编写规则的时代

我们先搞文法,基于规则的机器翻译,通过人总结编写规则,然后构造一个文法。原始的语言输入之后,通过双语词典的查询、调整,最后输出一个结果。但是由于我们自然语言天生的二义性,翻译的规则是非常复杂的,手工编写规根本做不到,所以这个翻译质量一直上不去。

文法规则要覆盖20%以上的真实语句就要数万条规则,而语义规则,自然语言是“上下文相关文法”,较之文法规则,语义规则更要复杂得多,如果没有这个关联,你怎么理解?

大家可以看这个例子,这个是我们最典型的:

QQ图片20180315174021.jpg

一堆的意思”,这个“意思”到底是哪个“意思”?我们看到这些“意思”,大都是能理解的,但你让机器去理解,整个就疯掉了,根本就不可能做到。

基于统计的机器翻译时代

后来在70年代的时候,统计语言学就出现了,不再是人去产生规则,而通过机器统计,把现有的语料库拿出来,完成这件事情。

 QQ图片20180315174038.jpg

1988年,IBM提出了统计机器翻译,就是用数据驱动的机器翻译的新篇章,靠计算能力,靠大的语料库完成,机器从数据中间自己去学规则。谷歌就走了这条路,当时它把联合国的各种语言,形成语料库。因为机器并不知道那个翻译的好坏,翻译的结果是人觉得还不错。一个中文的字串和英文的字串,比如说中文“我吃饭”,翻译成英文是什么样子,大体上主流的翻译是什么,机器进行一比对,一搜索就打出来了,并不是通过规则驱动出来的。

 

QQ图片20180315173616.jpg

本文编辑:王洵

相关推荐