机器翻译是怎么脱胎换骨的?梅宏院士为你独家揭秘!
十年前,网民们还在吐槽机器翻译软件还没有小学生翻译得好。当时,一个广为流传的段子是:
“How are you(你好吗)?”会被翻译成“怎么是你?”,
而“How old are you(你多大了)?”会被翻译成“怎么老是你?”
一笑之余,机器翻译似乎被等同成了不靠谱的翻译。
2018年,机器汉英翻译已经能够达到6级水平。10年间,机器翻译技术的背后到底有着怎样翻天覆地的变化呢?
来看我们的独家揭秘吧!
中国科学院院士、全国信息技术标准化委员会大数据标准工作组组长、知名战略科学家梅宏,走进《中国经济大讲堂》,用通俗易懂的语言带你领略机器翻译技术的前世今生:
梅宏:大家知道,机器翻译是很难的一件事情,我们人工翻译都不是那么容易。过去我们做机器翻译都是怎么做的呢?
手工编写规则的时代
我们先搞文法,基于规则的机器翻译,通过人总结编写规则,然后构造一个文法。原始的语言输入之后,通过双语词典的查询、调整,最后输出一个结果。但是由于我们自然语言天生的二义性,翻译的规则是非常复杂的,手工编写规则根本做不到,所以这个翻译质量一直上不去。
文法规则要覆盖20%以上的真实语句就要数万条规则,而语义规则,自然语言是“上下文相关文法”,较之文法规则,语义规则更要复杂得多,如果没有这个关联,你怎么理解?
大家可以看这个例子,这个是我们最典型的:
一堆的“意思”,这个“意思”到底是哪个“意思”?我们看到这些“意思”,大都是能理解的,但你让机器去理解,整个就疯掉了,根本就不可能做到。
基于统计的机器翻译时代
后来在70年代的时候,统计语言学就出现了,不再是人去产生规则,而通过机器统计,把现有的语料库拿出来,完成这件事情。
1988年,IBM提出了统计机器翻译,就是用数据驱动的机器翻译的新篇章,靠计算能力,靠大的语料库完成,机器从数据中间自己去学规则。谷歌就走了这条路,当时它把联合国的各种语言,形成语料库。因为机器并不知道那个翻译的好坏,翻译的结果是人觉得还不错。一个中文的字串和英文的字串,比如说中文“我吃饭”,翻译成英文是什么样子,大体上主流的翻译是什么,机器进行一比对,一搜索就打出来了,并不是通过规则驱动出来的。
本文编辑:王洵