Google翻译的中国基因

2011-04-22 13:31:04 | 作者: 来源:

【编者按】2004年,Google创始人之一Sergey Brin使用市面上的网络服务来翻译韩国粉丝发来的邮件,结果显示:“生鱼片带着它的愿望,用Google搜索绿洋葱!”这样的结果,让Sergey认为Google在这方面可以做的更好。

将源语言句子切分为短语,这是一门复杂的学问。英文单词之间有空格,中文句子则不然。由于统计翻译系统本身并不具备理解自然语言的能力,在面对“汽水不如果汁好喝”这个句子,“不如”和“如果”都是一种划分可能;其次,不同语系的组织形式有很大差别,研发人员必须通过对平行语料的分析来处理词汇的排序问题。分析平行语料是建模过程,翻译则是利用模型的过程,前者的算法往往比后者复杂;然后,系统需要分辨同一个词的不同形态,例如过去式和现在分词,这是一个判断的过程;最后,将构成目标语言的词汇合理联结起来。

  Google目前能够翻译58种语言,如果按排列组合来算,理论上需对应近3000种平行语料,事实上Google翻译的语料库远没这么多,所以很多语言之间的翻译是经过“桥接”的,这在机器翻译中是一种常见技巧。打个形象点的比方吧,目前法英互译的质量肯定比法汉互译要好,如果遇到法译汉的需要,翻译系统可能采取迂回战术,先将法语翻译成英语,再从英语到汉语。比如Google翻译中关于泰文和希伯来文的平行语料较少,但却能够提供这两种语言的翻译,据陈雍昇透露,“这种偏僻语系的互译十之八九是经过桥接的”。

  “提高翻译质量是一个多管齐下的技术。翻译的质量最主要的还是需要收集平行语料,此外,如果在建模方面可以找到更好的匹配算法或拆分算法,双管齐下效果更好。”陈雍昇打了个巧妙的比方,“平行语料好比食材,只有材料够好,厨师的手艺也够好,而且也有一些调味料的情况下,才能做出美味的菜肴。”

  移动翻译——“20%项目”的产物

  Google有个20%项目,允许员工拿出20%的工作时间,用来从事本职工作以外的项目,这样就能开发出更多种类的产品,移动翻译可以算作Google“20%项目”的产物。

  “最初移动这方面有几个因素,第一个就是因为大家都说移动是未来,这我相信。第二,发生了一个小故事——有个同事做出了手机网页版的移动翻译,并且发布出去,结果那段时间我们的流量呈几何倍数的疯涨。”这使陈雍昇意识到移动搜索的市场需求之大。

  他开始在上海研发中心游说,问谁愿意做这个项目的义工。朱文章(Google翻译iPhone主导工程师,作者注)对手机应用很感兴趣,就在正活之外进行iPhone版Google翻译的研发,只用两天时间就做出了产品雏形。“我们第一个手机翻译产品的就是这样诞生的,”谈起移动翻译,陈雍昇的自豪之情溢于言表。

上海团队、美国团队对于产品雏形都很满意

更多

快讯

三言智创(北京)咨询有限公司企业文化