大家好,我叫火山翻译同学。相信你们已经在之前见过我的身影,今天终于有机会进行自我介绍了!

我擅长进行自然语言处理,能支持55门语言互译。曾在2020年国际机器翻译大赛(WMT20)上杀出重围,以显著优势在「中文-英语」等多个语向翻译项目竞赛上获得世界冠军。在和其他兄弟姐妹同时接受测评时,我也不露怯,还趁机又圈了一波粉...

WMT20中英翻译前几名系统得分,火山翻译排名第一。Ave.z代表人工评估标准化分数,也是目前机器翻译最受认可的指标。

你在各种场景都能见到我的身影:在大学生面对冗长的外语论文一筹莫展时;在视频制作者费劲地给视频分轴,无数次地「听写+暂停」时;在外国主播侃侃而谈,而一旁的翻译面露难色、有苦难言时,我都会及时出现,帮助大家解决各种翻译问题。

知名日本艺术家村上隆首场中国直播,火山同传提供智能同传字幕

当然我的能力和取得的成就离不开火山翻译团队每位成员的不懈追求、精益求精,也离不开我的前辈们提供的经验。说起我们这一行的发展历程,那可就要从公元前的古希腊时期说起了...

早在古希腊时期就有人提出过用机器来进行语言翻译。

到17世纪,笛卡尔(Descartes)和莱布尼兹(Leibniz)都试图在统一的数字代码的基础上来编写词典,提供无歧义语言。

20世纪30年代初,亚美尼亚裔的法国工程师阿尔楚尼(G.B. Artsouni)提出了用机器来进行语言翻译的想法,并在1933年7月22日获得了一项「翻译机」的专利,叫做「机械脑」(mechanical brain)

1933年,前苏联发明家特洛扬斯基(П П ТРОЯНСКИЙ)设计了用机械方法把一种语言翻译为另一种语言的机器,并在同年9月5日登记了他的发明。

特洛扬斯基的「选词和印刷机」示意图

1946年,电子计算机在美国问世,同年英国工程师布斯(A. D. Booth)和美国洛克菲勒基金会副总裁韦弗(W. Weaver)在讨论电子计算机的应用范围时,就提出了利用计算机进行语言自动翻译的想法。

1949年,韦弗发表了一份以《翻译》为题的备忘录,正式提出了机器翻译问题。在这份备忘录中,他除了提出各种语言都有许多共同的特征这一论点之外,还有两点值得注意:

第一,他认为翻译类似于解读密码的过程。

他说:「当我阅读一篇用俄语写的文章的时候,我可以说,这篇文章实际上是用英语写的,只不过它是用另外一种奇怪的符号编了码而已,当我在阅读时,我是在进行解码。」

第二,他认为原文与译文「说的是同样的事情」。

当把语言A翻译为语言B时,就意味着,从语言A出发,经过某一「通用语言」(Universal Language)或「中间语言」(Interlingua),然后转换为语言B,这种「通用语言」或「中间语言」,可以假定是全人类共同的。

时代要求往往推动着科技进步。铁幕缓缓落下之际,特洛扬斯基已花费20年研究他的发明,后因心绞痛逝世。

1954年,美国对外声称已研发出能够自动将60个俄语句子翻译成英语的翻译系统。虽然句子是经过精心挑选的,该系统事实上也只有250个词及几条翻译规则。但这个系统的出现引发了大家对机器翻译的热烈讨论,认为让机器自动完成翻译这个愿望很快就能实现。军备竞赛的开始也让加拿大、德国、法国及(特别是)日本都加入到机器翻译竞赛中。

如果给你一篇英文文章,如何将其翻译成中文?查词典!

  • 我 -> (宾语)me;(主语)I

  • 来自 -> (现在时)come from;(第三人称单数)comes from;(过去时)came from

  • 中国 -> China

  • 句式结构:汉语主谓宾 -> 英语主谓宾

==>  我来自中国 -> I come from China

翻译员的翻译过程

科学家开始研究翻译员的工作,试图让计算机能够重复翻译行为。参考翻译员的翻译过程,科学家研发出一种机器翻译系统,它通过研究源语言与目标语言的语言学信息来进行,也就是基于词典和语法等规则生成翻译,这被称为基于规则的机器翻译(RBMT)

*规则通常包含词典、句法等,由语言学的专家制定。

基于规则的机器翻译优点如下:

  • 直观、直接表达语言学共识

  • 规则比较灵活,系统理论上比较可控

缺点如下:

  • 主观性强、覆盖性差、维护成本高

  • 引入新的规则容易造成冲突

  • 开发成本高,一个语言对应一个系统

  • (语义障碍)自然语言的歧义无法解决

某市公安局宣传语。究竟是「生活没有出路,指望传销致富」还是「指望传销致富,生活没有出路」?

1966年11月,ALPAC委员会公布了一份名为《语言与机器》的报告,这份长达120页的报告全面否定了机器翻译的可行性,并宣称「在近期或可以预见的未来,开发出实用的机器翻译系统是没有指望的」。

报告还指出,机器翻译研究遇到了难以克服的「语义障碍」(semantic barrier)。重建巴别塔的工程遭遇了前所未有的挫折,美国政府对机器翻译的支持停止了。

巴别塔,指《圣经·旧约·创世记》中人们建造的塔。据记载,当时人类联合起来兴建希望能通往天堂的高塔;为了阻止人类的计划,上帝让人类说不同的语言,使人类相互之间不能沟通,计划因此失败,人类自此各散东西。

在冷战期间,掌握英语的日本国民只占少数,面对势不可挡的全球化进展,日本开始积极地寻求一种高效的机器翻译方法,让语言不再成为日本与外界交流的障碍。

由于英日两种语言的规则差别较大,基于规则的机器翻译并不适用于英日翻译。于是,在1984年,京都大学的长尾真提出使用现成的短语作为翻译源而不是重复进行翻译,该机器翻译方法后被总结为「基于实例的机器翻译」(EBMT)

基于实例的机器翻译的本质是「以翻译实例为基础,基于相似原理的机器翻译」,其主要利用预处理过的双语语料和翻译词典。该方法的显著特点是忽略了语法和语义规则,转而依赖大型的文本语料库。

基于实例的翻译过程通常包括三步:

  1. 在翻译实例库中搜索匹配片段。

  2. 确定相应的译文片段。

  3. 利用类比思想,避免复杂的结构分析,从而重新组合译文片段,以得到最终翻译。

比如我们需要翻译一个句子:「我为你感到高兴。」

而在语料库中已经储存了一个类似句子:「我为她感到骄傲。」语料库中也有这个类似句子的译文。

为了翻译第一句话,我们只需要找出两句话的不同之处和相同之处,将不同之处进行替换即可得到最终翻译结果。

EMBT的诞生让机器翻译往前迈了一大步:我们不再需要自己构建规则,我们只需要将已有的翻译交给机器。但革命性的机器翻译发明还在后面:统计机器翻译(SMT)将掀起一波机器翻译新浪潮。下周同一时间火山翻译将继续为你介绍统计机器翻译(SMT)神经机器翻译(NMT),好戏还在后头,千万不要错过。????

机器翻译的前世今生(1)相关推荐

  1. 神经机器翻译的前世今生--转自散文网

    本文转自散文网,原文链接如下:http://sanwen.net/a/mjyslpo.html 神经机器翻译 2016-11-13 03:17雅译公司 推荐100次 1.     引言 神经机器翻译( ...

  2. 机器翻译前沿十问:开源来源于无私的分享 | 东北大学肖桐专访

    ‍ ‍[专栏:前沿进展]机器翻译是自然语言处理领域最活跃.最充满希望的方向之一.机器翻译也从SMT(统计机器翻译)过渡到了NMT(神经机器翻译)的时代,深度学习的崛起也为主流范式注入了新希望. 作为技 ...

  3. 我爱自然语言处理网文章汇总

    斯坦福大学深度学习与自然语言处理第三讲:高级的词向量表示 斯坦福大学深度学习与自然语言处理第二讲:词向量 斯坦福大学深度学习与自然语言处理第一讲:引言 用MeCab打造一套实用的中文分词系统(三):M ...

  4. 从芯片到AI智能芯片,一文了解它的前世今生

    作者 | 元宵大师,Python高级工程师,致力于推动人工智能.大数据分析在金融量化交易领域中的应用.欢迎大家关注我的个人公众号<元宵大师带你用Python量化交易>. 责编 | 胡巍巍 ...

  5. 追溯XLNet的前世今生:从Transformer到XLNet

    作者丨李格映 来源 | 转载自CSDN博客 导读:2019 年 6 月,CMU 与谷歌大脑提出全新 XLNet,基于 BERT 的优缺点,XLNet 提出一种泛化自回归预训练方法,在 20 个任务上超 ...

  6. 深度学习中Attention机制的“前世今生”

    关注公众号,发现CV技术之美 本文转载自FightingCV. [写在前面] 随着注意力在机器学习中的普及,包含注意力机制的神经结构也在逐渐发展.但是大多数人似乎只知道Transformer中的Sel ...

  7. (转)word2vec前世今生

    word2vec 前世今生 2013年,Google开源了一款用于词向量计算的工具--word2vec,引起了工业界和学术界的关注.首先,word2vec可以在百万数量级的词典和上亿的数据集上进行高效 ...

  8. MobTech观察 | CSDN:企业数字化转型如何提升段位?杨冠军畅谈企业数字化前世今生

    近日,MobTech袤博科技合伙人.首席数据官杨冠军受邀撰写的文章<企业数字化转型的前世今生>登刊CSDN最新一期<新程序员 003:云原生和全面数字化实践>.该杂志由 50 ...

  9. 人工智能的前世今生(二)

    本文主要讲述人工智能的发展历史,发展道路上的大事记,根据网上搜寻到的文章,整理而成! 此为系列文章的第二篇,字数为1771字,阅读时间大约3分钟! 现在是快文时代,三分钟足矣! 20世纪60年代-70 ...

  10. 对话浙大博导吴飞:人工智能的前世今生

    前言 自古以来,人类对人工智能就有持久.狂热的追求,从语音识别到智能音箱,从无人驾驶到人机对战,人工智能给人类社会带来了一次又一次的惊喜,被人工智能赋能的各行各业都在焕发新的生机.在人工智能垂直领域商 ...

最新文章

  1. java通过异常处理错误,java基础之通过错误处理异常
  2. 如何在VS2013配置CUDA,并编译生成DLL
  3. linux ubuntu make 安装
  4. 先自己看文档和百度再沟通
  5. foxtable制作管理系统实例_某河道治理工程实例
  6. C语言 pthread_exit
  7. PHP 微信公众号之客服完整讲解
  8. 第三方app_官方打不过第三方APP之 知乎 篇
  9. 史上最浅显易懂的Git教程3 分支管理
  10. MySQL药品管理系统设计_药店药品管理系统的设计与实现(SSH,MySQL)(含录像)
  11. 【课程作业】学术英语写作:文献阅读报告1
  12. 身上黑色素怎么去除?去黑色素方法
  13. 不同的count用法
  14. java structs,国内最早Struts专题Java - 解道Jdon
  15. VisualSVN提交叮叮机器人通知
  16. java 1.7.0 51下载 64_JD7K_jd7k-7u51-windows-x64.exe V7.0u51 64位 官方版
  17. 单面机51小车程序_连续打印1200平,实战告诉你这款彩白彩UV机真的行!
  18. 让Axmath自动插入公式编号并根据章节排号
  19. MTK 平台编译指令集
  20. 公路水运工程安全电子光盘_公路水运工程施工安全标准化.pdf

热门文章

  1. 【JAVA】虚拟机指令集
  2. 解题报告 noi 2005 智慧珠游戏(BT 搜索)
  3. eclipse,aptana,zendstudio,flex全屏插件
  4. 20172316 2018-2019-1 《程序设计与数据结构》实验二报告
  5. 0003-img标签-前端学习笔记
  6. Java测试代码及原理
  7. YUV420查表法高效、无失真的转换为RGB32格式
  8. 《构建高性能WEB站点》读书笔记--第一章
  9. asp.net 获取计算机启动时间
  10. 处理收到的Stanzas