❤️点击上方,选择星标置顶,每天给你送上干货❤️

作者 | 韦阳

出品 | 公众号:算法码上来(ID:GodNLP)

- BEGIN -

人类曾经联合起来兴建能通往天堂的高塔——巴别塔,为了阻止人类的计划,上帝让人类说不同的语言,使人类相互之间不能沟通,计划因此失败,人类自此各散东西。

这是《圣经》中的一个传说,解释了人类不同语言的由来。而一项技术的出现打破了巴别塔传说,使得世界各地的人们交流不再成为障碍,这项技术就是「机器翻译」

我们日常生活中最常用到的就是中英翻译。例如一位周杰伦的粉丝想知道《夜曲》中的歌词「为你弹奏肖邦的夜曲,纪念我死去的爱情」 怎么翻译成英文,那么他可以打开「火山翻译」,输入这句中文。然后机器翻译软件就会告诉他对应的英文是「Play Chopin's nocturne for you to commemorate my dead love」

机器翻译的历史

机器翻译其实早从1933年开始就有了,到现在为止一共经历了6个时期。

起源

1933年,法国工程师G.B.阿尔楚尼提出了用机器来翻译语言的设想,并获得了一项专利,从此机器翻译这个概念孕育而生。

萌芽

1954年,美国乔治敦大学在IBM公司的帮助下,用IBM-701计算机首次完成了英俄机器翻译试验,拉开了机器翻译研究的序幕。

沉寂

1966年,美国科学院成立的语言自动处理咨询委员会(ALPAC)公布了一份名为《语言与机器》的报告,该研究否认了机器翻译可行性,机器翻译研究从此进入了萧条期。

复苏

1976年,加拿大蒙特利尔大学与加拿大联邦政府翻译局联合开发了TAUM-METEO系统,标志着机器翻译的全面复苏

发展

1993年,IBM提出基于词对齐的统计翻译模型,基于语料库的方法开始盛行。

2003年,爱丁堡大学提出短语翻译模型,使机器翻译效果显著提升,推动了工业应用。

2005年,David Chang提出了层次短语模型,同时基于语法树的翻译模型研究也取得了很大的进步。

繁荣

2013到2014年,牛津大学、谷歌和蒙特利尔大学提出了端到端的神经机器翻译,开创了深度学习翻译新时代。

2015年,蒙特利尔大学引入Attention机制,神经机器翻译达到实用阶段。

2016年,谷歌GNMT机器翻译系统发布,讯飞上线NMT系统,神经翻译开始大规模应用。

机器翻译的原理

机器翻译就是将一个语言的句子翻译成另一个语言的句子,主要可以分为三个步骤:「预处理、翻译模型、后处理」

预处理是对源语言的句子进行规范化处理,把过长的句子通过标点符号分成几个短句子,过滤一些语气词和与意思无关的文字,将一些数字和表达不规范的地方,归整成符合规范的句子,等等。

翻译模块是将输入的字符单元、序列翻译成目标语言序列的过程,这是机器翻译中最关键最核心的地方。纵观机器翻译发展的历史,翻译模块可以分为基于规则的翻译、基于统计的翻译和基于神经网络的翻译三大类。现如今基于神经网络的机器翻译已经成为了主流方法,效果也远远超过了前两类方法。

后处理模块是将翻译结果进行大小写的转化、建模单元进行拼接,特殊符号进行处理,使得翻译结果更加符合人们的阅读习惯。

机器翻译的应用

除了翻译文字以外,其实日常学习生活中很多场景都会用到机器翻译,下面列举一些比较常见的应用。

文字翻译

这是最常见的应用了,将一段文字从一个语言翻译为另一个语言。

下面是火山翻译的界面:

图片翻译

通过ocr技术,可以将图片里的文字识别出来,然后翻译完重新显示在图片上。

语音翻译

例如你在和一个外国人对话,但是互相都听不懂对方在说什么。那么你们俩都戴上智能眼镜或者智能耳机,老外说了一句英文,眼镜或者耳机先语音识别出他说的是什么,然后转换成文字。再翻译成汉语,最后还原成语音播放到你的耳机里,直接把文字显示在你的眼镜上。

再如一个老外在用英语直播,但是观众都听不懂,这时候可以通过翻译技术,实时将中文字幕显示在屏幕上,这就叫同传技术。

总的来说,语音翻译包含了三个步骤:「语音识别、机器翻译和语音合成」

回译技术

相信很多同学都抄过别人的作业(抄袭可是不好的哦),那么直接抄会被发现,怎么办呢?打开火山翻译,把一句中文翻译成英文,再翻译回中文,文字就变了。

比如:躺在你学校的操场看星空,教室里的灯还亮着你没走。

先翻译成英文:再翻译回中文:

这样就得到了这句话:躺在你们学校的操场上看星星,教室的灯还亮着,你还没有离开。虽然比较生硬,但也看不出来是抄袭的啦(再次提醒,作业不要抄哦)。

生成无厘头文字

最近流行恶搞歌词或者古诗词,将它们用翻译软件先翻译成英文,再翻译成日文,再翻译成俄文,不断翻译下去,最后翻译回中文,这样你就会得到一段无厘头搞笑文字。

举个例子,翻译:躺在你学校的操场看星空,教室里的灯还亮着你没走。翻译顺序是:中、英、日、俄、意、法、德、西、韩、中,看看会得到什么吧。

最后句子变成了:如果你躺在校园里看星星,班级的灯一直亮着,你永远不会离开。意思变了很多,如果再多翻译几次,意思变化会更大。

翻译软件对比

目前市面上翻译软件非常多,比较有名的有谷歌翻译、百度翻译、必应翻译、有道翻译和字节跳动的火山翻译等等。

这里用一句古诗词“千呼万唤始出来,犹抱琵琶半遮面。”来测试一下它们的翻译效果

谷歌翻译

After a thousand calls, he came out, still holding the pipa half-hidden.

百度翻译

He came out with a thousand calls, and half covered his face with the lute.

必应翻译

A thousand calls began to come out, still holding half-masked faces.

有道翻译

After calling for a long time she finally came out, still hiding half of her face behind her pipa.

火山翻译

Yet we called and urged a thousand times before she started toward us, still hiding half her face from us behind her guitar.

可以看出有道翻译效果最好,火山翻译也大体表达出了意思。当然这只测试了一句话,不同语境下效果各有不同,还得靠同学们一个个尝试比较。

结语

虽然机器翻译技术现在已经非常成熟了,但是和人类专业的翻译学家相比,翻译质量还是差了很多。翻译的三大核心要素:信、达、雅,目前还只能在前两点上继续做完善,离“雅”更是差了十万八千里。

机器翻译还有很长的路要走,欢迎感兴趣的同学们投身自然语言处理和机器翻译,继续推动这个领域向前发展。后台回复「内推」,或者私信我,内推你进火山翻译,一起做伟大的事情。

- END -

我是godweiyang,字节跳动AI Lab NLP算法工程师,华东师范大学计算机系本硕都是专业第一。秋招斩获了上海三家互联网大厂SSP offer,擅长算法机器翻译模型加速。有任何问题都可以随时咨询我。

公众号后台回复【内推

我帮你内推字节,加我微信随时查进度催进度咨询问题

公众号后台回复【加群

可以进我的技术交流(聊天)群和内推群。

求求兄弟们点个在看吧,今天的阅读量靠你们了????

什么是机器翻译?(科普向)相关推荐

  1. 纪念机器翻译概念的诞生:重新认识瓦伦·韦弗先生

    编者按:这篇文章来自智源青年科学家.中科院自动化所张家俊,主要内容是通过回顾"机器翻译"概念提出者瓦伦·韦弗的研究生涯,介绍了机器翻译诞生的来龙去脉,包括他和信息论提出者香农.控制 ...

  2. 机器学习科普文章:“一文读懂机器学习,大数据/自然语言处理/算法全有了”

    PS:文章主要转载自CSDN大神"黑夜路人"的文章:           http://blog.csdn.net/heiyeshuwu/article/details/43483 ...

  3. 科普丨机器学习翻译和谷歌翻译算法

    科普丨机器学习翻译和谷歌翻译算法 原2017.08.22人工智能爱好者俱乐部 作者:Daniil Korbut 机器翻译引擎的基本原理 谷歌机器翻译 Zero-shot:零次 Training:训练 ...

  4. 这是我看过最好的「机器学习」科普文章了

    原文地址: http://www.cnblogs.com/subconscious/p/4107357.html 本文作者:计算机的潜意识 这篇文章介绍了机器学习的方方面面的事,是一篇机器学习科普好文 ...

  5. 百度何中军:机器翻译——从设想到大规模应用

    2020-06-26 13:23:29 不到现场,照样看最干货的学术报告! 嗨,大家好.这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并 ...

  6. 百度何中军:机器翻译 —— 从设想到大规模应用

    不到现场,照样看最干货的学术报告! 嗨,大家好.这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频--足 ...

  7. 编译器发展史5个十年3大人物及编译器知识(公号回复“编译器”下载PDF资料,欢迎转发、赞赏、支持科普)

    编译器发展史5个十年3大人物及编译器知识(公号回复"编译器"下载PDF资料,欢迎转发.赞赏.支持科普) 原创: 秦陇纪 科学Sciences 今天 科学Sciences导读:继本号 ...

  8. [转载] 机器学习科普文章:“一文读懂机器学习,大数据/自然语言处理/算法全有了”

    PS:文章主要转载自CSDN大神"黑夜路人"的文章:           http://blog.csdn.net/heiyeshuwu/article/details/43483 ...

  9. 神经网络、深度学习、人工智能、智能制造2018资料汇编(公号回复“AI2018资料”下载PDF资料,欢迎转发、赞赏支持科普)

    神经网络.深度学习.人工智能.智能制造2018资料汇编(公号回复"AI2018资料"下载PDF资料,欢迎转发.赞赏支持科普) 秦陇纪 科学Sciences 今天 科学Science ...

  10. 【CIPS 2016】(13-14章)自动问答、机器翻译 (研究进展、现状趋势)

    CIPS 2016 笔记整理 <中文信息处理发展报告(2016)>是中国中文信息学会召集专家对本领域学科方向和前沿技术的一次梳理,官方定位是深度科普,旨在向政府.企业.媒体等对中文 信息处 ...

最新文章

  1. csv java web 导入_DAY5-step9 使用CSV模块和Pandas在Python中读取和写入CSV文件
  2. ubuntu16.04 编译opencv4和opencv_contrib
  3. XCode 快捷键, MAC 快捷键
  4. C# 获取配置文件节点值
  5. 一种编写测试的好方法
  6. 开源软件 许可证密钥_自由和开源软件-1中的重要许可证
  7. 使用media player控件播放歌曲 winform
  8. java 异常 检查型和非检查型
  9. 分布式id-数据库实现
  10. Eggplant 依托人工智能技术,改造软件自动化测试
  11. 软件构架、架构和框架的区别
  12. 手动连接mysql_手动实现与数据库的连接
  13. star法则 java_STAR法则(示例代码)
  14. 学云计算需要准备哪些知识?
  15. 最详细的IIS发布站点步骤
  16. HighNewTech:【2019WAIC世界人工智能大会】上海正式开幕——马化腾的AI深思、二马激辩AI
  17. android对界面某一部分进行截图的方法
  18. 2020不平凡的一年,2021请继续奋斗
  19. linux 解压所有以zip结尾的文件_Linux下的压缩zip,解压缩unzip命令详解及实例
  20. 为Dynamics 365 USD设置打开调试面板的自定义快捷键

热门文章

  1. c语言中case的作用,c语言中case的用法
  2. java isprime函数_Java8函数式编程入门
  3. 教大家通过node爬取b站api数据
  4. python累乘累加_Python3 实现列表元素求累和,求累乘
  5. 微信小程序开发实战第六讲之手机号验证码登录
  6. Opencv之threshold
  7. 取文件操作fopen(file open)
  8. Java关于中查询数据时,报错java.lang.IllegalArgumentException: HOUR_OF_DAY: 0 -> 1的问题
  9. Postgresql临时表
  10. 苹果x和xsmax有什么区别_苹果iPhone12与iPhone12Pro有什么区别怎么选