简介

在过去几个月,源自不同渠道――从强大的微软到产品花哨的个人发明家――的消息表明,同声传译装置虽非完美,但做到基本可用已经指日可待了。

电脑同声传译有望实现

在1960年代开始的电视剧《星际迷航》里,不论星际飞船“进取号”在宇宙里航行到多么遥远的地方,它遇到的任何外星人都能用流利的加洲口音的英语交谈。剧中是这样解释的,Kirk(柯克)船长和他的船员们都佩带着微型万能翻译器,可以扫描外星人的脑电波,然后将他们的思维用得体的英语同步表达出来。

当然,这是科幻小说来着。但最优秀的科幻小说往往能预言未来。许多人相信,正是《星际迷航》第一季中出现的弹开式通讯器启发了翻盖式手机的设计。不过也有不好的一面,许多军方和军事装备公司正在开发的高能激光武器与相位武器有惊人的相似。那么,自动同声传译还要多久才能成为常见之物?学校里沉闷乏味的语言课程什么时候才可以取消?

这可能要比语言教师、翻译和其他以消除沟通障碍为生的人们所希望的来得要快。在过去几个月,源自不同渠道――从强大的微软到产品花哨的个人发明家――的消息表明,同声传译装置虽非完美,但做到基本可用已经指日可待了。

去年夏天,伦敦发明家Will Powell展示了一套系统,可以在英语和西班牙语之间即时传译――如果交谈者可以耐心地说慢一点。对话双方都戴着耳机,耳机连着一部手机;还带着特制的眼镜,上面可以显示翻译出来的文字,有点像外语片里的字幕。

日本最大的手机运营商NTT DoCoMo在11月推出了一款服务,可以将电话中的日语和和英、中、韩三种语言进行互译。每一方交替说话,该公司的电脑接收通话内容并在几秒钟内翻译。翻译结果视情况输出为男声或女声。

微软的成果可能最令人心动。10月,微软研究院院长Rick Rashid在天津出席了一场会议,他在会上用英语发言,而他的结束语实时翻译为中文,先是在大屏幕上显示字幕,稍后即用电脑合成的声音读出。令人惊奇的是,Rashid先生的中文演讲和他本人的音调一致。

嗯?


虽然这三种系统各不相同,却都面临着同样的问题。第一个难题是识别声音并数字化。过去,语音识别软件将语音分解为组成语言的最小单元,称为音素。在汉语普通话中有25个音素,英语40个,一些非洲语言则超过100个。然后由语音统计模型和一种称为高斯混合模型的概率工具来识别每个语素,再将其组合为原来的单词。公司电话自动应答系统中烦人的语音邮件最常用这种技术。如果严格按词汇表来,这种技术还算说得过去,但只要稍微自由发挥一下,它四个单词里至少能搞错一个。

Rashid先生展示的翻译系统有多处改进。首先,它识别的不是单个的音素,而是连续的三个音素,称为senone(音组,自译)。英语中有超过9000个。如果能够一一识别出来,判断出它属于哪个单词要远比单纯由音素判断容易。

微软的音组识别系统基于深度神经网络原理,这是一种由人脑结构启发而来的算法技术。这种人工网络由不同的软件组成虚似的神经元。每个神经元权衡相邻神经元发来的信号强度,并根据信号强度向相邻神经元发送信号,然后其它神经元重复同样工作。通过调整神经元之间联系的权重,可以教神经网络学习匹配输入与输出。

我们已经确切知道,真正的人脑中,神经元由不同层次组成。深度神经网络模仿了这种层次结构。微软的有九层。最底层学习待分析的语音特征,上一层学习将这些特征进行组合,层层向上,逐渐形成更加精密复杂的关系。最上层推测系统听到的是哪个音组。通过使用已注明音组的语音库,识别正确的结果反馈回网络,这样可以提高网络的识别能力。

微软的研究人员表示,他们的深度神经网络翻译器相比于旧系统出错率至少低1/3,在某些情况下,出错率低至八个单词仅错一个。Google也已经开始将深度神经网络用于安卓智能手机的语音识别(还没有开始翻译),并表示已经将错误率降低至少20%。另一家语音识别服务提供商Nuance也宣称达到相似的进展。深度神经网络计算量庞大,因此大多数语音识别与翻译软件(包括微软、Google和Nuance的产品)都是在云端运行,由高性能在线服务器依次处理各种智能手机和家用电脑的请求。

乜嘢?

然而语音识别只是翻译的第一步。同样重要的是,将信息转化为外语的句子,还不仅仅是词(词已经够难了,每种语言在词义上都有歧义之处,更有些意义是根本无法翻译的)。这通常要用到不同的语法规则和不同的惯用语序。因此,即使一个句子里的所有英语单词的含义都是确定的,电脑也有可能翻译出来或别扭或搞笑的不准确说法。

Google用于网络翻译服务和智能手机翻译程序的解决方案称为众包。它将待翻译文本与软件处理过的上百万条语句进行对比,再选择最合适的。Jibbigo是根据卡内基梅隆大学研究成果发展而来的旅游用翻译软件,它的原理类似,不同之处在于它向发展中国家的使用者们支付费用,用以改进他们的母语的翻译水平。但即使如此,语言中最终极的隐晦含义也会让机器翻译工程师们感到一丝悲观厌世。

例如,虽然NTT DoCoMo的电话翻译快捷易用,但任何比客套话复杂的句子都会让它难于应对――即使它也使用了神经网络。句子必须要短以保持准确性,但用词仍然会混乱不堪。

微软寄希望于,如果以说者自己的声调说话,那么听者会对这些错误更加宽容一些。在对说话者一小时的语音语录进行分析之后,微软的新系统可以将独特的音色进行编码,再以相似的频率范围进行语音重现。这套系统在中国的使用效果良好,当时Rashid先生的电脑合成(偶有错误)普通话收到了热烈的掌声。

如果一款万能翻译器仅适用于会议场合,那旅行者使用它就会受到限制,不论是星际旅行或仅是洲际旅行。Powell先生的对话翻译器只要有手机信号就能用。语音由耳机接收,再输入附近的笔记本中的语音识别软件,识别出的文本再由手机通信网络传给微软的在线翻译引擎。

一大难题是在翻译对话时随时判断出谁在说话。Powell先生的系统不是通过直接识别声音来判断,而是由两个翻译引擎(英语译西语,西语译英语)同时翻译语音。因为翻译的结果只有一种是合理的,这样系统就可以决定是谁在讲话了。然后,它就把翻译内容显示在另一个人的眼镜上。

Powell先生的同声传译系统目前需要还使用耳机、云服务和介于中间的笔记本,这说明它仍然只是一个设计原型。单一说者的交替传译技术更高级一些。目前Jibbigo的技术是最先进的,它能把语音识别和支持10种语言4万词汇量的数据库放进一个程序里,运行于今天的智能手机上而不需要任何网络联系。

恁说啥?

问题仍然存在。在现实生活中,人与人之间相互交谈,夹杂着俚语或是在吵闹的大街上说话,这些都能轻松击败最先进的翻译器。但即使还要过几年《星际迷航》式对话才能成为寻常事物,万能翻译器仍然远比相位武器、传送光束和曲速引擎更有希望从科幻小说中走入现实。

转自 http://article.yeeyan.org/view/369606/342296

转载于:https://www.cnblogs.com/renly/archive/2013/01/07/2848551.html

机器翻译:征服巴别塔相关推荐

  1. 机器翻译需要的软件 自然语言处理专业所涉及的软件

    .第一个开源的统计机器翻译工具包--Egypt 如前所述,Egypt是在1999年约翰霍普金斯大学统计机器翻译夏季讨论班上,由一些研究人员共同合作开发的统计机器翻译工具包.它包括4个模块: Whitt ...

  2. 我爱机器学习网机器学习类别文章汇总

    机器学习领域的几种主要学习方式 From Stumps to Trees to Forests KDD-2014 – The Biggest, Best, and Booming Data Scien ...

  3. 我爱机器学习--机器学习方向资料汇总

    转载:http://blog.csdn.net/shuimanting520/article/details/45748505 机器学习爱好者资料 机器学习领域的几种主要学习方式 From Stump ...

  4. 腾讯民汉翻译征战全国机器翻译大赛夺得双冠

    导语 :一年一度的全国机器翻译大赛(CCMT 2019)于7月20日公布了比赛结果,来自TEG的腾讯民汉翻译团队自去年拿下英汉翻译冠军之后,再一次载誉而归.团队经过多日奋战,最终在30个参赛单位的角逐 ...

  5. 机器翻译技术的含义、发展和应用

    数年前,搜索引擎公司先后上线了机器翻译业务,并凭借其强大的数据挖掘和机器学习能力,不断扩充语言数量.提高翻译质量,提升整体的机器翻译水平.以百度翻译为例,目前已扩充至16种语言,186个语言方向,并支 ...

  6. 目前机器翻译,发展到哪个阶段了?

    从机器翻译的发展历程来看,其实最早也是语言学的研究范围(包括语音识别,也包含语言学的内容).过去几十年来,为了实现机器翻译的梦想,以IBM.谷歌.微软为代表的国外科研机构和企业均相继成立机器翻译团队, ...

  7. 知物由学 | 再造巴别塔,我们如何进行NLP跨语言知识迁移?

    知物由学 | 再造巴别塔,我们如何进行NLP跨语言知识迁移? 自以 BERT 为代表的预训练语言模型诞生起,关于其跨语言版本的探索研究就从未停止过.2020 年 4 月,Google 发布了 XTRE ...

  8. 阿里云研究中心: 人类攀登“AI巴别塔”,染指“量子天堂” ——阿里云官方解读MIT“2018全球十大突破技术”...

    每当一项新的技术出现,特别是它被称为"突破性技术"的时候,人们总是会按捺不住好奇心而围观,但是,对于大多数人来说,受限于技术背景和知识积累的限制,不仅对于新技术的描述感觉晦涩难懂, ...

  9. 清华刘洋基于深度学习的机器翻译突破知识整合、可解释和鲁棒性

    https://www.toutiao.com/a6697789084913369607/ 2019-06-02 12:42:23 [新智元导读]5月30日,由北京智源人工智能研究院主办的智源论坛第4 ...

最新文章

  1. Java 洛谷 P2141 珠心算测验
  2. 设计模式C++实现(7)——外观模式、组合模式
  3. OpenCV结合socket进行实时视频传输(TCP协议)
  4. C语言中return的各种用法
  5. linux kill命令信号,Linux kill 命令详解
  6. 微众银行在联邦推荐算法上的探索及应用(文末附PPT下载链接)
  7. layui横向时间线_用打火机或烟头烧羽毛球拍线坏处多
  8. Python并发编程之线程池/进程池
  9. Windows 运行jar包
  10. fireworks CS6安装教程
  11. 30天自制操作系统笔记
  12. CSS固定定位(position: fixed;/background-attachment: fixed;)
  13. C#获取SharePoint列表数据
  14. 【Unity3D插件】AVPro Video插件分享《视频播放插件》
  15. 使用Python连接阿里云盘
  16. 集束搜索的误差分析(Error analysis in beam search)
  17. 【Python】and和or的讲解与实例
  18. 基于STM32的电梯楼层控制系统proteus仿真
  19. centos usb转网口_如何将USB接口打印机转换成RJ45网口并安装到打印服务器上共享使用?...
  20. 北上广深等全国一流机场航显信息系统现状-航显系统研究第90篇

热门文章

  1. 拆解八马茶业IPO:门店月均收入不足3万元,关联方没用就抛弃?
  2. ARM调试原理【调试接口框图】【SWD时序】【SWD主机】
  3. win10计算机日历不能用,win10系统自带日历应用不显示节日的解决方法
  4. 测试开发之Python核心笔记(15):迭代器与生成器
  5. react源码中的fiber架构
  6. Respond JS有什么作用
  7. 【micorpython】ESP32——CAM 刷固件后显示Device is busy or does not respond. Your options:解决方法
  8. 如何为表单制作平滑的jQuery验证器
  9. mysql1044什么意思_MySQL:1044和1045
  10. linux环境搭建篇-redis设置密码