AI同传在机器翻译领域中算是一个关注度相当广泛的问题,对于大众来说,人们对其最深的印象就是科大讯飞的技术造假,对于行业内来说,AI同传任务处理上实时性、专业度的要求都极高,容错率也相对更低,在机器翻译领域算是一个难度很大的任务,甚至有人称之为机器翻译的“圣杯”。

是圣杯,自然少不了挑战者。除了孜孜不倦的独角兽,微软、百度、谷歌等海内外的AI大厂也都在不断攻克这项难题。最近百度新推出的即时机器翻译系统,可以说是给出了一些新的解决思路。

是什么为AI同传送上圣杯?

AI同传之所以难度能够达到“圣杯级别”,还是来自于语言本身的复杂程度和不同语言之间的巨大差异。

给前者举个例子。对于机器翻译,尤其是语音转码文字的部分来说,一个很大的难点就是同音不同字。有的词同音不同字并且意义差距很大,比如南方和男方。遇到同音不同字的问题时,很多同传系统只要认定了第一次识别的语音,很难再根据语境调整语音和文字之间对照。这就有可能导致整个句子在翻译时出现严重的误差。

后者则主要体现在语序的差异上,中文上说“她送给我的花很美”,英文上却说“The flowers she gave me are beautiful”, 在不听完整个句子之前,是很难给出准确翻译结果的,因为在中文中作为主语的“花”出现在“她送给我”这一定语之后,可英文中主语“The flowers”却出现在句子的开头。

所以目前大多数AI同传,要么是等待一个完整的句子说完后,再进行翻译,要么是根据当前识别结果进行翻译,然后随着识别字数的增加,不断修正结果。

高质量翻译与低时延两者不可兼得。

可我们应用同传,不就是为了和整场对话同步获得信息吗?想象一下,在重要商务场合中你和合作伙伴谈笑风生,然而合作伙伴说“前门楼子”AI同传却告诉你“胯骨轴子”……

总之由于应用场景相对苛刻,AI同传的技术迟迟都没能达到应用条件。

向人类偷师,百度的即时机器

翻译系统学到了什么?

这种时候,我们往往还是要师从更加专业的人类。人类译员在进行同传翻译时往往会先做大量的学习准备工作,了解应用领域的专业术语,本质上是对自己的词汇库进行 “收敛”和补充,减少同音近义这种错误的出现,也避免有哪些名词自己过于陌生。建立在这种准备之上,译员在进行翻译时会有一定的预测性,就像“布什总统在莫斯科会见普京”这句话,通过对应用场景的整体理解,译员们会知道布什总统在莫斯科肯定是要会见什么人的,所以可以同步翻译出“President Bush meets Putin……”,这样才可以用更少的延时满足需求。

可即便如此,人工同声传译也并不是完美的。由于信息量巨大,译员只能在保证速度的前提下牺牲一部分质量。据了解,同传译员的译出率仅有60%-70%左右,即讲话人讲了100个句子,仅有60-70个句子的信息被完整传递给听众。同时由于需要高度集中精神,译员往往每15-20分钟就需要换班休息。

所以,我们从人类工作的逻辑中找到了两个关键词——“背景知识”、“预测”和“学习”。

·从背景知识的层面来讲,人类之所以能够分辨同音近音字,是因为对于语境和背景知识有着充足的了解,把不符合当前词汇库的同音词“剔除”了。

所以百度这些选择的解决方案是,提升容错率,忽略语音-文字转码阶段的错误,进而去提升文字翻译阶段的正确率。百度同传的“语音容错”的对抗训练翻译模型,重点就在于有意在训练数据集中加入针对性的噪声数据,这样即使模型接受到错误的语音识别结果时,也能给出正确的译文。什么叫“针对性”的噪声数据呢?就是把成对、成组出现的噪声词一起收录,比如前文提到的南方和男方,再将源语言句子进行替换,把“南方天气很潮湿”替换为“男方天气很潮湿”,而两个句子的结果都设定为“The weather is very humid in the south”,一起用作训练从而提升模型的容错能力。

·至于预测,则是这次百度推出机器同传的重点技术STACL“wait-k words”,即等待讲话时后的第k个词开始翻译,通过对讲话者的语言风格数据进行训练,实现预测能力。同时还可以根据不同语种之间的差异性和不同场景的需求程度来调整K值,比如西班牙语和葡萄牙语在语法上非常接近,K值就可以被调整为1或者2,极大地提高及时性。或者当使用者位于非常严肃的政治会议场合,K值就可以被调整为5或者更高,因此来保证严谨性。

·在学习方面,正是AI的优势所在。在百度同传系统中,提出了快速融合领域知识策略,建立在百度自身的互联网大数据之上,百度同传系统获得最基础的通用领域翻译模型。而当进入细分领域时,该系统也会像人类一样,针对细分领域进行学习。

建立在通用模型的基础上,通过对某一领域数据的增强训练和专用术语的强制解码,尽可能让整体模型和该领域更加契合,从而减少同音字、多义字翻译错误等诸如此类现象,提升整体效率。

共同捧起圣杯,

AI同传应该避免独行

当然,即便如此,AI同传还是面临着很多问题。

尤其是人在口语表述时往往会带有一些习惯性的语气词,AI如果通通记录下来,会严重影响信息接收的效率。就像曾经有人尝试过在法庭使用AI速记,结果发现AI记下了通篇的“嗯、呃、那个”等口语中的常用词,尤其是当出庭人情绪稍有些激动时,AI速记完美地记录下一串语无伦次时的混乱信息。信息量倒是加大了,可信息价值却很低。

人类译员在进行翻译时会进行书面语和口语之间的转换,AI能否做到这种信息的汇总和提炼?

同时口语中常常遇到的口音、结巴、地方俚语、表述水平不同等个性化的问题,人类译员通常可以很好地解决,最终呈现出适用于所有人阅读的内容。就拿俚语来讲,这种极具本土文化特征的内容,有时会在两个语种中呈现出完全不同的形态。就像“掌上明珠”和“Apple of the eye”,从字面直译上很难找到关联,可意义上却相互对应。

AI模型能否高效地解决一切问题,不只适用于某一标准或某一种文化下的内容?

最重要的,大部分像“wait-k words”这样的预测模型都要提前进行大量的数据训练。不光应用成本高,对于很多缺乏丰富数据的小众语种来说,还是帮不上什么忙。

不过相比人类在同声传译整个学习和翻译过程中耗费的巨大精力,AI同传更高效的学习能力和永不疲倦的特点仍然是巨大的优势。所以在未来的一段时间内,AI同传应该依靠自身优势来承担人类译员助手的职责,与人类一同捧起圣杯。

机器思维与人类思维的打通:

AI应用的黄金大门

其实我们能够发现,百度这次提出的机器同传解决方案,给出了一种AI技术应用的有趣逻辑,即把机器思维和人类思维一起融入技术应用。

像在提升语音容错率上,就是一种典型的机器思维。如果把解决问题分两步,第一步是语音-文字,第二步是文字-翻译。数学老师一定会告诉你“一步错、步步错”,可在机器思维中却能实现“一步错、结果对”,即使语音识别中错了,机器翻译的结果仍然是正确的。

而在预测方面,就是典型的人类思维了,结合对于事物的整体理解甚至整个世界观,对于缺失的信息进行预测——用我们人类的话说,就是“直觉”。而当机器也逐渐找到利用直觉的方式,它们所能解决的问题才更迈上了一个台阶。有了预测能力,才能在不同语序的语种中自我生成正确的句子。毕竟我们所处的世界不是棋盘也不是电子游戏,缺乏明确的规则,更多时候我们是在信息和规则双双不透明的前提下去解决问题。

其实在今天的AI应用上,最重要的就是人与AI的协作性,不仅仅是日常应用方面的协作,更多的是研发思维上的协作。有时能理解机器思维的差异性,才能真正找到适合机器的问题解决方案,而让机器能够学会人类思维,才能让机器解决问题的方式更加配适现实世界。

就像自动驾驶的安全问题一样,有时在交通标识上贴一张小小的贴纸,就能彻底扰乱机器的视觉系统。所以对于自动驾驶来说,更高效和安全的方法并不是像人类一样“看到”交通标识,而是在高精地图上提前标注好交通标识的位置。对人类与机器的感知方式进行互通和融合,帮助我们打开了很多AI产业应用的黄金大门。

有趣的是,这两种思维之间的差异和融合,其实和语言之间的翻译还有点接近。语法有再多差异,彼此理解了,总能一起解决问题。

捧起同声传译圣杯的AI:向人类偷师、与人类共事相关推荐

  1. uni-app 微信同声传译,实现AI语音功能(语音转文字,文字转语音,英汉互译

    uni-app 微信同声传译,实现AI语音功能(语音转文字,文字转语音,英汉互译) 一:添加插件 1.登录微信公众号平台,进入左边导航栏的设置,选择第三方设置,,添加插件,申请添加微信同声传译插件 2 ...

  2. 百度新突破:AI同声传译系统STACL,可预测,低延迟

    文章来源:ATYUN AI平台 百度开发了新的AI系统,名为同声传译和预期与可控延迟(STACL),百度声称这代表了自然语言处理的重大突破. 与大多数AI翻译系统不同,STACL能够在演讲者讲话后几秒 ...

  3. 腾讯提出共享 AI,抢先布局游戏与多媒体 AI,首秀同声传译

    欢迎大家前往腾讯云社区,获取更多腾讯海量技术实践干货哦~ 作者:腾讯AI实验室 导语:感谢阅读腾讯AI Lab微信号第12篇文章.在昨日举办的腾讯2017全球合作伙伴大会上,腾讯AI Lab披露了AI ...

  4. 手机同声传译软件有哪些?推荐四款软件实时翻译软件

    小伙伴们有时候会在街上或者旅游景点遇到外国人吗?他们有可能向我们问路.问好玩的地方.问美食推荐等等,但如果我们因为外语水平不好,而导致语言不通,很难跟他们进行交流,这个时候应该怎么办呢?其实可以借助手 ...

  5. 怎么才能做同声传译?利用好这些软件就可以实现

    春节将近,很多小伙伴们会和家人或者朋友去国外旅游.然而对于外语基础不好的小伙伴来说,与外国人交流简直是一件难事.那应该怎么解决这个问题呢?其实我们可以使用一些同声传译的app来和国外友人沟通.但是现在 ...

  6. 同声传译怎么操作?分享你这些同声传译软件

    你是否曾经因为语言障碍而无法与来自不同国家的人交流?或者,你是否曾经因为在国际会议上听不懂演讲者的内容而感到无助?现在,同声传译软件的出现,为全球交流搭建了一座桥梁,让语言不再成为障碍.它通过语音识别 ...

  7. 语音之家SOTA | 同声传译现场 时政

    SpeechIO TIOBE Benchmark 场景测试:同声传译现场 时政 1.素材来源 YouTube 爬取美联储.白宫发布会.政要座谈会等时政素材的中文同传现场,原始时长约两个半小时. 场景上 ...

  8. 同声传译软件哪个最好?同声传译用什么软件

    最近有打算出国游玩的小伙伴们吗?长途跋涉到了旅行的国家,但你又对于当地的语言掌握多少呢?英语不过关的话,在外出行就容易处处受限.这时有一款专业的翻译软件就很重要了,那么同声传译软件哪个最好?今天我就给 ...

  9. 不知道同声传译软件哪个好?这篇文章分享给你三个同声传译软件

    假如有游客在外国旅行时受伤了,在医院治疗时,医生和患者之间可能会有沟通障碍,影响诊断和治疗.同声传译软件可以帮助医生和患者更好地沟通,让医生及时了解患者的病情,为患者提供更准确的治疗方案.在教育和文化 ...

最新文章

  1. 第十五届全国大学生智能汽车竞赛青少年组获奖名单
  2. 第十五届全国大学生华南赛区线上比赛日期安排
  3. 服务器里怎么更改网站图片大小,php实现在服务器端调整图片大小的方法
  4. redhat server 5.3内核升极2.6.18 升级到 3.5 装systemtap 原创
  5. 计算机发展英语思维导图,怎样画出英语课文总结思维导图
  6. asp.net学习之GridView
  7. 期权水平套利可行分析(20191204)[博]
  8. windows process activation service不能安装或启动的解决办法
  9. iOS开发拓展篇—UIDynamic(捕捉行为)
  10. 24、List三个子类的特点
  11. 在linux本地下载ftp中的文件
  12. 常用的硬件封装库下载网站
  13. CactiEZ中文版的安装使用方法
  14. STM32标准库及的Keil软件包下载
  15. python打开文件切片_收藏 | 从Python安装到语法基础,小白都能懂的爬虫教程!(附代码)...
  16. 2020,我不想奋斗了
  17. mysql 修改结束符_在MySQL中,用于设置MySQL结束符的关键字是【】
  18. c语言 PTA 基础编程题目集 编程题 7-32 说反话 加强版 的分析
  19. leetcode5454
  20. 5GC核心网开源实现:

热门文章

  1. 八通线和一号线连起来暂时别指望了
  2. 结合计算机专业职业修养的重要性,浅谈职业教育中的计算机教育
  3. 2023最新SSM计算机毕业设计选题大全(附源码+LW)之java青年志愿者社团管理36uiu
  4. mysql二进制升级_mysql5.7.27升级mysql8.0.16
  5. HTML+CSS个人博客静态网页设计 (大一学生web实训作业)
  6. STM32F407_高级定时器_TIM1_TIM8
  7. 使用腾讯SCF+onedrive搭建5T个人网盘
  8. 大数据技术的现状与面临的挑战
  9. zk 是如何解决脑裂问题的
  10. 忘性大,关于ACCESS的一点点。