编译 | 禾木木

出品 | AI科技大本营(ID:rgznai100)

Meta 创建了一个能够翻译 200 种不同语言的人工智能模型,包括许多目前商业工具不支持的语言。Meta 正在开源该项目,希望其他人能够在其工作的基础上进行开发。

此人工智能模型是 Meta 雄心勃勃研发项目的一部分,该项目旨在创建一个所谓的“通用语音翻译器”,Meta 认为这对其在多个平台上的增长是很重要的。例如 Facebook 和 Instagram,再到开发 VR 和 AR 等领域。机器翻译不仅可以让 Meta 更好地了解其用户(从而改善为其带来97%收入的广告系统),也能成为未来项目(如增强现实眼镜)的杀手级应用程序的基础。

模型的翻译绝对不会完美无缺

机器翻译专家表示,Meta 的雄心勃勃的研究是深入透彻的,但也指出该模型的某些翻译质量可能是远低于源语言的,会支持一些其他的语言。

德国慕尼黑大学计算语言学专家亚历山大·弗雷泽教授表示:“这里的主要贡献在于数据,重要的是(可以用Meta的模型翻译的)100种新语言。”

Meta 的成就源于其研究的范围和重点,这有点矛盾。虽然大多数机器翻译模型只能处理少数几种语言,但 Meta 的模型是全方位的:它是一个能够在 200 种不同语言之间,翻译超过4万种不同方向的单一系统。Meta 也非常有兴趣开发在模型中包含“低资源语言”,例如公开翻译的句子对少于100万的语言,其中包括商业机器翻译工具通常不支持的语言。

“怎样才能生产出适合所有人的翻译技术呢?”

参与该研究项目的 Meta AI 研究科学家 AngelaFan 表示,该团队的灵感是来自于,对该领域资源较少的语言的缺乏关注。

如何判断翻译?

翻译是一项很艰巨的任务,相对来说机器翻译也是很不稳定。当在 Meta 平台上大规模应用时,即使是很小的错误也会产生灾难性的结果。例如,当 Facebook 将一名巴勒斯坦男子的帖子从“早上好”翻译成“伤害他们”时,就会导致他被警方逮捕。

为了评估新模型输出的质量,Meta 为模型涵盖的每种语言创建了一个测试数据集,每句话都由专业翻译人员从英语翻译成目标语言。

研究人员在他们的模型中运行这些句子,并使用机器翻译中常见的基准,BLEU(代表BiLingualEvaluationUnderstudy)——将机器翻译与人类参考句子进行比较。

BLEU 允许研究人员对句子之间的重叠进行数值评分,Meta表示,它的模型在不同语种的 BLEU 评分上提高了 44% (与之前最先进的工作相比)。然而,就像人工智能研究中经常出现的情况一样,根据基准来判断进展也是需要上下文来结合。

尽管 BLEU 评分允许研究人员比较不同机器翻译模型的相对进展,但它们并不能绝对衡量软件产生高质量翻译的标准。

请记住:Meta 的数据集由3001个句子组成,每个句子仅有一人翻译。这为判断翻译质量提供了一个基准,但整个语言的总体表达能力是无法通过这么小的实际语言片段所捕捉。这个问题并不局限于 Meta,它会影响所有机器翻译工作,在评估低资源语言时尤其严重,但它标明了该领域面临的挑战的范围。

微软负责机器翻译的首席研究经理克里斯蒂安·费德曼(Christian Federmann)表示,该项目作为一个整体是“值得称赞的”,因为它希望将机器翻译软件的范围扩展到覆盖较少的语言,也指出 BLEU 评分本身仅可以提供有限的输出质量标准。

“翻译是一个创造性的、生成性的过程,它可能会产生许多不同的版本,这些版本都同样好(或坏),我们不可能提供「BLEU评分」的一般水平,因为它们取决于所使用的测试集、它的参考质量,以及正在研究的语言对的固有属性。”

开发人员表示,BLEU 评分也有人工评价的补充,这个反馈非常积极,也产生了一些出人意料的反应。

企业人工智能的失衡

人工智能翻译工作通常被认为是一种好事,但创建这个软件对于使用低资源语言的人来说尤其困难。对于一些社区来说,大型科技公司的关注根本不受欢迎,他们不想要将他们的语言保存在别人的手中。对于另一些人来说,这些问题就不存在,而是更关心质量和影响力的问题。

Meta 的工程师通过采访 44 位使用低资源语言的人来探讨其中的一些问题。这些受访者提出了一些将他们的语言开放给机器翻译的积极和消极影响。

例如,积极的方面是这些工具使演讲者能够接触到更多的媒体和信息。它们可被用来翻译丰富的资源,例如英语维基百科和教育文本。但与此同时,如果使用低资源语言的人消费更多由支持专业版生成语言的话,这可能会削弱他们创建此类材料的动力。

平衡这些问题也是具有挑战性,甚至在最近的这个项目中遇到的问题也说明了原因。例如,Meta 的研究人员指出,在他们为探讨这些问题而采访的 44 位低资源语言使用者中,大多数受访者是“生活在美国和欧洲的移民,其中大约三分之一的人自称是技术工作者”,这意味着他们的观点可能与他们所在社区的观点不同,并且从一开始就有偏见。

慕尼黑大学的弗雷泽教授表示,尽管如此,这项研究肯定是“以越来越多地涉及母语人士的方式进行的”,而且这种努力是“值得称赞的”。

“总的来说,我很高兴 Meta 能够这么做。像谷歌、Meta 和微软等公司在低资源机器翻译方面都有大量工作,这对世界来说是一件好事,”弗雷泽说。“当然,为什么这么做的一些想法也来自学术界,以及大多数研究人员的培训。”

Meta 试图通过扩大他们在项目中咨询的专业知识来应对这些社会挑战。“我认为,当 AI 开发时,它通常是非常工程化的。同样重要的是,决定开源尽可能多的项目元素,从模型到评估数据集和培训代码,这应该有助于纠正从事此类计划的公司固有的权力不平衡。Meta 还向想要为此类翻译项目做出贡献,但无法为自己的项目提供资金的研究人员提供资助。

“我认为这非常非常重要,因为并不是一家公司就能全面解决机器翻译问题,这是每个人的问题,因此我们对支持这些类型的社区工作非常感兴趣。”

参考链接:

https://www.theverge.com/2022/7/6/23194241/meta-facebook-ai-universal-translation-project-no-language-left-behind-open-source-model?scrolla=5eb6d68b7fedc32c19ef33b4

往期回顾

太卷了!AI 高数考试正确率81%

这个Python神器能让你摸半天鱼!

2D变身3D,来看英伟达的AI“新”魔法!

如何用 Python 实现景区安防系统?

分享
点收藏
点点赞
点在看

Meta 开源早期 AI 翻译工具支持 200 种语言相关推荐

  1. 元宇宙中可跨语种交流,Meta 发布新语音模型,支持128种语言无障碍对话

    编译 | 禾木木 出品 | AI科技大本营(ID:rgznai100) 语言交流是人类互动一种自然的方式,随着语音技术的发展,我们可以与设备以及未来的虚拟世界进行互动,由此虚拟体验将于我们的现实世界融 ...

  2. 元宇宙中可跨语种交流!Meta 发布新语音模型,支持128种语言无障碍对话

    编译 | 禾木木 出品 | AI科技大本营(ID:rgznai100) 语言交流是人类互动一种自然的方式,随着语音技术的发展,我们可以与设备以及未来的虚拟世界进行互动,由此虚拟体验将于我们的现实世界融 ...

  3. Meta AI发布具有200种语言的高品质机器翻译人工智能模型

    Meta AI所打造的NLLB-200是第一个能对200种不同语言提供先进质量翻译的单一人工智能(AI)模型. Meta AI也建立了全新的评价数据集FLORES-200,并衡量NLLB-200在每种 ...

  4. 百度AI全面开放EasyDL开启AI普及化时代;讯飞翻译机2.0发布:支持34种语言;华为开发能读懂人类情绪的AI技术

    百度AI全面开放EasyDL开启AI普及化时代,"小白"也能用AI 百度"燎原计划2018"暨百度AI开发者实战营第二季强势回归,首站北京即放送三大满足各类开发 ...

  5. 全球首个突破200种语言互译的翻译引擎,百度翻译打破世界沟通壁垒

    机器翻译作为人工智能关键技术之一,正日益成为企业智能化升级的重要应用场景.12月1日,百度大脑开放日举办了以"机器翻译 沟通全世界"为主题的专场活动. IDC 中国副总裁兼首席分析 ...

  6. 在元宇宙里怎么交朋友?Meta发布跨语种交流语音模型,支持128种语言无障碍对话...

    来源:AI前线 本文约1500字,建议阅读5分钟 本文为你介绍 XLS-R--一套用于各类语音任务的新型自监督模型. 改名 Meta 之后,Facebook 的元宇宙愿景正在一点点实现.这一次,Fac ...

  7. Meta发布支持128种语言的新语音模型:指向元宇宙跨语种交流,可在线试玩

    晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI Facebook AI(bushi),更准确地说是Meta AI,刚刚发布了自监督语音处理模型XLS-R,共支持128种语言. 这项技术与M ...

  8. 人工智能Java SDK:大数据如何与AI技术结合使用 - kafka - 句向量提取【支持15种语言】

    kafka-句向量提取[支持15种语言]SDK 句向量是指将语句映射至固定维度的实数向量. 将不定长的句子用定长的向量表示,为NLP下游任务提供服务. 支持 15 种语言: Arabic, Chine ...

  9. 有道智云智能语音服务全面升级 最多可支持44种语言和方言

    原标题:有道智云智能语音服务全面升级 最多可支持44种语言和方言 有道智云·AI开放平台智能语音服务全面升级,支持40多个小语种的语音识别.及翻译!现在开通注册即送50元体验金免费体验!戳一下了解详情 ...

最新文章

  1. 全球每年仅一位!中国数学家印卧涛荣获优化领域Egon Balas奖
  2. 最新《科学》重磅!科学家喊你赶快关心自己的孩子:缺乏母爱会导致大脑基因改变...
  3. Eclipse启动无响应 停留在Loading workbench状态的解决办法
  4. 湘潭大学计算机考研调剂,2017年湘潭大学硕士研究生调剂信息公告
  5. 软考高项 : (04)论项目沟通管理
  6. 腰部按摩仪芯片-DLT8F71SC-杰力科创
  7. 计算机密码学论文,密码学论文写作范例论文
  8. mysql ndb是什么_MySQL NDB Cluster介绍
  9. Luogu5234[JSOI2012]越狱老虎桥
  10. java的体系结构_java体系结构介绍
  11. 如何更好的做线上引流
  12. TCP三次握手常见问题
  13. 【从零开始学爬虫】采集B站UP主数据
  14. L1-051 打折 (5 分)
  15. UBUNTU install
  16. Java常见的十种排序算法之冒泡排序
  17. 科学计算机里怎样输入分数,怎样在卡西欧计算器上输入分数
  18. 2020.12.08 ps临摹作业含素材
  19. 农村小学计算机教育论文,浅谈现代信息技术在农村小学语文教学中的有效应用...
  20. 焊接机器人编程及调试方法

热门文章

  1. ad中电容用什么封装_玩具中4.5V直流小电机上有个104的小电容,问这个小电容的作用是什么?...
  2. Android Pitfall - 扒一扒RadioGroup 和 RadioButton
  3. 2019/5/第二周
  4. c语言信息注册功能,c语言实现注册登陆功能(两个模块)
  5. python制作界面_详解python做UI界面的方法
  6. 插入法、选择法、冒泡法(C++实现)
  7. C语言中插入法的应用
  8. 电子计算机里CE,电子计算机上的ce表示什么意思
  9. JVAV SE冒泡排序
  10. 按Right-BICEP的测试用例