梦晨 萧箫 发自 凹非寺
量子位 报道 | 公众号 QbitAI

听说微软搞了个AI翻译文言文?

赶紧来试试,先来一段《曹刿论战》的开头:

我震惊了,居然能把“我”翻译成“鲁国”,“公”翻译成“鲁庄公”。

难道AI除了学习文言文词汇和语法,还熟读了《左传》?

换成诗表现又将如何?

虽然翻译出来不是很有文学性,但AI正确理解到了“望着同一个月亮”这层意思。

嚯,这个翻译极大地引起了我的兴趣。

如果百度和微软一起上考场

既然翻译出正确词意不是太难,那文言文中的特殊语法AI能否掌握?

为了更好地评估微软翻译的能力,这里请出老牌选手百度翻译,让它们比试一下。

第一题:秦时明月汉时关

这里考点是互文的修辞方法,应该理解成秦汉时期的明月、秦汉时期的关口。

百度的答案是:

看来百度没理解到位,再看看微软的答案:

微软正确理解了互文,率先拿下1分。

第二题:春风又绿江南岸

这句的考点是词类活用,绿本来是个形容词,在这里用作动词。

还是百度先来:

没问题,接下来是微软:

等一下,虽然绿用作动词翻译对了,可是后面怎么多了一个“可是”?

难道……把后半句诗也输进去试试:

果然如此,看来微软翻译在用整句进行训练的时候掌握了句与句之间的转折关系,后来不知怎么又算到前半句里了。

这次百度扳回一局,1:1平。

最后一题考验一下文言文中的另一个常见语法现象——倒装

比如《邹忌讽齐王纳谏》中的“我孰与城北徐公美?”

按惯例百度先:

然后是微软:

看来两个AI都学会了倒装句的用法,最终结果2:2平,各有千秋。

微软翻译虽然多学会了一个互文,但毕竟还是年轻选手,对句子之间关系的处理需要再练习。

接下来挑战一下微软文言文翻译的极限。

比如维基百科其实就有个文言文版叫维基大典,里面刚好有微软的词条。

来试试让微软AI翻译一下自己公司的介绍:

看起来现代的伪文言文对于这个刚出生的小AI来说还是太苛刻了。

虽然也特别训练了“微软”和“电脑”这种现代才出现的名词,但遇到“一九七五年”这种古代不用的表达就不行了,前老板比尔盖茨的名字也没认出来。

“立之者”这里还按古文的语境脑补出一个“国君”,可能这就是过拟合吧。

说到现代的表达方式,其实这个翻译工具还可以倒过来用,把白话文译成文言文。

比如诸葛丞相那句“我从未见过有如此厚颜无耻之人!”要是用文言文说出来是不是就更对味了?

那么,这样的模型是怎么“炼成”的呢?

Transformer加成,专攻训练数据

用AI搞文言文翻译,确实不是头一回见。

百度是最早用机器学习做文言文翻译的,还申请过相关专利:「一种在白话文与文言文之间进行文体转换的方法和设备」。

相关文言文翻译的模型也不少,从机器学习、RNN到Transformer都有,像微软这次采用的,就是Transformer模型:

图源:微软研究院AI头条

不过,文言文翻译中的训练数据,却一直是个难点。

相比于其他主流语言(中文现代文、英文等),文言文可以说是训练数据极少,同时还存在句式变换、繁简混合等问题,造成翻译的生硬。

这次微软的文言文翻译,主要就解决了四个方面的数据问题:

  • 其一,针对数据量不足,利用相同字词进行数据合成和增强。文言文和现代文有一些相同含义的字词,如果对这些词语进行召回、对齐,再扩展到短词短句,就能合成大量可用的训练数据。

  • 其二,针对句式变换不灵活,对数据格式进行变形,提升鲁棒性。文言文断句和现代文不太一样,为此研究人员通过数据格式变形,来扩大训练数据量,让模型也学会翻译类似语句。

  • 其三,针对字体识别不力,用简繁混合数据训练,提升模型识别能力。为了让机器学习能同时识别简繁混合的文言文,研究人员在训练模型时会将简体中文和繁体中文数据混合在一起进行训练,确保翻译模型不出错。

  • 其四,针对现代文的“新词”,专门建立相关数据集和识别模型,确保不“乱翻译”。为了避免模型在遇到现代文中的“高铁、电脑、互联网”这种词时出现混乱(例如将高铁翻译成高处的铁块),研究人员建了一个模型,专门用来识别这些新词。除了新词,也针对博客、论坛、微博等新文体进行训练。

然而这都还只是文言文和中文之间的互译,整点英文试试?

英译中,bug藏不住了

这次微软的文言文翻译是直接整合到了Bing翻译里,难道还可以把文言文翻译成外语?

先挑战一下单个的英文句子:

Never gonna give you up

看来简单句没有难倒AI,我们提升一下难度,用一首比较著名的英文诗「当你老了」试试:

等等,“灰暗”、“阴景深”、“弯下腰在酒边”……这都是什么鬼?

简单的句子似乎还好,然而一到长句子,怎么就翻译成这样了?

不过,微软也说过,这次主要实现的是文言文和现代文互译,说明其他语言在翻译成文言文之前,应该也需要先翻译成现代文。

那来看看微软的英译中效果怎么样:

破案了,微软的英译中确实不太行……可能也是导致英文翻译成文言文出现失误的原因。

相比之下,从文言文翻译现代文、再翻译到中文的效果要稍微好一点。

顺带一提,虽然正经的英文字句翻译得不太行,不过在这种字词的翻译上……竟然还有点文艺?

看来以后可以和翻译模型学习如何优雅地骂人了。(手动狗头)

如果大家还调戏出了什么好玩的翻译,欢迎留言~

微软文言文翻译地址:
https://cn.bing.com/translator

参考链接:
[1]https://weibo.com/msra?profile_ftype=1&is_all=1#1630370728811
[2]https://mp.weixin.qq.com/s/5cpBuUXfeb0r13JSyNuS_Q

调戏微软文言文AI翻译:“永不舍汝”、“其母之”是什么鬼???相关推荐

  1. 微软语音AI技术与微软听听文档小程序实践 | AI ProCon 2019

    演讲嘉宾 | 赵晟.张鹏 整理 | 伍杏玲 来源 | CSDN(ID:CSDNnews) [导语]9 月 7 日,在CSDN主办的「AI ProCon 2019」上,微软(亚洲)互联网工程院人工智能语 ...

  2. 微软推出 AI 开发免费电子书,手把手教你构建智能聊天机器人

    日前,微软推出 AI 开发者免费电子书,教导大家利用微软 AI 平台开发智能聊天机器人.该电子书不长,核心内容共有四十多页,其中涵盖大量代码,相信对于 AI 初学者来说,这将是一本很有用的实战教程. ...

  3. AI Frontiers | 微软首席 AI 科学家邓力演讲:口语对话系统的分类及三代演变

     AI Frontiers | 微软首席 AI 科学家邓力演讲:口语对话系统的分类及三代演变 编者按:邓力博士原为加拿大滑铁卢大学教授,1999 年加入微软,2016 年起担任微软首席人工智能科学 ...

  4. 微软Cloud+AI本地化社区贡献指南

    本文主要介绍微软Cloud+AI本地化社区,以及通过多种途径贡献本地化的操作指南. 什么是本地化社区 Cloud+AI本地化社区是微软技术社区的组成部分之一,负责对微软官方技术文档本地化的支持工作.微 ...

  5. 墨迹天气语音包_小米有品“智能AI翻译机”评测,还内置了语音助手,随身WiFi功能...

    出国旅游时,我们需要面对的最大问题应该就是言语沟通了,毕竟想要掌握一门新的语言不是什么容易的事情.近期,小米科技旗下的小米有品平台上线了一款新品:Langogo智能AI翻译机,对于想出国游玩或工作的朋 ...

  6. 微软语音 AI 技术与微软听听文档小程序实践 | AI ProCon 2019

    演讲者 | 赵晟.张鹏 整理 | 伍杏玲 出品 | CSDN(ID:CSDNnews) [CSDN 编者按]9 月 7 日,在CSDN主办的「AI ProCon 2019」上,微软(亚洲)互联网工程院 ...

  7. 响铃:当AI翻译能识别“语境”,我们的“地球村”梦想就不远了

    文|曾响铃 来源|科技向令说(xiangling0815) <圣经.旧约>里记载着这样一段故事: 当时人类联合起来兴建希望能通往天堂的高塔,为了阻止人类的计划,上帝让人类说不同语言,使人类 ...

  8. 当微软谈AI时,我似乎忘了还有其它人工智能公司

    这绝对是一场人工智能的盛宴,几个小时内其几乎展现了当前业界所有能够实现产品化的人工智能技术.绝对得承认,微软是一家伟大的公司. 5月21日,微软2018人工智能大会在京召开.天公并不作美,小雨,但现场 ...

  9. 微软将AI平民化:点几下鼠标,草图就能变App【产品经理的最爱】

    草图变代码:微软Power Apps迎来Express Design快速设计工具 5月25日报道,和前两年一样,今年微软Build开发者大会再度以虚拟方式举行,并由微软董事长兼CEO萨提亚·纳德拉发表 ...

  10. 微软全球AI总监:Azure AI是OpenAI技术商业化变现唯一、排他性合作方

    作者 | 夕颜 出品 | AI科技大本营(ID:rgznai100) 导读:7 月 24 日下午,微软在北京举行了媒体交流会.会上,微软全球副总裁,人工智能平台负责人 Eric Boyd 介绍了 Az ...

最新文章

  1. struts1.2上传多个文件
  2. 如何用12864液晶显示图片和绘制任意函数图象(打点)
  3. 吴恩达深度学习课程deeplearning.ai课程作业:Class 4 Week 1 Convolutional Neural Networks: Step by Step
  4. python经典算法题:无重复字符的最长子串
  5. colab中安装lightgbm的GPU版本
  6. Pytest框架集成Allure定制测试报告详解(一)
  7. 华为鸿蒙系统真的好吗,鸿蒙系统真的成熟吗?华为还有很长的路要走
  8. mysql rls_Python插入到mysql表不起作用
  9. java 枚举不能继承_Java中的枚举类为何不能有public构造器
  10. 一线大厂都在跑的微服务,真有这么香吗?
  11. kibana4 分析和搜索仪表板 安装和配置
  12. 什么是erp管理系统
  13. iOS逆向-day1:逆向内容的简介与越狱环境搭建
  14. ubuntu 14.04 安装 minidwep-gtk, aircrack-ng, reaver 搭建抓包环境
  15. 前缀列表ip prefix-list
  16. 微信小程序,不可不知的一二三四
  17. 线性模型(一)--广义线性模型(GLM)简介
  18. 创业者尽职调查之一:用户增长核算[英文版]
  19. 怎么保存网页为html格式,怎样保存网页部分内容为html格式?
  20. 5 Pandas数据库

热门文章

  1. python题库选择题刷题训练_python题库刷题训练开源到了Github
  2. matlab之矩阵运算
  3. 微博粉丝精灵_微信全国500强、微博粉丝数省内领先……看快报这群年轻人如何运营一个个人气平台...
  4. 中文实体关系抽取实践
  5. inode客户端linux 怎样运行,H3C_iNode智能客户端安装指导(Linux)
  6. Linux驱动开发-编写OLED显示屏驱动
  7. mid、mif文件操作工具类
  8. 电力软件系统测试报告,电力巡检系统测试报告-软件工程
  9. 如何使用数据库保存文件
  10. 什么是PaaS云平台?