大数据文摘出品

编译:刘俊寰

1886年,英国考古学家亚瑟·伊万斯偶然间发现了一块刻印着未知语言的石头。得知这块石头来源于地中海的克里特岛后,伊万斯立马动身前往此处以搜寻更多证据。在那里,他马上就发现了许多笔迹相似的石碑,这些石碑能追溯到公元前1400年左右,这些刻字也就成为目前发现的最早的书写形式之一。伊万斯表示,这种线形形式是从早期艺术中粗糙的线条画演变而来,在语言史上占有重要地位。

伊万斯等人后来证实,石碑上的刻字是两种不同的文字系统。稍古老的一种称为A类线形文字,可以追溯到公元前1800年至1400年,此时克里特岛还处于青铜时代的米诺文明阶段。时间上更近一点的文字系统称为B类线形文字,公元前1400年后才出现,此时的克里特岛正被希腊大陆的迈锡尼人统治着。

许多年来,伊万斯等人一直试图翻译这些古老的文字,但都无疾而终。

这个问题直到1953年,一个名叫迈克尔·文特里斯的业余语言学家成功翻译B类线形文字之后,才得到解决。

两个假设

文特里斯的成功建立在两个决定性突破上。第一,他假设B类线形文字中重复出现的词语是克里特岛的地名——这在其后被证明是正确的。第二,他假设这些刻字是古希腊语的早期形式——这让他能够立即翻译出B类线形文字的其他部分。在翻译过程中,文特里斯表示,古希腊语的书面表达形式比之前预想的还要早几个世纪。

文特里斯的工作成果是一项巨大的成就。但像A类线形文字这样的更为古老的文字系统,到今天为止仍然是语言学上一个亟需解决的难题。

通过机器学习绘制特定语言的联结

不难想象,近年来机器翻译的最新进展对此有所帮助。

短短几年内,注释数据库和让机器从中学习的技术让语言学习发生了革命性变化,这使得机器翻译变得越来越普遍。尽管翻译质量有待提高,但这也提供了思考语言的一个全新角度。

来自麻省理工学院的罗家明(音译)和雷吉纳·巴尔齐莱,以及来自加州山景城谷歌人工智能实验室的曹源(音译),由他们组成的团队研发出了能够翻译失传语言的机器学习系统,并且使其翻译B类线形文字——第一次完全自动翻译——证明了系统可行性。

他们所利用的方法与标准机器翻译技术有着显著区别。首先需要知道,不管哪种语言,机器翻译的关键都在于认识到文字间联结的相似性。因此整个过程是从绘制特定语言的联结开始,这需要庞大的文本数据库,机器在这个文本数据库中查验每个字符与其他字符在多大频率上联结在一起。这种表现非常独特,它在多重参数空间上定义了这个词语。实际上,这个词语可以视为空间内一个向量,这个向量在机器对任何语言的翻译结果中都起到重要的约束作用。

这些向量遵循着简单的数学规则,举例而言,国王(king)-男性(man)+女性(woman)=王后(queen)。所以,一句话可以认为是由一系列向量排列形成的一条跨越空间的轨迹。

完全对应地翻译

机器翻译的关键洞见在于,不同语言中的词语在各自的参数空间内占据着相同位置。这使得一种语言能够完全对应地被翻译成另一种语言。在这个意义上,翻译句子就变成寻找那些跨越空间的相似轨迹的过程,机器甚至不需要“知道”句子的具体含义。

这个过程需要依赖大数据集。但几年前,德国的一个研究者团队利用小型数据库协助翻译缺少大型文本数据库的稀有语言,其中的窍门在于找到一种除数据库之外能够约束机器的方法。

利用语言进化的约束

罗家明团队已经进一步展示了机器是怎样翻译一门失传语言的,他们使用的约束与语言随时间的变化相关。任何语言都是以某种方式变化的,比如,亲属语言中的符号以相似的分布出现,相关词语有相同顺序的字符,等等。有了这些规则的约束,如果已知某种古老的语言形式,那么翻译就会轻松许多。

罗家明团队利用这项技术测试了两种失传语言,B类线形文字和乌加里特语。语言学家已经知道,古希腊语的早期形式是由B类线形文字编码得到,而在1929年发现的乌加里特语则是希伯来语的早期形式。

利用这些信息和语言进化的约束,罗家明团队研发的机器能够以相当高的准确度完成上述两种语言的翻译。“我们能够正确地将67.3%的B类线形文字中的同源词翻译成对应的希腊语”,他们说,“据我们所知,本次实验是最早尝试自动翻译B类线形文字的。”而出色的工作成果将机器翻译提高到新的水平。但这也引发了关于其它失传语言的疑问——尤其是从未被翻译过的语言,如A类线形文字。

在这篇文章中,A类线形文字的缺席显而易见,罗家明团队甚至没有提及A类线形文字,但和所有语言学家一样,它肯定在他们心中挥之不去。不过可以确定的是,在A类线形文字能够被机器准确翻译之前,我们还需要一些重要的突破。举个例子,没人知道A类线形文字编码了哪种语言,将它翻译成古希腊语的尝试都失败了。如果不知道祖语言,新技术也起不了作用。

但是基于机器的方法存在一个明显的优势,机器可以快速而不知疲倦地对每种语言进行测试。因此罗家明团队或许可以用一种粗暴的方法攻克A类线形文字的翻译难关——尝试将它翻译成机器已经掌握的每种语言。如果最终成功,那一定是一项伟大的成就,一项足以另迈克尔·文特里斯赞叹不已的成就。

三千年前的古文字被AI破译,MIT和谷歌开发失传语言的机器翻译系统相关推荐

  1. 三千年前的古文字被 AI 破译,MIT 和谷歌开发失传语言的机器翻译系统

    本文授权转载自大数据文摘 | BigDataDigest文章有部分改动 文字是文明的重要标志和载体,古老的文明都拥有自己的文字.沿着文字的变迁,我们能够追溯历史的进展. 然而,文字会随着文明的毁灭而失 ...

  2. 最早的算法可追溯到三千年前,“所谓的 AI 并非源自先进的技术”!

    算法究竟从何而来?所谓的"AI"是否纯粹依靠先进的技术?人工智能与人类智能之间又究竟有着什么关系?...... 本文作者追溯到三千年前的火坛祭仪式,通过介绍火坛祭仪式的古代几何学. ...

  3. AI并非源自现代技术?最早的算法可追溯到三千年前

    作者 | Matteo Pasquinelli 译者 | 弯月,责编 | 郭芮 出品 | CSDN(ID:CSDNnews) 导语:算法究竟从何而来?所谓的"AI"是否纯粹依靠先进 ...

  4. 震惊!原来现在无所不能的世界主人翁,早已在三千年前就悄然出现!

    ▲ 点击查看 早在春秋时代,鲁班作为机械工程师的祖师爷,就极其擅长且痴迷于一些古怪的机械装置,因此,他除了发明了墨斗.曲尺这些正儿八经的东西之外,最出名的就是用木头,发明了一只据说能在天上飞三天而不落 ...

  5. 案例:能否借助AI破译婴儿哭声?

    作者:于长弘 全文共 4646 字 14 图,阅读需要 10 分钟 ---- / BEGIN / ---- 哭闹是宝宝表达情感和寻求帮助的主要方式,也是一种健康的表现.就像在告诉父母:"我需 ...

  6. AI重新定义web及谷歌验证码安全

    AI重新定义web及谷歌验证码安全 云给安全带来的影响 云化导致以硬件设备为主的传统安全方式失效 云化导致攻击/作恶成本大大降低 云化导致业务可控性降低 安全产品需要变革 机器学习是解决安全问题的金钥 ...

  7. MIT研究团队开发由磁铁控制的小型机器人,可在人体内提供治疗

    内容来源:ATYUN AI平台 由磁铁控制的小型机器人可能有一天会在你的身体中穿行,提供治疗或采集组织样本.麻省理工学院设想创造可以根据提示进行变化的软性移动设备. 只需一个磁铁,机器人就可以在有限的 ...

  8. MIT研究团队开发微型低功耗芯片,用于小型无人机导航

    内容来源:ATYUN AI平台 麻省理工学院的研究人员去年设计了一种微型计算机芯片,专门用于帮助硬币大小的无人机导航,而现在芯片在尺寸和功耗方面都进一步缩小. 该小组由麻省理工学院电气工程与计算机科学 ...

  9. MIT团队:开发自动化假新闻检测器|技术前沿洞察

    硅谷Live / 实地探访 / 热点探秘 / 深度探讨 随着人工智能.5G.区块链等技术越来越多出现在我们的科技新闻当中,到底这些技术的最新进展如何?学界.产业界都是如何对技术前沿进行探索的? 无论是 ...

最新文章

  1. mSystems:南土所梁玉婷组-土壤pH过滤稻田土壤耐铝微生物的关联模式
  2. C#与.NET程序员面试宝典 1.3.1 网络应聘(图)
  3. 第九章构造数据类型实验
  4. 统计学习方法之机器学习相关理论
  5. 囚犯生存概率引发的循环思考
  6. Skip-Thought Vector —— 跳跃思维句表示
  7. 基于Java实现的快速排序
  8. pls-toolbox_使用T-SQL Toolbox数据库解决时区,GMT和UTC问题
  9. Scrapyd发布爬虫的工具
  10. 极验打码平台官网地址
  11. 毫末追击智能驾驶1000天,对战蔚小理将现胜负手
  12. 在Android中调用浏览器打开网页方式
  13. Sublime 中快速打开网页
  14. 概率分布 ---- 均匀分布
  15. Java基础之刨根问底第1集——JVM的结构
  16. 80句励志名言名句-用来时刻鞭策自己
  17. Android像素单位dp,sp,px,pt的区别和比较
  18. 网络同步IE收藏夹攻略(转)
  19. 微信公众号开发系列-网页授权获取用户基本信息
  20. Python爬虫实战之xpath解析

热门文章

  1. APP需要关注哪些安全问题
  2. 04747java答案_自考04747《java语言程序设计(一)》课后习题答案全集
  3. StarUML 4.0.0 英文版 UML类图建模工具
  4. 在含量中php是什么意思,ar测量是什么意思
  5. iTranslate for Mac(苹果专用翻译软件)
  6. mysql如果计算本月变动/本月增幅/同比变动/同比增幅?
  7. 【PAT】1028 人口普查
  8. Fortran数组学习
  9. 米联客FDMA_V3详细解读,单摄像头图像传输模板-降采样进阶版
  10. 实名认证直接刷脸,公安部研发网上身份证