2019独角兽企业重金招聘Python工程师标准>>>

简评: 在大英博物馆 (British Museum) 的柔光中,人们只能勉强看到镌刻在这些古老泥板上的密密麻麻的楔形标记。这些细小的标记是世界上最古老的书写系统 —— 楔形文字 的遗迹。

古帝国的兴衰

楔形文字起源于 5000 多年前的美索不达米亚,位于底格里斯河和幼发拉底河之间,也就是现在的伊拉克。它记录了一个长达 3000 年之久的、复杂而迷人的文明。

从王室之间愤怒内斗的信件,到安抚一个任性婴儿的仪式,这些石碑让人们可以从另一个独特的视角了解历史初期的社会。它们记录了阿卡德、亚述和巴比伦帝国的兴衰,这是世界上第一个帝国。据估计,人们已经挖掘出了约50万块楔形文字板,但还有很多仍深埋地下。

机器翻译

约 150 年前,学者们首次破译楔形文字。然而,目前仍有约 90% 的楔形文字未被翻译出来。

但是,这种情况可能会有所改变,这都要归功于现代工具 —— 机器翻译。

多伦多大学亚述学研究员佩龙 (Emilie Page-Perron) 现在正在进行的一个项目,是用机器翻译公元前 21 世纪以来美索不达米亚文明的行政记录,数量多达 69000 份,其目的之一是为新的研究发掘过去。

美索不达米亚文明孕育了车轮、天文学、一小时 60 分钟的计时制、地图、洪水和方舟的故事、以及第一部文学作品 ——《吉尔伽美什史诗》。这本诗集主要是用苏美尔语和阿卡德语写成的,能读懂这些语言的学者少之又少。

除了石碑,还有 5 万多枚美索不达米亚雕刻印章散落在世界各地。几千年来,美索不达米亚人使用由雕刻石头制成的印章,这些印章被压入潮湿的粘土中,用来标记门、罐子、石板和其他物品。这些刻章中只有 1/10 被编入目录,更不用说翻译了。

牛津大学亚述学教授达尔 (Jacob Dahl) 表示 —— 我们所获得的关于美索不达米亚文明的资料比希腊、罗马和古埃及的加起来还要多,但真正的挑战在于找到能读懂它们的人。

佩龙与其团队正在对一个数据库中的 4000 个古代行政文本样本编写算法。

这些行政文本包括交易和运输记录,比如把羊、芦苇束或啤酒运到寺庙或个人手中的记录。这些文字最初是用芦苇笔刻在粘土上的。现在,学者已经把它们音译成了我们的字母表。

例如,苏美尔语中表示「大」的词可以写成楔形文字,也可以写成英文字母表中的「gal」。

这些行政文书的措辞很简单。例如「第15天,厨房有 11 只母山羊」。这种特点使得它们特别适合被自动化处理。一旦算法学会了将样本文本翻译成英语,它们就能自动翻译其他经过音译的石碑。

这些记录向我们展示了古代美索不达米亚人的日常生活,包括权力结构和贸易网络,同时还展示了社会历史的其他方面,如女工的角色。

佩龙希望机器分析也能弄清苏美尔人的一些特征,这是至今仍困扰着现代学术界的难题。这种已经灭绝的语言与任何现代语言都没有联系,但却保存在以楔形文字书写的碑文中。这可能是我们与更古老,甚至没有历史记载的社会之间最后的联系。

芬克尔是世界上顶尖的楔形文字专家之一。

他在大英博物馆堆满书的办公室里讲解了手稿是如何慢慢被破译的,这多亏了一位国王的多语种铭文,就像罗塞塔石碑帮助研究人员理解了埃及象形文字一样。

触碰古老宝藏

多亏了先进的成像技术,现在任何人只要能上网就能接触到这些宝藏。

比如,世界上现存最古老的皇家图书馆,人们正在将它数字化。这座图书馆位于尼尼微,由亚述国王亚述巴尼帕(Ashurbanipal)建造。虽然早在公元前 612 年,尼尼微遭遇洗劫时,这些碑文被火烤得又黑又硬,但上面的文字仍可辨认。

新的成像技术让人们在处理这些古老且破损严重的文本时更加轻松。有了精细的图像,人们就有可能找出那些肉眼看不见的模糊标记。

一个名为「楔形文字数字图书馆倡议」(Cuneiform Digital Library Initiative) 的项目,将储存在德黑兰、巴黎和牛津馆藏中的碑文及印章进行数字化处理。这个庞大的在线数据库已经包含了世界上约三分之一的楔形文字,以及一些未被破译的书面语言(如古伊朗的原始埃兰语)。

如果没有这样庞大的数字资源,让机器进行翻译几乎是不可能的。

数字化还帮助研究者们将散落在世界各地的文本拼凑起来。

研究员曾对美索不达米亚的 200 多枚石印的 3D 图像进行了数字化处理。在试点项目中,他们使用了人工智能算法校验了 6 块碑文,并识别出在世界其他地方发现的与之匹配的石印。算法准确地挑选出了两块现存于意大利和美国的石碑,这两块石碑上盖的石印是一样的。

在过去,想要将石印和印痕匹配起来困难重重,因为许多石印储存在数千英里之外的地方。而现在,人工智能的发展能帮助探索世界各地收藏品中蕴藏的丰富信息。

破译古人的语言

成像技术也改变了对于未破译文本的研究。

对于数量少、具创造性文本的破译,人类往往比机器做得更好,人类有着对生活和组织方式的深入理解,以及高度的灵活性。

例如,早期的楔形文字符号并不是线性排布的,而是简单地与画在周围的方框排在一起。原始埃兰语是三维立体的,一个圆印的深浅不同意义也不同。但是,技术可以放大、分享和比较图片的细节,加快了破译进程。

佩龙希望机器最终能够翻译更复杂的苏美尔语石碑和其他语言,比如阿卡德语。也许有一天,我们将能够阅读所有古老文字的翻译版本。

古代美索不达米亚的国王们深深地思考着过去和未来。他们崇敬前朝的楔形文字,将记录着他们的名字和成就的铭文埋藏地下,寄望后世的统治者会将荣耀归于自己。

在某种程度上,他们的愿望已经实现。他们的经历过的战争和征服可能已经被大多数人遗忘,但是他们最强大的发明 —— 文字,在过去的几千年里助力了人类思想和技术的发展。

而现在,人类开始训练机器从过去中学习。


原文链接:The key to cracking long-dead languages?

推荐阅读:人工智能缺陷与误觉:让机器产生幻觉的「怪异事件」

欢迎关注微信号「极光开发者」

转载于:https://my.oschina.net/jpushtech/blog/3033947

机器学习如何破译早已消亡的古老语言?相关推荐

  1. 机器学习和深度学习笔记(Matlab语言实现)

    不多说,直接上干货! 这里,对于想用matlab语言来做的朋友,强烈推荐 http://www.cnblogs.com/tornadomeet/

  2. 机器学习基础(二十)—— 数学语言与 Python 代码

    (1)加权求和就是计算内积: (2)加权(weighted)的权值用于衡量重要程度 (3)编程语言中的赋值即更新,尤其在 iterative process: w←w+λv \mathbf{w}\le ...

  3. 机器学习_深度学习毕设题目汇总——语言

    下面是该类的一些题目: 题目 基于预训练语言模型的中文短文本分类研究 基于预训练语言模型的抽取式摘要方法研究 基于预训练语言模型的文本情感分析 基于预训练语言模型的自然语言理解方法研究 基于预训练语言 ...

  4. AI成功破译古老未知语言,人工智能技术开辟历史研究新时代

    近年来,人工智能在各个领域取得了突飞猛进的发展,成为了当今社会讨论的热点.尽管有关其使用的争议不断,但AI技术在某些方面的作用已经不容忽视. 最近,以色列特拉维夫大学和阿里尔大学的研究者们联手研发了一 ...

  5. 机器学习已能翻译失传已久的语言

    http://m.gmw.cn/toutiao/2019-07/19/content_122535692.htm 对失传已久的语言进行破译,一直是考古学家和语言学家关注的焦点和难点.随着大型注释库的应 ...

  6. 三千年前的古文字被 AI 破译,MIT 和谷歌开发失传语言的机器翻译系统

    本文授权转载自大数据文摘 | BigDataDigest文章有部分改动 文字是文明的重要标志和载体,古老的文明都拥有自己的文字.沿着文字的变迁,我们能够追溯历史的进展. 然而,文字会随着文明的毁灭而失 ...

  7. R 回归 虚拟变量na_工具amp;方法 | R语言机器学习包大全(共45个包)

    机器学习,是一门多学科交叉的人工智能领域的分析技术,它使用算法解析数据,从中学习,然后对世界上的某件事情做出决定或预测. 目前,常见机器学习的研究方向主要包括决策树.随机森林.神经网络.贝叶斯学习和支 ...

  8. 为什么 Python被Google选为TensorFlow的开发语言呢?使用 Python比C++语言进行机器学习有什么优势?

    其实TensorFlow大部分内核并不是用Python编写的 :它是高度优化了C++和CUDA(Nvidia用于编程GPU的语言)的组合. 相反,通常它是使用了Eigen (高性能C ++和CUDA库 ...

  9. 支持C/C++、Java、python、Matlab等语言的第三方机器学习库汇总

    C 通用机器学习 Recommender - 一个产品推荐的C语言库,利用了协同过滤. 计算机视觉 CCV - C-based/Cached/Core Computer Vision Library ...

最新文章

  1. 【unity3d study ---- 麦子学院】---------- unity3d常用组件及分析 ---------- 组件的使用...
  2. 【Beta版本】冲刺-Day6
  3. 很幽默的讲解六种Socket IO模型
  4. 实现 Java 本地缓存
  5. HTTP协议 ----响应消息
  6. C++实现冒泡排序(附完整源码)
  7. Redis与python交互
  8. tde数据库加密_如何将TDE加密的用户数据库添加到Always On可用性组
  9. vertical-align和line-height的深入应用
  10. 实战分享声卡效果调试都用那些效果器插件
  11. es6学习推荐网址(阮一峰)
  12. 学报格式和论文格式一样吗_学报格式
  13. 龙芯CPU芯片架构分析
  14. 个人独立开发的一款天气app
  15. du命令参数-h/-s
  16. Excel——快速定位工作表到表格末尾、列尾、选择表格内容区域
  17. MikTex 和 TexStudio 输入中文日文
  18. c语言windows库函数,C语言访问Windows COM组件函数
  19. Linux路由表的抽象扩展应用于nf_conntrack
  20. 如何学习SQL (转)

热门文章

  1. 楼教主男人八题(第一题)
  2. 工业企业危险源管理和应急管理解决方案
  3. Vue移动端——隐藏滚动条
  4. 人工智能 | ShowMeAI资讯日报 #2022.06.15
  5. 2022年全球及中国手术感控行业头部企业市场占有率及排名调研报告
  6. RK 100 上手体验 — 机械键盘客制化入门之选?
  7. 锁屏解锁-KeyguardManager
  8. 3D Packing for Self-Supervised Monocular Depth Estimation
  9. 聚丙烯酸负载小鼠血清白蛋白(MSA)/大鼠血清白蛋白(RSA)/小麦麦清白蛋白;PAA-MSA/RSA
  10. Matlab实现复化求积公式(梯形)