国外科学家使用深度学习还原古代文字代码开源
下面这张图是考古中发现的一块损坏的铭文:关于一项关于雅典卫城的法令(公元前485/4)。
概述
深度学习可以帮助学者恢复古希腊文字。
牛津大学的研究人员(Thea Sommerschield和乔纳森·普拉格教授)和DeepMind的研究人员(Yannis Assael)建立了Pythia,训练了神经网络来猜测希腊铭文中缺少的单词或字符。
它们在包括石材,陶瓷和金属的表面上。他们年龄在1500至2600年之间。最新报告可以看到人工智能在破译受损药片方面也击败了人类。
“在面对面的测试中,人工智能试图填补2949个受损铭文中的空白,人类专家所犯的错误比人工智能多30%。而专家们花了2个小时才获得了50个铭文,Pythia给出了猜测整个队列只需几秒钟。”
从一开始,作者就知道恢复文本是一项耗时的任务,甚至对于专家级的词学家来说也是如此。他们着手在两名具有表象专业知识的博士生的帮助下,评估手头修复任务的难度,从而判断我们工作的影响。允许学者使用训练集搜索“相似”。
在填充遗漏的单词方面,人工智能似乎比人类更好,但这不是A队与B队的竞争。相反,人工智能技术“可能是最有用的协作工具,研究人员可以使用它来缩小选择范围。”
几个世纪以来,许多古老的禁忌已经被侵蚀或破坏。作者说:“只有一小部分尚存的铭文是完全清晰和完整的。”
在文本片段丢失的情况下,如何尝试填补遗漏单词的空白?正如作者所说,这意味着要看其余的铭文并看其他类似的文字。
生成PHI-ML
由于数字化人口统计语料的可用性,PYTHIA已接受过古希腊文字(以下简称“ AG”)铭文的训练。作者选择AG题词作为案例研究有两个原因:
a)内容的可变性AG历史记录的背景使之成为现实NLP面临的巨大挑战;b)数位AG文本语料库最近已创建,最大的是PHI(The Packard Humanities研究所
恢复损坏的AG铭文时,碑文学家对总数的猜想缺少的字符由语法和语法上的考虑,以及碑文的重构图形布局。猜想的丢失字符通常是标有连字符,一连字符等于一个缺少字符。
此外,碑文学家传统上会将经编辑的文本转换为小写字母,加上标点符号和变音符号,这通常是原始铭文所没有的。这些PHI中也使用了约定。
因为PHI中的人类注释很杂并且在语法上常常不一致,作者编写了一个管道将其转换为机器可操作文本。
我们首先计算字符频率并标准化AG字母以包括所有核心字符,包括所有重音符号(147个字符),数字,空格和标点符号。引入了两个附加字符:“-”代表丢失字符,“?”表示要预测的字符。然后,我们编写了正则表达式来替换出现在带0的文本以避免数值相关,带状其余的标点符号,删除某些字符周围的常规字母符号(“ Leiden约定”),并丢弃内容不是希腊文的注释。然后着手清除人的意见,修复标点符号的间隔和大小写,并过滤了结果文本,以便仅保留受限制的字母字符。课文少于100个字符的字符也将被丢弃。最后,我们匹配了失踪人数文字学家所猜想的人物,从而将长度值转换为相等“-”符号的数量。所得数据集名为PHI-ML,并且由超过320万个单词组成(表1)。PHI ID以{3,4}结尾的题词(PHI中的每个题词都分配有唯一创建原始语料库时的标识符)保留并分别用作测试和验证集。
背景的重要性
上下文信息的存在是影响人口统计学还原的准确性的决定性因素。因此,我们评估了不同文本长度作为增强上下文对文本的影响
PYTHIA的前20位准确性度量。可以
从下图可以看出,“上下文长度”和预测性能我们的模型是积极的。
具体来说,性能在上下文的500个字符左右达到峰值长度。此外,图中举例说明了当仅提供了较短的上下文长度(例如20个字符)。
后一种情况回想起了字符串匹配和“并行”搜索方法所遇到的类似困难,其中搜索查询通常会很短。
有关于AI称为Pythia的功能的报告:(1)Pythia学会了识别35,000个文物中的模式,超过300万个单词。(2)它选择的模式包括出现不同单词的上下文,语法以及铭文的形状和布局。
为了帮助碑文学家,毕生不仅仅给学者一个预言。而是返回多个预测以及每个结果的置信度。
方法评估
因为文字还原即使对于专家级的地名学家,我们着手评估手头修复任务的难度-因此在以下人员的帮助下判断我们工作的影响两名具有统计学专业的博士生。允许学者们使用训练集搜索“相似”,并取平均值2小时内完成50次修复,特征为57.3%错误率(CER)。LM生理学。评估性能使用“平行”模型,我们训练了LM。由于文本的大部分出现乱码,因此完全无法识别的单词,并且因为BERT不是一个选项,所以LM在字符级别工作并且基于Zaremba等人的设置。
LM接受了两次训练较大的文学AG文本(“语言学”),First1KGreek和Perseus的数字语料库,并进行了评估在PHI-ML上。LM心理学与史诗。LM联合受过First1KGreek,Perseus和PHI-ML的培训。LM史诗。LM对PHI-ML进行了培训,PYTHIA-UNI。消融架构,使用仅字符作为输入和单向LSTM,PYTHIA-BI。与PYTHIA-UNI消融相似,但具有双向LSTM。PYTHIA-BI-WORD。这是我们建议的模型选择,它使用双向LSTM和字符和单词作为输入。
结论
PYTHIA是第一个古代文字恢复模型同类的。我们的实验评估和消融研究证明了我们设计的有效性做出决定,并阐明PYTHIA的方法协助,指导和推进古代历史学家的任务-和适当的数字人文学科。
机器学习和碑文的结合具有可能对古代和现代文字文化的研究产生有意义的影响。通过开放采购PYTHIA和PHI-ML的处理流程,我们希望有助于未来的研究并激发进一步的跨学科工作。
相关论文源码下载地址:关注“图像算法”微信公众号回复“古文”
国外科学家使用深度学习还原古代文字代码开源相关推荐
- 毕业设计-基于深度学习的图像文字识别系统
目录 前言 课题背景和意义 实现技术思路 一.基本原理 二.基于深度学习的图像文字识别技术 三.总结 实现效果图样例 最后 前言
- 10 年深度学习顶级论文和代码精选,请务必收藏!
点击上方"AI有道",选择"星标"公众号 重磅干货,第一时间送达 你是否经常花费时间或苦于寻找深度学习相关的顶会优秀论文极其相对应的代码?今天给大家介绍一个超赞 ...
- 实现Linux服务器配置深度学习环境并跑代码完整步骤
实现Linux服务器配置深度学习环境并跑代码完整步骤 目录 实现Linux服务器配置深度学习环境并跑代码完整步骤 安装pytorch 第一步 安装anaconda创建虚拟环境 1.下载安装包 2.安装 ...
- AI实战:基于深度学习的空气质量预测模型开源代码汇总
基于深度学习的空气质量预测模型开源代码汇总 一.传统机理空气质量模型 空气质量模型是基于人类对大气物理和化学过程科学认识的基础上,运用气象学原理及数学方法,从水平和垂直方向在大尺度范围内对空气质量进行 ...
- 速成!免费送!一份火爆国外的前沿深度学习实践课程(附链接)
本文经AI新媒体量子位(公众号ID:qbitai )授权转载,转载请联系出处. 本文约4000字,建议阅读8分钟. 本文介绍了目前国外火爆的免费AI课程--"给程序员的实践深度学习课&quo ...
- 让失焦影像更加清晰 运用AI深度学习还原影像
模糊或是失真的影像还有救吗?最近英国一家研发公司推出重建清晰影像系统DeepRay,透过深度学习技术,将原本模糊.受损或是失真的影像重建,输出清晰的影像. 模糊或是失真的影像,对图像处理工程师来说,是 ...
- 【深度学习】OCR文字识别—基于CTC/Attention/ACE的三大解码算法
本文全面梳理一下OCR文字识别三种解码算法,先介绍一下什么是OCR文字识别,然后介绍一下常用的特征提取方法CRNN,最后介绍3种常用的解码算法CTC/Attention/ACE. 什么是OCR文字识别 ...
- pytorch深度学习_用于数据科学家的深度学习的最小pytorch子集
pytorch深度学习 PyTorch has sort of became one of the de facto standards for creating Neural Networks no ...
- 基于RNN的NLP机器翻译深度学习课程 | 附实战代码
作者 | 小宋是呢 来源 | CSDN博客 深度学习用的有一年多了,最近开始NLP自然处理方面的研发.刚好趁着这个机会写一系列 NLP 机器翻译深度学习实战课程. 本系列课程将从原理讲解与数据处理深入 ...
最新文章
- 流程控制关键字——跳转结构
- 开发日记-20190823 linux有名管道fifo,进程间通信
- Linux 操作 一批文件或者文件夹
- C++11多线程thread参数传递问题
- 如何在Mac上将 Spotify 音乐转换为 MP3 格式?
- 送17届学弟学妹的礼物——学生包、学生优惠合集
- 手机软件APP下载类网站Pbootcms模板 游戏软件应用网站源码 模板自适应手机端
- Chrome 扩展程序 CrxMouse Techzero优化版 更新至 v3.0.4
- 阿里字体图标库iconfont的使用详解
- php form标签中的属性,form标签中的属性详解
- 放弃75W年薪,回老家当公务员,提离职被领导教育,网友:leader嫉妒了
- vue vue-quill-editor 富文本 改变图片大小
- python少儿编程008:海龟绘图画出奥运五连环!
- 幻想乡三连C:狂飙突进的幻想乡
- 欧拉中的俯仰、横滚、偏航角
- MATLAB第2次作业,matlab作业二
- 【互联网及其应用】第5章网络应用制作技术
- python爬取58手机号_爬取58上的手机号码信息
- [python] Jupyter Notebook 画股票折线图
- Mutable variable is accessible from closure
热门文章
- 2019年1-7作业
- Midjourney 玩上瘾了,免费AI 绘图指令一键产生精美图片
- python官方下载地址电脑版_mPython
- [ECSHOP] 终于解决ECSHOP的购物车自动清空问题,改善会员体验
- 民族证券午评:成交萎缩,延续调整格局
- 计算机基础知识表格怎么加密,[电子表格]哪位了解如何给电子表格加密
- 服装ERP系统_服装贸易ERP如何选择
- 在线教学直播中做ppt文档的在线直播(在线课常多画面直播)教程
- 软件工程(三)暑假班
- 计算机软件能删除吗,【txupd】txupd是什么应用程序,可以删除吗