基于图像识别技术的甲骨文数据系统

作者:白钰卓 计算机系

指导老师:刘知远 计算机系

关键词:甲骨文 数据库 图像识别

摘要

本项目致力于使用计算机技术构建甲骨文数据库与甲骨文单字识别系统,并通过公开数据平台向社会共享项目成果。首先,我们通过对现有甲骨文资料进行处理,获得单字与甲片双向对应的细粒度序列化甲骨文数据库,为后续研究打下基础;此后,我们基于图像识别技术实现甲骨文单字识别,提高甲骨文数据电子化的效率,并为古文字学专家提供参考;完成前两步后,我们搭建了公开网站,整合了包含甲片和单字的数据库与单字识别接口,向社会共享我们的研究成果。

项目背景

甲骨文是中国殷商时期的成熟文字系统,是已知的最早汉字形态。其破译与释读是挖掘甲片史料信息的先决条件,但其中的定字环节遇到了极大困难——由于刻划复杂以及甲片记载信息缺失,学者考据时会联系各部分材料反复比对。因此古文字学者常需要熟记众多大部头著录,深耕领域数十年才能做出成果,这使得青年人才望而却步,甲骨文成为冷门绝学。本项目分为甲骨文数据库构建、甲骨单字识别及公开平台搭建三部分,希望降低甲骨文研究门槛,便利古文字学者,也希望对破译更多甲骨文提供参考,推动古文字学进展,为传承优秀传统文化作出贡献。

图1 甲骨文公开数据库平台

甲骨文公开数据库

依托现有甲骨文考证与编纂资料,本项目构建了甲骨文单字与甲片的公开数据库。一方面,通过对《殷墟甲骨文摹释全编》进行数字化,本项目获得了以规范摹写字形式书写的细粒度语料库,其中包含《甲骨文全集》前5000张甲片的单字级别序列化内容及对应的现代汉字翻译,此部分数据应为目前公开的最大规模的甲骨文序列化数据库;另一方面,通过对《新甲骨文编》进行数字化,本项目获得了各甲骨文单字来自真实场景的不同字形拓写字集合,丰富了现存语料的种类,拓展了数据库的应用场景。综合两方面数据,并实现了同字对应后,数据库中实现了单字拓写字、摹写字、对应汉字、序列化语句、甲片图片的多向检索,为甲骨学研究提供了有力的支撑,细粒度语料也是基于序列化数据的甲骨文语言模型不可或缺的要素。

图2 数据库架构

图3 公开数据平台甲片文档展示

甲骨文单字识别系统

本项目以甲骨文数据库中的甲片拓写字为数据集,搭建了甲骨文识别系统。由于部分甲骨文单字的数据较少,本项目采用了few-shot learning的方式训练识别模型,并对Prototypical Network等三个常用于few-shot learning与文字识别的模型进行了对比,以选出最佳模型。最终采用的模型在每个甲骨文单字拥有超过12个拓写样本的甲骨文数据集上可以达到81.4%的正确率,而在整体数据集上(超20000个样本,其中包含1000余个只有2-11个样本的单字)达到了63.9%的正确率,说明模型具有较强的泛化能力。

图4 ProtoNet示意图

图5 公开数据平台单字搜索结果

外部链接:公开数据平台网址http://123.56.70.83:8080/

用计算机研究甲骨文,基于图像识别技术的甲骨文数据系统相关推荐

  1. 用计算机获取机读卡是通过什么实现的,一种基于图像识别技术的答题卡及考试系统的制作方法...

    本发明涉及智能考试系统. 背景技术: 传统答题卡具有如下缺陷: 1.答题卡定位需要右侧和底端的黑点来实现定位整张答题卡的行和列: 2.需要专用答题卡识别机(专有硬件)来识别答案: 3.需要用特种铅笔( ...

  2. 基于虚拟现实的计算机仿真系统设计,基于虚拟现实技术多媒体教学系统设计与实现.doc...

    基于虚拟现实技术多媒体教学系统设计与实现 基于虚拟现实技术多媒体教学系统设计与实现 摘要:随着现代教育技术的蓬勃发展和虚拟现实技术水平的提高,多媒体教学系统的设计成为了实现教育信息化的基础.近些年飞速 ...

  3. ni max不能连续采集图像_图像识别技术在智慧教室录播系统中的应用研究

    在落实"互联网+教育"战略.深化教育教学改革的背景下,建设智慧教室是学校创新教学环境.提升人才培养质量的必然选择[1].随着微课.MOOC等移动学习方式的兴起,将现代教育技术融入教 ...

  4. 基于GIS技术的公路路线方案决策支持系统开发初探

    作者:唐 勇 朱爱民 摘 要:本文结合公路规划.设计.建设实际,针对现行公路路线CAD系统尚不足以解决公路可行性研究.路线方案选定这类多目标空间决策问题的现状,论述了引入地理信息系统的有关理论.方法和 ...

  5. ChatGPT直出1.5w字论文查重率才30% - 基于物联网技术的智能家居控制系统设计与实现

    文章目录 ChatGPT直出1.5w字论文查重率才30% - 基于物联网技术的智能家居控制系统设计与实现 一.绪论 1.1 研究背景与意义 1.2 国内外研究现状分析 1.3 研究内容与目标 1.4 ...

  6. 中国计算机技术发展作文,2018广州高考一模作文范文:甲骨文与电脑技术相遇...

    出国留学网高考网为大家提供2018广州高考一模作文范文:甲骨文与电脑技术相遇,更多高考作文.高考满分作文.高考零分作文请关注我们网站的更新! 2018广州高考一模作文范文:甲骨文与电脑技术相遇 甲骨文 ...

  7. 计算机在服装上的应用研究,图像识别技术在纺织品及服装研究中的应用

    图像识别技术在纺织品及服装研究中的应用 发布时间:2020-01-18 09:36所属分类:农业科技 摘 要:纺织品及服装研究与计算机.信息技术的融合发展是推进纺织品及服装产业智能化的必然途径,聚焦图 ...

  8. 读“基于深度学习的图像识别技术研究综述”有感

    "基于深度学习的图像识别技术研究综述"总结 现在流行的图像识别技术都是基于深度学习的算法,经过前辈们的探索改进,图像识别技术经历很多阶段,现如今图像识别技术已经广泛的应用于生活的方 ...

  9. 计算机特点及应用领域阐述,计算机图像识别技术的应用及细节问题阐述与分析...

    摘 要文章首先简要阐述了计算机图像识别技术的特点及其发展现状,在此基础上对计算机图像识别技术的应用及细节问题进行了论述.期望通过本文的研究能够对促进计算机图像识别技术的发展及其在各个领域中的应用有所帮 ...

最新文章

  1. 简单图片浏览器的实现
  2. 线程退出【Linux学习】pthread_create主线程与创建的新线程之间退出关系
  3. php中ip授权系统,PHP授权验证系统(域名+IP双重验证一键更新授权系统)
  4. MySQL 性能监控 4 大指标
  5. 36.软件安装:RPM,SRPM和YUM功能
  6. 24.Plugin System
  7. Unity3D_(插件)小地图自刷新制作Minimap小地图
  8. LeetCode Java面试刷题笔记汇总
  9. ue4联网和多人游戏总结(第二部分)
  10. java程序员如何编写出优美的代码-java编程规范
  11. 使用scapy 构造一个 特定Ether dmac 的报文
  12. 英语自然拼读法基本规则和小窍门
  13. 学习淘宝分享出来的链接web检测打开原生App
  14. 第七讲项目3-编制三角函数表
  15. radio点击选中,再次点击取消选中
  16. 关于群晖NAS计划运行Python脚本的笔记
  17. OkHttp3封装第二版
  18. C# 海量数据导出到 Excel
  19. 一文搞懂什么是QPS PV 关于并发的面试
  20. 要将英文的文件名翻译成中文该怎么做

热门文章

  1. 联调中通wincall平台-踩坑指南
  2. PyTorch实现基于卷积神经网络的面部表情识别
  3. 学习HTML+CSS知识点
  4. java毕业设计开题报告jsp企业电子投票系统|问卷
  5. debian linux fcitx 小鹤双拼
  6. java三次样条函数求导_利用java语言对三次样条曲线的实现
  7. 什么是linux系统?
  8. Web3D展示框架whs.js:基于Three.js的Web3d应用程序的超快3D框架
  9. 一周技术学习笔记(第81期)-《愿生命从容》
  10. Python实现投影法分割图像(一)