古彝文传承至今已有数千年历史,是世界上最古老的文字之一。2022年12月21日,合合信息与上海大学社会学院正式签署校企合作协议,双方将合力完成以国家珍贵古籍《西南彝志》为中心的贵州古彝文图像识别及数字化校对项目(简称“古彝文数字化项目”)。

上海大学社会学院院长黄晓春、合合信息智能技术平台事业部副总经理郭丰俊共同出席签约仪式

此前,在中国西南多家高校的共同努力下,规范和通用彝文的数字化工作取得了重要突破,而上海大学携手合合信息推进的古彝文数字化项目,更侧重于对原生态彝文识别的攻坚克难。项目将根据上海大学古彝文研究员设计的四字节编码系统,引入合合信息智能文字识别技术,对异体字、变体字、误用字和混用字等进行标注、识别、比对,并由此建立起精确的彝文古籍电子数据库,在古彝文研究领域属于首创。

亟待识别的古彝文,比《康熙字典》字数还多

彝文是云南、贵州、四川等地的彝族人使用的文字,而“古彝文”专指在民间流通使用的原生态彝文。根据《滇川黔桂彝文字集》,目前记录在册的古彝文多达87046个。非母语研究者在翻译古彝文时,通常需要在母语者的帮助下记音,再用汉语逐字直译,最后采用汉语对整句话进行意译。

由于古彝文尚未取得预留的Unicode编码区段,数字化工程还处于起步阶段,所以在印刷出版时,需由一位彝文缮写员先将彝文字和国际编码抄写在书页的左侧,再将已输入电脑的汉文译文打印、剪切后粘贴在相应彝文字的右侧,形成目前常见的“四行体”彝汉文对译,过程相对繁琐。

毕节市彝文文献翻译研究中心展示汉译书稿

古彝文与汉字并非一 一对应关系,存在大量的异体字、变体字。在相对规范的汉译本彝文典籍中就有至少15%的变体字,原稿中只会更多;每个字的异体写法少则2-3个,多则几十种。从总量上看,未经整理规范的古彝文字符数高达八万七千多个,比《康熙字典》的四万七千余字还多。据古彝文数字化团队研究人员透露,若想要找到某个字在一本古籍里的全部样例,手动查阅需要耗费一整天,如建立起完善的古彝文数据库和翻译系统,可极大提升研究效率。

表示“种类”的彝文字[mo21]/[mɯ33]的四个极为相似的变体

两个形似、但音义完全不同的彝文字,字义分别为“酒”、“仪礼”

“汉文古籍识别所面对的页面残损、字形复杂、字迹模糊等问题,在彝文古籍识别中全部存在,还有一些任务是更加特殊的。”合合信息智能技术平台事业部副总经理郭丰俊博士提到,彝文古籍时常出现加字、替字、整句倒置、文字方向不统一等现象,给文字定位造成挑战。再加上古彝文从未经过统一,异体字、变体字众多。合合信息将基于“AI+OCR”融合下的智能文字识别技术,解决古彝文识别的版式检测、图像处理和文字识别的难题。

据悉,2021年、2022年世界人工智能大会上,合合信息用AI技术对甲骨文、西周钟鼎文进行精准识别,受到包括央视、人民日报、新华社在内的上百家主流媒体的关注。郭丰俊博士表示,甲骨文和古彝文追溯源头都属于以刻画符号表意的文字,两种文字的识别方式有相通之处,此次古彝文数字化项目的开启,也成为合合信息智能文字识别技术赋能文字保护及文化传承的重要里程碑。

用科技开启古彝文“传统的新生命周期”

1950年,当代著名社会学家费孝通先生访问贵州毕节时,率先认识到彝文古籍对理解西南边疆历史的重要性,并鼓励筹建翻译机构,也为当下的古彝文研究提供了支持。古彝文数字化项目发起人、上海大学人类学民俗学研究所讲师邵文苑所在的上海大学社会学院,便长期设有费孝通田野调查项目资助计划。

古籍数字化的过程同时也是保护古籍的过程。2017年,72位全国人大代表联名建议实施中华古籍数字资源总库体系建设工程,实现历史文明的有序传承。本次合合信息与上海大学共同研究的《西南彝志》共计26卷,有“彝族历史文化的百科全书”之誉,对研究彝族历史、经济、文化十分重要。

古彝文数字化的价值并不止步于学术研究。随着我国小康社会的全面建成,人们对精神文化关注度日益提升,以民俗为主题的现代文艺创作、娱乐活动让传统文化焕发新的生机,例如中央歌剧院演绎的柯尔克孜族英雄史诗《玛纳斯》,既尊重了民族文化特色,又体现了新时代的风采。

邵文苑提到,古彝文文献和口传史诗中记录了很多南诏古国、夜郎古国、巴蜀古国的奇闻异事,在理解典籍的基础上,可以通过电影、音乐剧、浸入式戏剧等形式进行创作,或打造“元宇宙”世界、IP主题乐园,让更多人跨越语种的隔阂,感受更多元的民族文化,倾听独具特色的中国故事。

“传统也和人一样有生老病死的过程,并和人一样有通过后代延续‘生命’的能力,这种理论被称为‘传统的生命周期’。”邵文苑表示,智能文字识别技术“牵手”传统典籍研究,会是古彝文“传统的新生命周期”的开始。

领域首创!合合信息与上海大学联合开启贵州原生态古彝文典籍数字化项目相关推荐

  1. 合合信息——用智能文字识别技术赋能古彝文原籍数字化

    文章目录 1. 背景介绍:古彝文是什么?为什么要保护它?如何保护它? 2. 传统方法保护古彝文:原籍难获.翻译困难 2.1. 古彝文原籍的破损与古法保存 2.2 古彝文原籍的保护与翻译 2.2.1 获 ...

  2. 合合信息获中国图象图形学学会科技进步奖二等奖

    图片来源于中国图像图形学学会CSIG公众号 去年12月,中国图象图形学学会(CSIG)公布了2021年度自然科学奖.技术发明奖.科技进步奖评选结果.其中,合合信息牵头与华南理工大学共同完成的" ...

  3. 【技术新趋势】合合信息:文本纠错提升OCR任务准确率的方法

    点击领取AI产品100元体验金,助力开发者高效工作解决文档难题: AI产品专享礼遇 摘要:错字率是OCR任务中的重要指标,文本纠错需要机器具备人类水平相当的语言理解能力.随着人工智能应用的成熟,越来越 ...

  4. 搭上OCR快车,“AI老兵”合合信息IPO带来了什么新故事?

    在当今信息化数字化的时代,在信息化的过程中,产生越来越多的物质信息化的需求,智能识别显得格外重要. 随着越来越多的企业与个人在智能识别方面开始探索个性化和多样化,传统的识别技术也正面临更大的挑战. 借 ...

  5. 可防离职员工冒用身份,合合信息名片全能王与钉钉用数字名片打造安全“围栏”

    名片全能王与钉钉发布数字名片:可防离职员工冒用身份,追踪营销线索 名片是人际交往中的一条纽带.秦汉有竹制的"谒",唐代纸质的"名刺"也被沿用许久.如今,无实体的 ...

  6. 通用能力及AI核心能力表现优异!合合信息智能文档处理系统(IDP)高评级通过中国信通院评估

    数字经济快速发展的背后,全球数据总量呈现出爆发式增长趋势.智能文档处理(IDP)技术能够高效地从多格式文档中捕捉.提取和处理数据,帮助机构和企业大幅提升文档处理效率,节约时间和人力成本.近期,合合信息 ...

  7. 探索图文处理的未来:知名学府与合合信息团队分享NLP实践经验,人工智能引领技术革新

    相信最近很多朋友关注的公众号和短视频号都有关于ChatGPT的文章或者视频,对此我就不再过多描述"生成式人工智能"是促成ChatGPT落地的重要技术,"ChatGPT之父 ...

  8. 能“读懂”古文还可反诈骗, 合合信息智能文字识别“黑科技”亮相2022WAIC

    挑战"大师级"阅读理解,合合信息智能文字识别技术亮相2022世界人工智能大会 "克曰穆朕文且師華父悤譲氒心宁静于猷淑哲氒"要怎么断句?世界人工智能大会期间,一篇 ...

  9. 大题历年题合集-信息资源管理

    文章目录 名词解释:信息分析 名词解释:信息资源安全管理 简述信息资源安全管理关注的主要任务. 信息资源安全管理的任务有哪些? 名词解释:CIO 名词解释:CIO机制 CI0机制 信息主管(CIO)需 ...

最新文章

  1. 不允许 ASSIGNMENT 语句中包含 FOR XML 子句。
  2. 第一篇:数据库基本管理(mysql)
  3. java将jfif格式转换成ipg_win10系统将jfif格式转jpg的操作方法
  4. openstack一键安装脚本(转载)
  5. 解决VScode自动保存时在语句后疯狂加分号
  6. Docker基本使用(一)
  7. wraper for bootstrap3.0 + simple_form
  8. 3个开源TTS(二)eSpeak的简要分析使用
  9. pe系统怎么加服务器raid驱动,在PE中添加sata-raid驱动的方法:u盘启动盘制作
  10. DSP28m35的IPC通讯编程经验
  11. Chrome浏览器主页被篡改怎么修复
  12. 让计算机提速的方法,如何让电脑提速(让电脑提速的方法步骤详解 )
  13. java 如何清除临时文件_如何删除Java中的临时文件?
  14. 数据存储---内存列式数据库KDB+(Q)文档
  15. 工欲善其事必先利其器(一) —— VScode
  16. js如何修改对象的padding属性
  17. styleGAN环境搭建 、 动漫模型效果测试
  18. 【软件安装分享】FME使用三年后的使用体验及任意版本安装教程
  19. 注册谷歌广告联盟提示“此电话号码无法用于进行验证”解决办法
  20. 互联网日报 | 蔚来首款旗舰轿车1月9日发布;抖音电商开启首届抢新年货节;2020年快递业务量达830亿件...

热门文章

  1. 圆形或者椭圆形交通标志图像匹配模板
  2. Bash On Windows beta版食用笔记
  3. python表示非_Python中用于表示逻辑与、逻辑或、逻辑非运算的关键字分别为( )_学小易找答案...
  4. 离线搭建git服务器(Gogs)
  5. python创建和显示任意行数的杨辉三角/帕斯卡三角(函数)
  6. python学习笔记霍兰德人格分析与错误解决
  7. PotPlayer下载与使用
  8. SQL Server 中英文对照表
  9. ECShop二次开发指南-文件结构(二)
  10. 综艺: 天天向上 2012