​强烈推荐一个大神的人工智能的教程:http://www.captainai.net/zhanghan

前言

  • 谈起图像识别自己颇有感触,因为之前的两段工作经历都和图像识别密切相关;之前一家公司的主营业务就是将历史上珍贵文献进行数字化;上家公司自己负责图像识别模块相关的工作;不但使用了第三方平台产品而且进行了自建,所以对图像识别中的难点有深入且全面的了解;
  • 在工作过程中研究并分析线上大量真实case,遇到很多识别错误情况,如:拍照时光线角度问题,手机本身像素低,身份证磨损严重等;
  • 之前的博文《图像识别平台建设之路(自建+三方产品)》中提到在上家公司中进行了图像识别自研及几家调研的平台对比情况,其中在调研的过程中就看到了一家优秀的公司合合信息;一直在关注这家公司的一些动态,发现该公司最近携手上海大学进行了彝文古籍研究,由于少数民族语言识别一直是一个比较大的难题,故引起自己兴趣;于是找到相关的资料进行仔细研读;下面为大家分析一下其中的一些黑科技。

一图总览

古彝文识别的价值

作为世界六大古文字之一的,古彝文记录了几千年来人类发展历史。对于传统文化的研究有着非常重要的价值;彝文起源于何时,尚未有官方的定论。有学者认为,古彝文的起源距今至少数千年,是世界上最古老的文字之一。对古彝文字集研究有助于理解尚未被翻译成汉文、用字尚未规范化的古籍,更深层、透彻地作用于传统文化保护

传统古彝文识别的步骤&缺陷

传统分析古彝文识别的步骤

  • 获取古彝文原籍(其实并不容易获取)
  • 拿到古籍后,页面如有残缺、粘滞,需要小心翼翼地分开,然后分页粘贴至更大幅的纸张上,以便翻检查阅,一些因年代久远出现脆化的纸片还需重新拼接
  • 接下来要对这些古籍进行断句和翻译,为了保护古籍,翻译家依照复印件来完成日常的翻译工作。如果彝语是译者的母语,他就可以自己将语句分开,加上国际音标;母语不是彝语的译者还需要在母语者的帮助下记音,再用汉语逐字直译,最后用流畅的汉语对整句话进行意译,这种方法称之为“四行法”,是丁文江和罗文笔翻译《爨文丛刻》时开创的,目前,彝文字还没有被数字化,还没有预留的Unicode编码区段,所以在印刷出版时需要由一位彝文缮写员先将彝文字和国际编码抄写在书页的左侧,再将已输入电脑的汉文译文打印、剪切后粘贴在相应彝文字的右侧,形成我们最终看到的四行体彝汉文对译

传统分析古彝文识别的缺陷

原籍难获取

原籍通常在布摩(彝族祭司)祖传书籍,一般来说他们是不愿意卖,布摩以卖书为耻辱,有的人在入葬时要求与自己的经书一同火化;
政府专员以及研究者需要反复动员和劝说,并且需要与古彝文传承人建立良好的关系,方能取得对方的信任与支持

翻译过程繁琐

获取原籍—>破损,粘连的原籍需要重新拼接—>断句和翻译

耗时长

《西南彝志》一共26卷,建国初首先由罗国义、王兴友两位先生进行汉译,用了10年时间。但这个开创性的译本由于诸多限制存在一定纰漏,所以毕节地区的第二代彝文翻译家王运权、王仕举等先生从上世纪八十年代开始主持修订校正工作,一共用了17年时间完成再版

古彝文识别难点

缺乏成熟手写样本库

彝文古籍都经历了数代传承、战火与自然风蚀的洗礼,难免出现页面残缺、霉斑污渍等影响

笔画相近

其中彝文相关规范的汉译本中就有15%的变体字,原稿中就更多了;

有些字在视觉上无甚差异,但实际上却是意义读音完全不同的两个字(左侧为酒 右侧为 仪礼 )

字符集庞大

未经整理规范的古彝文字符数高达了87000余个,比康熙字典的字数还多,给识别带来极大困难

字体字形变化较多

和汉文古籍一样,不同的彝文缮写员之间手写风格差异很大,这就需要大量的数据库来建立识别模型。古彝文目前没有公开数据集,而通晓此种文字的人越来越少,导致标注工作量大而人手少,数据量严重不足,亟须引入AI技术构建模型,以弥补本项目训练样本不足

无统一标准

通过以上几点分析可以看出古彝文相比汉语来说一个非常难识别的点在于古彝文没有统一的标准

古彝文智能识别

优势

自动化

相比于传统的识别,自动化可以极大的节省人力物力;其中上海大学携手合合信息推进的“原生态古彝文”研究项目根据四字节编码系统标注异体字、变体字、误用字和混用字,并由此精确建立彝文古籍电子数据库的做法,在古彝文研究领域属于首创

识别率高

相比于传统的识别智能识别率会越来的越高,之前有的古彝文研究员要花一整天时间(8小时以上)才能找到某个字在某本书里的全部样例。现在用机器来辅助识字后,平均差不多20个有代表性的样例,就可以达到较高的识别率,所以整个过程的人工付出只要30分钟就可以了。从8小时到30分钟,效率有显著提高。

累积效应

累积大数据,加之深度学习不断累积,使得古彝文的识别越来的越准确,形成增长飞轮;
合合信息在古文字识别领域已有了一定的积累和成果。在2021年、2022年的世界人工智能大会上,合合信息展现了智能文字识别技术在甲骨文、西周钟鼎文(金文)中的应用,获得了包括央视、人民日报、新华社等上百家主流媒体的关注。
虽然古彝文的识别研究尚处于起步阶段,但在引入先进的AI技术来建立统一的数据库以后,对于增强古彝文研究的连续性、降低繁琐的检索工作无疑有极大帮助。与古彝文数字化相关的研究目前还相对稀少,本项目将填补当前国内外研究的空白。
合合信息前期在甲骨文、金文中所作的研究,也让古彝文识别成为一件“水到渠成”的事情:甲骨文和古彝文追溯源头都属于骨刻文,文字自骨刻文起,后发展出甲骨文、金文、小篆、隶书、楷书等,文字间的识别有相通之处,此次与上海大学联合开启的“贵州古彝文图像识别及数字化校对项目”校企合作,也成为合合信息智能文字识别技术赋能小语种保护及古文化传承的重要里程碑事件。

关键技术的解析

交叉验证

交叉验证在图像识别,语音识别中作为重要的辅助手段对识别的准确率提高十分的有效;
比如:身份中前两位模糊不清,但是可以识别到地址,根据地址反推出身份证前两位;

智能图像处理

合合信息智能图像处理可对曲面、阴影、摩尔纹等文档图像进行精准的矫正处理,为接下来的文字信息提取、识别创造了良好的条件

深度学习

合合信息基于深度学习的复杂场景文字识别可适应多语言、多版式、多样式等复杂场景,以进行文字提取;
文字识别高度依赖深度学习这一人工智能技术,深度学习可以对数据集中的示例进行归纳,进而做出识别。其中,数据集被称为训练数据,深度学习算法使用训练数据进行训练,生成可完成识别任务的深度学习模型。

自然语言处理

合合信息领先的自然语言处理(NLP)技术,对识别出的结果进行语义理解;NLP 可以简化并驱动古彝文识别流程自动化,利用 NLP,可以更好地分析古彝文数据,进而识别;其中在识别文字时一般会经过以下几步:
分词:将原始的文本切分为每个字或词
词袋模型:将识别到的文档视为无序的字或词的集合
无效词的删除:比如识别到的 的 等无效词进行删除
词干提取和词形还原:词干提取和词形还原可将字词映射至其词干形态,是预深度学习模型的关键步骤
词性标注和句法分析:词性 标注是指为每个字词标注词性(例如名词、动词、形容词等)的过程,句法分析则旨在识别字词如何组合成为短语、子句和整个语句

三大技术最强应用

国内外有很多家利用AI、OCR等技术对古籍进行数字化;我对这些公司的产品进行了调研,其中发现在这个领域深耕多年的合合信息不仅实战经验丰富积累深厚,而且与上海大学展开深入合作(合合信息行业领先的智能文字识别技术、上海大学古彝文研究员的丰富经验将有助于应对古彝文识别这些挑战)

总结

  • 在研究这些图像领域重大突破时,自己对图像识别有了更加全面深入的了解,并不断发现问题解决问题,不断成长;
  • 术业有专攻,合合信息这种成熟的平台在该领域深耕16年,有丰富的经验可以赋能开发者的业务,弘扬中华传统文化;
  • 中国已于2021年宣布实现全面小康,追求精神层面的富足是下一阶段的目标,对古彝文等古语言的保护是其中重要的一环。随着国学和非遗越来越热,我们有理由相信古彝文献和口传史诗所记载的那个的世界,无论是南诏古国、夜郎古国还是巴蜀古国,都可以通过传统媒体(诗朗诵、电影、音乐剧)和新兴媒体(元宇宙、IP主题乐园、浸入式戏剧)拓展文化体验的维度,将文字记载的历史作更富有魅力的呈现

智能文字识别技术推动彝文识别弘扬中华文化相关推荐

  1. 人脸识别与膜虹识别_虹膜识别技术和人脸识别技术的区别是什么

    虹膜识别和人脸识别有何不同?虹膜识别技术和人脸识别技术的区别介绍.在生物特征识别技术的分支里,人脸识别和虹膜识别是两个容易混淆的概念,很多用户并不清楚两者的区别和技术特点,常常误以为是同一个概念,本文 ...

  2. 人脸识别相比较其他生物识别技术,人脸识别主要有什么优缺点

    人脸识别:非强制性和谨防刻意伪装 与指纹识别相较来看,人脸识别所使用的数据量更多,从而更加精确.而且与指纹需要接触不同,人脸隔空识别,除了特定事项的认证,不要求验证者的注意力.这也是为什么在明星演唱会 ...

  3. 长虹声纹识别技术推动家电产业向高阶形态发展

    科技的进步推动了家电产业的发展,从主打语音识别功能的全球第一台人工智能电视推出到声纹识别人工智能电视的落地,仅仅用了一年时间. 近日,由长虹研发和生产,搭载着远场语音.声纹识别技术的人工智能电视Q5K ...

  4. OCR识别技术 文档识别的三种形式

    如何将文档上的文字转换成可编辑的文字,通俗一点说,就是将纸质上的文字转换成电子版形式的文字内容: 文档识别通常有三种形式,其利用的核心技术都是OCR文字识别技术. 步骤如下: 一.通过扫描,识别文字信 ...

  5. OCR识别技术保险保单识别系统|车险保单识别寿险保单识别|助力保险理赔

    互联网的发展给人类以及社会带来了很多便捷,同时也为很多人的工作提供了便利,随着人们生活水平的提高,保险产品也越来越被认知,现在的老百姓会主动去购买一些和自身利益或亲人健康相关的车险.寿险.健康险等产品 ...

  6. 全黑的环境也能人脸识别?红外人脸识别技术助力人脸识别更自由

    人脸识别是近些年来在生物特征识别领域中最常用的一种模态,在公共安全领域得到了广泛应用.同时,人脸识别方式也是多样化发展,如静态人脸识别.动态人脸识别.3D结构光人脸识别等,其实各类人脸识别方式大同小异 ...

  7. java ocr数字识别_Java OCR tesseract 图像智能文字字符识别技术实例代码

    接着上一篇OCR所说的,上一篇给大家介绍了tesseract 在命令行的简单用法,当然了要继承到我们的程序中,还是需要代码实现的,下面给大家分享下Java实现的例子. 拿代码扫描上面的图片,然后输出结 ...

  8. java条码识别技术_条码识别示例代码

    package api.binstd.barcode; import api.util.HttpUtil; import net.sf.json.JSONArray; import net.sf.js ...

  9. 人工智能助力古彝文识别,推动传统文化传承

    人工智能助力古彝文识别,推动传统文化传承 0. 前言 1. 古彝文 1.1 古彝文介绍 1.2 古彝文识别的重要意义 1.3 古彝文识别的挑战 2. 古彝文识别国内外研究进展 3. 基于深度学习的古彝 ...

最新文章

  1. 字节跳动面试题:“请你描述下 Spring Bean 的生命周期?”
  2. python 类继承与子类实例初始化
  3. 视频图像处理平台对比_情绪管理考勤机人脸识别原理与指纹识别性能对比-微幼科技...
  4. 经典算法解读:一文看懂支持向量机以及推导
  5. linux sed命令:查看gitlab配置文件删除注释行并过滤空行后的内容
  6. 解决越狱后 SSH 不能连接的问题
  7. Makefile的写法
  8. 【小摘抄】关于C++11下 string各类用法(持续更新)
  9. python算24点穷举法_关于24点去重的算法?
  10. 八年磨一剑,阿里云ApsaraDB for HBase2.0正式上线
  11. 一个很不错的开发管理中文个人网站
  12. 商业数据分析的层次与步骤有哪些
  13. iOS Core Animation Advanced Techniques-图层树
  14. ActiveMQ的消息存储方式
  15. 如何获取maven命令执行后成功与否的返回值
  16. java 解析大xml文件_java-通过网络解析大型XML文件
  17. Flink Data Types Serialization
  18. 前端面试:经典面试题Foo与getName()
  19. 清华大学百年校庆给清华大学的一封信
  20. activity destory掉后马上释放内存方法

热门文章

  1. 企业财务会计-2023会计继续教育知识
  2. 回忆下什么是双亲委派机制吧
  3. 谈谈SOA架构和微服务,以及两者的区别区别
  4. 机械硬盘的内部结构与读写访问特性
  5. Python Flask中的jsonify
  6. android qq聊天窗口切换,手机QQ重磅更新!新增聊天多窗口模式,希望微信也能有...
  7. 高通8916 PMIC休眠关闭LDO 解决LCM极化问题
  8. 微耕门禁、Monitor监控等设备的二次开发
  9. 初中计算机学科知识,初中信息技术学科知识与教学能力讲义-1.PDF
  10. 定积分的计算(换元法)