本文转载自:HyperAI超神经

内容提要:来自最强科研寺庙龙泉寺的贤超法师,近年来一直在研究人工智能与文献古籍的融合,目前,他已带领的《大藏经》团队实现 AI 自动标点、文白翻译、古籍文字识别等技术实践。

关键词:NLP,LSTM,自动标点,OCR

坐落在京郊凤凰岭脚下的龙泉寺,称得上全国甚至全球科研实力最强的佛教寺庙。

凭借当年学诚法师的一句「佛教是古老的,但佛教徒是现代的」,推动了龙泉寺里的高僧们搞科研、写代码,将佛学与新技术结合,将项目大众化、国际化。成果不断,屡上热搜,被外界持续关注。

近期龙泉寺的贤超法师,参加了国内某技术大会,分享了使用人工智能对《大藏经》进行整理和校勘的技术实践。

 佛系 AI 的诞生:让佛经更易读

贤超法师原是北京大学物理学院凝聚态物理硕士,2007 年他从北大毕业,2008 年在龙泉寺皈依,此后一直致力于龙泉大藏经的编修与佛学义理研究。

2016 年,AlphaGo 在战胜李世石的历史性事件,引起了贤超法师对 AI 的关注。从那时候起,他便开始尝试将 AI 和自己正在研究的 OCR 技术以及自动标点相结合。

贤超法师在 Techo Park 开发者大会上介绍其研究成果

 佛原生 AI 解决古籍经文痛点 

龙泉寺在整理和校勘的《大藏经》为佛教经典的总集,也称为一切经。在汉传佛教的两千多年里,历朝历代都对《大藏经》进行了翻译、增补、修订。

流传至今有数十个版本,少的有五千多字,多的有一亿两千万字。

《乾隆版大藏经》的修订参与官员、学者、高僧等 60 余人,

刻字、刷印和装帧等工匠 860 余人,历时六年完成

(图为《乾隆版大藏经》雕版)

2012 年,龙泉寺就着手整理《大藏经》,计划用整整十年的时间完成。因为传统方法对古籍的整理主要有版本校对、校勘、标点,这些步骤能够保证当代读者,也可以尽可能理解晦涩、生僻的经文。

三年后,龙泉寺整理出版了《南山八大部》;再次年,龙泉寺的藏经办公室成立,旨在探索利用人工智能技术,研发出基于深度学习的单字识别引擎;

2017年,龙泉寺成立人工智能与信息技术中心,研发出能识别各种不同大藏经版本的整列识别引擎,并成功的将《六十华严》的大藏经版本进行电子化。

贤超法师目前担任藏经办公室主任,负责《大藏经》的整理工作。

 自动标点:OCR +深度学习 

为了降低人们阅读古文典籍的门槛,提高学者的工作效率,在近年来贤超法师团队,运用了包括深度学习、OCR 在内的技术改变传统《大藏经》的解读方式,目前已经取得了颇为惊艳的效果。

现代汉语中,句号、引号、书名号等常用标点近十种,

古汉语中仅有的句号、顿号,经文中也很少出现,难以阅读

贤超法师介绍道,所谓自动标点,是指在没有人工干预的前提下,根据算法给古籍文本自动标注现代中文标点的技术,这主要是为了方便现代读者阅读。

此前,已有人工智能为古文加标点的相关研究,不过贤超法师表示,之前基本只是为古文加句号,他认为这个做法「比较保守,比较学术性」。

而他的团队将深度学习运用到了自动标点上,可以以更高的准确性,给古文添加句号、逗号、问号、感叹号、冒号、分号和顿号其中标点符号。经过验证,他们所研发的 Transformer 标注结果,和人类的标注结果「几乎已经无法区分」。

 RNN+LSTM+ResNet 效果全面提升 

自动标点,在 NLP 领域来说,就是一个简单的序列标注问题。解决这类问题的标准方法,就是使用循环神经网络(RNN)。

为了增强 RNN 的性能,在此基础上又发展出来了双向 RNN,也就是每一时刻的输出不仅仅取决于之前时刻的所有输入,而是同时取决于之前和之后的输入。之后,贤超法师团队又将 LSTM 方法引入。

但是此前基于这些技术所实现的自动标点,效果仍不是很令人满意。贤超法师团队之所以达到出乎意料的效果,是因为他们在此前的基础上,引入了 ResNet 残差网络(Residual network)。

团队 2019 年发表论文

《大藏经的汇编:当 AI 遇见佛教》,介绍了其自动标点技术

贤超法师解释道,以往的神经网络最多就是十几层、二十多层的结构,如果层数再多,训练结果就不太容易收敛了。而残差网络动辄几百层,甚至上千层。更深的网络有助于捕捉到更深层的语义信息,这是其大获成功的关键。

团队也曾尝试使用卷积神经网络(CNN),最终效果是,残差网络比卷积神经网络的标点准确率平均高出 20-30% 左右。

AI 自动标点工具效率如何呢?贤超法师用一天时间完成了 2 万字左右规模的古文标点,按照古籍标点每千字 15 元的一般稿酬水平,相当于一天创造了 300 元的经济价值。即使自动标点的准确率只按照 60% 来算,其每天也创造了 180 元的价值。

团队对该自动标点工具也在不断升级

目前最新一代的准确率达到 93.3%

目前,由于贤超法师团队的训练数据多取自佛经,因此其自动标点更适合标点佛教典籍。不过,他表示,未来该技术也将应用在,经史子集等更多领域的古文献整理工作之中,从而让学者们摆脱机械、重复性的劳动。

今后的古籍点校工作模式有希望改为:AI 先断句、加标点;专业学者进行后期校对、修改。

贤超法师团队在 18 年就开源了这一自动标点的在线服务,访问古籍·酷(http://gj.cool)可以试用,还可以申请免费调用 API。

 识别、翻译:AI 成为佛经汉化百宝箱

除了自动标点,贤超法师还将 AI 应用古籍研究的多个方面。

 文白对句:对齐 & 翻译 

文白对句,也就是古文到现代文的对齐和翻译。为了实现 AI 文白对句,贤超法师首先构建了一个文白对齐的语料库,然后设计了一个对齐算法,取得了很好的效果。根据相似度和差异度这两个独立指标,可以非常容易地定位出对齐错误的句子。

将《大藏经》翻译并单句分离开对齐

有助于人工后期检索与校对

由于《大藏经》专业名词众多,且历代翻译著作语料繁杂,因此并非古文相关专业就能搞定。《大藏经》的总字数以亿计,如果仅依靠有限的几位专家,工作量将十分巨大,所以,AI 的介入,为专家们分担了不少工作量。

 基于深度学习的 OCR,识别古籍文字 

目前市面上的 OCR 软件都是针对印刷体的,因此不能很好地识别古籍文献中的字体。

贤超法师及其合作团队,基于 CNN+LSTM+CTC 框架,开发了新的 OCR 引擎。然后基于《大藏经(高丽版)》的七万多张整图,168 万条文本行图像的数据集进行训练。

基于弱监督学习的精确文字分割

最终,其开发的 OCR 方法能够进行古籍的单字识别、单列识别和半自动的多列识别,能够有效地完成各类古籍的电子化工作。

OCR 软件识别古文将其数字化

贤超法师还在其公众号「贤超小和尚」(微信号:xianchaofashi)中,分享了更多项目实践和学佛感悟,感兴趣的朋友可以关注。

 科技与佛法:以悲悯为内核的不同外化

佛法与科技,距离并不遥远。

我们也曾在《本世纪,佛祖派机器人来弘扬佛法》一文中,对佛教与科技融合的趋势做出过报道,近年来涌现的贤二机器人、机器观音、智能佛珠等等,早已讲科技深刻和谐地融入进佛法。

科技与佛学的融合中佳作频出,吸引关注

龙泉寺的另一位知名高僧、IT 禅修营的创办者贤信法师,在一次访谈里被提问佛法和科技的关系。

他回答:「科技,是追求物质世界的真。佛法,是内心世界的真。很多在科学上做出探索、在技术上做出探索的人,最开始是抱着想为人类做贡献的心,跟佛教提出最慈悲的追求也是相共的,这就是科技与佛法的共同点。」

参考资料:

贤超小和尚公众号:《人工智能与中华文明的碰撞交融》

2050 云栖大会:《贤度法师——龙泉寺的科技实践》

龙泉寺自动标点工具:http://gj.cool/gjcool/index

CV资源下载

后台回复:CVPR2020,即可下载代码开源的论文合集

后台回复:ECCV2020,即可下载代码开源的论文合集

后台回复:YOLO,即可下载YOLOv4论文和代码

后台回复:Transformer综述,即可下载两个最新的视觉Transformer综述PDF,肝起来!

重磅!CVer-细分垂直交流群成立

扫码添加CVer助手,可申请加入CVer-细分垂直方向 微信交流群,可申请加入CVer大群,细分方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、Transformer、PyTorch和TensorFlow等群。

一定要备注:研究方向+地点+学校/公司+昵称(如目标检测+上海+上交+卡卡),根据格式备注,才能通过且邀请进群

▲长按加微信群

▲长按关注CVer公众号

整理不易,请给CVer点赞和在看

龙泉寺贤超法师:用AI为古籍经书识别、断句、翻译相关推荐

  1. 谷歌施密特:中国人相当出色2025年将超美国成AI主导丨业界大佬财报频出【软件网每日新闻播报│第11-3期】

    每一个企业级的人 都置顶了 中国软件网 中国软件网 为你带来最新鲜的行业干货   小编点评 昨个,上上签宣布全面收购快签 对此,上上签CEO万敏表示 电子签名行业的发展是一个"链式反应&qu ...

  2. 干货 :超详细的AI 专家路线图!

    本文约1800字,建议阅读6分钟 本文将提供一组思路清晰.简单易懂的人工智能专家路线图. 这个学习路线图几乎涵盖了人工智能领域的所有内容,点点鼠标,就能链接所需知识. 想从事人工智能领域的研究,盲目地 ...

  3. 细粒度图像分类_支付宝AI大幅提升细粒度图像分类识别精度:一眼看穿万物细微差异...

    近日,计算机视觉A类顶级会议CVPR 2020开幕在即, 由全球最大机器学习平台Kaggle承办的FGVC(Fine-Grained Visual Categorization,细粒度图像分类)全球挑 ...

  4. 支付宝AI大幅提升细粒度图像分类识别精度,一眼看穿万物细微差异

    近日,计算机视觉A类顶级会议CVPR 2020 开幕在即, 由Kaggle承办的FGVC(Fine-Grained Visual Categorization,细粒度图像分类)全球挑战赛结果揭晓,支付 ...

  5. 小程序全时全域自动化箱况检测+信息识别,中集飞瞳全球领先集装箱管理方案,AI自动化箱信息识别+箱况检测+地点报备,智慧港航智能化

    小程序全时全域自动化箱况检测+信息识别,中集飞瞳全球领先新一代集装箱管理方案,人工智能AI自动化箱信息识别+箱况检测+地点报备,智慧港航智能化.CIMCAI中集飞瞳是全球应用落地最广,规模最大,最先进 ...

  6. HarmonyOS之AI能力·通用文字识别技术

    一.通用文字识别技术 通用文字识别的核心技术是 OCR(Optical Character Recognition,光学字符识别). OCR 是一种通过拍照.扫描等光学输入方式,把各种票据.卡证.表格 ...

  7. 人脸识别拷勤门禁主板_捷易讲解AI无感人脸识别考勤门禁终端设备在使用中的维护方法...

    人脸识别考勤门禁终端设备虽然在出厂时,都有做密封处理,但面对细小的灰尘,并没有做到百分百防尘.灰尘对于AI无感人脸识别考勤门禁终端设备是有一定的影响的,他会沉淀在主板上.屏幕上,影响设备散热和正常工作 ...

  8. 最强开源OCR!印刷体古籍文字识别超越著名商业软件ABBYY

    点击我爱计算机视觉标星,更快获取CVML新技术 52CV君曾经向大家推介过开源OCR文字识别软件Calamari,其使用了目前最先进的OCR技术,非常值得参考. 通过查看"我爱计算机视觉&q ...

  9. 【AI技术】物体识别概述1

    [AI技术]物体识别概述1 1.背景 2.物体识别 3.应用 1.背景 主要针对客户以及初学者概述物体识别. 2.物体识别 物体识别又叫目标识别,物体分类,图像分类,习惯性称为图像分类,即对整张图片进 ...

最新文章

  1. 获取php数组的键名和值
  2. centos在yum install报错:Another app is currently holding the yum lock解决方法
  3. [Xcode 实际操作]七、文件与数据-(2)创建文件夹
  4. java数据类型,取值范围,引用类型解析
  5. Socket技术详解(一篇就够了)
  6. 【Spring】总结Spring整合Mybatis的底层原理实现步骤
  7. 05.html学习-表单
  8. Hadoop集群的kerberos认证
  9. 1.5编程基础之循环控制_16买房子
  10. 实战系列-被面试官问到Feign原理
  11. 各个JSON技术的比较(Jackson,Gson,Fastjson)的对比
  12. Python爬虫-什么是爬虫?
  13. 基于Hadoop的hbase安装
  14. 酷派大观4 8970 刷android 4.4,酷派5890驱动 酷派 8970L(大观4)recovery卡刷通用刷机教程...
  15. 如何处理条码打印机打出来是空白的故障
  16. 这些好玩的 GitHub 项目,你知道几个?
  17. 网站一键分享到新浪微博QQ空间腾讯微博
  18. @PostMapping注解解析
  19. 计算机小游戏有哪些,计算机有哪些单机游戏可以耐玩,4 G以下?
  20. brpc源码解析(二)—— brpc收到请求的处理过程

热门文章

  1. PTA 校选拔 7-10 宇航员的寻宝图(BFS)
  2. python入门算法_Python 算法入门教程
  3. 程序的优化 文字的减法
  4. 数学--数论--欧几里得定理和拓展欧几里得定理
  5. 博弈论中的零和对策和非零和对策
  6. 【Ubuntu22.04 安装星火商店报错解决办法】
  7. 关于meta name=viewport content=width=device-width,initial-scale=1.0,maximum-scale=1.0,user-scalabl...
  8. 移动端网页签名,附上DOM,效果图
  9. linux下部署项目,下载文件时,中文文件名乱码问题
  10. tp路由器 拨号失败 服务器无响应,tp路由器wdr8500拨号不成功怎么办