金磊 贾浩楠 发自 凹非寺
量子位 报道 | 公众号 QbitAI

阿里达摩院,一个正儿八经搞AI的地方。

但偏偏“扫地僧”们干起了文绉绉的工作:

研究古籍。

他们将流散海外的珍贵古籍善本以数字化的形式请回故土。

第一批达20万页

宋百家诗存

当理科生干起了专业文科生的工作,会擦出怎样的火花?

古籍为何“出海”,又如何“回来”?

关于这个故事,很精彩,也很有意义

古籍为何外流?

1860年(清咸丰10年),五千年文明古国此刻风雨飘摇。

北有英法联军捣毁圆明园,逼迫中国签下《天津条约》、《北京条约》。

南有太平军进入杭州,

藏有《四库全书》的“南三阁”之一杭州文澜阁,次年毁于战乱。

阁圮而书散,无数经典,从此淹没在历史中。

文澜阁遭遇“灭顶之灾”后,杭州藏书家丁申、丁丙兄弟在逃难途中无意间发现文澜阁《四库全书》残编。

相传,丁式兄弟买包子时,偶尔发现包食物的纸,“皆四库书也”,大惊。

于是他们开始紧急救书,上下打点,四处寻访。

经历这轮战乱,文澜阁本《四库全书》的四分之一被丁氏兄弟抢救,四分之三消散飘零,不知所踪。

直到将近100年后的1950年代,清代曹庭栋辑纂的《宋百家诗存》 (卷七),出现在美国加州大学伯克利分校东亚图书馆。

而这本《宋百家诗存》,正是丢失的文澜阁本《四库全书》之一。

目前有线索可查的,只能明确伯克利东亚图书馆从日本三井文库购得这批古书。

伯克利东亚图书馆

这类古书文物到底经历了怎样的颠簸流离,如今已不可考。

据不完全估计,近代散居海外的中国古籍超过40万部、400万册,包括甲骨简牍、敦煌遗书、宋元善本、明清精椠、拓本舆图、少数民族文献等等。

如今山河无恙,但流散海外的古书典籍,却成了中国文学、历史研究,以及传统文化传承难以弥补的遗憾。

“再现”20万页古籍

大约两年前,阿里巴巴联合四川大学、美国加州大学伯克利分校,共同发起一项公益项目汉典重光,寻觅那些流散在海外的中国古籍,借助达摩院的AI技术,用数字化的方式让它们回归故土。

而鲜有接触古籍的达摩院“扫地僧”们,一开始还不知道AI录入古书是多么有挑战的任务。

OCR(光学字符识别),其实是一种常用的计算机视觉技术,经常被用来识别文字,比如证件、票据、电商平台的商品图片等。

但是,我们生活中常见的OCR,绝大部分是针对现代汉字,而且还是印刷字体,把这样的系统直接拿来用在古书上,根本行不通。

首先,古籍文字的类别极其庞大。现代汉语常用字不过6000多个,常见印刷体,算法能够覆盖到的文字基本上在2万字以内。

但是据估计,古籍文字多达几十万。

为什么古籍上面有如此多的字?

古籍上面每个字都有不同的写法。比如一个“郷”有各种写法。

此外,还有字体的变化。在雕版印刷古籍中,即使是同一拓片在不同季节、气候、地点印出的书也完全不同,而那些人工抄录的古书,更是千人千面。

每一个字形,即使表意可能相同,对于AI来说,也是一个需要重新学习记忆的新知识。

第三,古书版式复杂。除了不同于如今的从右到左,从上到下的排版,在每行字中间还常常夹有批注,这就使得常规使用的行识别方法失效。

古籍版式复杂

最后,由于年代久远,古书保存状况也各有不同,在AI看来,纸张破损、污渍等等相当于大量的人为噪声。

而达摩院,专门为古籍识别开发出了新的系统的。

主要分为两大步,一是聚类数据生产识别,二是主动学习数据生产识别。用到了单字检测、无监督图像聚类、少样本分类、主动学习等一系列机器学习方法。

首先是全书检测,把古籍正文中的每个字都抠出来,作为单独的一张图。

其次是聚类。

一本古籍总字数可能有10万字,但其中有很多字是重复的,比如“之、乎、者、也”,聚类所做的事就是让机器自动把字形笔画一致的字归为一类,接着再由人工进行标注。也就是说,原来要人工标注全部10万字的书,经过聚类,只需要对全部二三千字类进行标注,一类字只标注一次。

聚类和人工标注,不仅完成了每一类文字的认字过程,还收获更多新的训练样本,可以继续喂给机器学习。

一般来说,数据越多,越有利于模型的训练。但古籍里有很多异体字、生僻字,出现概率极低,根本无法寻觅这么多的样本。

所以团队想到了让机器自动生成样本。使用字体迁移方法来使合成数据,机器自动为每个字合成几个新的样本,确保单字样本量达到10个。这样,就有足够数据训练少样本识别模型。

得到少样本识别模型之后,就能投入使用,把第一步全书检测获得的所有图片进行重新标注。不同于上一轮聚类+人工打标,这次是识别模型的自动标注,如果识别打标的数据与前一轮聚类的结果一致,就可以认为这张图片当前标签是对的。如果不一致,那就让这个字回到聚类步骤,继续迭代。

从聚类打标到少样本模型打标走完一轮,全书70%左右的文字可以被打上正确的标签,余下的30%,从头开始再来一遍,第二轮迭代,又能解决余下文字中的70%。

经过两轮迭代,一本书的91%的文字可以被打上正确的标签。

它们不仅沉淀为了机器的字典,也是更丰富的训练数据。通过前期一本书、一本书地学习,产生的训练数据越来越多,机器的认字能力也越来越强。

最后,就是训练最终模型,能对100本以上的书进行批量识别的单字分类模型。这个模型一出手,对批量数据的识别准确率就高达96%。随着模型的优化和迭代,目前系统对20万页古籍的整体识别准确率已经达到97.5%。今后,AI学到的数据越多,模型的进化程度也会越高。

回到模型“养成”环节,AI识别完绝大部分文字,剩下的需要人工专家补充标注。

那么问题又来了AI怎么知道哪一部分是识别好的,哪一部分是需要交给人类专家的呢?

这个时候,主动学习算法出场了。通过它,机器自己就能找出那些它识别不了的文字,交给人类来做最后一步工作。

以往,人工标注通常需要“两录一检”以达到99.97%的出版要求。

以一本100万字的古籍为例,如果全靠专家录入,每人1000字/天,需要1000天。

达摩院的古籍识别算法,用AI替代人工,在两个环节大幅压缩了专家标注工作量。

在机器为主进行识别的97.5%的内容中,约有1%(1万字左右)需要专家录入;机器不能识别的余下2.5%(2.5万字)的文字,全部交给专家做后期标注。

两部分相加,人工的工作量占全书的3.5%(3.5万字),还是按照一人1000字/天算,需要35天。因此,相比人工专家录入,百万字书籍的数字化工作量从1000天降低到了35天,效率比人工专家录入方案提升近30倍。

阿里达摩院的AI古籍识别算法,为中华古籍的回归提供了另一种可行可期的思路。

不简单的工作

2年,20万页,平均下来每天280页

再细算一下,每个小时就是11页,还得是在不吃不喝的那种情况。

这对于用传统方式“复现”古籍来说,简直是mission impossible。

为什么这么说?

举个“人工录入”的例子,便一目了然。

在乾隆皇帝执政期间,便组织过一次对《四库全书》的编撰。

《四库全书》共包含3500种书、7.9 万卷、3.6万册,总字数多达8亿

而当年参与次项目的人数则多达3800人,包括纪昀等360多位高官、学者。

但即便如此人力之下,也是耗时15年才完成。

然而量大,并不是这个工作的唯一难点。

非常直接的一个问题,便是“理科生”和“文科生”之间的碰撞。

阿里达摩院、四川大学历史文化学院,双方在各自的领域都堪称是专家级别。

但之于对方的领域呢?说是小白也不足为过了。

而且AI技术、古籍文化,还都属于上手门槛很高的那种。

为此,双方可谓是恶补知识短板。

历史学家、文献学家,要去学习计算机、AI相关的基础知识,要了解用AI技术识别古籍到底是怎样一个过程。

而阿里达摩院的工程师们,也花费了相当多的精力,去学习历史相关知识。

例如古籍的版本、雕版、印刷、装帧、内容,还包括古文字、古代文化知识等等。

用四川大学历史文化学院副院长王果教授的话说,就是:

在技术研发过程中,比之前预想到的难度还要大。

为此,双方在杭州、成都,开了不下10次的技术研讨会。

整体而言,汉典重光走过的这两年时间,道阻且长、困难重重。

但阿里达摩院和四川大学历史文化学院,却对此从未放弃过。

之于原因,实则这项工作背后所蕴含的意义,不仅仅是“复现”这么简单。

“复现”古籍,意义非凡

让在海外“颠沛流离”的古籍回家,让“沉眠”数百甚至上千年的古籍入世,真的有那么重要吗?

是的,而且非常重要

具体而言,可以从三个方面来看。

首先是国家层面

古籍是中华文明的“魂器”, 国家图书馆副馆长张志清说。

纵观历史上世界四大文明,能够延续至今的,也只有中华文明

很重要原因是,我国拥有一个连绵不绝、经典的文献世界。

我国从古便有盛世修史和盛世整理古籍的传统。

修史、整理文献,表面上是修复残破、逸散的古籍,本质上实则是补全中国文化最重要的载体,是修复中华文明生生不息的生命力,绵延中国文化不息的源泉。

“十四五”规划和国家中长期发展规划中,古籍的保护、整理、研究、利用,得到高度重视。

宋百家诗存卷首

其次,是研究者、学者层面

以这次从伯克利回归的20万页古籍来讲,就有很多国内少见或者是没有的珍稀善本。

因此,当这些回归的古籍被AI识别并数字化以后,研究人员、学者足不出户,便可以研究在海外的、无法获取的古籍,未来有望产生一大批重要的研究成果。

最后,是民众层面

或许很多人会认为古籍离普通老百姓甚是遥远,但实则不然。

中国古籍的内容浩如烟海,拥有非常庞大且复杂的知识体系,所涉及的范围也是极其广泛。

从应对自然灾害、流行疫病、经济波动、政治斗争、外交危机、气候变迁等等内容的经验。

有战争、瘟疫、地震、洪涝灾害、病虫害等等方面的经验总结,更贴近生活的,还包括医疗、中药、养生、家具、服饰、饮食文化等等。

而这些都是“老祖宗”们几千年来的经验总结和积累,是民族智慧的继承。

汉典重光项目没有停留在“回归”海外古籍这个层面,以数字化的形式来展现,大大降低了人们学习、阅读古籍的门槛,拉近了人们与中国文化的距离。

在发布会现场,许多研究古籍的知名教授也亲临现场,他们的眼中充满了对古籍研究的热情与使命感。

中央文史馆馆员、四川大学教授陈力说,他最大的心愿是,利用现代技术,让古籍活起来,让老百姓在古籍面前和祖宗对话,和传统文化亲密接触。

再细数参与此次工作的人员,除了川大的老一辈教授、专家们,像博士生、硕士生,甚至本科生也参与到了其中。

某种程度上,这也是保护文化的一种传承

也正如阿里达摩院院长张建锋表示:

守护中华传世典籍,是科技工作者和文化工作者共同的使命。

而此次“数字化回归”的这20万页古籍,只是汉典重光迈出的第一步。

阿里和川大还将继续联手,让“离家百年、去国万里”的更多中国璀璨古籍,以数字化方式回归故里。

最后,奉上此次“汉典重光”首批数字化古籍重要书目,若想体验完整数字版,可戳文末链接~

汉典重光 · 古籍数字化平台:

https://wenyuan.aliyun.com/home

阿里的“扫地僧”,2年“抄”了20万页古籍相关推荐

  1. 出手比王兴更狠!他靠最后一张牌收编饿了么,成为阿里“扫地僧”!

    ????????关注后回复 "进群" ,拉你进程序员交流群???????? 作者:电商君 来源:电商报(ID:kandianshang)中国电商影响力媒体! 突发! 俞永福取代王磊 ...

  2. 两年网罗13位扫地僧,阿里达摩院最新架构完整曝光

    谁在驱动达摩院? 阿里达摩院,这是马云一手发起创办.并且是退休前最看重的人才聚集地. 号称要 3 年投入超1000 亿人民币,重点进行基础科学和颠覆式技术创新研究. 如今,2年已过,达摩院驱动下,阿里 ...

  3. 他写代码如入定,人称阿里“扫地僧,java自学教程百度云

    据说在成为合伙人之前,蔡景现如常坐在电脑前伏案工作,突然被马云等一众合伙人拉到会议室,此时他才得知董事会已经决定将他升为阿里巴巴合伙人之一. 缓过神后,蔡景现当场目瞪口呆,迟迟的蹦出一句"让 ...

  4. 他写代码如入定,人称阿里“扫地僧”

    看过<天龙八部>的应该知道,扫地僧是一等一的绝世高手.他常年隐居在少林寺藏经阁,日复一日地扫地,精研佛法,低调到几乎感受不到他的存在,一出手就是大手笔. 在阿里内部,为人低调的蔡景现就是近 ...

  5. 从一线码农到阿里技术合伙人 P11的少林扫地僧多隆,人家牛逼是种习惯

    热文导读 | 点击标题阅读 欢迎加入Java和Android架构知识星球 2018年Android中高级面试题含答案 分享一张牛逼的程序员职业路线图给你们! 2014年,阿里巴巴上市前最后一次实质性更 ...

  6. mysql字符凭藉_凭借清华扫地僧的路线指引,从Java基础到算法,吊打阿里面试官!...

    本文素材来自于一位铁粉经验分享 上周收到字节跳动的面试邀请,真的又惊又喜.惊得是害怕面试时会被秒杀:喜得是有大厂邀请,是自己能力的一种体现.于是抱着试试看的轻松心态,居然一不小心就反杀了面试官(嘻嘻, ...

  7. “北大数学系扫地僧” 等十人获奖,均分1000万元,达摩院2021青橙奖出炉

    来源:机器之心 这些优秀的国内年轻学者覆盖了人工智能.生物学.数学等多个学科,他们将平分 1000 万元奖金. 昨天,阿里巴巴达摩院青橙奖第四届获奖名单正式揭晓.10 位获奖青年科学家将平分 1000 ...

  8. 《延禧攻略》网播50亿+,脑洞广告背后有家智能营销扫地僧

    每年都有现象级网络大剧,今年当属<延禧攻略>,上映三周多网播就已破50亿,爱奇艺神剧平台的地位愈发牢固. 富察皇后(秦岚饰)下线,娴妃(佘诗曼饰)问鼎中宫之位,璎珞(吴谨言饰)为查清富察皇 ...

  9. 微信第一行代码曝光!从「扫地僧」到「地成佛」,张小龙10年磨一剑

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要5分钟 Follow小博主,每天更新前沿干货 来源:微博 编辑:卫民 [导读]腾讯官方微博今日凌晨发布了微信10年前在微信后台第一天提交的代码 ...

最新文章

  1. “中药资源创新院士团队”诚聘结构、合成和计算生物学博士后5-10名
  2. linux stm32 主从,STM32F407和STM32F051主从I2C通信方法
  3. ES6 - let、const与作用域
  4. STM32在定时器中控制步进电机
  5. 从0开始搭建ELK及采集日志的简单应用
  6. 小看--单例设计模式
  7. vue-touchjs
  8. BugkuCTF-MISC题隐写3
  9. 昆虫繁殖(信息学奥赛一本通-T1312)
  10. ASP.NET MVC Bootstrap极速开发框架
  11. 如何从字符串生成流?
  12. 跳出坑爹的 Runtime Library 坑
  13. 吊打何同学?B站UP主24小时肝出AirDesk平替,成本6000!
  14. labelImg ZeroDivisionError: float division by zero解决办法
  15. 写给程序员的管理入门课程 -《格鲁夫给经理人的第一课》
  16. 2023基于微信小程序的校园第二课堂活动报名系统+后台管理系统(Springboot+mysql)-JAVA.VUE(论文+开题报告+运行)
  17. C语言 strcpy 和 strcpy_s 函数区别 - C语言零基础入门教程
  18. 数据中心22年基础架构演进史
  19. 简单梳理一下MySQL多版本并发控制原理
  20. 算法之二维数组(大炮打蚊子)

热门文章

  1. 部分和模板的复杂嵌套
  2. 递归查找具有特定扩展名的文件
  3. 处理多个Python版本和PIP?
  4. 生成Gif动画缩略图-Gif动画水印的改进
  5. BootStrap自带的图标
  6. RecyclerView嵌套TextView时显示文字不全的解决方法之一
  7. qt实现-给SQLITE添加自定义函数
  8. 删除SmartAuditor日记信息报错问题
  9. 第三话 开关说它不认识“2”
  10. 谈谈学习AS3的过程