报告

我们基于深度学习的自动标点引擎,在合作团队的帮助下实现于2018年,论文已在今年发表。当时使用循环神经网络(RNN)中的双向长短时记忆(Bi-LSTM)作为特征提取器。这几年来,注意力机制开始取代RNN,发展为自然语言处理任务特征提取器的主流。最近,另一家合作团队刚刚完成了一种采用transformer架构的新引擎,使用的训练数据在之前的基础上又加入了四库全书,标点能力又获得进一步提升,据称比旧引擎提高了10%的准确率。

我从律学文献《简正记·集僧篇》中选取一些段落,将新旧标点引擎的标点结果进行对比,让我对新引擎的进步留下了深刻印象。以下是两者的对比结果。

1

-THE FIRST-

旧引擎明显出错的地方有三处:

“云集至二者”后面没有逗号;

②③“法体行相”被断开,同时后面没有未接句号,“法体行相”是戒法、戒体、戒行、戒相的简称。

新引擎明显出错的地方有二处:

“二、释”后面没有句号;

“云集至二者”被句号断开,“云‘某’至‘某’者”,是注疏中的特定句式,用来标记被注疏内容在原文中的位置。

此外还有一处小问题:

段落最后没有句号,这是新引擎常常出现的问题,无害于文义理解。

旧引擎

VS

新引擎

新引擎1

W I N

2

-THE SECOUND-

旧引擎的明显错误有四处:

“今云众字有滥”后面缺少逗号;

“如三人亦名众”被断开;

③④“是存略梵”被断开,同时与后文连在一起没有断开。

此外还有两处小问题:

“若云四人辨说戒等云名和合者”之间被断开,此处不断开为宜;

“是以钞文直言僧者以和合为义”,不宜断开。当然,这些地方断开也并非大错。

新引擎没有明显错误,有两处小问题:

① 开头处“僧者以和为义者”和 “是以钞文直言僧者以和合为义”都不宜断开。

旧引擎

VS

新引擎

新引擎2

W I N

3

-THE THIRD-

旧引擎的明显错误有四处:

①②“此是提舍尼戒中比丘在兰若处逆食女人也”被句号和逗号断开两次,“比丘在兰若处逆食女人”是戒条的完整名称,不应该断开;

③④“动物之名皷”被逗号断开,并且与后文没有断开。一处小问题是“引此文亦为证前比丘得作”也“被逗号断开了。

新引擎的明显错误有一处:

① “彼云”后面未接冒号。

旧引擎

VS

新引擎

新引擎X 3

W I N

4

-THE FOURTH-

旧引擎的明显错误有八处:

① “裙坐埀足”后面没有逗号,其中“裙”应是“裾”(通“踞”)字之误,“埀”即“垂”;“踏着地不得悬”后面没有逗号;

“亦如此土绳床上坐”被逗号断开;

“垂脚平踏地”被逗号断开;

⑤⑥“面前一土埵”被逗号断开,且后面未接逗号;

⑦⑧“号为食按”被逗号断开,且后面未接逗号,“按”通“案”。

一处小问题是:

“无人看苦酒中虫”后面应是逗号。

新引擎的明显错误有两处:

“亦如此土绳床上坐”后面未接逗号;

“垂脚平踏地”被逗号断开。

小问题一处:

段末没有句号。

旧引擎

VS

新引擎

新引擎4

W I N

5

-THE FIFTH-

旧引擎的明显错误有九处:

 “二、因明”后面未接逗号;

“因谓立论者言”被逗号断开,“因”指的是“因明”的第一个字;

③④“明谓敌论者智”被逗号断开,而且后面未接逗号,“明”指的是“因明”的第二个字;

“三声明”中间未用顿号,不统一;

⑥⑦“四医方明”中间未用顿号,后面未接逗号;

“五、工巧明”后面未接逗号;

“善闲一切工巧好艺等”被逗号断开,“闲”通“娴”,意为熟练。

新引擎没有明显错误。

旧引擎

VS

新引擎

新引擎X 5

W I N

尽管新引擎在标点方面完胜了旧引擎,不过仍然存在一些小问题,除了那个段末没有句号的bug,还有标点字数不能超过200字,而且时不时会从标点模式变成断句模式,也就是只输出句号而不输出其他标点。这里举两个断句模型的例子。

6

-THE SIXTH-

旧引擎的明显标点错误有六处:

“即作相等七种”后面未接逗号或分号,指的是七种集僧的方法。此处容易理解为“七种僧是所集”,律学中也确实有七种僧的说法,但是从前后两句的对称性考虑,“集谓能集”与“僧是所集”对仗,“即作相等七种”与“即尽界而聚等”对仗,所以“七种僧是所集”的理解并不合理。

“第一义谛僧”被逗号断开;

“缁素不同”后面缺少逗号;

“后篇方简”后面未接句号;

⑤⑥“五中但集后二”被句号断开,而且后面错用了顿号,“后二”指的是前面五种僧众的后两种,即清净僧和第一义僧。

新引擎的断句有两处明显错误:

①②“即作相等七种”被句号断开,而且后面未接逗号或分号。

7

-THE SEVENTH-

旧引擎的明显标点错误有十二处:

①②“可分别尼聚落集是通”被逗号断开,后面未用逗号;

“五里集是通”后面未用逗号;

“此约自然辨通局也”被逗号断开;

⑤⑥“有戒场大界四处集是灭”被逗号断开,后面未用逗号,其中“灭”应是“通”之误,“有戒场大界”是律学专用词汇;

⑦⑧“无戒场大界二处集是局” 被逗号断开,后面未用逗号,其中“无戒场大界”是律学专用词汇;

“三小界不立相”被逗号断开,“三小界”意为三种小界,是律学专用词汇;

“并是灭”后面未用逗号,“灭”应是“通”之误;

“分齐外不要来”被逗号断开,“分齐”是“边界”的意思;

“并无别众过为局”被逗号断开,其中“别众”是律学专用词汇,“别众过”的意思是别众的过失。

小问题有两处:

“兰若无难五里集是通”被逗号断开;

“有难七盘陀量集为局”被逗号断开,其中“有难”是“有难兰若”的简称。这两个句子中间如果用了逗号,那么其前后应该使用分号,与其他句子分隔。如果不改变句子之间的逗号,那么这两句内部便不宜再用逗号。

新引擎的明显断句错误有两处:

“宝云”后面未接句号;

“并是灭”后面未接句号。

新引擎的断句模式在准确率上仍然占据优势。由于断句模式只输出一种标点,其出错概率理论上应该低于标点模式。目前尚无法有效控制断句模式和标点模式之间的切换。

新引擎最令人印象深刻的地方,一是它对专用词汇的识别。例如,第五段中关于五明的几个专用名词,都被其准确识别出来,再如第七段中很多律学专用词汇,新引擎都没有错误的断开。反之,旧引擎则屡屡犯错。二是新引擎对句子结构的捕捉,能够恰到好处的找到句子之间的分界处。例如,第三段的句子“此是提舍尼戒中比丘在兰若处逆食女人也”和“动物之名皷”,这几处旧引擎都出错了。再如第四段中的“号为食按”,旧引擎明显将“按”当成动词,故与前文断开而与后文连接。以上问题在新引擎中都没有出现。

从新引擎的进步速度来看,自动标点彻底攻克古籍标点已经指日可待。为古籍点标点这类以往只有专业人士才能胜任的工作饭碗,看来也要被人工智能抢走了。

1. Shi, Xianchao, et al. "一种自动标点的方法与实现." 数位典藏与数位人文 3 (2019): 1-19.

2.《简正记》是对唐代道宣律师《四分律删繁补阙行事钞》的注疏。

基于注意力机制的lstm实现_一种基于注意力机制的自动标点引擎的测试体验相关推荐

  1. 基于单片机的超市储物柜设计_一种基于at89c51单片机的超市寄存装置的制造方法...

    一种基于at89c51单片机的超市寄存装置的制造方法 [专利摘要]一种基于AT89C51单片机的超市寄存装置,主要包括AT89C51单片机最小系统.按键模块.电源模块.箱柜控制模块.语音提醒模块.管理 ...

  2. 基于单片机超声波测距系统的设计_一种基于UWB技术实现的测距防撞系统

    叉车被广泛应用于工厂车间.仓库.流通中心和配送中心等,大大提高了对成件托盘货物进行装卸.堆垛和短距离运输作业的运输效率,几乎是所有车间必不可少的运输工具.但目前,简单方便的同时,安全事故(剐蹭.碰撞. ...

  3. 聚类dbi指数_一种基于DBI-PD聚类算法的异常检测机制

    一种基于 DBI-PD 聚类算法的异常检测机制 丁姝郁 [期刊名称] <电脑开发与应用> [年 ( 卷 ), 期] 2015(000)002 [摘要] 分析了网络数据维数和检测准确度之间的 ...

  4. 属性与意图识别_一种基于多任务学习的意图与槽位联合识别方法与流程

    本发明属于人机交互领域,涉及自然语言处理.垂直对话系统等,特别涉及一种基于多任务学习的意图与槽位联合识别方法. 背景技术: 意图识别和槽位识别可以将垂直对话系统中用户输入文本转化为语义表示,为系统采取 ...

  5. html webservice数据交互_一种基于WebService的数据交换方法

    一种基于WebService的数据交换方法 [专利摘要]本发明涉及数据交换[技术领域],特别涉及一种基于WebService的数据交换方法.本发明是以Web服务为依托,通过定义参数的方式进行传入内容和 ...

  6. tof摄像头手势识别_一种基于TOF手势识别的控制系统的制作方法

    本发明属于汽车零配件技术领域,尤其是一种基于TOF手势识别的控制系统. 背景技术: 随着触摸屏技术的不断推广,用户已经适应并逐渐熟悉了与机器的互动.现在,人机互动技术已迈上了更高的台阶,进入了手势识别 ...

  7. java 基于类路径搜索_一种基于ClassLoader的自定义类查找方法与流程

    本发明涉及IT技术领域,特别是指一种基于ClassLoader的自定义类查找方法. 背景技术: 随着信息系统的复杂性日益增大,使用反射机制设计的系统越来越多.根据不同的业务需要通过反射去获得相应的处理 ...

  8. java 解析数据包_一种基于Java语言的网络通讯数据包解析方法与流程

    本发明涉及网络通讯领域,特别涉及一种基于Java语言的网络通讯数据包解析方法. 背景技术: 计算机系统和网络的大量普及使用使全球跨入了信息化时代.但是,正由于现代社会中几乎一切都在"计算机化 ...

  9. 服务器基线加固脚本_一种基于WebLogic的安全基线加固方法与流程

    本发明涉及一种安全基线加固方法,尤其涉及一种基于weblogic的安全基线加固方法. 背景技术: weblogic是一个基于javaee架构的中间件,用于开发.集成.部署和管理大型分布式web应用.网 ...

最新文章

  1. 用AI创造AI,人工智能无代码时代来临
  2. python是不是特别垃圾-python垃圾回收机制
  3. Hyperledger Fabric 智能合约实战 (2)软件安装Docker、 Docker-composer、go
  4. 腾讯内部产品课:细分用户
  5. 计算机操作系统稳定性的因素有哪些,计算机操作系统期末重点复习汇编.docx
  6. CodeFirst Update-Database 出现对象'DF__**__**__**' 依赖于 列'**'。
  7. 【机器学习-西瓜书】九、聚类:性能度量;距离计算
  8. Android提高显示布局文件的性能,使用include标签重用layouts
  9. 一个好用的不基于时间的同步文件的软件 —— Allway sync 文件同步
  10. zen3架构_AMD Zen3架构升级,AMD最新产品一览
  11. signature=111f58ddc27ff0fab1746b92b27414e9,DDCTF2019官方Write Up——MISC篇
  12. 坚持#第212天~零基础自学云计算基础语言应用1~5节
  13. html制作心形状图片,把多张图片拼接成一个爱心的形状 爱心形状的图片效果 爱心拼接照...
  14. 解决VUE项目更新后需要客户手动刷新浏览器问题
  15. 不是吧!你还在手动拉窗帘?
  16. 【用三大件写出的开门烟花特效】
  17. (转)Linux Kernel核心中文手册
  18. 如何理解API?API 是如何工作的?(5分钟诠释)
  19. ENVI:如何对Landsat8影像进行辐射校正?
  20. Html5基础知识笔记

热门文章

  1. pandas为dataframe添加新的数据行(rows)、在dataframe后面纵向添加一行数据(数据为列表list形式)、列有不匹配将会使用NA值进行填补
  2. R语言构建xgboost模型:特征重要度计算及解读、改善特征重要度数据的可解释性、特征重要度可视化
  3. R语言可视化包ggplot2改变图例(legend)元素的大小实战:包含图例中标题字体、文本字体、标识模块(key)的大小
  4. python实现快排算法(quicksort)
  5. android 蓝牙 不休眠_全新便携蓝牙键盘 雷柏XK100带来高效办公新体验
  6. vmware ESXI6.7 设置 Nvidia 显卡直通
  7. 人脸检测-- Face R-FCN + Face R-CNN
  8. Python 3/前端 画图工具:Matplotlib,canvajs,pyecharts
  9. LeetCode 91. Decode Ways--动态规划DP的Python和Java解法
  10. 2021年普高考成绩查询,山东2021年高考成绩改为6月26日前公布