引言

当下人工智能和数字人文浪潮风靡全球,现代汉语自动分析已取得很大成果。而古代汉语的自动分析研究相对薄弱,难以满足国学、史学、文献学、汉语史的研究和国学、传统文化教育的实际需求。古汉语存在字词、词语、词类的诸多争议,资源建设困难重重。数字人文研究需要大规模语料库和高性能古文自然语言处理工具支持。鉴于预训练语言模型已经在英语和现代汉语文本上极大的提升了文本挖掘的精度,目前亟需专门面向古文自动处理领域的预训练模型。

2021年产生了两个较为高效的面向古文智能处理任务的预训练模型SikuBERTSikuRoBERTa,并被第一个古汉语领域NLP工具评估比赛——EvaHan 2022 作为封闭环境下的预训练模型。bert-ancient-chinese 是我们为了进一步优化开放环境下模型效果得到的。

预训练

相比于之前的预训练模型,bert-ancient-chinese主要有以下特点:

  • 古汉语文本多以繁体字出现,并且包含大量生僻汉字,这使得预训练模型的vocab表(词表)中并不存在部分生僻汉字。bert-base-chinese通过在大规模语料中进行学习,进一步扩充了预训练模型的vocab(词典),最终的vocab表大小为38208,相比于bert-base-chinese词表大小为21128siku-bert词表大小为29791bert-ancient-chinese拥有更大的词表,也收录了更多的生僻字,更有利于提升模型在下游任务的表现性能。vocab表即词表,收录在预训练模型中的vocab.txt中。

  • bert-ancient-chinese使用了更大规模的训练集。相比于siku-bert只使用《四库全书》作为预训练数据集,我们使用了更大规模的数据集(约为《四库全书》的六倍),涵盖了从部、道部、佛部、集部、儒部、诗部、史部、医部、艺部、易部、子部,相比于四库全书内容更为丰富、范围更加广泛。

  • 基于领域适应训练(Domain-Adaptive Pretraining)的思想,bert-ancient-chinesebert-base-chinese的基础上结合古文语料进行继续训练,以获取面向古文自动处理领域的预训练模型。

使用方法

Huggingface Transformers

基于Huggingface Transformers的from_pretrained方法可以直接在线获取bert-ancient-chinese模型。

from transformers import AutoTokenizer, AutoModeltokenizer = AutoTokenizer.from_pretrained("Jihuai/bert-ancient-chinese")model = AutoModel.from_pretrained("Jihuai/bert-ancient-chinese")

模型下载

我们提供的模型是PyTorch版本。

调用

通过Huggingface官网直接下载,目前官网的模型已同步更新至最新版本:

  • bert-ancient-chinese:Jihuai/bert-ancient-chinese · Hugging Face

云盘

下载地址:

模型名称 网盘链接
bert-ancient-chinese 链接 提取码: qs7x

验证与结果

我们在比赛EvaHan 2022提供的训练集、测试集上对不同的预训练模进行了测试和比较。我们通过对模型在下游任务自动分词词性标注上微调(fine-tuning)的性能进行了比较。

我们以BERT+CRF作为基线模型,对比了siku-bertsiku-robertabert-ancient-chinese在下游任务上的性能。为了充分利用整个训练数据集,我们采用 K 折交叉验证法,同时其他超参均保持一致。评测指标为F1值

《左传》 《史记》
自动分词 词性标注 自动分词 词性标注
siku-bert 96.0670% 92.0156% 92.7909% 87.1188%
siku-roberta 96.0689% 92.0496% 93.0183% 87.5339%
bert-ancient-chinese 96.3273% 92.5027% 93.2917% 87.8749%

引用

如果我们的内容有助您研究工作,欢迎在论文中引用。

免责声明

报告中所呈现的实验结果仅表明在特定数据集和超参组合下的表现,并不能代表各个模型的本质。实验结果可能因随机数种子,计算设备而发生改变。使用者可以在许可证范围内任意使用该模型,但我们不对因使用该项目内容造成的直接或间接损失负责。

致谢

bert-ancient-chinese是基于bert-base-chinese继续训练得到的。

感谢邱锡鹏教授和复旦大学自然语言处理实验室。

联系我们

Pengyu Wang: wpyjihuai@gmail.com

bert-ancient-chinese——专注于古汉语智能处理的BERT预训练模型相关推荐

  1. 参赛邀请 | 第二届古汉语自动分析国际评测EvaHan(古汉语机器翻译)开始报名...

    EvaHan2023 中国古代典籍是中国传统文化的重要组成部分,在古籍研究领域,古籍的翻译起着非常重要的作用.古汉语在语法.句法.词汇等方面与现代汉语有很大的差异,提高古汉语到现代汉语的机器翻译性能可 ...

  2. 金融领域首个开源中文BERT预训练模型,熵简科技推出FinBERT 1.0

    出品 | AI科技大本营 头图 | CSDN付费下载于东方IC 为了促进自然语言处理技术在金融科技领域的应用和发展,熵简科技 AI Lab 近期开源了基于 BERT 架构的金融领域预训练语言模型 Fi ...

  3. 一大批中文(BERT等)预训练模型等你认领!

    作者丨Zhe Zhao 机构丨RUC DBIIR & Tencent Research 研究方向丨自然语言处理 项目简介 预训练模型已经成为了 NLP 领域最重要的资源之一.当我们拿到一个 N ...

  4. 机器翻译中的古汉语现代汉语句子对齐研究

    第十一届全国机器翻译研讨会(CWMT 2015)                                                                中国 · 合肥 2015 ...

  5. 【文献阅读】基于深层语言模型的古汉语知识表示及自动断句研究

    概述:BERT+CRF/CNN实现古文知识表示和断句 2 古汉语自动断句模型 条件随机场是一种经典的序列标注模型,在中文分词.词性标注.命名实体识别等自然语言处理任务中均有着广泛应用 Zheng X, ...

  6. 我爱自然语言处理bert ner chinese

    BERT相关论文.文章和代码资源汇总 4条回复 BERT最近太火,蹭个热点,整理一下相关的资源,包括Paper, 代码和文章解读. 1.Google官方: 1) BERT: Pre-training ...

  7. mixly编程怎样音乐_华人留学生开发首个古汉语编程语言,实现易经算命、圆周率计算,Github获赞14.7k...

    近日,世界上第一个古汉语编程语言在 Github 上横空出世,由该古汉语编程语言编写的程序现已达到了数十个,有圆周率计算方法,甚至有<易经>的算命算法. 截至目前,该项目在 Github ...

  8. 1998ieee圆周率c语言,华人留学生开发首个古汉语编程语言,实现易经算命、圆周率计算,Github获赞14.7k...

    近日,世界上第一个古汉语编程语言在 Github 上横空出世,由该古汉语编程语言编写的程序现已达到了数十个,有圆周率计算方法,甚至有<易经>的算命算法. 截至目前,该项目在 Github ...

  9. 古汉语常用字字典_掌握了音序或部首查字法,就会查字典了?不,差得远着呢!...

    前一段时间,我连续写了两篇关于使用工具书的文章. 为什么要教会孩子使用工具书,我和你想的不大一样 给孩子选择合适的工具书,一定要注意哪些问题 如果说以上两篇是主要是在谈原则和方向的问题,那么本篇就是方 ...

最新文章

  1. 零基础参加软件测试培训需要学多长时间
  2. java机试 数据结构_Java数据结构面试题
  3. 强化学习之gym初战实战案例:悬崖案例CliffWalking-v0。
  4. 算法----计算机程序设计之魂
  5. Activity生命周期 onCreate onResume onStop onPause
  6. 设计进步,记一笔,控制层的代码,他不光控制还要校验数据!以前理解错啦
  7. OA办公系统的发展离不开企业大胆尝试使用
  8. leetcode1482. 制作 m 束花所需的最少天数(二分法)
  9. java学习(11):Java数据类型转换
  10. goim 中的 data flow 数据流转及思考
  11. python网络验证系统_python3+django2 开发易语言网络验证(下)
  12. postgres 禁止远程登录_解决postgresql无法远程访问的情况
  13. 教你一行代码解决 Git报错 fatal refusing to merge unrelated histories
  14. authware课件
  15. 接口测试用例和功能测试用例一样吗?怎么写?
  16. 拉取maven项目如何跑起来
  17. 解决Request processing failed; nested exception is com.sun.jersey.api.client.UniformInterfaceException
  18. Kali无线渗透获取宿舍WiFi密码(WPA)
  19. javaScript数组操作--有道笔记整理
  20. 安全集成服务资质是什么都有哪些等级?申请安全集成服务资质认证有什么好处?

热门文章

  1. 数据简报:上证综合指数历史走势图(1991年以来)
  2. flutter打包安卓问题
  3. 解决cv2.error: OpenCV(4.5.1) /tmp/pip-req-build-n_alixql/opencv/modules/highgui/问题
  4. 丝滑!CVPR 2021 视频插帧论文+开源代码汇总
  5. 计算机网络与新媒体是什么,网络与新媒体专业课程是什么
  6. Typora使用技巧 | 各种跳转 【必备】
  7. 《数论概论》读书笔记(第一章) 什么是数论?
  8. 计算机0基础知识,计算机基础知识0课件.ppt
  9. 低压无功补偿电容柜浅谈
  10. 微信web开发工具 移动设备调试