基于BERT+BiLSTM+CRF模型与新预处理方法的古籍自动标点
摘要
古文相较于现代文不仅在用词、语法等方面存在巨大差异,还缺少标点,使人难以理解语义。采用人工方式对古文进行标点既需要有较高的文学水平,还需要对历史文化有一定了解。为提高古文自动标点的准确率,将深层语言模型BERT与双向长短记忆网络和条件随机场模型(BiLSTM+CRF)相结合建立新模型,并提出新的数据预处理方法。该模型在古文自动标点上的各项性能指标均能达到85%左右,比常用方法提高了8%左右。同时,该模型也表现出较好的泛化性能,即使在从未训练和预测过的古文数据集上各项指标也能达到78%左右。实验结果表明,该模型和新的预处理方法不仅能够更好地学习古文的语义信息和上下文关联信息,还能够学习标签的规范信息。
0 引言
中华文明源远流长,流传下很多古籍文本,涵盖了政治、历史、哲学、文学、医学等多方面内容。通过对古籍文本进行整理和学习,现代人能够了解并学习古人的智慧,更加准确地认识历史。中文古籍文本一般不添加标点符号[1]。韩愈在《师说》中云
基于BERT+BiLSTM+CRF模型与新预处理方法的古籍自动标点相关推荐
- 基于BERT+BiLSTM+CRF的中文景点命名实体识别
赵平, 孙连英, 万莹, 葛娜. 基于BERT+BiLSTM+CRF的中文景点命名实体识别. 计算机系统应用, 2020, 29(6): 169-174.http://www.c-s-a.org.cn ...
- Bert+BiLSTM+CRF实体抽取
文章目录 一.环境 二.预训练词向量 三.模型 1.BiLSTM - 不使用预训练字向量 - 使用预训练字向量 2.CRF 3.BiLSTM + CRF - 不使用预训练词向量 - 使用预训练词向量 ...
- 信息抽取实战:命名实体识别NER【ALBERT+Bi-LSTM模型 vs. ALBERT+Bi-LSTM+CRF模型】(附代码)
实战:命名实体识别NER 目录 实战:命名实体识别NER 一.命名实体识别(NER) 二.BERT的应用 NLP基本任务 查找相似词语 提取文本中的实体 问答中的实体对齐 三.ALBERT ALBER ...
- 零基础入门--中文命名实体识别(BiLSTM+CRF模型,含代码)
https://github.com/mali19064/LSTM-CRF-pytorch-faster 中文分词 说到命名实体抽取,先要了解一下基于字标注的中文分词. 比如一句话 "我爱北 ...
- NLP(二十五)实现ALBERT+Bi-LSTM+CRF模型
在文章NLP(二十四)利用ALBERT实现命名实体识别中,笔者介绍了ALBERT+Bi-LSTM模型在命名实体识别方面的应用. 在本文中,笔者将介绍如何实现ALBERT+Bi-LSTM+CRF ...
- bert+crf可以做NER,那么为什么还有bert+bi-lstm+crf ?
我在自己人工标注的一份特定领域的数据集上跑过,加上bert确实会比只用固定的词向量要好一些,即使只用BERT加一个softmax层都比不用bert的bilstm+crf强.而bert+bilstm+c ...
- ML之xgboost:基于xgboost(5f-CrVa)算法对HiggsBoson数据集(Kaggle竞赛)训练实现二分类预测(基于训练好的模型进行新数据预测)
ML之xgboost:基于xgboost(5f-CrVa)算法对HiggsBoson数据集(Kaggle竞赛)训练实现二分类预测(基于训练好的模型进行新数据预测) 目录 输出结果 设计思路 核心代码 ...
- DL之pix2pix:基于TF利用pix2pix模型对food_resized数据集实现Auto Color自动上色技术—训练测试过程全记录
DL之pix2pix:基于TF利用pix2pix模型对food_resized数据集实现Auto Color自动上色技术 目录 训练 food_resized数据集展示 TB过程监控 1.SCALAR ...
- 五分钟搭建一个基于BERT的NER模型
BERT 简介 BERT是2018年google 提出来的预训练的语言模型,并且它打破很多NLP领域的任务记录,其提出在nlp的领域具有重要意义.预训练的(pre-train)的语言模型通过无监督的学 ...
最新文章
- oracle11g insufficient,ORACLE11GORA-01031:insufficientprivileges
- linux搭建vsftpd虚拟用户访问
- 魔术方法php,PHP中常用的魔术方法
- 【每周CV论文推荐】 初学目标检测必须要读的文章
- 第一次离线写Blog,先上个图先
- 这所双非高校硕士生一作发Science!系学校上半年第13篇CNS!
- 计算机相关报道的观后感,《新闻报道》观后感800字
- 树莓派apt-get update速度慢的解决方法
- 电容器在电路中的作用
- 从语音识别到语义识别,中间还有多长的路要走?-模拟/电源-与非网
- 实验吧_登陆一下好吗(骚注入)你真的会PHP吗?(代码审计)
- stm32呼吸灯程序_STM32寄存器操作点亮LED灯
- 一文带你读懂 Java Agent 内存马
- word必备快捷键使用
- 如何评价一个好系统?
- php图片翻转,php识别翻转iphone拍摄的颠倒图片
- Mac微信防撤回安装教程——已失效
- 一个女程序员职场自述:彻骨的孤独
- python协同过滤电影推荐_python实现基于用户的协同过滤算法(CF)——以电影评价数据(ml-100k)为例...
- 创建型模式:工厂方法