【文献阅读】基于深层语言模型的古汉语知识表示及自动断句研究
概述:BERT+CRF/CNN实现古文知识表示和断句
2 古汉语自动断句模型
条件随机场是一种经典的序列标注模型,在中文分词、词性标注、命名实体识别等自然语言处理任务中均有着广泛应用
Zheng X,ChenJ,Shang G.Deep neuralnetwork-basedChinesesemanticrolelabeling[J/OL].ZTECommunications,2018:1-12.http://kns.cnki.net/kcms/detail/34.1294.TN.20180102.1045.002.html.[2018-01-02]
由于 CRF模型预测时仅能考虑当前位置及之前位置的特征,未能充分地利用上下文信息进行断句,造成了一些断句错误
3 实验及评估
3.1 数据集
古汉语深层语言模型训练
殆知阁古代文献藏书2.0版语料库
计33亿字,繁简体字混合出现
zhconv工具将文本统一转成简体
获取带标点的文言文语 料8163988
条(以段落为单位)
自动断句任务
Github中华古诗词数 据 库 https://github.com/chinese-poetry/chinese-poetry
带 标 点 的 古 诗 词 数 据,其 中 诗311691首,词 20643 首
3.2 模型及参数设置
3.3 实验结果
BERT优势
- 第一,能够较好地捕捉古诗文表达的节奏感和韵律感
- 第二,对上下文信息的利用较为充分,实 现 语序、语法、语义、语境等信息的编码。
【文献阅读】基于深层语言模型的古汉语知识表示及自动断句研究相关推荐
- C#,动态规划问题中基于单词搜索树(Trie Tree)的单词断句分词( Word Breaker)算法与源代码
分词是自然语言处理的基础,分词准确度直接决定了后面的词性标注.句法分析.词向量以及文本分析的质量.英文语句使用空格将单词进行分隔,除了某些特定词,如how many,New York等外,大部分情况下 ...
- 文献阅读---对β-三酮除草剂具有广谱抗性的一个水稻基因研究
文献:对β-三酮除草剂具有广谱抗性的一个水稻基因研究 1. 简介β-三酮除草剂类型 2. 简述和总结Report的研究内容和结果 2.1 研究动机 2.2 研究材料和方法 2.3 研究结果 3. 心得 ...
- 文献阅读 | 基于单细胞RNA测序数据的谱系追踪
Overcoming Genetic Drop-outs in Variants-based Lineage Tracing from Single-cell RNA Sequencing Data ...
- 文献阅读 | 基于ATAC-seq数据的SNV与indels的发现
Discovering single nucleotide variants and indels from bulk and single-cell ATAC-seq 文献链接:https://ww ...
- 基于机器学习的古代汉语自动分词标注算法及语料库研究
摘 要 近年来,深度学习的浪潮渗透在科研和生活领域的方方面面,本文主要研究深度学习在自然语言处理,尤其是古汉语自然语言处理方面的应用.本文旨在利用计算机帮助古文研究者对古汉语完成断代.断句.分词及词性 ...
- 机器翻译中的古汉语现代汉语句子对齐研究
第十一届全国机器翻译研讨会(CWMT 2015) 中国 · 合肥 2015 ...
- 参赛邀请 | 第二届古汉语自动分析国际评测EvaHan(古汉语机器翻译)开始报名...
EvaHan2023 中国古代典籍是中国传统文化的重要组成部分,在古籍研究领域,古籍的翻译起着非常重要的作用.古汉语在语法.句法.词汇等方面与现代汉语有很大的差异,提高古汉语到现代汉语的机器翻译性能可 ...
- 研究生如何进行文献检索和文献阅读
阅读文献一定不要心浮气躁,要沉下心来大量阅读.在读的过程中有的文献看懂了,但是看不懂的文献也可能会居多.看懂的认真学习借鉴,看不懂的深入探索,实在不行就暂时放下,过一段时间,随着知识和能力的提高慢慢也 ...
- 【预训练视觉-语言模型文献阅读】VL-BERT: PRE-TRAINING OF GENERIC VISUAL- LINGUISTIC REPRESENTATIONS(ICLR 2020)
[预训练视觉-语言模型文献阅读]VL-BERT: PRE-TRAINING OF GENERIC VISUAL- LINGUISTIC REPRESENTATIONS(ICLR 2020) 文章目录 ...
最新文章
- 【java】兴唐第二十节课(Collection 和 ArrayList)
- R基于H2O包构建深度学习模型实战
- Effective Python 小笔记之 zip 函数
- python编程在哪里写-python3.6.3 安装好了在哪里编写程序
- 浅析:精密空调能耗超高的原因!
- 【小白学习C++ 教程】十一、C++类中访问修饰符
- python + hadoop (案例)
- Java表示0到200的质因数_java记——循环 求一个数的所有质因数
- 全国计算机等级考试题库二级C操作题100套(第66套)
- Oracle入门(七A)之表空间配额(quota)
- mac电脑php中安装swoole扩展件
- Flutter原理与实践
- 2-3:套接字(Socket)编程之UDP通信,sockaddr,sockaddr_in,recvfrom,sendto
- CPU位数、操作系统位数、编译器位数
- 【人工智能】人工智能如何影响社会经济:关于近期文献的一个综述
- 这样一张手绘说明书,我竟然调试通了,SYN8086TTS模块现场评测教学
- 计算机进行运算时为什么采用二进制数,计算机中为什么采用二进制
- c语言电子万年历大作业,C语言实现一个简单的电子万年历
- 以低功耗蓝牙便携医疗设备帮助改善癫痫患者治疗管理
- CF1611E1 Escape The Maze (easy version)+ CF1611E2 Escape The Maze (hard version)