概述:BERT+CRF/CNN实现古文知识表示和断句

2 古汉语自动断句模型

条件随机场是一种经典的序列标注模型,在中文分词、词性标注、命名实体识别等自然语言处理任务中均有着广泛应用
Zheng X,ChenJ,Shang G.Deep neuralnetwork-basedChinesesemanticrolelabeling[J/OL].ZTECommunications,2018:1-12.http://kns.cnki.net/kcms/detail/34.1294.TN.20180102.1045.002.html.[2018-01-02]

由于 CRF模型预测时仅能考虑当前位置及之前位置的特征,未能充分地利用上下文信息进行断句,造成了一些断句错误

3 实验及评估

3.1 数据集

古汉语深层语言模型训练

殆知阁古代文献藏书2.0版语料库

计33亿字,繁简体字混合出现

zhconv工具将文本统一转成简体

获取带标点的文言文语 料8163988
条(以段落为单位)

自动断句任务

Github中华古诗词数 据 库 https://github.com/chinese-poetry/chinese-poetry

带 标 点 的 古 诗 词 数 据,其 中 诗311691首,词 20643 首

3.2 模型及参数设置

3.3 实验结果

BERT优势

  • 第一,能够较好地捕捉古诗文表达的节奏感和韵律感
  • 第二,对上下文信息的利用较为充分,实 现 语序、语法、语义、语境等信息的编码。

【文献阅读】基于深层语言模型的古汉语知识表示及自动断句研究相关推荐

  1. C#,动态规划问题中基于单词搜索树(Trie Tree)的单词断句分词( Word Breaker)算法与源代码

    分词是自然语言处理的基础,分词准确度直接决定了后面的词性标注.句法分析.词向量以及文本分析的质量.英文语句使用空格将单词进行分隔,除了某些特定词,如how many,New York等外,大部分情况下 ...

  2. 文献阅读---对β-三酮除草剂具有广谱抗性的一个水稻基因研究

    文献:对β-三酮除草剂具有广谱抗性的一个水稻基因研究 1. 简介β-三酮除草剂类型 2. 简述和总结Report的研究内容和结果 2.1 研究动机 2.2 研究材料和方法 2.3 研究结果 3. 心得 ...

  3. 文献阅读 | 基于单细胞RNA测序数据的谱系追踪

    Overcoming Genetic Drop-outs in Variants-based Lineage Tracing from Single-cell RNA Sequencing Data ...

  4. 文献阅读 | 基于ATAC-seq数据的SNV与indels的发现

    Discovering single nucleotide variants and indels from bulk and single-cell ATAC-seq 文献链接:https://ww ...

  5. 基于机器学习的古代汉语自动分词标注算法及语料库研究

    摘 要 近年来,深度学习的浪潮渗透在科研和生活领域的方方面面,本文主要研究深度学习在自然语言处理,尤其是古汉语自然语言处理方面的应用.本文旨在利用计算机帮助古文研究者对古汉语完成断代.断句.分词及词性 ...

  6. 机器翻译中的古汉语现代汉语句子对齐研究

    第十一届全国机器翻译研讨会(CWMT 2015)                                                                中国 · 合肥 2015 ...

  7. 参赛邀请 | 第二届古汉语自动分析国际评测EvaHan(古汉语机器翻译)开始报名...

    EvaHan2023 中国古代典籍是中国传统文化的重要组成部分,在古籍研究领域,古籍的翻译起着非常重要的作用.古汉语在语法.句法.词汇等方面与现代汉语有很大的差异,提高古汉语到现代汉语的机器翻译性能可 ...

  8. 研究生如何进行文献检索和文献阅读

    阅读文献一定不要心浮气躁,要沉下心来大量阅读.在读的过程中有的文献看懂了,但是看不懂的文献也可能会居多.看懂的认真学习借鉴,看不懂的深入探索,实在不行就暂时放下,过一段时间,随着知识和能力的提高慢慢也 ...

  9. 【预训练视觉-语言模型文献阅读】VL-BERT: PRE-TRAINING OF GENERIC VISUAL- LINGUISTIC REPRESENTATIONS(ICLR 2020)

    [预训练视觉-语言模型文献阅读]VL-BERT: PRE-TRAINING OF GENERIC VISUAL- LINGUISTIC REPRESENTATIONS(ICLR 2020) 文章目录 ...

最新文章

  1. 【java】兴唐第二十节课(Collection 和 ArrayList)
  2. R基于H2O包构建深度学习模型实战
  3. Effective Python 小笔记之 zip 函数
  4. python编程在哪里写-python3.6.3 安装好了在哪里编写程序
  5. 浅析:精密空调能耗超高的原因!
  6. 【小白学习C++ 教程】十一、C++类中访问修饰符
  7. python + hadoop (案例)
  8. Java表示0到200的质因数_java记——循环 求一个数的所有质因数
  9. 全国计算机等级考试题库二级C操作题100套(第66套)
  10. Oracle入门(七A)之表空间配额(quota)
  11. mac电脑php中安装swoole扩展件
  12. Flutter原理与实践
  13. 2-3:套接字(Socket)编程之UDP通信,sockaddr,sockaddr_in,recvfrom,sendto
  14. CPU位数、操作系统位数、编译器位数
  15. 【人工智能】人工智能如何影响社会经济:关于近期文献的一个综述
  16. 这样一张手绘说明书,我竟然调试通了,SYN8086TTS模块现场评测教学
  17. 计算机进行运算时为什么采用二进制数,计算机中为什么采用二进制
  18. c语言电子万年历大作业,C语言实现一个简单的电子万年历
  19. 以低功耗蓝牙便携医疗设备帮助改善癫痫患者治疗管理
  20. CF1611E1 Escape The Maze (easy version)+ CF1611E2 Escape The Maze (hard version)

热门文章

  1. gdal切火星偏移的瓦片
  2. survival | 生存分析(1):生存曲线(上)
  3. 数据结构---列表[pf]
  4. GPT-4:不了不了,这些我还做不到
  5. 虚拟串口工具MCGS开发调试的灵活应用教程
  6. android xlog崩溃日志,腾讯Xlog接入指南与踩过的坑
  7. 互联网寒冬!一线互联网移动架构师筑基必备技能之Java篇,附带学习经验
  8. 一个合适的交换机高清视频监控网络
  9. [C/C++]华为8-19笔试题
  10. 基于Matlab-gui信号系统设计