句法分析是自然语言处理中的关键技术之一,其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。主要包括两方面的内容,一是确定语言的语法体系,即对语言中合法句子的语法结构给予形式化的定义;另一方面是句法分析技术,即根据给定的语法体系,自动推导出句子的句法结构,分析句子所包含的句法单位和这些句法单位之间的关系。

依存关系本身是一个树结构,每一个词看成一个节点,依存关系就是一条有向边。本文主要通过清华大学的句法标注语料库,来实现基于 CRF 的中文句法依存分析模型。

清华大学句法标注语料库

清华大学的句法标注语料,包括训练集(train.conll)和开发集合文件(dev.conll)。训练集大小 5.41M,共185541条数据。测试集大小为 578kb,共19302条数据。

语料本身格式如下图所示:

通过上图,我们可以看出,每行语料包括有8个标签,分别是 ID、FROM、lEMMA、CPOSTAG、POSTAG、FEATS、HEAD、DEPREL。详细介绍如下图:

模型的实现

通过上面对句法依存关键技术的定义,我们明白了,句法依存的基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。同时,我们也对此次模型实现的语料有了

第17课:基于 CRF 的中文句法依存分析模型实现相关推荐

  1. 第16课:动手实战中文句法依存分析

    句法分析是自然语言处理(NLP)中的关键技术之一,其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系.主要包括两方面的内容:一是确定语言的语法体系,即对语言中合法句子的语法结构给予形式化的定义 ...

  2. 7.中文句法依存分析

    1.概念 句法分析是自然语言处理(NLP)中的关键技术之一,其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系.主要包括两方面的内容:一是确定语言的语法体系,即对语言中合法句子的语法结构给予形 ...

  3. 第15课:基于 CRF 的中文命名实体识别模型实现

    命名实体识别在越来越多的场景下被应用,如自动问答.知识图谱等.非结构化的文本内容有很多丰富的信息,但找到相关的知识始终是一个具有挑战性的任务,命名实体识别也不例外. 前面我们用隐马尔可夫模型(HMM) ...

  4. 中文分句java_基于CRF序列标注的中文依存句法分析器的Java实现

    这是一个基于CRF的中文依存句法分析器,内部CRF模型的特征函数采用 双数组Trie树(DoubleArrayTrie)储存,解码采用特化的维特比后向算法.相较于<最大熵依存句法分析器的实现&g ...

  5. bilstm+crf中文分词_基于LSTM的中文分词模型

    中文分词任务是一个预测序列的经典问题,已知的方法有基于HMM[1]的分词方法.基于CRF[2]的方法和基于LSTM的分词方法. 本文介绍Xinchi Chen等人[3]提出的基于LSTM的分词方法.根 ...

  6. 基于BERT+BiLSTM+CRF的中文景点命名实体识别

    赵平, 孙连英, 万莹, 葛娜. 基于BERT+BiLSTM+CRF的中文景点命名实体识别. 计算机系统应用, 2020, 29(6): 169-174.http://www.c-s-a.org.cn ...

  7. Java精品项目源码前后端分离项目第17期基于遗传算法学校排课系统

    Java精品项目源码前后端分离项目第17期基于遗传算法学校排课系统 大家好,小辰今天给大家介绍一个基于遗传算法学校排课系统,演示视频文章末尾公众号(小辰哥的java)对号查询观看即可 文章目录 Jav ...

  8. 实战:基于tensorflow 的中文语音识别模型 | CSDN博文精选

    作者 | Pelhans 来源 | CSDN博客 目前网上关于tensorflow 的中文语音识别实现较少,而且结构功能较为简单.而百度在PaddlePaddle上的 Deepspeech2 实现功能 ...

  9. 基于libsvm的中文文本分类原型

    支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本 .非线性及高维模式识别 中表现出许多特有的优势,并能够推广应用到函数拟合等 ...

最新文章

  1. 面试官问:线程池除了常见的4种拒绝策略,你还知道哪些?
  2. mysql基础 事务的认识和使用
  3. firefox浏览器 插件--【维基百科+谷歌翻译】高级应用之 带图翻译
  4. java 8 永久代_Java8内存结构—永久代(PermGen)和元空间(Metaspace)
  5. 51单片机1602、18B20电子钟--C51源代码
  6. SVN 的安装与配置
  7. 数据库mysql常用操作_mysql数据库常用操作
  8. pgp 私钥需要什么样的保护措施_网络货运作为物流行业的掌舵者企业申报需要满足的条件重点有哪些...
  9. azure db 设置时区_使用Azure Cosmos DB开始您的旅程
  10. angular获取路由参数_Angular应用带参数的路由实现
  11. 800份h5游戏源码
  12. matlab脉冲调制,基于matlab脉宽调制方法的研究
  13. 给惠普735g5 装Win10+Ubuntu 16.04双系统
  14. 两个需求理论:马斯洛需求层次理论和KANO模型
  15. java枚举转换_java枚举类(转)
  16. 微软商店打不开,错误代码0x80131500
  17. Java开发必知Linux命令
  18. 互联网创业赚钱规则,彻底释放自己的价值吧!丨国仁网络
  19. IT人,自我营销,你懂吗?
  20. ISFP——思想起决定作用

热门文章

  1. Leecode 301. 删除无效的括号——Leecode每日一题系列
  2. [leetcode]剑指offer32-1.从上到下打印二叉树
  3. php对接钉钉_PHP使用POST方法与钉钉对接无返回结果的问题
  4. Invalid bound statement (not found)
  5. 常见服务器解析漏洞(IIS,Nginx,Apache)
  6. Android启动外部程序
  7. 均匀白噪声的定义及特点_噪声的物理本质是什么?
  8. 工业机器人打磨抛光编程员工资_让我们一起来谈谈,工业机器人行业的真实工资是多少?...
  9. PHP artisan auth,Php artisan make:auth命令未定义
  10. 笨方法学python3怎么样_抖音笨李白是什么歌 抖音笨李白歌曲歌词介绍