BERT[23]是非常优质的预训练模型,包含了很多预训练语料中蕴含的外部知识和信息。我们以此为基础,训练BERT-CRF模型,作为candidate generation中重要的一路召回。另外的召回路包括基于模板 (pattern)和基于POS tags的NP抽取系统。CRF[12]是序列标注的经典方法,其核心思想是在进行序列标注时,把序列上的各个点当做一个整体来处理,而不是一个个独立的点,各个点的标注结果是有一定依赖关系的,以路径为单位进行训练。因此,通过训练,模型能在理解文本以外,还能理解输出序列的规则性知识,比如,使用BIO标注模式时,O后面不能直接接I。如果直接使用BERT进行序列标注,最后一层的softmax,本质上是n个k分类问题;而BERT-CRF由于CRF layer的存在,本质上是1个k^n分类问题[24]。

Figure 9 BERT与BERT-CRF的对比[24]

为了验证BERT-CRF确实能够提供我们需要的鲁棒的关键短语抽取能力,我们在NER和概念图谱(抽取该应用下定义的keyphrase)两个数据集上进行了以下的实验。

  • NER
    ▫ 来源:https://github.com/zjy-ucas/ChineseNER (PER, LOC, OR)
    ▫ 特点:标准明确且基本固定
  • 概念图谱中的关键短语抽取
    ▫ 来源
    ▪ 自有的标注数据(标准按照前述的两个特点:用户视角 & 精准和泛化)
    ▪ 训练集:来自于sourceA (网络爬取文章)
    ▪ 测试集:来自于sourceB (平安自有文章)

▫ 特点:存在前述的概念飘移问题

对于概念图谱的关键短语抽取,我们希望在sourceA上训练的模型,能够更好地适应于sourceB(当然,我们最终的系统是在sourceA + sourceB + all other sources训练得到的)。实验设定中训练和测试集采用不同来源,是为了在开发阶段,检验搭建的模块是否能够提供我们需要的鲁棒性。

NER数据集上的实验

https://zhuanlan.zhihu.com/p/148502336?from_voters_page=true

关键短语抽取及使用BERT-CRF的技术实践相关推荐

  1. 基于依存句法分析的关键短语抽取算法实战

    由于最近在做一些无监督的关键词短语(实体)抽取工作,其实最大的背景还是没有标注好的实体识别训练数据:所以想到采用无监督的关键短语抽取算法折中去抽取一些实体,于是调研了一波关键短语抽取算法和工具.目前无 ...

  2. NLP实践——基于SIFRank的英文关键短语抽取

    NLP实践--基于SIFRank的英文关键短语抽取 1. 回顾 2. 英文关键词抽取 2.1 预训练词汇权重 2.2 分词/词性标注模型 2.3 候选短语抽取模型 2.4 编码模型 1. 回顾 之前的 ...

  3. 自然语言识别python_一个快速从自然语言文本中提取和识别关键短语的工具

    chinese_keyphrase_extractor (CKPE) 一个从 中文自然语言文本 中抽取 关键短语 的工具,只消耗 35M 内存 A tool for automatic keyphra ...

  4. tfidf关键词提取_基于TextRank提取关键词、关键短语、摘要,文章排序

    之前使用TFIDF做过行业关键词提取,TFIDF仅从词的统计信息出发,而没有充分考虑词之间的语义信息.TextRank考虑到了相邻词的语义关系,是一种基于图排序的关键词提取算法. TextRank的提 ...

  5. 无监督关键短语的生成问题博客02--extract.py的分析

    2021SC@SDUSC 在上一篇博客中,我们小组各位成员阅读了<Unsupervised Deep Keyphrase Generation>这篇论文,了解了这一关键词抽取模型的任务与主 ...

  6. bert+crf可以做NER,那么为什么还有bert+bi-lstm+crf ?

    我在自己人工标注的一份特定领域的数据集上跑过,加上bert确实会比只用固定的词向量要好一些,即使只用BERT加一个softmax层都比不用bert的bilstm+crf强.而bert+bilstm+c ...

  7. NLP:基于textrank4zh库对文本实现提取文本关键词、文本关键短语和文本摘要

    NLP:基于textrank4zh库对文本实现提取文本关键词.文本关键短语和文本摘要 目录 输出结果 设计思路 核心代码 输出结果 关键词: 故宫 0.030737773083470445 镜头 0. ...

  8. Blog5 无监督深度关键短语生成——关键代码分析3

    2021SC@SDUSC 附所有代码链接:https://github.com/Jayshen0/ Unsupervised-Deep-Keyphrase-Generatio 本篇分析代码模块为:ex ...

  9. 实现关键短语提取之后根据置信度在文本中进行高亮展示

    实现关键短语提取之后根据置信度在文本中进行高亮展示 在前面几篇博客中,我提到了之前实现这个问题的想法,之后经过考虑打算使用js中的正则表达式实现.js的正则表达式有一个单词边界的工具,对于解决问题有很 ...

最新文章

  1. 如何在同一台电脑上多个账户同时登陆MSN
  2. C#设计模式——适配器模式(Adapter Pattern)
  3. Kerberos 原理简述
  4. 搜索引擎反作弊之:整体技术思路
  5. php strchr和strrchr,strrchr与Strchr
  6. c语言中的所有关键字,C语言中的32个关键字
  7. 《史上最简单的 SpringCloud 教程》系列
  8. Lambda学习笔记
  9. linux 查看显卡信号_Ubuntu 16.04安装nvidia显卡驱动以及各种坑(包含解决方案)
  10. http 和 https 区别
  11. 中兴ZTE ZXR10系列交换机2818S固件以及更新方法
  12. 实现数组头尾两端元素对调代码
  13. 工业污染治理投资完成情况分析(2000—2019年)
  14. 嵌入式-----产品手册----塔吊黑匣子电气安装培训
  15. mysql读写分离延迟问题_MySQL读写分离后的延迟解决方案
  16. cmd命令行操作windows注册表
  17. 中国车牌号的识别大全
  18. 计算机怎样安装硬盘,固态硬盘怎么安装?小编教你怎么安装固态硬盘详图
  19. Excel.Application使用手册(API)
  20. 工业相机与普通相机的差别

热门文章

  1. IBInspectable / IBDesignable
  2. 硬件加速_来试试微软神油灵不灵:更新驱动体验硬件加速GPU计划功能
  3. 微擎获取openid_微擎中使用微信之门接口,让订阅号也能直接以网页的方式获取OpenID...
  4. 镁的提取及应用_电熔镁炉、电熔镁以及菱镁耐火材料的发展及简介
  5. LNMP架构之PHP——MemCache对PHP页面的缓存加速优化
  6. Windows下Git Bash 远程仓库
  7. html三个div相同高度,如何使用jquery保持多个div的高度相同?
  8. 地图旋转_折纸效果三维旋转,不一样的地图页设计
  9. 川大网络教育2013秋《计算机应用基础》第二次作业,2013秋川大网教《计算机应用基础》第一、二次作业及答案解析.doc...
  10. 【c语言】符号常量的使用