Unsupervised Keyphrase Extraction by Jointly Modeling Local and Global Context 阅读笔记
Unsupervised Keyphrase Extraction by Jointly Modeling Local and Global Context 阅读笔记
论文简单介绍
题目
Unsupervised Keyphrase Extraction by Jointly Modeling Local and Global Context
作者
Xinnian Liang , Shuangzhi Wu , Mu Li and Zhoujun Li
单位
北航
时间
2021
会议
EMNLP21
动机
以前的方法,例如
SIFRank
和EmbedRank
等只考虑了候选关键词与全文之间的向量相似度,这个不能捕获不同的上下文信息。作者用下图展示了上下文嵌入的直观重要性
节点是候选术语的嵌入
星号是文档的嵌入
每个黑色圆圈代表一个本地上下文。也就是说在同一个黑色圈圈里面的候选词通常都是同一个主题相关的
红圈中的节点表示这些候选短语与文档语义相似
从这里可以看出来如果仅通过计算候选短语与文档之间的相似度来对全局上下文进行建模,该模型将倾向于选择红色节点,这将忽略三个集群中的局部显着信息。
因此作者提出了全局相似度(红色圆圈)和局部相似度(黑色圆圈)相结合的方法来抽取关键词
模型
首先对文本进行预处理,包括分词,标注词性,然后将token送进bert进行嵌入,得到每一个token的向量嵌入(pooler_output
)和文档的向量嵌入(cls
),然后分别计算全局相似度和局部相似度,最后考虑了位置得分,这样综合计算后得到每一个候选术语的得分,再选取topK个即完成了关键词的抽取
bert嵌入
- 在这里作者先将tokens标注词性之后送进去bert里面进行嵌入。对于每一个token,采用
pooler_output
做为其向量表达。在最开始插入了一个CLS
标记符,用其代表整个文档的嵌入
- 在这里作者先将tokens标注词性之后送进去bert里面进行嵌入。对于每一个token,采用
候选关键词生成
- 采用的是主流的词性抽取规则
(ADJECTIVE)*(NOUN)+
。之前得到的都是一个个token的词向量,在这里,作者采取最大池化操作得到候选术语的词向量
- 采用的是主流的词性抽取规则
全局相似度计算
- 采用曼哈顿距离计算每个候选术语与文档之间的相似度做为全局相似度
局部相似度计算
在计算前作者考虑了位置对于局部信息很重要,所以先设计了一个位置函数
来判断每一个候选术语的相对位置。然后又考虑到节点之间的噪音问题,设置了一个阈值来过滤噪音。此外作者再一次显性考虑了一个位置信息,只选取每个词出现的第一个位置的倒数做为其位置得分,为了防止悬殊过大,又经过一个softmax函数
最终局部相似度和全局相似度得分如下
实验
我的思考
- 在候选术语生成时采用最大池化操作会导致整个术语由最核心的关键词主宰,这样会导致整个术语在计算局部相似度时分数很高,但是另一方面也就是会带来语义多样性问题。即大多数时候核心关键词和其组成的术语并存
- Bert最大编码是512个
token
,通常有些单词很可能会分词成两个token
。所以通常只能编码420个左右的单词,这在短文本数据集Inspec
和DUC2001
上面还行,但是在论文数据集SemEval2010
上面显然是远远不够的,他只能编码到标题和摘要部分,显然没有包含充分的语义信息 - 分词最主要的就是最大长度匹配,这样会导致好多候选关键词得不到,也就是缺少了更多的可能性。作者使用的是
nltk
自带的500多一点停用词表。其实解决分词问题的一个trick
就是针对性添加停用词,但是这显然是作弊。 - 最重要的一点,作者的局部相似度思路和论文
Discourse-aware unsupervised summarization of long scientific documents.
基本一样,感觉算是抄袭
Unsupervised Keyphrase Extraction by Jointly Modeling Local and Global Context 阅读笔记相关推荐
- MDERank A Masked Document Embedding Rank Approach for Unsupervised Keyphrase Extraction阅读笔记
这两年对比学习很火,尤其是在CV领域,所以有人尝试将对比学习的思想引入到关键词抽取任务中,虽然最后的结果并没有大的提升,但是这篇论文还是值得看一下的.这篇文章中了2022年ACL Findings. ...
- Automatic Noise Modeling for Ghost-free HDR Reconstruction 阅读笔记
Automatic Noise Modeling for Ghost-free HDR Reconstruction 阅读笔记 摘要 1. 简介 2. HDR去鬼影方法 2.1 图像噪声估计 2.2 ...
- DeepFuse: A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pairs 阅读笔记
DeepFuse: A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pairs 阅读笔记 引言 ...
- 10.Unsupervised aspect term extraction with b-lstm crf using automatically labelled datasets阅读笔记
Unsupervised aspect term extraction with b-lstm & crf using automatically labelled datasets 一.科学 ...
- 《Face alignment at 3000 FPS via Regressing Local Binary Features》阅读笔记
文章目录 一.前言 二.基于形状回归的人脸对齐算法 三.previous work 四.算法的具体实现 4.1 $\phi^{t}$ 的训练 4.2 全局线性回归矩阵 $W^{t}$ 的训练 五.局部 ...
- Capturing Global Informativeness in Open Domain Keyphrase Extraction
在开放域关键词提取中捕获全局信息 Si Sun 1 ? , Zhenghao Liu 2 ? , Chenyan Xiong 3 , Zhiyuan Liu 4 ?? , and Jie Bao 1 ...
- 论文阅读:Keyphrase Extraction for N-best Reranking in Multi-Sentence Compression
作者: Florian Boudin and Emmanuel Morin 来源: 2013 NAACL-HLT 概述: 这篇文章扩展了Filippova (2010)'s word graph-ba ...
- 开箱即用!中文关键词抽取(Keyphrase Extraction),基于LDA与PageRank(TextRank, TPR, Salience Rank, Single TPR)
Keyphrase Extraction Algorithm 项目地址:https://github.com/JackHCC/Chinese-Keyphrase-Extraction 无监督学习:中文 ...
- StNet: Local and Global spatial-temporal modeling for action regcognition
StNet: Local and Global spatial-temporal modeling for action regcognition 摘要:静态图像理解上取得了成功,高效的视频时序以及空 ...
- FasterMoE:Modeling and Optimizing Training of Large-Scale Dynamic Pre-Trained Models阅读笔记
FasterMoE:Modeling and Optimizing Training of Large-Scale Dynamic Pre-Trained Models FasterMoE阅读笔记 b ...
最新文章
- 自带中心调整的电单车模型-DongGuan BDS
- mysql数据库重命名php_mysql基础:删除数据库,删除表,重命名表_MySQL
- 热更新--动态加载framework
- 第十届蓝桥杯java B组—试题F 特别数的和
- C# 枚举(Enum)
- 华为机试——数字颠倒
- Protocol Buffers 编码原理
- python的常量变量_Python基础语法-常量与变量
- php分页显示多少页,php实现分页显示
- [Swift][leetcode] 433. 最小基因变化
- GIS案例练习-----------第三天
- python快速编程入门课本中的名片管理器_python——实现名片管理器
- 极客大学架构师训练营发现问题的真正所在、技术领导者的7种武器、架构师之道 第30课 最后一课 听课总结
- 小猿圈:web前端工程师工资有多高?
- 人工智能是从什么时候开始发展的?AI的起源
- html基础教学ppt,HTML5基础培训ppt课件
- 链家网深圳租房信息分析报告
- 建筑力学与结构【10】
- Artifactory的搭建与使用简介
- Python对象的浅拷贝与深拷贝
热门文章
- 【2020-CVPR-3D人体姿态估计】MetaFuse :A Pre-trained Fusion Model for Human Pose Estimation
- Android SDCard中写入文件
- sdcard里边的东西能删除吗_sdcard是什么意思(小米sdcard文件可以删除吗)
- cesium根据两点获取航向角(heading)与俯仰角(pitch)
- 三小时学会Kubernetes:容器编排详细指南
- 我不是教你诈 内容摘要
- ubuntu中 /usr、/var、/opt目录解析
- python制作英文词典、对单词添加多重释义_Pyqt5实现英文学习词典
- DEDECMS 留言薄模块的使用方法
- android 拨号盘按键移位,手机拨号盘的隐藏功能!这两个键的作用,99%的人不知道!...