2021SC@SDUSC

1背景

学术类文章数量急剧增加。一方面为我们发现解决问题的方案提供了良好的参考;另一方面在大量信息中提取有用信息存在很大的难度。**关键词(keyfhrase)**在从大量文本中提取信息和数据检索具有重大作用。

2两类基本方法

关键词的提取有两类基本方法,监督(supervised)和无监督(unsupervised)。

监督学习方法中关键词提取被转化成二分类问题,即正例(是关键词)和反例(不是关键词)。关于有监督学习的方法,论文中举了Frank在1999年的工作,他将将短语提取了两个特征——短语的TF-IDF和该短语距离其目标文档开头的距离。监督学习通常有着更高的准确率,然而监督学习需要大量数据,因此人们对于无监督学习的研究从未停止。

无监督学习中关键词提取被阐述为一个排名问题(Ranking Problem)。而基于图的排序技术有着不错的表现,大致思路是为目标文档构建一个单词图,节点代表单词而边代表单词之间的关联,使用中心量度(graph centrality measures)为节点进行排序,并将具有最高排名的短语作为关键词返回。

图1 graph centrality measures定义

3本文提出的方法

作者在论文中举了一个例子:

上图是一篇论文的题目和摘要,标红的部分为人工标注的关键词。我们不难看出,关键词常常出现在文章的开头并且可能多次出现,因此可以考虑**联合单词的位置信息(position information)和频率信息(frequency)**来设计一个无监督学习方法提取关键词。

基于此,作者引入了一个指标——位置排名(position rank),这是一个无监督的图模型,它将一个单词的所有位置信息整合到一个有偏PageRank中。经过实验,作者发现使用一个单词的所有位置信息比只使用单词第一次出现的位置信息具有更好的表现。

4模型详解

对于每一个单词,聚合所有的位置信息来计算一个权重,这个权重之后被整合到一个PageRank算法中。

4.1位置排名

算法步骤:

​ 1.在所有单词上构建一张图。

​ 2.设计Position-Biased PageRank。

​ 3.候选短语生成。

4.1.1在所有单词上构建一张图

d:目标文档

G:G=(V,E)工作图

w:移动窗口,用于提取连续的内容(contiguous tokens,理解可能不准确)

首先选择d中的名词和形容词作为候选词。为d构造G,每一个候选词对应G中的一个节点。如果两个词在文章中一定范围w内同时出现,那么为这两个词对应的节点构造边,其中边的权重由两个词一起出现的次数确定(也就是说共同出现次数越多,认为联系越密切)。。

4.1.2设计Position-Biased PageRank

M:图G的邻接矩阵

S:PageRank分数向量,初始化为1/|V|

S需要被递归计算,第t+1次计算公式为:

其中,M~\widetilde{M}M为归一化后的M,归一化公式为:

即vi的si由与其邻接的所有顶点的sj确定,并且sj需要根据该顶点邻接顶点的数量均分。由此递归计算,直到S收敛(满足一定大小关系)。

举例如下:

PageRank的计算可以看作是一个马尔科夫过程,其中S代表状态向量,而链接代表转移概率矩阵。为了保证计算可以收敛,我们使用如下式子(根据PageRank α是阻尼系数,一个经验性取值,比如0.85):

其中p~\widetilde{p}p​是一个长为|V|的向量,如果将p~\widetilde{p}p​中每一个值设置为相同的值,那么表示下一次等可能的进入其他节点,而若将值设为不同,那么可以表示下一次进入节点的“喜好”。

回到本文提到的方法,我们要考虑词的位置和频率信息,而且排名靠前的词拥有更高的可能性成为关键词。综上,我们可以采用词出现的所有位置的排名倒数之和作为p~\widetilde{p}p​中该词的分,即∑1rank\sum\frac{1}{rank}∑rank1​。归一化结果如下:

4.1.3候选短语(phrases)生成

候选词列表中若有词在原文中连续存在,那么我们可以借助其生成候选短语,但要注意通常的表达习惯,如名词短语为形容词+名词,同时总长度不超过三个词。候选短语的分数由构成其的单词求和,最终将排名最高的候选短语作为结果输出。

(二)PositionRank: An Unsupervised Approach to Keyphrase Extractionfrom Scholarly Documents解读一相关推荐

  1. 论文笔记:DeepFuse: A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pairs

    论文笔记:DeepFuse: A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pairs co ...

  2. DeepFuse: A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pairs 阅读笔记

    DeepFuse: A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pairs 阅读笔记 引言 ...

  3. 无监督去雨论文(二):Unsupervised Single Image Deraining with Self-supervised Constraints

    Unsupervised Single Image Deraining with Self-supervised Constraints [pdf] 本文可能是第一篇基于无监督深度学习的去雨算法.   ...

  4. A Two-stage Unsupervised Approach for Low light Image Enhancement(一种两阶段无监督的微光图像增强方法)

    主要参考文献及其收获 Unpaired image-to-image translation using cycle-consistent adversarial networks Deep reti ...

  5. 论文阅读笔记《Matching Images With Multiple Descriptors: An Unsupervised Approach for Locally Adaptive》

    核心思想   本文提出一种将多种特征描述算法融合起来实现更好图像匹配的方法.近些年来,图像特征的描述算法层出不穷如SIFT.LIOP .DAISY等等,每种方法都有各自的优势和侧重点,对于不同图像其效 ...

  6. A Two-Stage Unsupervised Approach for Low Light Image Enhancement 论文阅读笔记

    这是一篇无监督暗图增强论文,来自RAL期刊(JCR1区) 文章将暗图增强任务分解两个阶段,第一阶段用基于retinex的传统方法进行预增强,第二阶段用refinement network 来进一步提高 ...

  7. DenseFuse :A Fusion Approach to Infrared and Visible Images解读

    第一篇关于融合的,会随手记一些概念: 融合过程:先提特征(多尺度分解,稀疏表示),再用适当的融合方法融合. 文章解析: 提出了一种针对红外和可见光图像融合问题的新型深度学习体系结构.与传统的卷积网络相 ...

  8. DAGA: Data Augmentation with a Generation Approach for Low-resource Tagging Tasks 论文解读

    文章提出的DAGA是一种适配于NER的数据增强方法,来自阿里达摩院 1. 核心思想 DAGA的思想简单来讲就是标签线性化:即将原始的**「序列标注标签」与「句子token」进行混合,也就是变成「Tag ...

  9. (十五)写在最后——课程总结和个人体会

    2021SC@SDUSC 文章目录 前言 完成了什么 学到了什么 1.word2vec 2nlp的预处理 3隐马尔可夫链 个人体会 前言 经过本学期的软件工程创新实践这门课程,我对一次完整的科研活动有 ...

  10. 干货 | 为你解读34篇ACL论文

    本文转载自公众号"读芯术"(ID:AI_Discovery) 本文约1000字,建议阅读5分钟. 论文解读共包括Long Papers.Short Papers.Student R ...

最新文章

  1. 复旦张奇:如何解决NLP中的鲁棒性问题?
  2. [LeetCode]*105.Construct Binary Tree from Preorder and Inorder Traversal
  3. 潜行者活动硬盘电脑,你也可以打造
  4. C++使用链表实现queue之二(附完整源码)
  5. android保持服务不休眠,Android开发保持屏幕常亮和CPU不休眠唤醒状态
  6. 我妈在深圳的这些日子
  7. c++ 一行输出八个数字_R语言笔记(三):数据输入与输出
  8. kafka是如何通过配置的bootstrap.servers获取topic元数据的呢
  9. caffe中的fine-tuning
  10. hive判断是否包含
  11. 未处理System.BadImageFormatException,试图加载格式不正确的程序。 (异常来自 HRESULT:0x8007000B)
  12. 【ArcGIS|空间分析|网络分析】6 创建路径分析模型
  13. 上帝掷骰子吗--量子物理史话
  14. 在MySQL数据库中进行模糊查询_数据库模糊查询
  15. 中国车牌归属地数据库
  16. word怎么删除参考文献的横线_教大家word2016怎么去掉引用参考文献中的横线
  17. TP框架下钩子的实现
  18. html5怎样兼容ie浏览器版本,HTML5 兼容IE浏览器
  19. 疯狂Java讲义(三)
  20. 初次接触-win7下搭建cocos2d-x3.17开发环境

热门文章

  1. 商汤科技面试——AI算法岗
  2. word 2007 无法输入汉字,怎么办?
  3. 2022ChinaVis会议笔记
  4. LSD_SLAM编译之一气呵成法
  5. BUUCTF Reverse reverse3 WriteUp
  6. 纪年——记事本app
  7. 忘记Jenkins管理员密码的解决办法
  8. python自动化框架搭建过程我们同在_python webdriver 从无到有搭建混合驱动自动化测试框架的过程和总结...
  9. 【硬见小百科】二十种电容分类详解!
  10. Java SSM 项目实战 day08 方法级别的权限操作 服务器端的权限控制(JSR-250注解)(支持表达式的注解)(@Secured)以及页面端的权限控制