TextRank论文阅读
基本信息
先放出论文: TextRank论文 以及 PageRank论文
TextRank
由 Rada Mihalcea
和 Paul Tarau
基于谷歌的排序方法 PageRank
所提出。其中主要思想与PageRank
相似,在文本中,使用词、短语、句子
等基本元素(文中的 text unit
)来作为图的 顶点
(文中的vertices
),使用这些元素的关系来作为边
(edge
)的构造条件,将一篇文章构成一个图
(Graph
),从而根据图中的各个顶点和各个边来研究基本元素之间的关系。
无向图(Undirected Graphs)
文中说传统的图算法一般都是有向图,但是在实际运用中也可以使用无向图,并给出了图1
(Figure1
),说明无向图相比来说收敛得更快。
图1 收敛曲线图
加权图(Weighted Graphs)
因为在网页浏览中,一般一篇文章没有几个链接去指向其他的链接,所以一般不使用加权图。但是在文本之间,各个基本元素之间,可能会存在不同词之间建立强联系,所以可以使用加权图来构建。定义权重的计算公式为:
WS(Vi)=(1−d)+d×∑Vj∈In(Vi)wji∑Vk∈Out(Vj)wjkWS(Vj)WS(V_i)=(1-d)+d \times \sum_{V_j \in In(V_i)} \frac{w_{ji}}{\sum_{V_k \in Out(V_j)}w_{jk}} WS(V_j) WS(Vi)=(1−d)+d×Vj∈In(Vi)∑∑Vk∈Out(Vj)wjkwjiWS(Vj)
其中 ddd 表示阻尼系数,代表一个结点随机跳转到另一个结点的概率,在0~1之间,通常为0.85;
用图表示文本
可选的基本元素有很多,都可以作为顶点,如:词,常见的短语搭配,句子之类的
;同时可以作为边的元素也很多,比如:词之间的情感关联,语义交叉等
。不考虑以上的顶点和边,构建一个图来表示文本的基本思路如下:
- 根据手上的数据集,要解决的问题,来定义使用什么元素(
text units
)来作为图的顶点,将顶点全部放到图中去。 - 定义一种方式来连接顶点的边,可以是有向的,也可以是无向的,可以是加权的,也可以是不加权的。
- 迭代基于图的排序算法,直至收敛。
- 提取出得到的关键元素,然后就可以用了!
其中第一步主要是根据任务和数据,选出合适的表示元素;第二步主要是建立一个评估方法,评判怎么来构建两个基本元素的关系,从而来建立这条边。
具体内容
顶点和边
文中说选取词作为图的顶点,然后使用滑动窗口,在滑动窗口内找出共现的词(co-occurrence)作为边的构造条件。
过滤文本
使用一个句法过滤器,根据具体的需求过滤一些没用的基本元素。如去停用词,去形容词,去名词等。
以句子作为顶点
在以句子作为顶点的时候,边的确立不能再用共现关系了,因为基本句子之间不可能共现了,文中说使用句子之间的相关性来建立顶点之间的边。
TextRank论文阅读相关推荐
- 论文阅读工具ReadPaper
对于搞科研的同学们来说,看论文是要经历的第一关,尤其是要读好多篇论文的时候,更是着实令人头大. 这不,最近无意中发现了个在线论文阅读网站:readpaper.com,号称「论文阅读笔记神器,硕博科研学 ...
- 多目标跟踪:CVPR2019论文阅读
多目标跟踪:CVPR2019论文阅读 Robust Multi-Modality Multi-Object Tracking 论文链接:https://arxiv.org/abs/1909.03850 ...
- 快速人体姿态估计:CVPR2019论文阅读
快速人体姿态估计:CVPR2019论文阅读 Fast Human Pose Estimation 论文链接: http://openaccess.thecvf.com/content_CVPR_201 ...
- Action4D:人群和杂物中的在线动作识别:CVPR209论文阅读
Action4D:人群和杂物中的在线动作识别:CVPR209论文阅读 Action4D: Online Action Recognition in the Crowd and Clutter 论文链接 ...
- 深度学习点云语义分割:CVPR2019论文阅读
深度学习点云语义分割:CVPR2019论文阅读 Point Cloud Oversegmentation with Graph-Structured Deep Metric Learning 摘要 本 ...
- 3D目标检测论文阅读多角度解析
3D目标检测论文阅读多角度解析 一.前言 CNN(convolutional neural network)在目标检测中大放异彩,R-CNN系列,YOLO,SSD各类优秀的方法层出不穷在2D图像的目标 ...
- 3D目标检测论文阅读摘要
3D目标检测论文阅读摘要 2D Object Detection 的研究已经非常成熟了,代表作品有RPN系列的FasterRCNN,One Shot系列的YOLOv1-YOLOv3,这里推荐一个2D ...
- 目标检测——Faster R-CNN论文阅读
论文阅读--Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks 文章目录 论文阅读--Faste ...
- 【独家】深度学习论文阅读路线图
如果你是深度学习领域的一名新手,可能会遇到的第一个问题是"应该从哪篇论文开始读起呢?" 这里给出了深度学习论文阅读路线图! 路线图按照下面四个准则构建而成: 从提纲到细节 从经典到 ...
最新文章
- 前端笔记-前端优化简要大总结
- datatables隐藏列设置及获取隐藏列的值
- Python List sort()方法
- 数据分发服务器管理系统,地图差分数据分发系统、地图差分数据分发装置、地图数据保有装置、更新管理服务器、以及地图差分提取服务器...
- C语言之10/16进制字符串和数字转换(四)
- Mac环境下安装配置Redis
- 计算机odbc数据源管理位置,ODBC数据源管理器的主要功能是什么 ODBC数据源怎么配置...
- 计算机备份打印机驱动程序,windows7如何快速备份打印机驱动
- YDUI的移动端页面rem适配方案使用方法记录
- matlab将图片旋转的代码_论文写作经验分享word+mathtype+matlab
- ai里为什么不能随意放大缩小_AI选择工具为什么不能选择,缩放不了图像大小.
- ActiveMQ(二)
- arm汇编总结---让汇编不再神秘
- SAP 同公司不同工厂间的库存调拨
- Python机器学习库sklearn里利用LR模型进行三分类(多分类)的原理
- 百度网盘国际版 Dubox 体验:干净好用,却与国内用户无缘
- 苏州事业单位计算机类专业知识,2021江苏苏州事业单位考试复习大纲
- VISO导出高清图版
- html无法显示问题
- php 图桩,如何正确使用灌注桩?