基本信息

先放出论文: TextRank论文 以及 PageRank论文

TextRankRada MihalceaPaul Tarau 基于谷歌的排序方法 PageRank 所提出。其中主要思想与PageRank相似,在文本中,使用词、短语、句子等基本元素(文中的 text unit)来作为图的 顶点(文中的vertices),使用这些元素的关系来作为(edge)的构造条件,将一篇文章构成一个(Graph),从而根据图中的各个顶点和各个边来研究基本元素之间的关系。

无向图(Undirected Graphs)

文中说传统的图算法一般都是有向图,但是在实际运用中也可以使用无向图,并给出了图1Figure1),说明无向图相比来说收敛得更快。

图1 收敛曲线图

加权图(Weighted Graphs)

因为在网页浏览中,一般一篇文章没有几个链接去指向其他的链接,所以一般不使用加权图。但是在文本之间,各个基本元素之间,可能会存在不同词之间建立强联系,所以可以使用加权图来构建。定义权重的计算公式为:
WS(Vi)=(1−d)+d×∑Vj∈In(Vi)wji∑Vk∈Out(Vj)wjkWS(Vj)WS(V_i)=(1-d)+d \times \sum_{V_j \in In(V_i)} \frac{w_{ji}}{\sum_{V_k \in Out(V_j)}w_{jk}} WS(V_j) WS(Vi​)=(1−d)+d×Vj​∈In(Vi​)∑​∑Vk​∈Out(Vj​)​wjk​wji​​WS(Vj​)
其中 ddd 表示阻尼系数,代表一个结点随机跳转到另一个结点的概率,在0~1之间,通常为0.85;

用图表示文本

可选的基本元素有很多,都可以作为顶点,如:词,常见的短语搭配,句子之类的;同时可以作为边的元素也很多,比如:词之间的情感关联,语义交叉等。不考虑以上的顶点和边,构建一个图来表示文本的基本思路如下:

  1. 根据手上的数据集,要解决的问题,来定义使用什么元素(text units)来作为图的顶点,将顶点全部放到图中去。
  2. 定义一种方式来连接顶点的边,可以是有向的,也可以是无向的,可以是加权的,也可以是不加权的。
  3. 迭代基于图的排序算法,直至收敛。
  4. 提取出得到的关键元素,然后就可以用了!

其中第一步主要是根据任务和数据,选出合适的表示元素;第二步主要是建立一个评估方法,评判怎么来构建两个基本元素的关系,从而来建立这条边。

具体内容

顶点和边

文中说选取词作为图的顶点,然后使用滑动窗口,在滑动窗口内找出共现的词(co-occurrence)作为边的构造条件。

过滤文本

使用一个句法过滤器,根据具体的需求过滤一些没用的基本元素。如去停用词,去形容词,去名词等。

以句子作为顶点

在以句子作为顶点的时候,边的确立不能再用共现关系了,因为基本句子之间不可能共现了,文中说使用句子之间的相关性来建立顶点之间的边。

TextRank论文阅读相关推荐

  1. 论文阅读工具ReadPaper

    对于搞科研的同学们来说,看论文是要经历的第一关,尤其是要读好多篇论文的时候,更是着实令人头大. 这不,最近无意中发现了个在线论文阅读网站:readpaper.com,号称「论文阅读笔记神器,硕博科研学 ...

  2. 多目标跟踪:CVPR2019论文阅读

    多目标跟踪:CVPR2019论文阅读 Robust Multi-Modality Multi-Object Tracking 论文链接:https://arxiv.org/abs/1909.03850 ...

  3. 快速人体姿态估计:CVPR2019论文阅读

    快速人体姿态估计:CVPR2019论文阅读 Fast Human Pose Estimation 论文链接: http://openaccess.thecvf.com/content_CVPR_201 ...

  4. Action4D:人群和杂物中的在线动作识别:CVPR209论文阅读

    Action4D:人群和杂物中的在线动作识别:CVPR209论文阅读 Action4D: Online Action Recognition in the Crowd and Clutter 论文链接 ...

  5. 深度学习点云语义分割:CVPR2019论文阅读

    深度学习点云语义分割:CVPR2019论文阅读 Point Cloud Oversegmentation with Graph-Structured Deep Metric Learning 摘要 本 ...

  6. 3D目标检测论文阅读多角度解析

    3D目标检测论文阅读多角度解析 一.前言 CNN(convolutional neural network)在目标检测中大放异彩,R-CNN系列,YOLO,SSD各类优秀的方法层出不穷在2D图像的目标 ...

  7. 3D目标检测论文阅读摘要

    3D目标检测论文阅读摘要 2D Object Detection 的研究已经非常成熟了,代表作品有RPN系列的FasterRCNN,One Shot系列的YOLOv1-YOLOv3,这里推荐一个2D ...

  8. 目标检测——Faster R-CNN论文阅读

    论文阅读--Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks 文章目录 论文阅读--Faste ...

  9. 【独家】深度学习论文阅读路线图

    如果你是深度学习领域的一名新手,可能会遇到的第一个问题是"应该从哪篇论文开始读起呢?" 这里给出了深度学习论文阅读路线图! 路线图按照下面四个准则构建而成: 从提纲到细节 从经典到 ...

最新文章

  1. 前端笔记-前端优化简要大总结
  2. datatables隐藏列设置及获取隐藏列的值
  3. Python List sort()方法
  4. 数据分发服务器管理系统,地图差分数据分发系统、地图差分数据分发装置、地图数据保有装置、更新管理服务器、以及地图差分提取服务器...
  5. C语言之10/16进制字符串和数字转换(四)
  6. Mac环境下安装配置Redis
  7. 计算机odbc数据源管理位置,ODBC数据源管理器的主要功能是什么 ODBC数据源怎么配置...
  8. 计算机备份打印机驱动程序,windows7如何快速备份打印机驱动
  9. YDUI的移动端页面rem适配方案使用方法记录
  10. matlab将图片旋转的代码_论文写作经验分享word+mathtype+matlab
  11. ai里为什么不能随意放大缩小_AI选择工具为什么不能选择,缩放不了图像大小.
  12. ActiveMQ(二)
  13. arm汇编总结---让汇编不再神秘
  14. SAP 同公司不同工厂间的库存调拨
  15. Python机器学习库sklearn里利用LR模型进行三分类(多分类)的原理
  16. 百度网盘国际版 Dubox 体验:干净好用,却与国内用户无缘
  17. 苏州事业单位计算机类专业知识,2021江苏苏州事业单位考试复习大纲
  18. VISO导出高清图版
  19. html无法显示问题
  20. php 图桩,如何正确使用灌注桩?

热门文章

  1. 中奖名单:八月算法书籍免费送
  2. 次世代3D建模学习的入门方法,个人学习的感悟,萌新小白不要错过!
  3. OpenGL与PCL库实现点云体系滤波优化及三角面片化
  4. 《阿里巴巴JAVA编码规范》阅读理解
  5. 【趣学算法】贪心算法
  6. 手动第一次上架的应用如何快速在苹果商店看到
  7. lol手游一直显示服务器维护,《lol手游》Serveriscurrentlyundermaintenance解决方法 异常解决攻略...
  8. IFIND的产业链3D化是用的哪种控件开发的
  9. idea使用SVN提交代码,一直updating
  10. 刘强东个人标签太明显,京东没有二号人物