前言

今天为大家介绍一个python算法TextRank,实现从长篇中快速抽取精准摘要。

TextRank是一种基于图形的文本处理排序算法。PageRank通常用作其底层的图排序模型。当然,其他的图排序模型也可以与之结合。

TextRank算法不需要深入的语言和专业知识,因为它是一种无监督算法。在文本中使用基于图形的排序算法,需要构造一个图形来表达文本、单词和其他实体。

在汉语中,单词、短语、句子等可以作为图中的顶点。通过建立这些顶点之间的关系,如词序关系、语义关系、内容相似性等,可以构造出一个合适的图。

目前,TextRank在中文文本中的应用主要有三个方向,分别是:

1)关键词提取;

2)关键短语提取;

3)自动摘要。

Python中有一个名为textrank4zh的包,它实现了这三个函数。其源地址为:

实现了良好的文本处理效果。

效果预览

近日,Tushare Pro发布了近10年来央视新闻播出数据,对数据进行了清理和规范。

然而,每天新闻广播中有成千上万的单词,很难完全读懂。如果我们使用自动摘要技术将成千上万的单词浓缩成10个句子,阅读的负担就会减轻。自动汇总是TextRank的切入点。

在实现这个功能之前,让我们先来看看从新闻中提取的抽象效果。

扣扣 :13465+25417

多亏了Tushare的新闻广播标准文本,TextRank的自动摘要看起来非常好。

为什么TextRank这么好用?这主要是因为图排序模型是基于全局信息来计算每个顶点的重要性,而不是仅仅使用局部信息。下面简要介绍TextRank应用于自动摘要的基本原理。

基本原理

如前所述,使用TextRank分析文本首先需要在文本上构建一个图表。

对于文本自动摘要的任务,我们使用句子作为图的顶点,句子之间的关系作为图的边。我们需要评估句子之间的相似性。每个句子只与最相似的句子连接,并使用相似度作为边的权重。

事实上,这两句话是相似的,所以可以认为这两句话之间有一种“推荐”关系,也就是说,在读者阅读了这句话之后,这句话推荐读者阅读与之相似的句子。

评价两个句子相似度的方法有很多,如余弦相似度、编辑距离等。TextRank算法使用的是最基本的方法。相似度可以通过计算两个句子中相同单词的数量来计算。此外,还可以添加语法过滤器来过滤单词。

通过确定图的顶点和边以及边的权值,得到了一个加权图,加权图的形状如图1所示。接下来,可以使用PageRank迭代计算每个顶点(句子)的重要性。最后,将最重要的N个句子作为全文的总结,这是TextRank的自动总结结果。

代码实现

因为textrank4zh已经实现了TextRank的功能,我们可以直接使用它,而且使用非常简单。

python 全文搜索 句子_python新玩法:用python进行文章摘要拿取,只需要一行代码相关推荐

  1. python论文摘要_python新玩法:用python进行文章摘要拿取,只需要一行代码

    前言 今天为大家介绍一个python算法TextRank,实现从长篇中快速抽取精准摘要. TextRank是一种基于图形的文本处理排序算法.PageRank通常用作其底层的图排序模型.当然,其他的图排 ...

  2. 弃 Windows 而拥抱 Linux 之后,这本书教了新玩法

    微软弃 Windows 而拥抱 Linux 之后,国内首本SQL Server On Linux的图书出版,这本书教了很多新玩法. SQL Server作为微软公司著名的数据库管理系统,多年以来一直稳 ...

  3. 基于 Paddle2.0 的强化学习新玩法 —— 通关超级马里奥兄弟

    基于 Paddle2.0 的强化学习新玩法 -- 通关超级马里奥兄弟 本文目录 基于 Paddle2.0 的强化学习新玩法 -- 通关超级马里奥兄弟 前言 马里奥游戏环境简介 PPO 算法简介 基于 ...

  4. AI视觉组仙人一步之高级玩法——从Python回归C语言

    开心的程序猿@NXP 2021-02-04 Thursday   读过之前两篇的童鞋们,想来已经开始着手开发属于自己的AI视觉应用了,当然,手中还没有OpenART套件的朋友们,也不用着急,可以先参照 ...

  5. 还在担心快应用没流量?全场景新玩法来袭!

    2019年3月20日,TEF·2019快应用开发者大会在北京圆满收官落下帷幕.本次大会宣布中国移动终端公司.海信手机加入快应用生态平台,并介绍了快应用生态潜力.快游戏布局.智能场景新玩法.第三方服务战 ...

  6. 2021年国庆节假期三亚游客离岛免税购物热情高涨、偏爱高端酒店与景点新玩法...

    三亚2021年10月9日 /美通社/ -- 暑期国内局部疫情反复对三亚旅游市场带来较强冲击,2021年国庆节假期三亚迎来传统旺季的出行高峰,三亚市旅游推广局结合大数据平台与旅游统计数据,通过分析研究发 ...

  7. 抖音表情包引流转化教程之淘宝客新玩法,轻松3w+

    世上的项目千千万,没有哪个项目能玩烂,刚接触网赚的时候第一个项目做的就是淘客,当时是无意间被朋友拉进一个优惠券的群,好家伙, 每天无时无刻不在往群里扔各种的优惠券,看到合适的也会买,当时不知道他赚钱的 ...

  8. 【转帖】Moodle平台的5个新玩法

    [玩坏Moodle平台]Moodle平台的5个新玩法 1.RSS订阅 Moodle平台可以导入外部博客(或其他提供RSS的服务),并显示在Moodle内置的博客系统中.无论是自己的个人网站还是他人的博 ...

  9. 安卓关于健身的代码_亲子运动健身新玩法,娱乐享瘦两不误,让孩子不再沉迷电子产品...

    每次和姐妹逛街,看到那些漂亮小姐姐们在电玩城跳舞机上跳舞,心里都痒痒的想要自己上去试试,可就是因为不熟练,大庭广众之下害羞怕丢脸,最后放弃了.可每次路过还是会羡慕那些敢跳的姐姐们! 平常工作忙,压力大 ...

最新文章

  1. 5G NGC — 会话管理模型 — PDU Session
  2. MYSQL 获取当前日期及日期格式以及非空处理
  3. 用固定收敛标准特征迭代次数法实现分类是不是一个巧合?
  4. ITK:创建三角形四边形网格
  5. echarts2.2.7入门
  6. 链路追踪在ERP系统中的应用实践
  7. python类方法和实例方法syntax errors_《Fluent Python》CH.11_面向对象_接口:从协议到抽象基类...
  8. Python3学习笔记_INDEX(汇总)
  9. CAD批量输入坐标生成红线
  10. Asterisk入门教程
  11. Golang的基础数据类型
  12. 游戏美术全流程 笔记
  13. 计算机控制面板设置密码,如何设置修改电脑的开机密码
  14. On ne change pas 做梦的fille
  15. 打印机一页内容总是有空白
  16. C++ if条件语句用法
  17. ABAP 中历史库存
  18. PRML学习总结(6)——Kernel Methods
  19. java finally关闭文件流_Java如何正确的使用try catch finally关闭文件流的总结
  20. 在element ui中如何自定义el-date-picker的宽度 笔记

热门文章

  1. 点击编辑框全选内容java_Android 中使用EditText 点击全选再次点击取消全选功能
  2. python内置对象是什么_#【Python】【基础知识】【内置对象常用方法】
  3. Java管理商品信息
  4. oracle 表空间初始分配,在 Oracle 中创建用户时,若未提及 DEFAULT TABLESPACE 关键字,则 Oracle 就将 ( )表空间分配给用户作为默认表空间。...
  5. python里面的高级特性
  6. vb.net提取html网址,如何提取网页代码中指定内容
  7. python的标准类型内建函数_Python随手笔记之标准类型内建函数
  8. 学python开发必须要会wsgi么_学python着几个要搞清楚WSGI和uWSGI区别
  9. android r 编译找不到头文件_「投稿」iOS逆向——砸壳与反编译
  10. MATLAB求线性代数的参数范围,MATLAB科学计算04(线性代数问题求解一)