文本自动摘要

两大分类

  • 抽取式摘要
  • 生成式摘要

1、抽取式摘要

分为无监督和有监督。

  • 无监督方法:
    (1)基于统计特征的tfidf
    (2)文本聚类
    (3)基于图特征的TextRank、LexRank
    (4)MMR,全称为Maximal Marginal Relevance,它的核心思想同时考虑了内容相关性和多样性
    (5)submodular(次模)函数

  • 有监督方法:
    (1)SummaRuNNer:基于RNN,词级别做RNN编码,句子级别做RNN编码,最后判断每个句子是否属于摘要句子。
    论文地址:SummaRuNNer: A Recurrent Neural Network based Sequence Model for Extractive Summarization of Documents

2、生成式摘要

大部分都是基于的seq2seq框架

  • 常见问题:
    (1)OOV问题
    (2)摘要的可读性
    (3)摘要的重复性
    (4)长文本摘要生成难度大
    (5)模型的训练目标与最终的评测指标不太一致

  • 模型:

    • Pointer-network

      • 主要针对问题1,2,3
      • 论文地址:Get To The Point: Summarization with Pointer-Generator Networks
    • Neural Headline Generation with Minimum Risk Training

      • 主要针对问题5
      • 论文地址:Neural Headline Generation with Minimum Risk Training
    • Attention Model

    • Attention-Based Summarization(ABS)

    • ABS+

    • Recurrent Attentive Summarizer

    • big-words-lvt2k-1sent

    • words-lvt2k-2sent-hieratt

    • feats-lvt2k-2sent-ptr

    • COPYNET

    • 基于预训练语言模型BERT/XLNET/GPT等的方法
      如:基于预训练自然语言生成的文本摘要方法

    模型介绍参考:https://www.jianshu.com/p/2baeaf249a9a

中文语料库

Large Scale Chinese Short Text Summarization Dataset(LCSTS)
这是一个中文短文本摘要数据集,数据采集自新浪微博。

测评方法

  • Edmundson
    Edmundson评价方法比较简单,是通过比较自动文摘与目标文摘的句子重合率的高低来对系统摘要进行评价。

  • ROUGE
    ROUGE是由ISI的Lin和Hovy提出的一种自动摘要评价方法,是主流测评方法。

    ROUGE-N系列,其实就是以n-gram为基本单元,计算两个句子之间的n-gram重合率。每个ROUGE系列的计算结果又可以细分为precision,recall和f-beta分数。

    ROUGE-L是针对是最长公共子序列的重合率计算。

    ROGUE-W与ROUGE-L类似,不同的是考虑了连续最长公共子序列应该拥有更大的权重。

    ROUGE-S,基于的是skip-gram。

AI实战:文本自动摘要简述相关推荐

  1. AI实战:2019、2020最新的中文文本检测检测模型

    2019.2020最新的中文文本检测检测模型 1.DBNet(Real-time Scene Text Detection with Differentiable Binarization) 论文地址 ...

  2. 【NLP】文本自动摘要任务的心得总结

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送 作者:邱震宇(华泰证券股份有限公司 算法工程师) 知乎专栏:我的ai之路 原文链接,点击 ...

  3. 【AI实战】动手实现人脸识别程序

    人脸识别在现实生活中有非常广泛的应用,例如iPhone X的识别人脸解锁屏幕.人脸识别考勤机.人脸识别开门禁.刷脸坐高铁,还有识别人脸虚拟化妆.美颜,甚至支付宝还推出了刷脸支付.建设银行还实现了刷脸取 ...

  4. 【AI实战】大语言模型(LLM)有多强?还需要做传统NLP任务吗(分词、词性标注、NER、情感分类、知识图谱、多伦对话管理等)

    [AI实战]大语言模型(LLM)有多强?还需要做传统NLP任务吗(分词.词性标注.NER.情感分类.多伦对话管理等) 大语言模型 大语言模型有多强? 分词 词性标注 NER 情感分类 多伦对话管理 知 ...

  5. 【AI实战】快速掌握TensorFlow(二):计算图、会话

    2019独角兽企业重金招聘Python工程师标准>>> 在前面的文章中,我们已经完成了AI基础环境的搭建(见文章:Ubuntu + Anaconda + TensorFlow + G ...

  6. 开放下载!《阿里巴巴大数据及AI实战》深度解析典型场景大数据实践

    来源:开发者社区 本文约2000字,建议阅读5分钟. 阿里经济体大数据及AI典型场景最佳实践全揭秘.2019不容错过的大数据实战手册--<阿里巴巴大数据及AI实战>现在可以免费下载阅读啦! ...

  7. 独家下载 |《领军行业大数据及AI实战》解锁九大行业领军企业云上大数据及AI实战

    飞天大数据平台不仅是阿里经济体大数据生产的基石,更为各行业客户提供大数据整体解决方案和强劲算力.上一册介绍阿里巴巴内部大数据实战的电子书<阿里巴巴大数据及AI实战>推出后,受到了广大开发者 ...

  8. AI实战:目标检测模型应用之生活垃圾图片分类

    前言 "华为云杯"2020深圳开放数据应用创新大赛·生活垃圾图片分类 [大赛介绍] 由深圳市政务服务数据管理局.南山区人民政府主办,南山区政务服务数据管理局.华为技术有限公司承办的 ...

  9. 软件复用及构件、C/S与B/S混合模型及实战项目技术简述

    软件复用与软件构造技术 软件复用行为主要发生维度 时间维度:使用以前的软件版本作为新版本的基础,加入新功能,适应新需求,即软件维护. 平台维度:以某平台上的软件为基础,修改和运行平台相关的部分,使其运 ...

最新文章

  1. 考前自学系列·计算机组成原理·计算机的硬件组成及其功能
  2. 浮动层图片鼠标指针移到自动放大
  3. 结合Composer 新版本PHP的开发方式
  4. Calico搭建配置
  5. Ubuntu下启动/重启/停止apache服务器
  6. mysql case默认_MySQL数据库架构和同步复制流程
  7. angular6 设置全局变量_angularjs 设置全局变量的3种方法
  8. docker学习记录 docker 脚本(一)
  9. logback-spring.xml文件配置
  10. 多式样ProgressBar(转)
  11. 思科路由器2811如何重设密码
  12. 基于Matlab矩形孔径的菲涅耳衍射
  13. 单片机c语言入门 龙脉工作室著,单片机c语言入门
  14. python 把矩阵变成一维_python矩阵转换为一维数组的实例
  15. 您未被授权查看该页; HTTP 错误 401.1 - 未经授权:访问由于凭据无效被拒绝。
  16. 用支付宝如何自己拍证件照?
  17. hdu 3018 图 欧拉回路 并查集
  18. 你最期待的热门思维导图测评在这里!
  19. 计算机键盘时好时坏,机子的CTRL键时好时坏?
  20. 微软免费服务器申请教程,2019年8月13日最新免费申请微软OneDrive5TB云盘超详细教程!...

热门文章

  1. 三方协议的服务器,电子口岸电子支付签定三方协议是怎么操作的
  2. 手机的开发者选项怎么找(真机调试)
  3. 2022年京东双11和天猫双11预售时间介绍
  4. 帆软报表制作过程的小知识
  5. react 调用微信jsdk扫一扫
  6. 科学论文写作文献查找运用--WOS文献导出
  7. SQLite自动切换32位64位dll兼容32位和64位问题 X86 X64
  8. matlab 改变坐标轴间距,matlab坐标轴刻度间距
  9. cad能整体比例缩小吗_cad怎么把原尺寸图缩小几倍
  10. AndroidStudio_自定义AndroidStudio Locat的输出颜色