AI实战：文本自动摘要简述

文本自动摘要

两大分类

抽取式摘要
生成式摘要

1、抽取式摘要

分为无监督和有监督。

无监督方法：
（1）基于统计特征的tfidf
（2）文本聚类
（3）基于图特征的TextRank、LexRank
（4）MMR，全称为Maximal Marginal Relevance，它的核心思想同时考虑了内容相关性和多样性
（5）submodular（次模）函数
有监督方法：
（1）SummaRuNNer：基于RNN，词级别做RNN编码，句子级别做RNN编码，最后判断每个句子是否属于摘要句子。
论文地址：SummaRuNNer: A Recurrent Neural Network based Sequence Model for Extractive Summarization of Documents

2、生成式摘要

大部分都是基于的seq2seq框架

常见问题：
（1）OOV问题
（2）摘要的可读性
（3）摘要的重复性
（4）长文本摘要生成难度大
（5）模型的训练目标与最终的评测指标不太一致
模型：
- Pointer-network
  - 主要针对问题1,2,3
  - 论文地址：Get To The Point: Summarization with Pointer-Generator Networks
- Neural Headline Generation with Minimum Risk Training
  - 主要针对问题5
  - 论文地址：Neural Headline Generation with Minimum Risk Training
- Attention Model
- Attention-Based Summarization(ABS)
- ABS+
- Recurrent Attentive Summarizer
- big-words-lvt2k-1sent
- words-lvt2k-2sent-hieratt
- feats-lvt2k-2sent-ptr
- COPYNET
- 基于预训练语言模型BERT/XLNET/GPT等的方法
  如：基于预训练自然语言生成的文本摘要方法
模型介绍参考：https://www.jianshu.com/p/2baeaf249a9a

中文语料库

Large Scale Chinese Short Text Summarization Dataset（LCSTS）
这是一个中文短文本摘要数据集，数据采集自新浪微博。

测评方法

Edmundson
Edmundson评价方法比较简单，是通过比较自动文摘与目标文摘的句子重合率的高低来对系统摘要进行评价。
ROUGE
ROUGE是由ISI的Lin和Hovy提出的一种自动摘要评价方法，是主流测评方法。

ROUGE-N系列，其实就是以n-gram为基本单元，计算两个句子之间的n-gram重合率。每个ROUGE系列的计算结果又可以细分为precision，recall和f-beta分数。

ROUGE-L是针对是最长公共子序列的重合率计算。

ROGUE-W与ROUGE-L类似，不同的是考虑了连续最长公共子序列应该拥有更大的权重。

ROUGE-S，基于的是skip-gram。

AI实战：文本自动摘要简述相关推荐

AI实战：2019、2020最新的中文文本检测检测模型
2019.2020最新的中文文本检测检测模型 1.DBNet(Real-time Scene Text Detection with Differentiable Binarization) 论文地址 ...
【NLP】文本自动摘要任务的心得总结
点击上方"AI遇见机器学习",选择"星标"公众号重磅干货,第一时间送作者:邱震宇(华泰证券股份有限公司算法工程师) 知乎专栏:我的ai之路原文链接,点击 ...
【AI实战】动手实现人脸识别程序
人脸识别在现实生活中有非常广泛的应用,例如iPhone X的识别人脸解锁屏幕.人脸识别考勤机.人脸识别开门禁.刷脸坐高铁,还有识别人脸虚拟化妆.美颜,甚至支付宝还推出了刷脸支付.建设银行还实现了刷脸取 ...
【AI实战】大语言模型（LLM）有多强？还需要做传统NLP任务吗（分词、词性标注、NER、情感分类、知识图谱、多伦对话管理等）
[AI实战]大语言模型(LLM)有多强?还需要做传统NLP任务吗(分词.词性标注.NER.情感分类.多伦对话管理等) 大语言模型大语言模型有多强? 分词词性标注 NER 情感分类多伦对话管理知 ...
【AI实战】快速掌握TensorFlow（二）：计算图、会话
2019独角兽企业重金招聘Python工程师标准>>> 在前面的文章中,我们已经完成了AI基础环境的搭建(见文章:Ubuntu + Anaconda + TensorFlow + G ...
开放下载！《阿里巴巴大数据及AI实战》深度解析典型场景大数据实践
来源:开发者社区本文约2000字,建议阅读5分钟. 阿里经济体大数据及AI典型场景最佳实践全揭秘.2019不容错过的大数据实战手册--<阿里巴巴大数据及AI实战>现在可以免费下载阅读啦! ...
独家下载 |《领军行业大数据及AI实战》解锁九大行业领军企业云上大数据及AI实战
飞天大数据平台不仅是阿里经济体大数据生产的基石,更为各行业客户提供大数据整体解决方案和强劲算力.上一册介绍阿里巴巴内部大数据实战的电子书<阿里巴巴大数据及AI实战>推出后,受到了广大开发者 ...
AI实战：目标检测模型应用之生活垃圾图片分类
前言 "华为云杯"2020深圳开放数据应用创新大赛·生活垃圾图片分类 [大赛介绍] 由深圳市政务服务数据管理局.南山区人民政府主办,南山区政务服务数据管理局.华为技术有限公司承办的 ...
软件复用及构件、C/S与B/S混合模型及实战项目技术简述
软件复用与软件构造技术软件复用行为主要发生维度时间维度:使用以前的软件版本作为新版本的基础,加入新功能,适应新需求,即软件维护. 平台维度:以某平台上的软件为基础,修改和运行平台相关的部分,使其运 ...

AI实战：文本自动摘要简述

文本自动摘要

两大分类

1、抽取式摘要

2、生成式摘要

中文语料库

测评方法

AI实战：文本自动摘要简述相关推荐

最新文章

热门文章