Atitit 文档资料的摘要与压缩技术总结abstract tech v4

目录

1. 概念包含了原文本中的重要信息,其长度不超过或远少于原文本的一半” 1

2. 1. 摘要的作用 应用场景 1

2.1. 如自动报告生成、新闻标题生成、搜索结果预览等。此外,自动文本摘要也可以为下游任务提供支持。 2

2.2. .书写摘要的基本规范和原则 2

3. 三大层次 纯文本内容摘要  目录 标题摘要 2

3.1. 格式转换为txt 摘要 3

3.2. 目录提取 3

3.3. 标题摘要 3

3.4. Keyword提取 3

4. 摘要就是整篇文章和浓缩预览,四个要素对象、方法、结果、结论四要素 3

5. 主流的文本摘要方式抽取式(extractive),另一种是生成式(abstractive)。 4

5.1. Keyword 散列化摘要 5

6. Code 摘要方法列表 5

7. 其他关联技术 5

7.1. 分词 5

7.2. Stopword体系 5

  1. 概念包含了原文本中的重要信息,其长度不超过或远少于原文本的一半”

根据Radev的定义[3],摘要是“一段从一份或多份文本中提取出来的文字,它包含了原文本中的重要信息,其长度不超过或远少于原文本的一半”。自动文本摘要旨在通过机器自动输出简洁、流畅、保留关键信息的摘要。

  1.  1. 摘要的作用 应用场景

摘要也就是内容提要,是文章中不可缺少的一部分。文章摘要是一篇具有独立性的短文,有其特别的地方。它是建立在对文章进行总结的基础之上,用简单、明确、易懂、精辟的语言对全文内容加以概括,留主干去枝叶,提取文章的主要信息。作者的观点、文章的主要内容、研究成果、独到的见解,这些都应该在摘要中体现出来。好的摘要便于索引与查找,易于收录到大型资料库中并为他人提供信息。因此摘要在资料交流方面承担着至关重要的作用。
2

自动文本摘要有非常多的应用场景,

  1. 如自动报告生成、新闻标题生成、搜索结果预览等。此外,自动文本摘要也可以为下游任务提供支持。
  2. .书写摘要的基本规范和原则

(1)文章摘要分为中文摘要和外文(一般为英文)摘要。摘要在篇幅方面的限定,不同的学校和机构有不同的要求,通常中文摘要不超过300字,英文摘要不超过250个实词,中英文摘要应一致。毕业文章摘要可适当增加篇幅。
(2)摘要是完整的短文,具有独立性,可以单独使用。即使不看文章全文的内容,仍然可以理解文章的主要内容、作者的新观点和想法、课题所要实现的目的、采取的方法、研究的结果与结论。
(3)叙述完整,突出逻辑性,短文结构要合理。
(4)要求文字简明扼要,不容赘言,提取重要内容,不含前言、背景等细节部分,去掉旧结论、原始数据,不加评论和注释。采用直接表述的方法,删除不必要的文学修饰。摘要中不应包括作者将来的计划以及与此课题无关的内容,做到用最少的文字提供最大的信息量。
(5)摘要中不使用特殊字符,也不使用图表和化学结构式,以及由特殊字符组成的数学表达式,不列举例证。

  1. 三大层次 纯文本内容摘要  目录 标题摘要
    1. 格式转换为txt 摘要
    2. 目录提取
    3. 标题摘要
    4. Keyword提取
  1. 摘要就是整篇文章和浓缩预览,四个要素对象、方法、结果、结论四要素
  • 它被排放在文章的首要位置。
  • 摘要主要要包括文章的四个要素,即:
  1. 题目
  2. 目的
  3. 方法
  4. 结果
  5. 结论
  6. 关键字

反映文章的实质性内容,展示文章内容足够的信息,体现文章的创新性,展现文章的重要梗概,一般由具体研究的对象、方法、结果、结论四要素组成。

对象——是文章研究、研制、调查等所涉及的具体的主题范围,体现文章的研究内容、要解决的主要问题,是问题的提出,研究方向的确立与目标的定位。

方法——是文章对研究对象进行研究的过程中所运用的原理、理论、条件、材料、工艺、结构、手段、程序,是完成研究对象的必要手段。

结果——是作者运用研究方法对研究对象进行实验、研究所得到的结果、效果、数据,被确定的关系等,是进行科研所得的成果。

结论——是作者对结果的分析、研究、比较、评价、应用、提出的问题等,是结果的总结,

发布于 2016-12-20

  1. 主流的文本摘要方式抽取式(extractive),另一种是生成式(abstractive)。

目前主流的文本摘要自动生成有两种方式,一种是抽取式(extractive),另一种是生成式(abstractive)。

抽取式顾名思义,就是按照一定权重,从原文中寻找跟中心思想最接近的一条或几条句子。而生成式是计算机通读原文,在理解整篇文章意思的基础上,重新生成概要。

抽取式摘要目前已经相对成熟,但抽取质量及内容流畅度均差强人意。伴随着深度学习的研究,生成式摘要对质量和流畅度都有很大的提升,但目前也涉及到原文本长度过长、抽取内容不佳等问题的限制。

文本摘要的发展概况

抽取式摘要是一种比较成熟的方案,其中Text rank排序算法以其简洁、高效的特点被工业界广泛运用。大体思想就是先去除文章中的一些停用词,之后对句子的相似度进行度量,计算每一句相对另一句的相似度得分,迭代传播,直到误差小于0.0001,再对上述方法得到的关键语句进行排序,即可获得摘要。抽取式摘要主要考虑单词词频,并没有过多的语义信息,像“猪八戒”、“孙悟空”这样的词汇都会被独立对待,无法建立文本段落中完整的语义信息。

入门_ 文本摘要自动生成技术的前世今生 - 简书.html

  1. Keyword 散列化摘要

分词然后去重

  1. Code 摘要方法列表
  2. 其他关联技术
    1. 分词
    2. Stopword体系

干货|当深度学习遇见自动文本摘要,seq2seq+attention - CSDN博客.html

Atitit 文档资料的摘要与压缩技术总结abstract tech v4 目录 1. 概念包含了原文本中的重要信息,其长度不超过或远少于原文本的一半” 1 2. 1. 摘要的作用 应用场景 1 2相关推荐

  1. 【Windows 逆向】CheatEngine 工具 ( CheatEngine 简介 | 使用 Lazarus 编译 CE 源码 | CheatEngine 相关文档资料 )

    文章目录 一.CheatEngine 简介 二.使用 Lazarus 编译 CE 源码 三.CheatEngine 相关文档资料 一.CheatEngine 简介 CheatEngine 简称 CE ...

  2. 【Android 逆向】substrate 框架 ( substrate 简介 | substrate 相关文档资料 )

    文章目录 一.substrate 简介 二.substrate 相关文档资料 一.substrate 简介 substrate 官网 : http://www.cydiasubstrate.com s ...

  3. 案例 | 巴别鸟助推WE+管理入驻企业文档资料

    巴别鸟的标签功能非常契合我们的工作需求,是我们管理入驻企业文档资料.实现精准匹配的得力助手.巴别鸟的基础功能体验也不错.客户服务到位,响应速度很快. -- WE+ 上海金钟社区 客户简介 WE+ 是一 ...

  4. 作为一个程序员,你是怎么管理文档资料的?我这个方法特别方便

    看到这个问题我觉得可能有下面这些想法: A:什么文档资料,我没有整理的习惯. B:磁盘文件管理. C:用笔记软件它不香吗. D:自己搭建一个网站. 上面的这些情形我都经历了,最后我选择了gitee+t ...

  5. RSS2.0的文档资料

    RSS2.0的文档资料- - 什么是 RSS? RSS 是一种站点内容聚合的格式. 它的名字是Really Simple Syndication 的的简写. RSS是XML的一种.所有的RSS文档都遵 ...

  6. 基于asp.net公司文档资料管理系统

    公司文档资料管理系统编号:0809 公司文档资料管理系统是也典型的为公司内部提供服务的后台管理系统,本系统通过C#语言,使用B/S框架和SQL数据库进行开发,使用的开发技术是当下比较流行的ASP.NE ...

  7. blog推荐 - 电子图书与IT文档资料(ITPUB论坛)

    IT技术每年都有很多优秀的书籍出现,我们如何可以简单的知道和获取这些书籍呢?给大家推荐一个blog,那就是ITPUB论坛 的电子图书与IT文档资料,blog地址为http://rss.itpub.ne ...

  8. python3 chm文档下载_python3.7.0官方参考文档 最新api文档 chm_Python教程_源雷技术空间...

    资源名称:python3.7.0官方参考文档 最新api文档 chm 1.新语法特性: PEP 563, 推迟评估类型注释 2.向后不兼容语法更改: async 和 await 现在保留关键字 3.新 ...

  9. Oracle English words文档资料学习 生词摘录(不断更新中)

    prerequisite 先决条件,前提 D.J.[pri:ˈrekwɪzɪt] K.K.[priˈrɛkwɪzɪt] n. 先决条件,前提 symmetric  symmetrical   SMP ...

  10. 软件泛指计算机运行,广义地讲,软件泛指计算机运行所需的各种数据、及与之相关的文档资料...

    摘要: 体(一般强度立方的砼所说是指,广义强度强度强度强度抗压抗折抗剪抗拉.呼吸困难,泛据及男性,左,急诊来院,致伤车祸,不安烦躁,神志,血外泥沙均有夹杂溢口鼻.下列性肝项是型肝性肝型染源人B关于资料 ...

最新文章

  1. Sql Server 链接服务器图解
  2. ftp之高级配置——虚拟用户
  3. 已知两个链表A和B分别表示两个集合,其元素递增排列。请设计算法求出两个集合A和集合B的差集(近由在A中出现而不再B中出现的元素所构成的集合),并以同样的形式存储,同时返回该集合的元素个数。
  4. 产品经理怎么管理项目进度?
  5. Hyperledger Fabric学习笔记(二)- Fabric 2.2.1环境搭建
  6. 【系统架构设计师】软考高级职称,一次通过,倾尽所有,2016年下半年系统架构设计师考试论文真题(论述软件设计模式技术及应用)
  7. 或为红米8A 卢伟冰确认将推出5000mAh新机
  8. 【Git】mac执行git命令出现xcrun: error: invalid active developer path解决方法
  9. Unity Failed executing external process for 'Bake Runtime' job
  10. Android基础 (八)手机多媒体
  11. 使用Source Insight查看Android Framework 源码
  12. python安卓手机编程入门自学_编程入门学习路线(附教程推荐)
  13. matlab有限差分法编程波导_有限差分法及matlab实现.pdf
  14. Linux系统:基本开发工具
  15. Redis中的keys和Hkeys的区别
  16. 一,SpringBoot——安装spring boot CLI
  17. 2023前端基础面试题
  18. wacom板子在MACBOOK里用PS画画的时候,老是画着快捷键就都不能用
  19. 程序员转正述职报告_程序员个人转正述职报告
  20. python绘制五子棋棋盘_4.Python画一个五子棋棋盘

热门文章

  1. 自然语言处理python代码_《自然语言处理入门 Python/Java双代码实现(图灵出品)》(何晗)【摘要 书评 试读】- 京东图书...
  2. VNPY思维导图架构
  3. 微软MSDN订阅用户已可提前手工下载Windows 10安装包
  4. 最短路径顶点算法:最短路径之迪杰斯特拉(Dijkstra)算法Strut2教程-java教程
  5. ubuntu 安装node.js
  6. Spring学习手札(二)面向切面编程AOP
  7. bzoj 1207: [HNOI2004]打鼹鼠【dp】
  8. Java中static的用法,初始化块
  9. 步步为营100-开发前的思考
  10. (转) java 通过 jdbc 链接 ms sql server 中出现 no suitable driver for ...