引入

书接上回,我们讲这个关键词提取的时候没有说停用词;

那啥是停用词呢?当一个词语出现频率很高但是这个词并不是你所需要的信息,这个时候就会用到停用词表这个概念

什么是停用词表?

停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为 Stop Words(停用词)
这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。

但是,并没有一个明确的停用词表能够适用于所有的工具。甚至有一些工具是明确地避免使用停用词来支持短语搜索的。

停用词的类别

对于一个给定的目的,任何一类的词语都可以被选作停用词。通常意义上,停用词大致分为两类:

  1. 人类语言中包含的功能词:这些功能词极其普遍,与其他词相比,功能词没有什么实际含义,比如 the、is、at、which、on 等。但是对于搜索引擎来说,当所要搜索的短语包含功能词,特别是像 The Who、Take That 等复合名词时,停用词的使用就会导致问题。

  2. 词汇词:比如 want 等,这些词应用十分广泛,但是对这样的词搜索引擎无法保证能够给出真正相关的搜索结果,难以帮助缩小搜索范围,同时还会降低搜索的效率,所以通常会把这些词从问题中移去,从而提高搜索性能。

停用词的功能

文档中如果大量使用 Stop words 容易对页面中的有效信息造成噪音干扰,所以搜索引擎在运算之前都要对所索引的信息进行消除噪音的处理。了解了 Stop Words ,在网页内容中适当地减少停用词出现的频率,可以有效地帮助我们提高关键词密度,在网页标题标签中避免出现停用词能够让所优化的关键词更集中、更突出。

因此,我们在进行自然语言处理的过程中,经常会使用停用词表去除文本中的停用词,以提高文本处理效率。常见步骤有:

  1. 找到一个合适的停用词表;
  2. 对文本内容进行遍历,去除文本中的停用词并保存。

NLP算法-关键词提取补充知识-停用词表相关推荐

  1. NLP算法-关键词提取之Jieba算法库

    关键词提取 什么叫关键词提取? 关键词提取方法分类 有监督 无监督 优缺点 Jieba 关键词提取 TF/IDF算法 TF-IDF的主要思想 如何训练关键词提取算法 demo PageRank算法 T ...

  2. NLP算法-关键词提取之Gensim算法库

    Gensim工具包 引入 Gensim简介 一些基础概念 Gensim的使用方式 1. 训练语料的预处理 2.主题向量的变换 LDA模型 demo LSA/LSI 算法 LSA/LSI算法原理 LSA ...

  3. gensim提取一个句子的关键词_NLP(五):关键词提取补充(语料库和向量空间)...

    一.将语料库转化为向量(gensim) 在对语料库进行基本的处理后(分词,去停用词),有时需要将它进行向量化,便于后续的工作. from gensim importcorpora,similariti ...

  4. NLP标签/关键词-提取工具-java开发

    一.简介 旨在帮助用户自动挖掘文本标签,是特征关键词提取工具,工具中集成了TextRank.TF-IDF算法.词跨度(SPAN)算法和LDA主题模型算法. 使用方法: 二.使用方法 2.1.TextR ...

  5. TextRank 算法 关键词提取

    参考论文:Rada Mihalcea<TextRank:Bring Order into texts>. TextRank将文本中的语法单元视作图中的节点,如果两个语法单元存在一定语法关系 ...

  6. java 文本分析 关键词提取_文本关键词提取算法总结

    1.TF-IDF 昨天给大家演示简单的文本聚类,但要给每个聚类再提取一两个关键词用于表示该聚类.我们还是用TFIDF算法来做,因为这是比较简单的提取特征算法,不过这里的TF是指某词在本聚类内所有文章的 ...

  7. 系统学习NLP(二十一)--关键词提取算法总结

    先说一下自动文摘的方法.自动文摘(Automatic Summarization)的方法主要有两种:Extraction和Abstraction.其中Extraction是抽取式自动文摘方法,通过提取 ...

  8. 文档关键信息提取形成知识图谱:基于NLP算法提取文本内容的关键信息生成信息图谱教程及码源(含pyltp安装使用教程)

    文档关键信息提取形成知识图谱:基于NLP算法提取文本内容的关键信息生成信息图谱(含pyltp安装使用教程) 1. 项目介绍 目标:输入一篇文档,将文档进行关键信息提取,进行结构化,并最终组织成图谱组织 ...

  9. 文本处理算法_关键词提取和文本摘要算法TextRank详解及实战

    关键词提取和文本摘要算法TextRank详解及实战 写在前面 最近一直没有更新文章,实在惭愧.伴随着小老弟的职业方向由风控转向了NLP,后面的文章也会集中在NLP领域,希望大家能够继续支持~ 导读 本 ...

最新文章

  1. Web APi之消息处理管道(五)
  2. 语义表征的无监督对比学习:一个新理论框架
  3. 某百度程序员中午面试一个阿里程序员,晚上去阿里面试,面试官竟是中午那个人!
  4. 中兴ZXR10交换机配置手册
  5. 如果你要实现IOC,请简单描述一下实现步骤?
  6. 虚拟机四种网络连接模式比较
  7. TypeScript入门教程 之 解构
  8. [JavaScript] 使用ArrayBuffer和Blob编辑二进制流 下载文件
  9. calendar获取月份少一个月_VBA 技巧:计算一个月有多少天?
  10. Java Web解决跨域请求,java初级面试笔试题
  11. 潮流渐变色彩的UI插画素材,吸睛没毛病
  12. 遇到问题的时候,要学会问问题
  13. AspnetPager
  14. @@@Blog总目录@@@
  15. 在Hbuilder X中配置夜神模拟器
  16. Flask+SQLAlchemy+graphene+docker示例
  17. oracle赋权directory,ORACLE DIRECTORY目录管理步骤
  18. web3py earliest、latest、pending
  19. Python图像处理库PIL中图像格式转换(二)
  20. nginx正则表达式快捷测试方法

热门文章

  1. 来自python的【set集合总结/frozenset】
  2. socket编程的 sendto 函数
  3. win8 网络 连接计算机名称,Win8笔记本电脑连接无线网络的方法
  4. 改写句子的软件有哪些-免费改写文章的软件
  5. python课程设计小游戏大全_用Python设计一个经典小游戏
  6. gcc编译c文件中包含其他的头文件
  7. 盘点2019年售价万元以上的5款手机,苹果第五,第一你猜到了吗
  8. Windows实现grep
  9. HSM硬件加密机国密标准解读
  10. html页面上标距标签,HTML5前端开发之进阶篇