NLP算法-关键词提取补充知识-停用词表
引入
书接上回,我们讲这个关键词提取的时候没有说停用词;
那啥是停用词呢?当一个词语出现频率很高但是这个词并不是你所需要的信息,这个时候就会用到停用词表这个概念
什么是停用词表?
停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为 Stop Words(停用词)。
这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。
但是,并没有一个明确的停用词表能够适用于所有的工具。甚至有一些工具是明确地避免使用停用词来支持短语搜索的。
停用词的类别
对于一个给定的目的,任何一类的词语都可以被选作停用词。通常意义上,停用词大致分为两类:
人类语言中包含的功能词:这些功能词极其普遍,与其他词相比,功能词没有什么实际含义,比如 the、is、at、which、on 等。但是对于搜索引擎来说,当所要搜索的短语包含功能词,特别是像 The Who、Take That 等复合名词时,停用词的使用就会导致问题。
词汇词:比如 want 等,这些词应用十分广泛,但是对这样的词搜索引擎无法保证能够给出真正相关的搜索结果,难以帮助缩小搜索范围,同时还会降低搜索的效率,所以通常会把这些词从问题中移去,从而提高搜索性能。
停用词的功能
文档中如果大量使用 Stop words 容易对页面中的有效信息造成噪音干扰,所以搜索引擎在运算之前都要对所索引的信息进行消除噪音的处理。了解了 Stop Words ,在网页内容中适当地减少停用词出现的频率,可以有效地帮助我们提高关键词密度,在网页标题标签中避免出现停用词能够让所优化的关键词更集中、更突出。
因此,我们在进行自然语言处理的过程中,经常会使用停用词表去除文本中的停用词,以提高文本处理效率。常见步骤有:
- 找到一个合适的停用词表;
- 对文本内容进行遍历,去除文本中的停用词并保存。
NLP算法-关键词提取补充知识-停用词表相关推荐
- NLP算法-关键词提取之Jieba算法库
关键词提取 什么叫关键词提取? 关键词提取方法分类 有监督 无监督 优缺点 Jieba 关键词提取 TF/IDF算法 TF-IDF的主要思想 如何训练关键词提取算法 demo PageRank算法 T ...
- NLP算法-关键词提取之Gensim算法库
Gensim工具包 引入 Gensim简介 一些基础概念 Gensim的使用方式 1. 训练语料的预处理 2.主题向量的变换 LDA模型 demo LSA/LSI 算法 LSA/LSI算法原理 LSA ...
- gensim提取一个句子的关键词_NLP(五):关键词提取补充(语料库和向量空间)...
一.将语料库转化为向量(gensim) 在对语料库进行基本的处理后(分词,去停用词),有时需要将它进行向量化,便于后续的工作. from gensim importcorpora,similariti ...
- NLP标签/关键词-提取工具-java开发
一.简介 旨在帮助用户自动挖掘文本标签,是特征关键词提取工具,工具中集成了TextRank.TF-IDF算法.词跨度(SPAN)算法和LDA主题模型算法. 使用方法: 二.使用方法 2.1.TextR ...
- TextRank 算法 关键词提取
参考论文:Rada Mihalcea<TextRank:Bring Order into texts>. TextRank将文本中的语法单元视作图中的节点,如果两个语法单元存在一定语法关系 ...
- java 文本分析 关键词提取_文本关键词提取算法总结
1.TF-IDF 昨天给大家演示简单的文本聚类,但要给每个聚类再提取一两个关键词用于表示该聚类.我们还是用TFIDF算法来做,因为这是比较简单的提取特征算法,不过这里的TF是指某词在本聚类内所有文章的 ...
- 系统学习NLP(二十一)--关键词提取算法总结
先说一下自动文摘的方法.自动文摘(Automatic Summarization)的方法主要有两种:Extraction和Abstraction.其中Extraction是抽取式自动文摘方法,通过提取 ...
- 文档关键信息提取形成知识图谱:基于NLP算法提取文本内容的关键信息生成信息图谱教程及码源(含pyltp安装使用教程)
文档关键信息提取形成知识图谱:基于NLP算法提取文本内容的关键信息生成信息图谱(含pyltp安装使用教程) 1. 项目介绍 目标:输入一篇文档,将文档进行关键信息提取,进行结构化,并最终组织成图谱组织 ...
- 文本处理算法_关键词提取和文本摘要算法TextRank详解及实战
关键词提取和文本摘要算法TextRank详解及实战 写在前面 最近一直没有更新文章,实在惭愧.伴随着小老弟的职业方向由风控转向了NLP,后面的文章也会集中在NLP领域,希望大家能够继续支持~ 导读 本 ...
最新文章
- Web APi之消息处理管道(五)
- 语义表征的无监督对比学习:一个新理论框架
- 某百度程序员中午面试一个阿里程序员,晚上去阿里面试,面试官竟是中午那个人!
- 中兴ZXR10交换机配置手册
- 如果你要实现IOC,请简单描述一下实现步骤?
- 虚拟机四种网络连接模式比较
- TypeScript入门教程 之 解构
- [JavaScript] 使用ArrayBuffer和Blob编辑二进制流 下载文件
- calendar获取月份少一个月_VBA 技巧:计算一个月有多少天?
- Java Web解决跨域请求,java初级面试笔试题
- 潮流渐变色彩的UI插画素材,吸睛没毛病
- 遇到问题的时候,要学会问问题
- AspnetPager
- @@@Blog总目录@@@
- 在Hbuilder X中配置夜神模拟器
- Flask+SQLAlchemy+graphene+docker示例
- oracle赋权directory,ORACLE DIRECTORY目录管理步骤
- web3py earliest、latest、pending
- Python图像处理库PIL中图像格式转换(二)
- nginx正则表达式快捷测试方法