文章大纲

  • 简介
  • 中文常用停用词表数量级
  • 自己动手汇总一个
  • 结论
  • 参考文献

简介

停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。但是,并没有一个明确的停用词表能够适用于所有的工具。甚至有一些工具是明确地避免使用停用词来支持短语搜索的。

对于一个给定的目的,任何一类的词语都可以被选作停用词。通常意义上,停用词大致分为两类。一类是人类语言中包含的功能词,这些功能词极其普遍,与其他词相比,功能词没有什么实际含义,比如’the’、‘is’、‘at’、‘which’、‘on’等。但是对于搜索引擎来说,当所要搜索的短语包含功能词,特别是像’The Who’、'The The’或’Take The’等复合名词时,停用词的使用就会导致问题。另一类词包括词汇词,比如’want’等,这些词应用十分广泛,但是对这样的词搜索引擎无法保证能够给出真正相关的搜索结果,难以帮助缩小搜索范围,同时还会降低搜索的效率,所以通常会把这些词从问题中移去,从而提高搜索性能。

人类语言包含很多功能词。与其他词相比,功能词没有什么实际含义。最普遍的功能词是限定词&

《自然语言处理实战入门》---- 停用词 知多少?相关推荐

  1. 《自然语言处理实战入门》 ---- 总目录

    文章大纲 前言 综论 第 一 部分 :NLP 前置知识 开发环境 基础技术 网络爬虫 机器学习必知必会开源库 深度学习基础 常用资源 第 二 部分:NLP 基础理论 序列标注与分词算法 词嵌入(分布式 ...

  2. 《自然语言处理实战入门》 ---- 第4课 :中文分词原理及相关组件简介 之 语言学与分词技术简介...

    <自然语言处理实战入门> ---- 第4课 :中文分词原理及相关组件简介 之 语言学与分词技术简介 https://edu.csdn.net/course/play/20769/25954 ...

  3. 《自然语言处理实战入门》 ---- 第4课 :中文分词原理及相关组件简介 之 汉语分词领域主要分词算法、组件、服务(上)...

    目录 0.内容梗概 1. 基于传统统计算法的分词组件 1.1 hanlp : Han Language Processing 1.2 语言技术平台(Language Technology Platfo ...

  4. 《自然语言处理实战入门》 第三章 :中文分词原理及相关组件简介 ---- 语言学与分词技术简介

    文章大纲 0.内容梗概 1. 汉语语言学简介 1.1 汉语与汉字的起源 1.2 汉字的统一与演变 1.3 印欧语系与汉藏语系 1.4 语言区别对于NLP 的影响 2. 词汇与分词技术简介 2.1 汉语 ...

  5. 自然语言处理从入门到应用——词向量的评价方法

    分类目录:<自然语言处理从入门到应用>总目录 对于不同的学习方法得到的词向量,通常可以根据其对词义相关性或者类比推理性的表达能力进行评价,这种方式属于内部任务评价方法(Intrinsic ...

  6. 《自然语言处理实战入门》第三章 :中文分词原理及相关组件简介 ---- 工业级词法分析组件百度LAC2.0

    文章大纲 简介 工具介绍 安装与使用 安装说明 功能与使用 分词 词性标注与实体识别 定制化功能 增量训练 1. 分词训练 2. 词法分析训练 文件结构 效果 原理 参考文献 简介 LAC全称Lexi ...

  7. 《自然语言处理实战入门》第三章 :中文分词原理及相关组件简介 ---- 序列标注(词性标注)

    文章大纲 序列标注 词性标注 参考文献 识别序列中的人名.地名.组织机构名等实体.属于序列标注问题. 序列标注的几种模式 在序列标注中,我们想对一个序列的每一个元素(token)标注一个标签.一般来说 ...

  8. GloVe 教程之实战入门+python gensim 词向量

    前几天看论文,忽然看到了一个跟word2vec并列的词向量工具,这么厉害?还能跟word2vec相提并论? 果断需要试试. GloVe  它来自斯坦福的一篇论文,GloVe全称应该是  Global  ...

  9. 《自然语言处理实战入门》第二章: NLP前置技术----网络爬虫简介

    我们平时做自然语言处理,机器学习,都是希望能够有丰富的训练数据集,这样才能获取质量上乘的模型.在大数据时代,处理数据已经不再是是问题了,spark,hadoop ,Elastic search提供了海 ...

  10. 《自然语言处理实战入门》 信息抽取 ---- 信息抽取初探

    文章目录 基本介绍 一.传统信息抽取 关键词抽取 TF-IDF TextRank 关键句子抽取 二.深度学习信息抽取 总结 参考文档 基本介绍 信息抽取 (Information Extraction ...

最新文章

  1. adf4351_在ADF实体PK属性中使用MySQL自动增量PK列
  2. 高斯过程回归(GPR)—— 数学推导
  3. C++线程同步之事件(生产者与消费者问题)
  4. springboot 缓存ehcache的简单使用
  5. 阿里1682亿背后的协同研发云——云效公共云正式商业化 1
  6. 一条开启勇士王朝的短信
  7. 【LintCode】算法题 1443. 最长AB子串
  8. python progressbar 倒计时_Python使用progressbar模块实现的显示进度条功能
  9. 6月份个人:修改Windows系统多人使用多账号同时远程登陆 并修改脚本自动生成每个用户登录日志。...
  10. Loadrunner关联
  11. 怎么自学编程python_怎样自学Python编程?
  12. Word2013撤销不能使用
  13. Java、JSP教师信息管理系统
  14. JS开发HTML5游戏《神奇的六边形》(四)
  15. WhyNotWin11(win11升级检测工具)绿色便携版V2.1.0.0下载 | 比微软PC Health Check好用
  16. 关于构建umi+dva+ant react项目 附源码
  17. 基于Android高校图书馆推荐书目系统
  18. Plants vs. Zombies【二分答案】
  19. oracle如何判断数字中有字母,SQL 判断含有字母和数字的字符串
  20. 计算机游戏配机方案,主流装机配置方案 3500元i5-7500配GTX1050游戏电脑配置清单推荐...

热门文章

  1. ping tracert 用法
  2. 怎样才算精通javascript
  3. 大家口中所说的A站、B站、C站、D站、E站、F站、G站、H站、I站、J站、K站、L站、M站、N站、O站、P站、Q站、R站、S站、T站、U站、V站、W站、X站、Y站、Z站都是什么网站?
  4. C语言表上作业法运输问题,表上作业法解运输问题
  5. 个人开发者上架Android应用市场
  6. 河北省第三届研究生数学建模B题(二等)交通检测器数据质量控制及预测
  7. 双人五子棋(C++游戏)游戏代码在最底下
  8. linux 小度 驱动_小度Wifi,360随身Wifi2,小米Wifi树莓派驱动下载
  9. VMware:虚拟机(xp)与主机(win10)连接步骤(超详细)
  10. WINCE系统的PDA开发 xp系统+VS2008