一 序

本文属于NLP学习笔记系列。

二 停用词

对于NLP的应用,我们通常将停用词、出现频率很低的词过滤掉。

关于停用词词典,可以看下之前的: 文本预处理与停用词

这个主要是对业务影响不大,不影响分析,类似于特征筛选的过程。

要考虑自己的应用场景。

case:一些形容词通常会过滤掉,但是在情感分析中表达语气要保留。

自己会做修改。

三 词的标准化

这块就是英文的。举例:went,go,going  时态不同,还有单复数,比较级等等。

涉及技术:

词干提取(stemming)是抽取词的词干或词根形式(不一定能够表达完整语义)

词形还原(lemmatization),是把一个任何形式的语言词汇还原为一般形式(能表达完整语义)

中文不涉及,所以就不看了。感兴趣的可以看看porter stemmer.

NLP 学习笔记9-停用词相关推荐

  1. 【NLP学习笔记】停用词(stop words)

    此坑待填 停用词 1 定义 2 介绍 3 功能 4 种类 5 引用 1 定义 2 介绍 3 功能 4 种类 5 引用 [1] 停用词 [2] 自然语言处理-停用词 [3] Github-stopwor ...

  2. python数据挖掘学习笔记】十三.WordCloud词云配置过程及词频分析

    #2018-03-28 09:59:40 March Wednesday the 13 week, the 087 day SZ SSMR 11,12因为涉及到数据库被我暂时放弃了 python数据挖 ...

  3. 利用计算机技术实现对文本篇章,自然语言处理NLP学习笔记一:概念与模型初探...

    前言 先来看一些demo,来一些直观的了解. 自然语言处理: 可以做中文分词,词性分析,文本摘要等,为后面的知识图谱做准备. 知识图谱: 还有2个实际应用的例子,加深对NLP的理解 九歌机器人: 微软 ...

  4. NLP学习笔记(一)

    这是一个学习笔记,会有一些学习记录和自己的规划.一些想法...... 一.贪心学院第十期豆瓣电影预测评分项目 1.文本转化成向量,将使用三种方式,分别为tf-idf, word2vec以及BERT向量 ...

  5. NLP学习笔记6--Lecture/语言模型/预处理/独热编码/word2vec/文本特征工程

    语言模型用来判断:是否一句话从语法上通顺 先分词  然后算出联合概率 怎么算? chain rule 条件很长的时候 会遇到一个问题 sparsity 数据的稀疏性 用马尔科夫假设  最简单的假设 之 ...

  6. NLP学习笔记30-SVM 对偶、KTT,核函数

    一 序 本文属于贪心NLP训练营学习笔记系列. 二 Mapping Feature to High Dimensional Space 如图所示,转换是包含两部分的工作的,第一步是从低维特征向量转换为 ...

  7. NLP学习笔记41-递归神经网络

    一 序 本文属于贪心NLP训练营学习笔记系列.    为什么需要递归神经网络? 类似天气.股票.语音这种数据,是时序数据,对于语音:同一个单词不同人说对应时长不同. 之前学习的多层感知器,假设输入是一 ...

  8. NLP学习笔记25-情绪识别实战及数据集下载

    一 序 本文属于贪心NLP训练营学习笔记系列. 这节课在线性回归及正则里面穿插的讲.对于从逻辑回归开始明显感到主要就是 讲数学公式的推导了.好难. 二 情绪识别实战 Python吧就是看了点语法,所以 ...

  9. NLP学习笔记一(语言模型+NLM+Word2Vec)

    花书十二章+NLP 最近刚好轮到自己讲花书十二章,感觉goodfellow在NLP这块写的不是很全,所以就自己参考宗老师的<统计自然语言处理>来理了一下思路,现在整理一下. 一.NLP前言 ...

  10. NLP学习笔记-Pytorch框架(补充)

    PDF Pytorch初步应用 使用Pytorch构建一个神经网络 学习目标 掌握用Pytorch构建神经网络的基本流程. 掌握用Pytorch构建神经网络的实现过程. 关于torch.nn: 使用P ...

最新文章

  1. hadoop install start-dfs.sh 失败
  2. 动态导入ECMAScript模块一文看懂
  3. android 线程信号量,iOS开发 多线程的高级应用-信号量semaphore
  4. Linux centos下项目环境搭建及版本部署
  5. 【计算机视觉】跟踪算法及相关主页
  6. Python 中 xpath 语法 与 lxml 库解析 HTML/XML 和 CSS Selector
  7. 初使用 ReportViewer 控件时遇到的一点小麻烦
  8. poj 2253 最短路变形——最大边的最小值
  9. 2013阿里技术嘉年华:阿里数据同步前世今生
  10. eclipse 2020版 安装与配置完美教程
  11. 搭建简单的企业网站,华为云速建站和阿里建站哪个好?
  12. win7系统提示0x80072F8F错误代码的解决方法(刷新你的认知)
  13. [安卓逆向]安卓逆向-一次简单的静态分析
  14. 阿里云ECS服务器安装Mysql全过程
  15. 玩客云pc端_玩客云电脑客户端-玩客云PC端 V1.4.5.112 免费安装版
  16. 柔性电子:超薄可延伸Ag-In-Ga电子皮肤,用于生物电子和人机交互
  17. AI绘图参数设置和一些注意点
  18. 阿里云ECS云服务器1M宽带能干嘛?
  19. STM32中断向量表的位置,重定向
  20. 关于TreeView的简单使用(Qt6.4.1)

热门文章

  1. VB ListView控件各种操作详解
  2. 同步IO和异步IO的区别?
  3. 文本的编码格式: ANSI、ASCII、UTF8、UNICODE、GB2312、UCS-2、UTF16
  4. Ubuntu常用命令大全
  5. 恐龙母带混音插件-IK Multimedia T-RackS 5 MAX 5.5.1 macOS
  6. Android自定义View——动态ProgressBar之模仿360加速球
  7. 美国地名大全(美国城市名称英文 中文)
  8. 战神引擎php,战神引擎搭建教程
  9. Java完全自学手册pdf,由浅入深,循序渐进(1)
  10. Ubuntu18.04版本安装ssh及连接ssh的常见问题