在面对文本型特征时,大致可以分为两种。

一是枚举类型,比如:男女,小学生初中生高中生大学生……这种类型下类别一般不会超过百种,那么就可以使用 哑编码(one-hot)来处理。

另一种就是真正意义上的文本,一条评论或是一篇文章。对于这样的数据,我们介绍两种方法:

(1)、词袋法。

什么是词袋法?将文本当作一个无序的集合,可以采用文本中的词条T进行体现,那么文本中出现的所有词条以及其出现的次数就可以体现文档的特征。

即,将文章分成一个个词语,然后统计各个词语的次数。

   但是这样做法一般情况下都会造成分出词语过多,尤其无用词语过多,例如“是”,“的”,“啊”等无意义的词语。为了处理一些词袋法处理的不太好的问题,我们使用TF-IDF法。

(2)、TF-IDT。

TF-IDF如何处理上述问题。

首先,我们有语料库的概念:以{文章1:词条1 : 2个,文章1:词条2 : 3个}类似的形式去存储已有文章和词条。

然后,我们用语料库来解决无用词语的问题:

词条的重要性随着 在语料库中出现频率的增加减少

比如有个关于动物的各种文章语料库,“动物”这个词在所有文章中出现的频率极高,那么“动物”这个词对于我们区分语料库中的文章有帮助吗?

并没有,也就是说 词条在语料库中出现的越少,作用才会越大。那么我们就去计算 词条在语料库中出现的频率就可以了。

IDF 就是在计算 词条在语料库中出现的频率,具体计算规则如下。

IDF(逆向文件频率):文件频率 = 包含该词的文件数 / 所有文件数。 逆向文件频率 = 所有文件数 / 包含该词的文件数。(IDF只是对文件频率取了倒数,原因很简单,按照上面讲的逻辑,文件频率与该词作用成反比,我们想要一个变量和该词作用成正比,那就取倒数喽!)

值得一提,有时候为了后面的计算和衡量,还会对IDF取个对数。

那么TF又是什么? 这个更简单了,就是词袋法的核心:该词条在文本中出现的次数。

所谓的TF-IDF = TF *IDF 。这样既保证了 该词条在文章中出现次数 与 该词作用 成正比,又保证了无用词语不会产生太大影响。

机器学习笔记笔记之三——文本类型处理-词袋法、TF-IDF理解相关推荐

  1. NLP之BoWNLTK:自然语言处理中常用的技术——词袋法Bow、NLTK库

    NLP之BoW&NLTK:自然语言处理中常用的技术--词袋法Bow.NLTK库 目录 输出结果 实现代码 输出结果 [[0 1 1 0 1 0 0 0 1 1 1 1 1 1 1 1 1 0 ...

  2. 【SLAM十四讲】ch11 回环检测 词袋法实验 得出相似分数后计算PR曲线 VPR实验 编辑中

    [SLAM十四讲]ch11 回环检测 词袋法实验 得出相似分数后计算PR曲线 [SLAM十四讲]ch11 回环检测 词袋法实验 得出相似分数后计算PR曲线 DBow3库安装 ch11编译 ch11 词 ...

  3. RNN模型与NLP应用笔记(2):文本处理与词嵌入详解及完整代码实现(Word Embedding)

    一.写在前面 紧接着上一节,现在来讲文本处理的常见方式. 本文大部分内容参考了王树森老师的视频内容,再次感谢王树森老师和李沐老师的讲解视频. 目录 一.写在前面 二.引入 三.文本处理基本步骤详解 四 ...

  4. 特征缩放的效果:从词袋到 TF-IDF

    特征缩放的效果:从词袋到 TF-IDF 转载:github 译者:@gin 校对者:@HeYun 字袋易于生成,但远非完美.假设我们平等的统计所有单词,有些不需要的词也会被强调.在第三章提过一个例子, ...

  5. 自然语言处理之中文文本分析(jieba分词、词袋doc2bow、TFIDF文本挖掘)

    中文分词常用的分词工具有jieba等,本文以jieba分词为例,讲解中文文本分析. 一.jieba分词 来源github:https://github.com/fxsjy/jieba 1.主要模式 支 ...

  6. 机器学习入门笔记 人工智能 黑马程序员

    机器学习入门笔记 前言 这个是根据"黑马程序员"的一套机器学习课程编写的博客.这篇博客上的案例均为课程里面的,但并没有包含所有案例,只是记录了部分. B站视频地址 文章目录 机器学 ...

  7. 机器学习实战笔记(Python实现)-03-朴素贝叶斯

    --------------------------------------------------------------------------------------- 本系列文章为<机器 ...

  8. 《计算传播学导论》读书笔记——第二章文本分析简介

    <计算传播学导论>读书笔记--第二章文本分析简介 第一节 文本分析研究现状 常用文本挖掘技术 第二节 文本分析与传播学研究 (一)为什么文本挖掘技术逐渐受到传播学者的关注 (二)不同文本分 ...

  9. 【机器学习笔记】可解释机器学习-学习笔记 Interpretable Machine Learning (Deep Learning)

    [机器学习笔记]可解释机器学习-学习笔记 Interpretable Machine Learning (Deep Learning) 目录 [机器学习笔记]可解释机器学习-学习笔记 Interpre ...

  10. 数据分析学习总结笔记17:文本分析入门案例实战

    文章目录 1 数据准备 2 分词 3 统计词频 4 词云 5 提取特征 6 用sklearn进行训练 1 数据准备 数据样例如下, 数据总量为7.7万+: 本节通过一个实战的例子来展示文本分析的最简单 ...

最新文章

  1. 你看我还有机会吗?这么GAN让我秃然荒了!
  2. Java入门系列-22-IO流
  3. java学习(102):arraylist的查询和删除
  4. jmeter 加密解密_犯罪大师入门篇密文答案 谜之解密入门篇密文解题详解_游戏资讯...
  5. 项目管理: Maven 让事情变得简单
  6. 微信小程序搭建tabbar
  7. 移动硬盘打开文件突然变得很卡
  8. F12下载网页视频(开放网页)
  9. 2022年R2移动式压力容器充装考试模拟100题及在线模拟考试
  10. 用单片机的RAM虚拟U盘(文件系统:Fat16)
  11. Nebula3 资源管理系统
  12. window系统默认编码格式GBK怎么理解
  13. java中的package_JAVA中的PACKAGE机制——(好文转帖)
  14. 祛除体内湿气的最佳方法 713.html,治疗湿气重的14种土方法
  15. FC按键修改教程之一键开关
  16. iOS 抽取app中的图片图标资源
  17. MATLAB(1)基础知识
  18. 2020-11-27 PMP 群内练习题 - 光环
  19. 使用cdn引入vue+ajax实现简单的商城页面
  20. C语言:打印平行四边形图案

热门文章

  1. 【最短路】【spfa】CDOJ1633 去年春恨却来时,落花人独立,微雨燕双飞
  2. ARM 发布新一代 CPU 和 GPU,实现 20% 性能提升!
  3. 混淆矩阵 matlab代码示例
  4. apple pay代码实现
  5. android studio开发app设置登录界面
  6. 哈佛幸福课 24人格力量测试
  7. 天线和频率(波长)关系
  8. 软件智能:aaas系统的 AI服务功能:大纲图的无意识代理功能和八卦图的关系
  9. sql数据库中毒,扩展名被改为.supporthelpgood​,.666decrypt666​​​​​​,.xxxxx,.dom,勒索病毒加密该如何恢复数据
  10. MySQL如何创建视图和用户