最近在做一些NLP的研究,由于也是第一次做这个东西,其实还是发现很多有意思的东西。

相信很多做过NLP的人都应该接触过提取关键词的这个功能。现在有很多可以使用的第三方工具包可以很容易的来实现这个功能,比如snowNLP,jieba等,但是我们还是要做到知其然,知其所以然,所以便有了这一篇文字的记录。

首先我们来了解一下什么是TF-IDF?

其实这个是两个词的组合,可以拆分为TF和IDF。

TF(Term Frequency,缩写为TF)也就是词频啦,即一个词在文中出现的次数,统计出来就是词频TF,显而易见,一个词在文章中出现很多次,那么这个词肯定有着很大的作用,但是我们自己实践的话,肯定会看到你统计出来的TF 大都是一些这样的词:‘的’,‘是’这样的词,这样的词显然对我们的分析和统计没有什么帮助,反而有的时候会干扰我们的统计,当然我们需要把这些没有用的词给去掉,现在有很多可以去除这些词的方法,比如使用一些停用词的语料库等。

假设我们把它们都过滤掉了,只考虑剩下的有实际意义的词。这样又会遇到了另一个问题,我们可能发现"中国"、"蜜蜂"、"养殖"这三个词的出现次数一样多。这是不是意味着,作为关键词,它们的重要性是一样的?

显然不是这样。因为"中国"是很常见的词,相对而言,"蜜蜂"和"养殖"不那么常见。如果这三个词在一篇文章的出现次数一样多,有理由认为,"蜜蜂"和"养殖"的重要程度要大于"中国",

TF-IDF原理和使用以及算法详解相关推荐

  1. 2. IMU原理及姿态融合算法详解

    文章目录 2. IMU原理及姿态融合算法详解 一.组合 二. 原理 a) 陀螺仪 b) 加速度计 c) 磁力计 三. 旋转的表达 a) 欧拉角 b) 旋转矩阵 c) 四元数 d) 李群 SO(3)\t ...

  2. JVM底层原理+四大垃圾回收算法详解-周阳老师

    转载自,感谢原作者:https://www.jianshu.com/p/9e6841a895b4 注意:垃圾回收算法周阳老师讲的有错误,具体在p19,四大垃圾回收算法为复制算法.标记-整理算法.标记- ...

  3. java二分排序法原理_Java常见排序算法详解—— 二分插入排序

    转载请注明出处: 二分插入排序Binary Insert Sort 概念: 二分(折半)插入排序是一种在直接插入排序算法上进行小改动的排序算法.其与直接排序算法最大的区别在于查找插入位置时使用的是二分 ...

  4. 快速排序算法详解(原理,时间复杂度,实现代码)

    快速排序算法详解(原理.实现和时间复杂度) 快速排序是对冒泡排序的一种改进,由 C.A.R.Hoare(Charles Antony Richard Hoare,东尼·霍尔)在 1962 年提出. 快 ...

  5. android动态贴纸实现原理,人脸动态贴纸sdk算法详解,人脸动态贴纸功能如何实现...

    原标题:人脸动态贴纸sdk算法详解,人脸动态贴纸功能如何实现 泛娱乐行业在互联网领域中发展趋势逐渐增强,而直播.短视频.视频社交等作为头部产品受到了众多用户的关注和喜爱.为了能够更好的满足用户体验,众 ...

  6. 推荐系统简介+算法详解+项目介绍

    目录标题 推荐系统简介 1.推荐系统目的 2.推荐系统的应用 3.推荐系统的基本思想 4.推荐系统的数据分析 5.推荐系统的分类 6.推荐算法简介 6.1 基于人口统计学的推荐算法(基于用户数据) 6 ...

  7. 【百度飞浆】YOLO系列目标检测算法详解

    YOLO系列目标检测算法详解 1 YOLO发展史 2 YOLO v3目标检测原理 3 PaddleDetection中YOLO v3模型介绍 4 YOLO v3配置演练 1 YOLO发展史 2 YOL ...

  8. FloodFill算法详解及应用

    FloodFill算法详解及应用 啥是 FloodFill 算法呢, 最直接的一个应用就是「颜色填充」,就是 Windows 绘画本中那个小油漆桶的标志,可以把一块被圈起来的区域全部染色. 这种算法思 ...

  9. 回溯算法详解之全排列、N皇后问题

    回溯算法详解 回溯算法框架.解决一个回溯问题,实际上就是一个决策树的遍历过程.你只需要思考 3 个问题: 1.路径:也就是已经做出的选择. 2.选择列表:也就是你当前可以做的选择. 3.结束条件:也就 ...

最新文章

  1. 初步尝试Teamplate Workflow Web Part for SharePoint Portal Server
  2. 完美日记的微服务实践和优化思路
  3. 关于STM32使用RTC时复位后程序死在 RTC
  4. (转)腾讯2011.10.15校园招聘会笔试题
  5. keras实现简单lstm_深度学习(LSTM)在交通建模中的应用
  6. [JavaScript] promise中.then()方法
  7. Q110:PBRT-V3十大基类对应的继承关系
  8. JavaScript性能优化之加载与执行
  9. 编译出错 recompile with -fPIC
  10. MFS 高可用存储分布式文件系统
  11. c语言iostream函数用法,iostream中的extern对象解决方法
  12. VirtualBox安装Windows XP
  13. 流程图用什么软件做?好用的流程图软件盘点
  14. HTML+CSS制作课程表
  15. 逃离北上广:你以为回到小城市就很幸福了吗?
  16. 推荐几个图标搜索网站
  17. php网络图片拼接,图片处理-PHP图片拼接如何高效的实现
  18. 实验02-微信公众号编辑模式应用
  19. python情感分析中文_Python有趣|中文文本情感分析
  20. Base64 erlang

热门文章

  1. python语句结束符号_Python从文本中提取hashtags;以标点符号结尾
  2. ora-600内部错误的类型
  3. Python之logic
  4. Dubbo-06 20190320
  5. ubuntu 软件推荐
  6. Linux学习笔记28——Linux的权限与密码管理机制
  7. 云豹智能发布全功能云霄DPU网卡,引领数据中心新趋势
  8. 随机森林(randomForest)和极限树或者叫做极端随机树(extraTree),
  9. 我的世界java手机版怎么调按键_《我的世界》按键设置 pc版快捷按键代码大全...
  10. 浮点运算/半精度,单精度,双精度/浮点和定点