前言

文本处理中很多时候会需要给每个单词分配权重,有了权重以便后续进一步处理。常用的算法主要是TF-IDF。

TF

TF,即Term Frequency。我们可以将文档看成由若干词(term)组成,那么文档中某个term出现的频率就是TF。词频和词权重存在关系,可以用来作为词权重的衡量因素之一。

IDF

IDF,即Inverse Document Frequency。TF算法存在一个问题:比如某文档中多个term出现的次数相同,则不好判别他们之间哪个更重要。因此又引入逆文档频率(IDF),某个term的IDF可定为:

IDF = log(\frac{T}{t})

其中,T为统计样本中总文档数,t为包含某term的文档数。由此说明包含某term的文档数越多,该term越不重要。

获取IDF方式

其实有几种方式来统计IDF。
* 自己收集样本库进行统计。
* 第三方统计好的IDF表。
* 借助百度或谷歌搜索引擎,这种方式不准确。随便取个m值假设为总文档,再搜索某个term得到n条结果,则认为n除以m即为IDF。

TF-IDF

有了前面的TF和IDF就可以通过他们一起决定某个Term的权重。定义TF-IDF为TF乘以IDF。

实现代码

https://github.com/sea-boat/nlp_lab/tree/master/tf_idf

————-推荐阅读————

我的2017文章汇总——机器学习篇

我的2017文章汇总——Java及中间件

我的2017文章汇总——深度学习篇

我的2017文章汇总——JDK源码篇

我的2017文章汇总——自然语言处理篇

我的2017文章汇总——Java并发篇

——————广告时间—————-

公众号的菜单已分为“分布式”、“机器学习”、“深度学习”、“NLP”、“Java深度”、“Java并发核心”、“JDK源码”、“Tomcat内核”等,可能有一款适合你的胃口。

鄙人的新书《Tomcat内核设计剖析》已经在京东销售了,有需要的朋友可以购买。感谢各位朋友。

为什么写《Tomcat内核设计剖析》

欢迎关注:

文本分析——分配单词权重相关推荐

  1. 上手结巴分词文本分析,输出热词、TF-IDF权重和词频

    前言 舆情分析.文本分析,在做特征提取时,需要把一整段内容合并后,提取内容中的热词.F-IDF权重和词频,本编以python编程,分享如何通过结巴分词简易上手. 代码讲解 先给代码片段配内容讲解,篇尾 ...

  2. R语言之文本分析:主题建模LDA

    文本分析:主题建模 library(tidyverse) theme_set( theme_bw()) 目标 定义主题建模 解释Latent Dirichlet分配以及此过程的工作原理 演示如何使用L ...

  3. 大数据分析笔记 (6) - 文本分析 (Text Analysis)

    大数据分析笔记 - 文本分析 总览 文本分析步骤 挑战 第一步:收集原始文本数据(Collecting Raw Text) 第二步:表示文本 (Representing Text) 第三步:词频-逆文 ...

  4. Elasticsearch:用于内容丰富的文本分析

    每个文本搜索解决方案都与其提供的文本分析功能一样强大. Lucene是这样的开源信息检索库,提供了许多文本分析的可能性. 在本文中,我们将介绍ElasticSearch提供的一些主要文本分析功能,这些 ...

  5. delphi 停电文本数据丢失_NLP中的文本分析和特征工程

    语言检测,文本清理,长度测量,情绪分析,命名实体识别,n字频率,词向量,主题建模 前言 在本文中,我将使用NLP和Python解释如何分析文本数据并为机器学习模型提取特征. NLP(自然语言处理)是人 ...

  6. 自然语言处理文本分析_通过自然语言处理释放文本分析的力量

    自然语言处理文本分析 深度学习 , 自然语言处理 (Deep Learning, Natural Language Processing) Natural language is a language ...

  7. 文本分析简历项目收集-----机器学习(仅供参考)

    文本分析 项目3:基于自然语言处理的影评分析 项目简介:通过大量的正面和负面的电影评论对计算机进行自然语言训练,实现计算机对电影评论的基本情感分析,使其能够快速判断出评论是否积极 个人职责:1. 对正 ...

  8. 《计算传播学导论》读书笔记——第二章文本分析简介

    <计算传播学导论>读书笔记--第二章文本分析简介 第一节 文本分析研究现状 常用文本挖掘技术 第二节 文本分析与传播学研究 (一)为什么文本挖掘技术逐渐受到传播学者的关注 (二)不同文本分 ...

  9. 【自然语言处理与文本分析】自然语言处理概要

    自然语言处理的研究范畴 自然语言处理的基本流程 文本数据-->分词/词根还原-->词性标注-->[同义词标定]-->[概念标定]-->角色标定-->句法分析--&g ...

最新文章

  1. 信而泰推出100G多速率测试模块:填补中国通信产业链短板
  2. [LeetCode-JAVA] Reverse Nodes in k-Group
  3. 学生选课数据库MySQL语句练习题45道
  4. dev gridcontrol简单的动态设置动态表头
  5. php表单服务器验证失败,php 表单验证代码(验证失败显示提示信息)
  6. 信号 09 | 函数pause
  7. php字符串综合作业,0418php字符串的操作
  8. AI算法连载04:数学基础之蒙特卡洛方法与MCMC采样
  9. 利用python求解节点介数和边介数
  10. ecshop属性排序
  11. 计算机专业显示器英语,电脑显示器词汇 计算机英语词汇
  12. 关于Environment类的使用
  13. 怎么知道局域网内其他设备的IP
  14. 用一个创业故事串起操作系统原理(五)
  15. [2009][note]构成理想导体超材料的有源THz欺骗表面等离子激元开关——
  16. android分享微信朋友圈带编辑功能吗,终于被我等到了,微信新版本能编辑别人的朋友圈啦!...
  17. 哲理小故事--跳蚤人生
  18. 判断自定义异形view的点击事件是否在绘制区域内
  19. 细节决定成败,聊聊防御性编程
  20. [MS Project]Project软件入门两天之旅

热门文章

  1. unity 聊天界面
  2. 编译Chromium OS
  3. 百度崔珊珊讲给年轻人的九个故事:和百度一起成长,然后改变世界
  4. python怎么表示循环小数_循环小数怎么表示
  5. ValueError: Dimensions of labels and X must be compatible
  6. 新款任天堂(Switch)游戏机底座带网口方案LDR6023B+AX88179
  7. 【测试管理】测试进度汇总报告
  8. 面孔“暴露”在外 人脸识别风险谁来“买单”?
  9. 用python画美国国旗
  10. Astah 建模软件安装