文本分析——分配单词权重
前言
文本处理中很多时候会需要给每个单词分配权重,有了权重以便后续进一步处理。常用的算法主要是TF-IDF。
TF
TF,即Term Frequency。我们可以将文档看成由若干词(term)组成,那么文档中某个term出现的频率就是TF。词频和词权重存在关系,可以用来作为词权重的衡量因素之一。
IDF
IDF,即Inverse Document Frequency。TF算法存在一个问题:比如某文档中多个term出现的次数相同,则不好判别他们之间哪个更重要。因此又引入逆文档频率(IDF),某个term的IDF可定为:
IDF = log(\frac{T}{t})
其中,T为统计样本中总文档数,t为包含某term的文档数。由此说明包含某term的文档数越多,该term越不重要。
获取IDF方式
其实有几种方式来统计IDF。
* 自己收集样本库进行统计。
* 第三方统计好的IDF表。
* 借助百度或谷歌搜索引擎,这种方式不准确。随便取个m值假设为总文档,再搜索某个term得到n条结果,则认为n除以m即为IDF。
TF-IDF
有了前面的TF和IDF就可以通过他们一起决定某个Term的权重。定义TF-IDF为TF乘以IDF。
实现代码
https://github.com/sea-boat/nlp_lab/tree/master/tf_idf
————-推荐阅读————
我的2017文章汇总——机器学习篇
我的2017文章汇总——Java及中间件
我的2017文章汇总——深度学习篇
我的2017文章汇总——JDK源码篇
我的2017文章汇总——自然语言处理篇
我的2017文章汇总——Java并发篇
——————广告时间—————-
公众号的菜单已分为“分布式”、“机器学习”、“深度学习”、“NLP”、“Java深度”、“Java并发核心”、“JDK源码”、“Tomcat内核”等,可能有一款适合你的胃口。
鄙人的新书《Tomcat内核设计剖析》已经在京东销售了,有需要的朋友可以购买。感谢各位朋友。
为什么写《Tomcat内核设计剖析》
欢迎关注:
文本分析——分配单词权重相关推荐
- 上手结巴分词文本分析,输出热词、TF-IDF权重和词频
前言 舆情分析.文本分析,在做特征提取时,需要把一整段内容合并后,提取内容中的热词.F-IDF权重和词频,本编以python编程,分享如何通过结巴分词简易上手. 代码讲解 先给代码片段配内容讲解,篇尾 ...
- R语言之文本分析:主题建模LDA
文本分析:主题建模 library(tidyverse) theme_set( theme_bw()) 目标 定义主题建模 解释Latent Dirichlet分配以及此过程的工作原理 演示如何使用L ...
- 大数据分析笔记 (6) - 文本分析 (Text Analysis)
大数据分析笔记 - 文本分析 总览 文本分析步骤 挑战 第一步:收集原始文本数据(Collecting Raw Text) 第二步:表示文本 (Representing Text) 第三步:词频-逆文 ...
- Elasticsearch:用于内容丰富的文本分析
每个文本搜索解决方案都与其提供的文本分析功能一样强大. Lucene是这样的开源信息检索库,提供了许多文本分析的可能性. 在本文中,我们将介绍ElasticSearch提供的一些主要文本分析功能,这些 ...
- delphi 停电文本数据丢失_NLP中的文本分析和特征工程
语言检测,文本清理,长度测量,情绪分析,命名实体识别,n字频率,词向量,主题建模 前言 在本文中,我将使用NLP和Python解释如何分析文本数据并为机器学习模型提取特征. NLP(自然语言处理)是人 ...
- 自然语言处理文本分析_通过自然语言处理释放文本分析的力量
自然语言处理文本分析 深度学习 , 自然语言处理 (Deep Learning, Natural Language Processing) Natural language is a language ...
- 文本分析简历项目收集-----机器学习(仅供参考)
文本分析 项目3:基于自然语言处理的影评分析 项目简介:通过大量的正面和负面的电影评论对计算机进行自然语言训练,实现计算机对电影评论的基本情感分析,使其能够快速判断出评论是否积极 个人职责:1. 对正 ...
- 《计算传播学导论》读书笔记——第二章文本分析简介
<计算传播学导论>读书笔记--第二章文本分析简介 第一节 文本分析研究现状 常用文本挖掘技术 第二节 文本分析与传播学研究 (一)为什么文本挖掘技术逐渐受到传播学者的关注 (二)不同文本分 ...
- 【自然语言处理与文本分析】自然语言处理概要
自然语言处理的研究范畴 自然语言处理的基本流程 文本数据-->分词/词根还原-->词性标注-->[同义词标定]-->[概念标定]-->角色标定-->句法分析--&g ...
最新文章
- 信而泰推出100G多速率测试模块:填补中国通信产业链短板
- [LeetCode-JAVA] Reverse Nodes in k-Group
- 学生选课数据库MySQL语句练习题45道
- dev gridcontrol简单的动态设置动态表头
- php表单服务器验证失败,php 表单验证代码(验证失败显示提示信息)
- 信号 09 | 函数pause
- php字符串综合作业,0418php字符串的操作
- AI算法连载04:数学基础之蒙特卡洛方法与MCMC采样
- 利用python求解节点介数和边介数
- ecshop属性排序
- 计算机专业显示器英语,电脑显示器词汇 计算机英语词汇
- 关于Environment类的使用
- 怎么知道局域网内其他设备的IP
- 用一个创业故事串起操作系统原理(五)
- [2009][note]构成理想导体超材料的有源THz欺骗表面等离子激元开关——
- android分享微信朋友圈带编辑功能吗,终于被我等到了,微信新版本能编辑别人的朋友圈啦!...
- 哲理小故事--跳蚤人生
- 判断自定义异形view的点击事件是否在绘制区域内
- 细节决定成败,聊聊防御性编程
- [MS Project]Project软件入门两天之旅
热门文章
- unity 聊天界面
- 编译Chromium OS
- 百度崔珊珊讲给年轻人的九个故事:和百度一起成长,然后改变世界
- python怎么表示循环小数_循环小数怎么表示
- ValueError: Dimensions of labels and X must be compatible
- 新款任天堂(Switch)游戏机底座带网口方案LDR6023B+AX88179
- 【测试管理】测试进度汇总报告
- 面孔“暴露”在外 人脸识别风险谁来“买单”?
- 用python画美国国旗
- Astah 建模软件安装