数据分析词数统计和词的重要程度统计
1、词数统计代码
#-*-coding:utf-8-*-
import pandas as pd
import numpy as np
import jieba
from sklearn.feature_extraction.text import CountVectorizer
#自己构建文章
content=['This i is the first document.', 'This is the second second document.', 'And the third one.', 'Is this the first document? i x y','i']
#content=['今天阳光真好','我要去看北京天安 门','逛完天安门之后我要去王府井','']
#进行中文分词
content_list=[]
for tmp in content:#使用精确模式res=jieba.cut(tmp,cut_all=False)res_str=','.join(res)content_list.append(res_str)
#1、构建实例
con_vet=CountVectorizer()
#2、进行提取词语
#对于英文来说会按照空格分词
#认为单个的字符的词对于我们的文章分类没有影响,所以不拿出来
X=con_vet.fit_transform(content)
#获取提取到的词语
names=con_vet.get_feature_names()
print(names)
print(X)
print(X.toarray())
2、词的重要程度统计代码
#-*-coding:utf-8-*-
from sklearn.feature_extraction.text import TfidfVectorizer
import jieba
#自己构建文章
#content=['This i is the first document.', 'This is the second second document.', 'And the third one.', 'Is this the first document? i x y','i']
content=['今天阳光真好','我要去看北京天安 门','逛完天安门之后我要去王府井','']
#进行中文分词
content_list=[]
for tmp in content:#使用精确模式res=jieba.cut(tmp,cut_all=False)res_str=','.join(res)content_list.append(res_str)
#1、构建实例
#min_df=1#设置分词的时候,词必须至少出现一次
#stop_words===停用词
tf_vec=TfidfVectorizer(stop_words=['之后','今天'])
#2、统计词的重要程度
X=tf_vec.fit_transform(content_list)
#获取分词结果
names=tf_vec.get_feature_names()
print(names)
print(X.toarray())
数据分析词数统计和词的重要程度统计相关推荐
- 《图像处理实例》 之 疏密程度统计
疏密程度统计 以下的改进是http://www.imagepy.org/的作者原创,我只是对其理解之后改进和说明,欢迎大家使用这个小软件! 如有朋友需要源工程,请在评论处留邮箱! 说明: 此方法是大佬 ...
- 自助式数据分析平台:jvs数据智仓-统计报表的使用条件及界面介绍
统计报表界面介绍 统计报表是指利用表格和报表等形式,将数据以清晰的结构和布局的方式呈现出来,以便用户进行数据分析和决策制定的一种BI统计方法.表格式的BI统计通常采用交叉表格.分组表.报表等形式,对数 ...
- 零基础学习数据分析路线,学习到什么程度可以找到工作
一.数据分析学习到什么程度可以找工作? 这个问题要看你准备面试的公司,具体情况差异较大.所以我只能从自身真实经验中总结一些建议,给出一些最基础的知识结构,供楼主参考. 首先,我觉得优秀的数据分析师应该 ...
- 数据分析的重要一环之数据统计
转载:http://www.baobaoshequ.com/article/4536 不管是业绩总量,还是各学历的员工人数,都需要我们从明细数据中进行统计.计算.因此,数据统计的过程即对明细数据进行各 ...
- Python数据分析高薪实战第八天 数据计算统计与分析
17 如何快速实现数据的批量计算? 接下来我们会进入一个全新的模块:数值类数据分析.在这个部分,我们会学习数据分析中常用的数学方法以及 Python 中处理数值数据的神器:NumPy. 在完成了本部分 ...
- 文本数据分析——主题提取+词向量化
使用Python 进行简单文本类数据分析,包括: 1. 分词 2. 生成语料库,tfidf加权 3. lda主题提取模型 4. 词向量化word2vec 参考: http://zhuanlan.zhi ...
- ik分词和jieba分词哪个好_Python 中文 文本分析 实战:jieba分词+自定义词典补充+停用词词库补充+词频统计...
最近项目需要,实现文本的词频分析,折腾了几天才完成任务,有点成就感,最后整理总结一下这部分的内容,希望更多同僚受益. 一.使用前准备 环境:Python3.6 安装结巴:pip install ji ...
- axure9数据统计插件_数据分析太棘手?常用8大统计软件解决难题!
在数据分析工作中我们常常需要处理大量的统计问题,这个时候就迫切的需要一个适合统计分析工具,今天小编就给大家介绍八个我们常用的统计分析软件,并且详细介绍各自的特点以及适用的专业,方面大家从中选择一个切合 ...
- nba球员数据分析和可视化_可视化NBA球员统计
nba球员数据分析和可视化 I haven't written a post in a while. I had a lot to do for university and my hobbies l ...
最新文章
- Android移动开发之【Android实战项目】DAY2-使用Fragment实现底部菜单栏
- python画圆简单代码-Python画直线 画圆 画矩形代码
- 什么场景应该用 MongoDB ?
- Raevo最近疯狂迷上了WP
- Android 自定义对话框
- Linux 指令的分类 (man page 可查看)
- php使用blob加密视频,javascript实现blob加密视频源地址的方法
- 怎样修改安卓位置服务器,修改安卓定位服务器地址
- 见微知著:语义分割中的弱监督学习
- C# 按块选择 autoCAD二次开发
- 中国各省省会城市及简称
- 文本数据挖掘之文本信息抽取
- 基础的数组/链表实现的队列
- 抽奖功能java开发_基于Java实现抽奖系统
- 程序员锻炼宽广的胸怀
- vmware虚拟化故障虚拟磁盘丢失恢复办法
- source insight使用方法简介
- 从全拼音中得到汉字拼音
- MySQL学习(十六):数据类型之日期与时间类型
- 字节跳动最爱考的前端面试题:Node.js 基础
热门文章
- 左神算法:用栈来求解限制后的汉诺塔问题(Java版)
- C语言 2048小游戏
- visio任意区域填充斜线阴影_DX12渲染管线(6) - 级联阴影与距离场阴影
- 电子病历系统厂家排名_指挥大厅音响系统方案,会议话筒厂家-麦纳电子科技
- druid监控配置及sql注入防火墙配置
- 世界上根本没有正确的选择
- Codeup墓地-问题 B: 算法7-16:弗洛伊德最短路径算法
- 剑指 Offer 34. 二叉树中和为某一值的路径【附完整可运行代码】
- 【最简便解法】1069 微博转发抽奖 (20分)
- Web前端开发笔记——第三章 CSS语言 第六节 CSS定位