数据分析词数统计和词的重要程度统计

1、词数统计代码

#-*-coding:utf-8-*-
import  pandas  as  pd
import   numpy  as  np
import jieba
from  sklearn.feature_extraction.text import CountVectorizer
#自己构建文章
content=['This i is the first document.', 'This is the second second document.', 'And the third one.', 'Is this the first document? i x y','i']
#content=['今天阳光真好','我要去看北京天安  门','逛完天安门之后我要去王府井','']
#进行中文分词
content_list=[]
for  tmp  in  content:#使用精确模式res=jieba.cut(tmp,cut_all=False)res_str=','.join(res)content_list.append(res_str)
#1、构建实例
con_vet=CountVectorizer()
#2、进行提取词语
#对于英文来说会按照空格分词
#认为单个的字符的词对于我们的文章分类没有影响，所以不拿出来
X=con_vet.fit_transform(content)
#获取提取到的词语
names=con_vet.get_feature_names()
print(names)
print(X)
print(X.toarray())

2、词的重要程度统计代码

#-*-coding:utf-8-*-
from   sklearn.feature_extraction.text import TfidfVectorizer
import jieba
#自己构建文章
#content=['This i is the first document.', 'This is the second second document.', 'And the third one.', 'Is this the first document? i x y','i']
content=['今天阳光真好','我要去看北京天安  门','逛完天安门之后我要去王府井','']
#进行中文分词
content_list=[]
for  tmp  in  content:#使用精确模式res=jieba.cut(tmp,cut_all=False)res_str=','.join(res)content_list.append(res_str)
#1、构建实例
#min_df=1#设置分词的时候，词必须至少出现一次
#stop_words===停用词
tf_vec=TfidfVectorizer(stop_words=['之后','今天'])
#2、统计词的重要程度
X=tf_vec.fit_transform(content_list)
#获取分词结果
names=tf_vec.get_feature_names()
print(names)
print(X.toarray())

数据分析词数统计和词的重要程度统计相关推荐

《图像处理实例》之疏密程度统计
疏密程度统计以下的改进是http://www.imagepy.org/的作者原创,我只是对其理解之后改进和说明,欢迎大家使用这个小软件! 如有朋友需要源工程,请在评论处留邮箱! 说明: 此方法是大佬 ...
自助式数据分析平台：jvs数据智仓-统计报表的使用条件及界面介绍
统计报表界面介绍统计报表是指利用表格和报表等形式,将数据以清晰的结构和布局的方式呈现出来,以便用户进行数据分析和决策制定的一种BI统计方法.表格式的BI统计通常采用交叉表格.分组表.报表等形式,对数 ...
零基础学习数据分析路线，学习到什么程度可以找到工作
一.数据分析学习到什么程度可以找工作? 这个问题要看你准备面试的公司,具体情况差异较大.所以我只能从自身真实经验中总结一些建议,给出一些最基础的知识结构,供楼主参考. 首先,我觉得优秀的数据分析师应该 ...
数据分析的重要一环之数据统计
转载:http://www.baobaoshequ.com/article/4536 不管是业绩总量,还是各学历的员工人数,都需要我们从明细数据中进行统计.计算.因此,数据统计的过程即对明细数据进行各 ...
Python数据分析高薪实战第八天数据计算统计与分析
17 如何快速实现数据的批量计算? 接下来我们会进入一个全新的模块:数值类数据分析.在这个部分,我们会学习数据分析中常用的数学方法以及 Python 中处理数值数据的神器:NumPy. 在完成了本部分 ...
文本数据分析——主题提取+词向量化
使用Python 进行简单文本类数据分析,包括: 1. 分词 2. 生成语料库,tfidf加权 3. lda主题提取模型 4. 词向量化word2vec 参考: http://zhuanlan.zhi ...
ik分词和jieba分词哪个好_Python 中文文本分析实战：jieba分词+自定义词典补充+停用词词库补充+词频统计...
最近项目需要,实现文本的词频分析,折腾了几天才完成任务,有点成就感,最后整理总结一下这部分的内容,希望更多同僚受益. 一.使用前准备环境:Python3.6 安装结巴:pip install ji ...
axure9数据统计插件_数据分析太棘手？常用8大统计软件解决难题！
在数据分析工作中我们常常需要处理大量的统计问题,这个时候就迫切的需要一个适合统计分析工具,今天小编就给大家介绍八个我们常用的统计分析软件,并且详细介绍各自的特点以及适用的专业,方面大家从中选择一个切合 ...
nba球员数据分析和可视化_可视化NBA球员统计
nba球员数据分析和可视化 I haven't written a post in a while. I had a lot to do for university and my hobbies l ...

数据分析词数统计和词的重要程度统计

数据分析词数统计和词的重要程度统计相关推荐

最新文章

热门文章