1、词数统计代码

#-*-coding:utf-8-*-
import  pandas  as  pd
import   numpy  as  np
import jieba
from  sklearn.feature_extraction.text import CountVectorizer
#自己构建文章
content=['This i is the first document.', 'This is the second second document.', 'And the third one.', 'Is this the first document? i x y','i']
#content=['今天阳光真好','我要去看北京天安  门','逛完天安门之后我要去王府井','']
#进行中文分词
content_list=[]
for  tmp  in  content:#使用精确模式res=jieba.cut(tmp,cut_all=False)res_str=','.join(res)content_list.append(res_str)
#1、构建实例
con_vet=CountVectorizer()
#2、进行提取词语
#对于英文来说会按照空格分词
#认为单个的字符的词对于我们的文章分类没有影响,所以不拿出来
X=con_vet.fit_transform(content)
#获取提取到的词语
names=con_vet.get_feature_names()
print(names)
print(X)
print(X.toarray())

2、词的重要程度统计代码

#-*-coding:utf-8-*-
from   sklearn.feature_extraction.text import TfidfVectorizer
import jieba
#自己构建文章
#content=['This i is the first document.', 'This is the second second document.', 'And the third one.', 'Is this the first document? i x y','i']
content=['今天阳光真好','我要去看北京天安  门','逛完天安门之后我要去王府井','']
#进行中文分词
content_list=[]
for  tmp  in  content:#使用精确模式res=jieba.cut(tmp,cut_all=False)res_str=','.join(res)content_list.append(res_str)
#1、构建实例
#min_df=1#设置分词的时候,词必须至少出现一次
#stop_words===停用词
tf_vec=TfidfVectorizer(stop_words=['之后','今天'])
#2、统计词的重要程度
X=tf_vec.fit_transform(content_list)
#获取分词结果
names=tf_vec.get_feature_names()
print(names)
print(X.toarray())

数据分析词数统计和词的重要程度统计相关推荐

  1. 《图像处理实例》 之 疏密程度统计

    疏密程度统计 以下的改进是http://www.imagepy.org/的作者原创,我只是对其理解之后改进和说明,欢迎大家使用这个小软件! 如有朋友需要源工程,请在评论处留邮箱! 说明: 此方法是大佬 ...

  2. 自助式数据分析平台:jvs数据智仓-统计报表的使用条件及界面介绍

    统计报表界面介绍 统计报表是指利用表格和报表等形式,将数据以清晰的结构和布局的方式呈现出来,以便用户进行数据分析和决策制定的一种BI统计方法.表格式的BI统计通常采用交叉表格.分组表.报表等形式,对数 ...

  3. 零基础学习数据分析路线,学习到什么程度可以找到工作

    一.数据分析学习到什么程度可以找工作? 这个问题要看你准备面试的公司,具体情况差异较大.所以我只能从自身真实经验中总结一些建议,给出一些最基础的知识结构,供楼主参考. 首先,我觉得优秀的数据分析师应该 ...

  4. 数据分析的重要一环之数据统计

    转载:http://www.baobaoshequ.com/article/4536 不管是业绩总量,还是各学历的员工人数,都需要我们从明细数据中进行统计.计算.因此,数据统计的过程即对明细数据进行各 ...

  5. Python数据分析高薪实战第八天 数据计算统计与分析

    17 如何快速实现数据的批量计算? 接下来我们会进入一个全新的模块:数值类数据分析.在这个部分,我们会学习数据分析中常用的数学方法以及 Python 中处理数值数据的神器:NumPy. 在完成了本部分 ...

  6. 文本数据分析——主题提取+词向量化

    使用Python 进行简单文本类数据分析,包括: 1. 分词 2. 生成语料库,tfidf加权 3. lda主题提取模型 4. 词向量化word2vec 参考: http://zhuanlan.zhi ...

  7. ik分词和jieba分词哪个好_Python 中文 文本分析 实战:jieba分词+自定义词典补充+停用词词库补充+词频统计...

    最近项目需要,实现文本的词频分析,折腾了几天才完成任务,有点成就感,最后整理总结一下这部分的内容,希望更多同僚受益. 一.使用前准备 环境:Python3.6 安装结巴:pip install ji ...

  8. axure9数据统计插件_数据分析太棘手?常用8大统计软件解决难题!

    在数据分析工作中我们常常需要处理大量的统计问题,这个时候就迫切的需要一个适合统计分析工具,今天小编就给大家介绍八个我们常用的统计分析软件,并且详细介绍各自的特点以及适用的专业,方面大家从中选择一个切合 ...

  9. nba球员数据分析和可视化_可视化NBA球员统计

    nba球员数据分析和可视化 I haven't written a post in a while. I had a lot to do for university and my hobbies l ...

最新文章

  1. Android移动开发之【Android实战项目】DAY2-使用Fragment实现底部菜单栏
  2. python画圆简单代码-Python画直线 画圆 画矩形代码
  3. 什么场景应该用 MongoDB ?
  4. Raevo最近疯狂迷上了WP
  5. Android 自定义对话框
  6. Linux 指令的分类 (man page 可查看)
  7. php使用blob加密视频,javascript实现blob加密视频源地址的方法
  8. 怎样修改安卓位置服务器,修改安卓定位服务器地址
  9. 见微知著:语义分割中的弱监督学习
  10. C# 按块选择 autoCAD二次开发
  11. 中国各省省会城市及简称
  12. 文本数据挖掘之文本信息抽取
  13. 基础的数组/链表实现的队列
  14. 抽奖功能java开发_基于Java实现抽奖系统
  15. 程序员锻炼宽广的胸怀
  16. vmware虚拟化故障虚拟磁盘丢失恢复办法
  17. source insight使用方法简介
  18. 从全拼音中得到汉字拼音
  19. MySQL学习(十六):数据类型之日期与时间类型
  20. 字节跳动最爱考的前端面试题:Node.js 基础

热门文章

  1. 左神算法:用栈来求解限制后的汉诺塔问题(Java版)
  2. C语言 2048小游戏
  3. visio任意区域填充斜线阴影_DX12渲染管线(6) - 级联阴影与距离场阴影
  4. 电子病历系统厂家排名_指挥大厅音响系统方案,会议话筒厂家-麦纳电子科技
  5. druid监控配置及sql注入防火墙配置
  6. 世界上根本没有正确的选择
  7. Codeup墓地-问题 B: 算法7-16:弗洛伊德最短路径算法
  8. 剑指 Offer 34. 二叉树中和为某一值的路径【附完整可运行代码】
  9. 【最简便解法】1069 微博转发抽奖 (20分)
  10. Web前端开发笔记——第三章 CSS语言 第六节 CSS定位