1.中软国际华南区技术总监曾老师还会来上两次课,同学们希望曾老师讲些什么内容?(认真想一想回答)

希望老师能讲讲更多关于python的知识,并且讲讲大数据的的另一些方向

2.中文分词

a。下载一中文长篇小说,并转换成UTF-8编码。

b.使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。

import jieba
ff=open('wdqk.txt','r',encoding='utf-8')
wdqk=ff.read()
for i in ',.""?!,。?!“”\n':wdqk=wdqk.replace(i,' ')
wdqk=list(jieba.cut(wdqk))
zd={}
paichu={'我','的','心','好','冷','在','有','了','浩','然',}
key=set(wdqk)-paichu
for i in key:zd[i]=wdqk.count(i)
lb=list(zd.items())
lb.sort(key=lambda x:x[1],reverse=True)
print('频率最高top10:\n')
for i in range(10):print(lb[i])
ff.close()

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 0.723 seconds.
Prefix dict has been built succesfully.
我            575
的          413
心 375
好 286
冷 251
在          198
有          155
了          135
浩          124
然          113

转载于:https://www.cnblogs.com/hzlhzl/p/7592940.html

中文词频统计及词云制作相关推荐

  1. +中文词频统计及词云制作9-25

    1.我希望老师能讲一点python在数据挖掘,数据分析领域的应用,最好能举些实例,或者说带我们实际操作一波. 2.中文分词 下载一中文长篇小说,并转换成UTF-8编码 使用jieba库,进行中文词频统 ...

  2. 中文词频统计与词云生成

    本次作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822 中文词频统计 1. 下载一长篇中文小说. 2. 从文件读取 ...

  3. 统计csv词频_中文词频统计与词云生成

    一.中文词频统计 1. 下载一长篇中文小说. 2. 从文件读取待分析文本. 3. 安装并使用jieba进行中文分词. pip install jieba import jieba jieba.lcut ...

  4. python词频统计完整步骤_Python中文文本分词、词频统计、词云绘制

    本文主要从中文文本分词.词频统计.词云绘制方面介绍Python中文文本分词的使用.会使用到的中文文本处理包包括:wordcloud,jieba,re(正则表达式),collections. 1 准备工 ...

  5. 【实战】词频统计及词云图制作

    写在开头 最近对词云有些兴趣,就自己瞎琢磨研究一些这方面的知识,期间也遇到一些小问题,写下此篇文章留作备注吧. 研究对象 金庸老先生的<天龙八部> 正式开始(微笑脸) 统计字频 (1)先统 ...

  6. 【文本挖掘】——词频统计、词云绘制与美化+[微微一笑很倾城]实战

    词频统计.词云+实战 一.词频统计: 1.基本概念及原理 2.词频统计方法 二.词云 1.词云绘制工具: 2.python词云绘制--Wordcloud 三.基于分词频数绘制词云 1.利用词频绘制词云 ...

  7. 爱奇艺评论爬虫、词频统计、词云、PaddleHub内容审核

    需求 第一步:爱奇艺<青春有你2>评论数据爬取(参考链接:https://www.iqiyi.com/v_19ryfkiv8w.html#curid=15068699100_9f9bab7 ...

  8. python词频统计 生成词云

    博客简介 本篇博客介绍2个第三方库,中文分词库jieba和词云库WordCloud,我们将完成三个例子: 统计英文词汇频率 统计中文文本词汇频率使用jieba库 生成词云 在正式开始之前,我们先安装两 ...

  9. 词云制作与词性统计——采用爬取的歌曲评论数据

    文章目录 前言 一.评论数据清洗整理 二.词云与词性统计 1.词云制作 2. 词性统计 3. 词云与词性部分的全部代码 三.selenium评论获取部分 总结 前言 python课实验, 将爬取到QQ ...

最新文章

  1. 最新EOS合约教程,从系统到环境,从创建到部署,从前端到后台,Dapp开发
  2. ICML 2018大奖出炉:伯克利、MIT获最佳论文,复旦大学榜上有名
  3. iOS学习笔记11-多线程入门
  4. n个点组成多少个三角形Java,农田开发 NOJ (已知N个点选取3个求最大三角形面积问题)...
  5. Longest Palindrome CodeForces - 1304B(思维)
  6. Git(11)-cherry-pick、reset、rebase
  7. 获取两个时间之间的间隔_花了两天,终于把 Python 的时间转化给整明白了(超多图解)...
  8. redis依赖包_092-Redis集群、JedisCluster
  9. 计算机毕设(附源码)JAVA-SSM基于的网上拍卖系统
  10. 沧小海基于xilinx srio核的学习笔记之第三章 xilinx srio核介绍(二)HELLO格式和流控
  11. 计算机添加pdf打印机驱动,给win7系统电脑安装PDF虚拟打印机的详细教程
  12. 汇编:根据段大小计算偏移地址
  13. 张学孟 (帮别人名字作诗)
  14. MAC QQ聊天记录迁移
  15. Python-Pandas-Excel/CSV 数据处理大全整理 (二)
  16. Java文件压缩加密
  17. 负载均衡性能参数如何测评?
  18. python---Web前端HTML(超文本标记语言)
  19. 三星2022款 The Frame 画壁电视 评测
  20. Linux 指令学习之ping

热门文章

  1. python 画几何图形
  2. CentOS8 PHP环境搭建
  3. 一分钟教会您使用Yolov5训练自己的数据集并测试
  4. 在mysql中通配符_mysql查询中通配符的使用
  5. thinkphp6+腾讯云
  6. 基于Android的校园闲置物品交易平台的设计与实现(二手交易平台)
  7. oracle 审计drop单张表,sysaux表空间中,审计信息表aud$过大清理实例
  8. c语言百变图形,大班特色:《百变图形》
  9. pixhawk入门指南
  10. Visual.C#.2010从入门到精通].(Visual.C#.2010.Step.By.Step)读书笔记 属性、字段(十四)