20220926-(第七周)-数据的处理和wordcloud库
一维数据的格式化和处理
数据组织的维度
一维数据的表示
一维数据的存储
一维数据的处理
维度:一组数据的组织形式
二维数据
由多个一维数据构成,是一维数据的组合形式
例如:表格,是典型的二位数据
多维数据
由一维或二维数据在新维度上扩展形成
高维数据
利用最基本的二元关系展示数据间的复杂结构
数据的操作周期
存储<>表示<>操作
=============一维数据的表示===========
如果数据间有序,使用列表类型
ls = [3.1398,3.1349,3.1376]
列表类型可以表达一维有序数据
for循环可以遍历数据,进而对每个数据进行处理
如果是数据间无序:使用集合类型
st = {3.1398,3.1349,3.1376}
集合类型可以表达一维无序数据
for循环可以遍历数据,进而对每个数据进行处理
=============一维数据的存储===========
存储方式一:空格分隔
中国 美国 日本 德国 法国 英国 意大利
-使用一个或多个空格分隔进行存储,不换行
-缺点:数据中不能存在空格
存储方式二:逗号分隔
中国,美国,日本,德国,法国,英国,意大
-使用英文半角逗号分隔数据进行存储,不换行
-缺点:数据中不能由英文逗号
存储方式三:其他方式
中国¥美国¥日本¥德国¥法国¥英国¥意大
-使用其他符号或符号组合分隔,建议采用特殊符号
-符号:需要根据数据特点定义,通用性较差
读取文件的方式
f = open('data2.txt',encoding = 'UTF-8')
txt = f.read()
ls = txt.split()#根据空格分隔字符串中的信息,将每个元素转换为列表
print(ls)#['中国', '美国', '日本', '德国', '法国', '英国', '意大利']
f.close()
f = open('data2.txt',encoding = 'UTF-8')
txt = f.read()
ls = txt.split('$')#根据特殊符号分隔字符串中的信息,将每个元素转换为列表
print(ls)#['中国', '美国', '日本', '德国', '法国', '英国', '意大利']
f.close()
写入文件的方式
#空格写入
ls = ['中国','美国','日本']
f = open('data2.txt','w',encoding = 'UTF-8')#文件打开中w表示不存在创建,存在覆盖写模式
f.write(' '.join(ls))#join():将前面的字符'空格'放到后边的join参数中
f.close()'''
#特殊符号写入
ls = ['中国','美国','日本']
f = open('data2.txt','w',encoding = 'UTF-8')#文件打开中w表示不存在创建,存在覆盖写模式
f.write('$'.join(ls))#join():将前面的字符'空格'放到后边的join参数中
f.close()
'''
数据维度:一维,二维,多维,高维
一维数据表示:列表类型(有序)和集合类型(无序)
一维数据的存储:空格分隔,逗号分隔,特殊符号分隔
一维数据的处理:字符串方法,.split()和.join()
======================二维数据格式处理========================
二维数据的表示
二维数据是表格形式
使用列表类型可以表达二维数据
[ [3.1,3.2,3.3] ,[3.44,3.55,1.2] ]
使用两层for循环遍历元素
外层列表中每个元素可以对应一行,也可以对应一列
CSV数据存储格式
CSV:Comma-Separated Values :指的是由逗号分开的值
国际通用的一二维数据存储格式,一般.csv扩展名
每行一个一维数据,采用逗号分隔,无空行
Excel和一般的编辑软件都可以读入或者另存为csv文件
csv格式是数据转换的标准格式
如果某个元素缺失,逗号仍要保留
二维数据的存储
按行存或按列存都可以,由程序决定
一般索引习惯:ls[row][column],先行后列
#将数据写入csv格式的文件
ls = [['1','2','3'],['3','2','1'],['4','5','6']]
f = open('clwj.csv','w')
for item in ls:f.write(','.join(item)+'\n')f.close()
#读取csv格式文件fo = open('clwj.csv')
ls = []
for line in fo :line = line.replace('\n','')ls.append(line.split(','))
print (ls)
#循环打印出每个元素
for row in ls:for column in row:print(column)fo.close()
====================wordcloud库=============================
是优秀的词云展示第三方库
词云以词语为基本单位,更加直观和艺术的展示文本
词云安装(cmd命令行):pip install wordcloud
wordcloud 使用
把词云当作一个WordCloud对象
wordcloud.WordCloud()代表一个文本对应的词云
可以根据文本中的词语出现的频率等参数绘制词云
绘制词云的形状,尺寸和颜色等都可以设定
w = wordcloud.WordCloud()
以WordCloud对象为基础
配置参数,加载文本,输出文件
w.generate(txt) 向WordCloud对象w中加载文本txt
w.to_file(filename) 将词云输出为图像文件,png或jpg文件
from wordcloud import wordcloud #引入
c = wordcloud.WordCloud()
c.generate("pywordcloud")
c.to_file("pywordcloud.png")
(注意:保存的.py文件名不能和库名一致,会导致循环引入报错,.to_file(),函数里的文件名必须跟扩展名,否则会报错)
w = wordcloud.WordCloud(<参数>)
width 指定词云对象生成图片的宽度,默认400像素
>>>w = wordcloud.WordCloud(width = 600)
height 指定词云对象生成图片的高度,默认200像素
>>>w = wordcloud.WordCloud(height = 400)
min_font_size 指定词云中字体的最小字号,默认4号
>>>w = wordcloud.WordCloud(min_font_size = 10)
max_font_size 指定词云中字体的最大字号,根据高度自动调节
>>>w = wordcloud.WordCloud(max_fon_size = 20)
font_step 指定词云中字体字号的步进间隔,默认1
>>>w = wordcloud.WordCloud(font_step=2)
font_path 指定字体文件路径,默认None
>>>w = wordcloud.WordCloud(font_path='msyt.ttc')
max_words 指定词云显示最大单词数量,默认200
>>>w = wordcloud.WordCloud(max_words)
stop_words 指定词云的排除词列表,既不显示的单词列表
>>>w = wordcloud.WordCloud(stop_words={'Python','hello'})
mask 指定词云形状,默认长方形,需要引用imread()函数
>>>from scipy.misc import imread
>>>mk = imread('pic.png')
>>>w = wordcloud.WordCloud(mask = mk)
background_color 指定词云图片的背景颜色,默认黑色
>>>w = wordcloud.WordCloud(background_color='white')
import jieba #中文分词库
import worcloud
txt = '世间的路有很多很多,不同的路指向不同的方向,有的指向繁花似锦的东方明珠,\
有的指向绵延人迹得塔克拉玛干沙漠。有些路车水马龙,有些路万径人踪灭,\
千山鸟飞绝如图,没有绝对的真理,没有绝对的阳光大道,我始终相信,\
一帆风顺只是美好的愿望,坎坷曲折才能展示人生的精彩。'
#设置词云宽度,字体,高度
w = wordcloud.WordCloud (width = 1000,font_path = 'msyh.ttc',height = 700)w.generate(' ',join(jieba.lcut(txt))) #利用jieba.lcut()分词,然后用.join添加空格,加入到对象中
w.to_file('pywcloud.png') #输出到图片
import jieba #中文分词库
import wordcloud
import imageio
mask = imageio.imread('wujiaoxin.png') #应用自定义形状的图片
txt = '世间的路有很多很多,不同的路指向不同的方向,有的指向繁花似锦的东方明珠,\
有的指向绵延人迹得塔克拉玛干沙漠。有些路车水马龙,有些路万径人踪灭,\
千山鸟飞绝如图,没有绝对的真理,没有绝对的阳光大道,我始终相信,\
一帆风顺只是美好的愿望,坎坷曲折才能展示人生的精彩。'
#设置词云宽度,字体,高度
w = wordcloud.WordCloud (width = 1000,font_path = 'msyh.ttc',height = 700\,mask = mask \ #添加自定义形状,max_words = 15\ #指定最大单词数量15,background_color='white') #设置背景颜色白色w.generate(' '.join(jieba.lcut(txt))) #利用jieba.lcut()分词,然后用.join添加空格,加入到对象中
w.to_file('pywcloud.png') #输出到图片
20220926-(第七周)-数据的处理和wordcloud库相关推荐
- 《七周数据分析师》总结
<七周数据分析师>总结 第一周:数据分析思维 1.核心数据分析思维 结构化 公式化 业务化 2.数据分析思维七大技巧 象限法 多维法 假设法 指数法 80/20法则(帕累托法则) 对比法 ...
- 《七周数据分析师》-万字总结
<七周数据分析师>总结 本文是通过对秦路的课程七周成为数据分析师进行整体总结与补充. 可以通过本文,对数据分析师这个职业有个基本的了解 课程详细资料请自行查询. 第一周:数据分析思维 1. ...
- R语言机器学习mlr3:数据预处理和pipelines
获取更多R语言和生信知识,请欢迎关注公众号:医学和生信笔记 医学和生信笔记 公众号主要分享:1.医学小知识.肛肠科小知识:2.R语言和Python相关的数据分析.可视化.机器学习等:3.生物信息学学习 ...
- Python数据预处理和PCA、ICA、LDA降维的方法(实验代码)
目录 1.标准差标准化 数据预处理--标准差标准化 数据预处理--离差标准化 数据预处理--非线性转换 数据预处理--归一化 数据预处理--二值化 数据预处理--独热编码 数据预处理--缺失值的插补 ...
- 数据结构上机实践第七周项目2 - 自建算法库——链队(链式队列)
自建算法库--链队(链式队列) 实现源代码如下: 1.liqueue.h /* copyright (t) 2016,烟台大学计算机学院 *All rights reserved. *文件工程名称:1 ...
- 数据结构上机实践第七周项目1 - 自建算法库——顺序环形队列
自建算法库--顺序环形队列 本次实践将建立顺序环形队列的算法库,用于之后的工程中 实现源代码如下: 1.squeue.h /* copyright (t) 2017,烟台大学计算机学院 *All ri ...
- 转:《七周成为数据分析师》总结
本文转自: https://blog.csdn.net/weixin_39722361/article/details/79522111 个人公众号:数据路 知乎:无小意. 百日计划第一周总结 1. ...
- 如何成为python 数据分析师_如何七周成为数据分析师20:了解和掌握Python的函数...
本文是<如何七周成为数据分析师>的第二十教程,如果想要了解写作初衷,可以先行阅读七周指南.温馨提示:如果您已经熟悉Python,大可不必再看这篇文章,或只挑选部分. Python之所以灵活 ...
- python数据分析要学多久_如何七周成为数据分析师18:Python的新手教程
本文是<如何七周成为数据分析师>的第十八篇教程,如果想要了解写作初衷,可以先行阅读七周指南.温馨提示:如果您已经熟悉Python,大可不必再看这篇文章,或只挑选部分. Python是近年来 ...
最新文章
- 化学专业计算机课程设计,分析化学专业课程设计.doc
- [改善Java代码]不使用stop方法停止线程
- HALCON示例程序classify_image_class_knn.hdev使用KNN分类器对多通道图像进行分割
- 逻辑回归实现多分类任务(python+TensorFlow+mnist)
- c语言的各种类型的指针,简单总结C语言中各种类型的指针的概念
- matlab解微分方程组_MATLAB编程入门 求解常微分方程 通解 特解 数值解
- R语言生信作图代码集合大全
- jmeter监控内存,CPU等方法
- python3爬虫必学Xpath,快速使用lxml.etree
- 高等代数-三-消元法
- USB设备仿真框架设计指南——6.DSF核心模拟器
- office 2016 word文档另存为pdf之后文本内容显示不全
- MySQL生成测试数据相关脚本(持续更新)
- 把多个EXCEL文件汇总到一个EXCEL中
- STL 常用容器的底层数据结构实现
- Unity VFX粒子系统入门笔记-2-制作简易火焰特效
- 医咖会R语言学习笔记——如何安装工具包
- TCO2016 R1B
- 《AcFun 的视频架构演化实践》读后感
- 基于Qt、FFMpeg的音视频播放器设计一