一维数据的格式化和处理

数据组织的维度

一维数据的表示

一维数据的存储

一维数据的处理

维度:一组数据的组织形式

二维数据
由多个一维数据构成,是一维数据的组合形式

例如:表格,是典型的二位数据

多维数据

由一维或二维数据在新维度上扩展形成

高维数据

利用最基本的二元关系展示数据间的复杂结构

数据的操作周期

存储<>表示<>操作

=============一维数据的表示===========

如果数据间有序,使用列表类型

ls = [3.1398,3.1349,3.1376]

列表类型可以表达一维有序数据

for循环可以遍历数据,进而对每个数据进行处理

如果是数据间无序:使用集合类型

st = {3.1398,3.1349,3.1376}

集合类型可以表达一维无序数据

for循环可以遍历数据,进而对每个数据进行处理

=============一维数据的存储===========

存储方式一:空格分隔

中国 美国 日本 德国 法国 英国 意大利

-使用一个或多个空格分隔进行存储,不换行

-缺点:数据中不能存在空格

存储方式二:逗号分隔

中国,美国,日本,德国,法国,英国,意大

-使用英文半角逗号分隔数据进行存储,不换行

-缺点:数据中不能由英文逗号

存储方式三:其他方式

中国¥美国¥日本¥德国¥法国¥英国¥意大

-使用其他符号或符号组合分隔,建议采用特殊符号

-符号:需要根据数据特点定义,通用性较差

读取文件的方式

f = open('data2.txt',encoding = 'UTF-8')
txt = f.read()
ls = txt.split()#根据空格分隔字符串中的信息,将每个元素转换为列表
print(ls)#['中国', '美国', '日本', '德国', '法国', '英国', '意大利']
f.close()
f = open('data2.txt',encoding = 'UTF-8')
txt = f.read()
ls = txt.split('$')#根据特殊符号分隔字符串中的信息,将每个元素转换为列表
print(ls)#['中国', '美国', '日本', '德国', '法国', '英国', '意大利']
f.close()

写入文件的方式

#空格写入
ls = ['中国','美国','日本']
f = open('data2.txt','w',encoding = 'UTF-8')#文件打开中w表示不存在创建,存在覆盖写模式
f.write(' '.join(ls))#join():将前面的字符'空格'放到后边的join参数中
f.close()'''
#特殊符号写入
ls = ['中国','美国','日本']
f = open('data2.txt','w',encoding = 'UTF-8')#文件打开中w表示不存在创建,存在覆盖写模式
f.write('$'.join(ls))#join():将前面的字符'空格'放到后边的join参数中
f.close()
'''

数据维度:一维,二维,多维,高维

一维数据表示:列表类型(有序)和集合类型(无序)

一维数据的存储:空格分隔,逗号分隔,特殊符号分隔

一维数据的处理:字符串方法,.split()和.join()

======================二维数据格式处理========================

二维数据的表示

二维数据是表格形式

使用列表类型可以表达二维数据

[ [3.1,3.2,3.3] ,[3.44,3.55,1.2] ]

使用两层for循环遍历元素

外层列表中每个元素可以对应一行,也可以对应一列

CSV数据存储格式

CSV:Comma-Separated Values :指的是由逗号分开的值

国际通用的一二维数据存储格式,一般.csv扩展名

每行一个一维数据,采用逗号分隔,无空行

Excel和一般的编辑软件都可以读入或者另存为csv文件

csv格式是数据转换的标准格式

如果某个元素缺失,逗号仍要保留

二维数据的存储

按行存或按列存都可以,由程序决定

一般索引习惯:ls[row][column],先行后列

#将数据写入csv格式的文件
ls = [['1','2','3'],['3','2','1'],['4','5','6']]
f = open('clwj.csv','w')
for item in ls:f.write(','.join(item)+'\n')f.close()
#读取csv格式文件fo = open('clwj.csv')
ls = []
for line in fo :line = line.replace('\n','')ls.append(line.split(','))
print (ls)
#循环打印出每个元素
for row in ls:for column in row:print(column)fo.close()

====================wordcloud库=============================

是优秀的词云展示第三方库

词云以词语为基本单位,更加直观和艺术的展示文本

词云安装(cmd命令行):pip install wordcloud

wordcloud 使用

把词云当作一个WordCloud对象

wordcloud.WordCloud()代表一个文本对应的词云

可以根据文本中的词语出现的频率等参数绘制词云

绘制词云的形状,尺寸和颜色等都可以设定

w = wordcloud.WordCloud()

以WordCloud对象为基础

配置参数,加载文本,输出文件

w.generate(txt)    向WordCloud对象w中加载文本txt

w.to_file(filename) 将词云输出为图像文件,png或jpg文件

from wordcloud import wordcloud  #引入
c = wordcloud.WordCloud()
c.generate("pywordcloud")
c.to_file("pywordcloud.png")

(注意:保存的.py文件名不能和库名一致,会导致循环引入报错,.to_file(),函数里的文件名必须跟扩展名,否则会报错)

w = wordcloud.WordCloud(<参数>)

width         指定词云对象生成图片的宽度,默认400像素

>>>w = wordcloud.WordCloud(width = 600)

height        指定词云对象生成图片的高度,默认200像素

>>>w = wordcloud.WordCloud(height = 400)

min_font_size   指定词云中字体的最小字号,默认4号

>>>w = wordcloud.WordCloud(min_font_size = 10)

max_font_size  指定词云中字体的最大字号,根据高度自动调节

>>>w = wordcloud.WordCloud(max_fon_size = 20)

font_step           指定词云中字体字号的步进间隔,默认1

>>>w = wordcloud.WordCloud(font_step=2)

font_path           指定字体文件路径,默认None

>>>w = wordcloud.WordCloud(font_path='msyt.ttc')

max_words       指定词云显示最大单词数量,默认200

>>>w = wordcloud.WordCloud(max_words)

stop_words      指定词云的排除词列表,既不显示的单词列表

>>>w = wordcloud.WordCloud(stop_words={'Python','hello'})

mask             指定词云形状,默认长方形,需要引用imread()函数

>>>from scipy.misc import imread

>>>mk  = imread('pic.png')

>>>w = wordcloud.WordCloud(mask = mk)

background_color   指定词云图片的背景颜色,默认黑色

>>>w = wordcloud.WordCloud(background_color='white')

import jieba    #中文分词库
import worcloud
txt = '世间的路有很多很多,不同的路指向不同的方向,有的指向繁花似锦的东方明珠,\
有的指向绵延人迹得塔克拉玛干沙漠。有些路车水马龙,有些路万径人踪灭,\
千山鸟飞绝如图,没有绝对的真理,没有绝对的阳光大道,我始终相信,\
一帆风顺只是美好的愿望,坎坷曲折才能展示人生的精彩。'
#设置词云宽度,字体,高度
w = wordcloud.WordCloud (width = 1000,font_path = 'msyh.ttc',height = 700)w.generate(' ',join(jieba.lcut(txt))) #利用jieba.lcut()分词,然后用.join添加空格,加入到对象中
w.to_file('pywcloud.png')  #输出到图片
import jieba    #中文分词库
import wordcloud
import imageio
mask = imageio.imread('wujiaoxin.png') #应用自定义形状的图片
txt = '世间的路有很多很多,不同的路指向不同的方向,有的指向繁花似锦的东方明珠,\
有的指向绵延人迹得塔克拉玛干沙漠。有些路车水马龙,有些路万径人踪灭,\
千山鸟飞绝如图,没有绝对的真理,没有绝对的阳光大道,我始终相信,\
一帆风顺只是美好的愿望,坎坷曲折才能展示人生的精彩。'
#设置词云宽度,字体,高度
w = wordcloud.WordCloud (width = 1000,font_path = 'msyh.ttc',height = 700\,mask = mask \   #添加自定义形状,max_words = 15\  #指定最大单词数量15,background_color='white') #设置背景颜色白色w.generate(' '.join(jieba.lcut(txt))) #利用jieba.lcut()分词,然后用.join添加空格,加入到对象中
w.to_file('pywcloud.png')  #输出到图片

20220926-(第七周)-数据的处理和wordcloud库相关推荐

  1. 《七周数据分析师》总结

    <七周数据分析师>总结 第一周:数据分析思维 1.核心数据分析思维 结构化 公式化 业务化 2.数据分析思维七大技巧 象限法 多维法 假设法 指数法 80/20法则(帕累托法则) 对比法 ...

  2. 《七周数据分析师》-万字总结

    <七周数据分析师>总结 本文是通过对秦路的课程七周成为数据分析师进行整体总结与补充. 可以通过本文,对数据分析师这个职业有个基本的了解 课程详细资料请自行查询. 第一周:数据分析思维 1. ...

  3. R语言机器学习mlr3:数据预处理和pipelines

    获取更多R语言和生信知识,请欢迎关注公众号:医学和生信笔记 医学和生信笔记 公众号主要分享:1.医学小知识.肛肠科小知识:2.R语言和Python相关的数据分析.可视化.机器学习等:3.生物信息学学习 ...

  4. Python数据预处理和PCA、ICA、LDA降维的方法(实验代码)

    目录 1.标准差标准化 数据预处理--标准差标准化 数据预处理--离差标准化 数据预处理--非线性转换 数据预处理--归一化 数据预处理--二值化 数据预处理--独热编码 数据预处理--缺失值的插补 ...

  5. 数据结构上机实践第七周项目2 - 自建算法库——链队(链式队列)

    自建算法库--链队(链式队列) 实现源代码如下: 1.liqueue.h /* copyright (t) 2016,烟台大学计算机学院 *All rights reserved. *文件工程名称:1 ...

  6. 数据结构上机实践第七周项目1 - 自建算法库——顺序环形队列

    自建算法库--顺序环形队列 本次实践将建立顺序环形队列的算法库,用于之后的工程中 实现源代码如下: 1.squeue.h /* copyright (t) 2017,烟台大学计算机学院 *All ri ...

  7. 转:《七周成为数据分析师》总结

    本文转自: https://blog.csdn.net/weixin_39722361/article/details/79522111 个人公众号:数据路 知乎:无小意. 百日计划第一周总结 1. ...

  8. 如何成为python 数据分析师_如何七周成为数据分析师20:了解和掌握Python的函数...

    本文是<如何七周成为数据分析师>的第二十教程,如果想要了解写作初衷,可以先行阅读七周指南.温馨提示:如果您已经熟悉Python,大可不必再看这篇文章,或只挑选部分. Python之所以灵活 ...

  9. python数据分析要学多久_如何七周成为数据分析师18:Python的新手教程

    本文是<如何七周成为数据分析师>的第十八篇教程,如果想要了解写作初衷,可以先行阅读七周指南.温馨提示:如果您已经熟悉Python,大可不必再看这篇文章,或只挑选部分. Python是近年来 ...

最新文章

  1. 化学专业计算机课程设计,分析化学专业课程设计.doc
  2. [改善Java代码]不使用stop方法停止线程
  3. HALCON示例程序classify_image_class_knn.hdev使用KNN分类器对多通道图像进行分割
  4. 逻辑回归实现多分类任务(python+TensorFlow+mnist)
  5. c语言的各种类型的指针,简单总结C语言中各种类型的指针的概念
  6. matlab解微分方程组_MATLAB编程入门 求解常微分方程 通解 特解 数值解
  7. R语言生信作图代码集合大全
  8. jmeter监控内存,CPU等方法
  9. python3爬虫必学Xpath,快速使用lxml.etree
  10. 高等代数-三-消元法
  11. USB设备仿真框架设计指南——6.DSF核心模拟器
  12. office 2016 word文档另存为pdf之后文本内容显示不全
  13. MySQL生成测试数据相关脚本(持续更新)
  14. 把多个EXCEL文件汇总到一个EXCEL中
  15. STL 常用容器的底层数据结构实现
  16. Unity VFX粒子系统入门笔记-2-制作简易火焰特效
  17. 医咖会R语言学习笔记——如何安装工具包
  18. TCO2016 R1B
  19. 《AcFun 的视频架构演化实践》读后感
  20. 基于Qt、FFMpeg的音视频播放器设计一

热门文章

  1. STM32CubeMX在freeRTOS中使用printf函数
  2. APP rem line-hight不居中
  3. C# invoke 和 begininvoke 用法
  4. 劳特巴赫trace32安装和使用
  5. 我用Python纪念了那些被烂片收割的智商税
  6. Presto读取Parquet文件的流程
  7. netty入门demo;心跳检测后自动关闭通道
  8. 【JAVA菜鸟碎碎念】问号表达式
  9. 蛮力法求解最大连续子序列和问题
  10. C语言位图图像文件缩放(西电C程序作业3)