老铁们,我们Python的深度学习开始了,第一篇正式的文章就是数据处理和可视化,我们开始吧!

数据处理与可视化

  • 一、NumPy的初步使用
  • 二、Matplotlib包的使用--图形化数据处理
  • 三、深度学习理论方法--相似度计算(可以跳过)
    • 1、基于欧几里得距离的相似度计算
    • 2、基于余弦角度的相似度计算
  • 四、数据统计的可视化展示(以我们亳州市降水为例)
    • 数据的四分位

一、NumPy的初步使用

表格是数据的一般表示形式,但对于机器来说是不可理解的,也就是无法辨识的数据,所以我们需要对表格的形式进行调整。
常用的机器学习表示形式为数据矩阵。

我们观察这个表格,发现,矩阵中的属性有两种,一种是数值型,一种是布尔型。那么我们现在就建立模型描述这个表格:

#  数据的矩阵化
import numpy as np
data = np.mat([[1,200,105,3,False],[2,165,80,2,False],[3,184.5,120,2,False],[4,116,70.8,1,False],[5,270,150,4,True]])
row = 0
for line in data:row += 1
print( row )
print(data.size)
print(data)

这里第一行代码的意思就是引入NumPy将其重命名为np。第二行我们使用NumPy中的mat()方法建立一个数据矩阵,row是引入的计算行数的变量。
这里的size意思就是5*5的一个表格,直接打印data就可以看到数据了:

二、Matplotlib包的使用–图形化数据处理

我们还是看最上面的表格,第二列是房价的差异,我们想直观的看出差别是不容易的(因为只有数字),所以我们希望能够把它画出来(研究数值差异和异常的方法就是绘制数据的分布程度):

import numpy as np
import scipy.stats as stats
import pylab
data =  np.mat([[1,200,105,3,False],[2,165,80,2,False],[3,184.5,120,2,False],[4,116,70.8,1,False],[5,270,150,4,True]])
coll = []
for row in data:coll.append(row[0,1])stats.probplot(coll,plot=pylab)
pylab.show()

这个代码的结果就是生成一个图:

这样我们就能清晰的看出来差异了。

一个坐标图的要求,就是通过不同的行和列表现出数据的具体值。
当然,坐标图我们一样可以展示:

三、深度学习理论方法–相似度计算(可以跳过)

相似度的计算方法有很多,我们选用最常用的两种,即欧几里得相似度和余弦相似度计算。

1、基于欧几里得距离的相似度计算

欧几里得距离,用来表示三维空间中两个点的真实距离。公式我们其实都知道,只是名字听的少:

那么我们来看一看它的实际应用:
这个表格是3个用户对物品的打分:

d12表示用户1和用户2的相似度,那么就有:

同理,d13:

可见,用户2更加相似于用户1(距离越小,相似度越大)。

2、基于余弦角度的相似度计算

余弦角度的计算出发点是夹角的不同。


可见相对于用户3,用户2与用户1更为相似(两个目标越相似,其线段形成的夹角越小)

四、数据统计的可视化展示(以我们亳州市降水为例)

数据的四分位

四分位数,是统计学中分位数的一种,也就是把数据由小到大排列,之后分成四等份,处于三个分割点位置的数据,就是四分位数。
第一四分位数(Q1),也称下四分位数
第二四分位数(Q1),也称中位数
第三四分位数(Q1),也称下四分位数

第三四分位数与第一四分位数的差距又称为四分差距(IQR)。

若n为项数,则:
Q1的位置 = (n+1)*0.25
Q2的位置 = (n+1)*0.50
Q3的位置 = (n+1)*0.75

四分位示例:
关于这个rain.csv,有需要的可以私我要文件,我使用的是亳州市2010-2019年的月份降水情况。

from pylab import *
import pandas as pd
import matplotlib.pyplot as plot
filepath = ("C:\\Users\\AWAITXM\\Desktop\\rain.csv")
# "C:\Users\AWAITXM\Desktop\rain.csv"
dataFile = pd.read_csv(filepath)
summary = dataFile.describe()
print(summary)array = dataFile.iloc[:,:].values
boxplot(array)
plot.xlabel("year")
plot.ylabel("rain")
show()

以下是plot运行结果:

这个是pandas的运行

这里就可以很清晰的看出来数据的波动范围。
可以看出,不同月份的降水量有很大差距,8月最多,1-4月和10-12月最少。

那么每月的降水增减程度如何比较?

from pylab import *
import pandas as pd
import matplotlib.pyplot as plot
filepath = ("C:\\Users\\AWAITXM\\Desktop\\rain.csv")
# "C:\Users\AWAITXM\Desktop\rain.csv"
dataFile = pd.read_csv(filepath)
summary = dataFile.describe()
minRings = -1
maxRings = 99
nrows = 11
for i in range(nrows):dataRow = dataFile.iloc[i,1:13]labelColor = ( (dataFile.iloc[i,12] - minRings ) / (maxRings - minRings) )dataRow.plot(color = plot.cm.RdYlBu(labelColor),alpha = 0.5)
plot.xlabel("Attribute")
plot.ylabel(("Score"))
show()

结果如图:

可以看出来降水月份并不规律的上涨或下跌。

那么每月降水是否相关?

from pylab import *
import pandas as pd
import matplotlib.pyplot as plot
filepath = ("C:\\Users\\AWAITXM\\Desktop\\rain.csv")
# "C:\Users\AWAITXM\Desktop\rain.csv"
dataFile = pd.read_csv(filepath)
summary = dataFile.describe()
corMat = pd.DataFrame(dataFile.iloc[1:20,1:20].corr())
plot.pcolor(corMat)
plot.show()

结果如图:

可以看出,颜色分布十分均匀,表示没有多大的相关性,因此可以认为每月的降水是独立行为。

今天就记录到这里了,我们下次再见!希望本文章对你也有所帮助。

Python深度学习:Python数据处理及可视化(读书笔记)相关推荐

  1. 《Python深度学习》第四章读书笔记

    第四章 机器学习基础 本章重点:处理机器学习问题的通用工作流程: 定义问题与要训练的数据. 收集这些数据,有需要的话用标签来标注数据. 选择衡量问题成功的指标. 你要在验证数据上监控哪些指标? 确定评 ...

  2. Python 深度学习目标检测结果可视化

    深度学习目标检测的标签数据是以一系列点的形式存储在文件中,输出结果也是以点的形式表示,难以进行目视判读.本代码可以根据检测结果在原始影像上绘制边界框,实现检测结果的可视化. 在OBB的目标检测中,DO ...

  3. 【深度学习】ImageDataGenerator的使用--读书笔记

    以下内容来自:<Deep Learning with Python>阅读笔记,加入了部分自己的理解和解读,阅读时本书为英文版,行文逻辑也按照书本结构展开. VIP only now. 数据 ...

  4. 《Python深度学习》第五章-5(可视化过滤器)读书笔记

    5.4 卷积神经网络的可视化 卷积神经网络学到的表示非常适合可视化,很大程度上是因为它们是视觉概念的表示\color{red}视觉概念的表示视觉概念的表示.接下来介绍3种可视化方法. 事中\color ...

  5. 《Python 深度学习》刷书笔记 Chapter 5 Part-4 卷积神经网络的可视化(Fillter)

    文章目录 可视化卷积神经网络 2-25 读入模组 5-26 观察图像 观察卷积层特征提取 5-27 建立多输出模型观察输出 5-28 显示图像 5-29 打印全部的识别图 5-32 为过滤器的可视化定 ...

  6. python书籍读后感_《Python深度学习》读书记录

    提前声明:以下内容是本人读<Python深度学习>的个人笔记 第一部分:基础 数据存储在多维 Numpy 数组中,也叫张量(tensor) 仅包含一个数字的张量叫作标量(scalar,也叫 ...

  7. Python深度学习实例--基于卷积神经网络的小型数据处理(猫狗分类)

    Python深度学习实例--基于卷积神经网络的小型数据处理(猫狗分类) 1.卷积神经网络 1.1卷积神经网络简介 1.2卷积运算 1.3 深度学习与小数据问题的相关性 2.下载数据 2.1下载原始数据 ...

  8. 《Python深度学习从零开始学》简介

    #好书推荐##好书奇遇季#深度学习入门书<Python深度学习从零开始学>,京东当当天猫都有发售.从模型和实验入手,快速掌握深度学习技术. 业内大咖强力推荐!!!武汉大学信息管理学院教授 ...

  9. Python 深度学习

    Pytorch 一 .深度学习概览 1.工具篇 2.流程介绍 3.基础知识(常用操作) 1.数据结构类型 4.常见名词概念 二.深度学习Pytorch 1.神经网络 1.1 如何构建神经网络 1.2 ...

  10. Python深度学习篇

    Python深度学习篇一<什么是深度学习> Excerpt 在过去的几年里,人工智能(AI)一直是媒体大肆炒作的热点话题.机器学习.深度学习 和人工智能都出现在不计其数的文章中,而这些文章 ...

最新文章

  1. php fetchassoc 跨表,php-mysqli_fetch_assoc-如果同时更改数据会怎样?
  2. Vue相关面试题及答案分享
  3. IQ数据简介:I/Q Data
  4. JadClipse反编译工具在Eclipse中的安装
  5. Python学习入门基础教程(learning Python)--4.2.3 Python的for实现递归,(0629学习笔记)我研究出来了!...
  6. 火车站(codevs 2287)
  7. 在线SEO外链工具源代码
  8. 进程调度算法C语言实现
  9. OpenShift Origin 疑难杂症
  10. 联想笔记本腾讯会议摄像头灰屏或黑屏问题解决
  11. 纯php实现中秋博饼游戏(2):掷骰子并输出结果
  12. 《华为研发》读书笔记与读后感范文3300字
  13. 入门学习MNIST手写数字识别
  14. 申请澳洲八大,IB成绩多高才有胜算?
  15. 6-5 Approximating Eigenvalues (40分)
  16. awk命令详解(二)
  17. JavaSE 第七章集合 Collection
  18. 【清新的田园女孩杨璐绮☆U☆桌面壁纸】
  19. 波士顿矩阵|原理+Python全流程实现
  20. svn重新定位修改uuid,format提示系统找不到指定文件

热门文章

  1. React Native ActivityIndicator(菊花组件)
  2. unity, 判断可见性
  3. Rails 4.1.0 安装笔记
  4. 九度 1526:朋友圈(并查集)
  5. python截屏截图
  6. TransparentImage、TransparentBlt - [Daliy APIs]
  7. IE6丢失COOKIE的问题,令人郁闷的P3P协议
  8. ae合成复制脚本_【脚本】AE脚本精选系列 | 合成复制脚本 True Comp Duplicator v3.9.7...
  9. face_recognition初始
  10. Debugging a Create React App with VS Code