其实在此之前,我是想学机器学习来着,无奈我的那点数据分析知识支撑不起,尤其是在看了李宏毅老师的课,我决定先来做这个专栏吧,本专栏是我根据北理工嵩天老师的慕课,二度总结的内容,你可以收藏把它当作一个遗忘时查询的文档,当然如果你初次接触,它也是一份相当不错的学习资料。很重要的建议就是在pc端查看,效果更好!!

内容导论

  • 数据的维度:一维、二维、多维、高维。
  • ndarry类型属性、创建和变换
  属性         创建            变换
.ndim np.arange(n)  .reshape(shape)
.shape np.ones(shape) .resize(shape)
.size np.zeros(shape) .swapaxes(ax1,ax2)
.dtype np.full(shape,val) .flatten()
.itemsize np.eye(n)
np.ones_like(a)
np.zeros_like(a)
np.full_like(a,val)
  • 数组的索引和切片
  • 数组的运算:一元函数、二元函数

数据的维度

  • 从一个数据到一组数据

比如:3.14是一个数据表达一个含义;3.1404、3.1413、3.1398、3.1401、3.1378、3.1352是一组数据表达一个或多个含义

  • 维度:一组数据的组织形式

接着上面的数据 3.1404、3.1413、3.1398、3.1401、3.1378、3.1352

它有以下组织形式:

"""
1、3.1404,3.1413,3.1398,3.1401,3.1378,3.1352
或是
2、3.1404,3.1413,3.13983.1401,3.1378,3.1352
"""
  • 一维数据 

一维数据由对等关系的有序或无序数据构成,采用线性方式组织。

3.1404,3.1413,3.1398,3.1401,3.1378,3.1352

对应列表、数组和集合等概念。

  • 列表和数组

一组数据的有序结构

区别

数组:数据类型相同

3.1413, 3.1398, 3.1404, 3.1401, 3.1349, 3.1376

列表:数据类型可以不同

3.1413, 'pi', 3.1404, [3.1401, 3.1349], '3.1376'
  • 二维数据

二维数据由多个一维数据构成,是一维数据的组合形式。

表格是典型的二维数据,其中,表头是二维数据的一部分。

  • 多维数据

多维数据由一维或二维数据在新维度上扩展形成

如图,原本的表它看的是二维,但结合不同年度的表格共同看在一起又添加了一个时间维度,所以它是三维的。

  • 高维数据

高维数据仅利用最基本的二元关系展示数据间的复杂结构,如此键值对的方式。

{ “firstName” : “Tian” ,“lastName”  : “Song” , “address”  : { “streetAddr” : “中关村南大街5号” , “city”  : “北京市” , “zipcode”  : “100081” } , “prof”  : [ “Computer System” , “Security” ] }
  • 数据维度的python表示

一维数据:列表和集合类型

[3.1398, 3.1349, 3.1376] 有序

{3.1398, 3.1349, 3.1376} 无序

二维数据:列表类型

多维数据:列表类型

[ [3.1398, 3.1349, 3.1376],  [3.1413, 3.1404, 3.1401] ]

高维数据:字典类型或数据表示格式JSON、XML和YAML格式

dict = { “firstName” : “Tian”, “lastName”  : “Song” }


NumPy的数组对象:ndarray

#####NumPy介绍######

它是一个开源的Python科学计算基础库,包含:

  • 一个强大的N维数组对象 ndarray
  • 广播功能函数 • 整合C/C++/Fortran代码的工具
  • 线性代数、傅里叶变换、随机数生成等功能

NumPy是SciPy、Pandas等数据处理或科学计算库的基础。

我们知道Python已有列表类型,为什么需要一个数组对象(类型)?

在最开始时我也有这样的疑问,其实列表还是很好用的,但它仅仅适合于内容较少的编程。我们来看看这两段代码:

def npSum():a = [0, 1, 2, 3, 4]b = [9, 8, 7, 6, 5]c=[]for i in range(len(a)):c.append(a[i] ** 2 + b[i] ** 3)return cprint(npSum())

数组对象可以去掉元素间运算所需的循环,使一维向量更像单个数据

import numpy as npdef npSum():a=np.array([0,1,2,3,4])b=np.array([9,8,7,6,5])c = a**2 + b**2return c
print(npSum())

它们都会得到:[729, 513, 347, 225, 141]

  1. 设置专门的数组对象,经过优化,可以提升这类应用的运算速度;
  2. 在科学计算中,一个维度所有数据的类型往往相同;
  3. 数组对象采用相同的数据类型,有助于节省运算和存储空间;

ndarray是一个多维数组对象,由两部分构成:

  • 实际的数据
  • 描述这些数据的元数据(数据维度、数据类型等)

ndarray数组一般要求所有元素类型相同,数组下标从0开始。

接下来,我们进入正题:

  • ndarray的运用

In [14]:a=np.array([[0,1,2,3,4],...            [5,6,7,8,9]])
In [15]: a
Out[15]:
array([[0, 1, 2, 3, 4],[5, 6, 7, 8, 9]])
In [16]:print(a)
Out[15]:
[[0 1 2 3 4][5 6 7 8 9]]

np.array()输出成[]形式,元素由空格分割,轴(axis): 保存数据的维度;秩(rank):轴的数量。

  • ndarray对象的属性

     属性                                         说明
.ndim 秩,即轴的数量或维度的数量
.shape ndarray对象的尺度,对于矩阵,n行m列
.size ndarray对象元素的个数,相当于.shape中n*m的值
.dtype ndarray对象的元素类型
.itemsize ndarray对象中每个元素的大小,以字节为单位

In [19]:a=np.array([[0,1,2,3,4],...            [5,6,7,8,9]])
In [20]:a.ndim
Out[20]: 2In [21]:a.shape
Out[21]: (2, 5)In [22]:a.size
Out[22]: 10In [23]:a.dtype
Out[23]: dtype('int32')In [24]:a.itemsize
Out[24]: 4
  • ndarray数组的元素类型 

   数据类型                                    说明(1)
bool 布尔类型,True或False
intc 与C语言中的int类型一致,一般是int32或int64
intp 用于索引的整数,与C语言中ssize_t一致,int32或int64
int8 字节长度的整数,取值:[‐128, 127] 
int16 16位长度的整数,取值:[‐32768, 32767]
int32 32位长度的整数,取值:[‐2**31, 2**31‐1]
int64 64位长度的整数,取值:[‐2**63, 2**63‐1]
   数据类型                                   说明(2)
uint8 8位无符号整数,取值:[0, 255]
uint16 16位无符号整数,取值:[0, 65535]
uint32 32位无符号整数,取值:[0, 2**32‐1]
uint64 64位无符号整数,取值:[0, 2**64‐1]
float16 16位半精度浮点数:1位符号位,5位指数,10位尾数
float32 32位半精度浮点数:1位符号位,8位指数,23位尾数
float64 64位半精度浮点数:1位符号位,11位指数,52位尾数
数据类型                                  说明(3)
complex64 复数类型,实部和虚部都是32位浮点数
complex128 复数类型,实部和虚部都是64位浮点数

如上,ndarray有很多的数据类型。

与Python语法相比,其仅支持整数、浮点数和复数3种类型

  1. 科学计算涉及数据较多,对存储和性能都有较高要求;
  2. 对元素类型精细定义,有助于NumPy合理使用存储空间并优化性能;
  3. 对元素类型精细定义,有助于程序员对程序规模有合理评估;

在这里,我们需要提到非同质的ndarray对象,它无法有效发挥NumPy优势,应当尽量避免使用。

In [27]: x=np.array([[0,1,2,3,4],...:              [5,6,7,8]])...:
In [28]: x.shape
Out[28]: (2,)In [29]: x.dtype
Out[29]: dtype('O')In [30]: x
Out[30]: array([list([0, 1, 2, 3, 4]), list([5, 6, 7, 8])], dtype=object)In [31]: x.itemsize
Out[31]: 8In [32]: x.size
Out[32]: 2
  •  ndarray数组的创建

创建方法:

  • 从Python中的列表、元组等类型创建ndarray数组
  • 使用NumPy中函数创建ndarray数组,如:arange, ones, zeros等
  • 从字节流(raw bytes)中创建ndarray数组
  • 从文件中读取特定格式,创建ndarray数组

(1)  从Python中的列表、元组等类型创建ndarray数组

x = np.array(list/tuple)
#或是
x = np.array(list/tuple,dtype=np.float32)

当np.array()不指定dtype时,NumPy将根据数据情况关联一个dtype类型

(2)  使用NumPy中函数创建ndarray数组,如:arange, ones, zeros等

          函数                                     说明
np.arange(n) 类似range()函数,返回ndarray类型,元素从0到n‐1
np.ones(shape) 根据shape生成一个全1数组,shape是元组类型
np.zeros(shape) 根据shape生成一个全0数组,shape是元组类型
np.full(shape,val) 根据shape生成一个数组,每个元素值都是val
np.eye(n) 创建一个正方的n*n单位矩阵,对角线为1,其余为0
np.ones_like(a) 根据数组a的形状生成一个全1数组
np.zeros_like(b) 根据数组b的形状生成一个全0数组
np.full_like(a,val) 根据数组a的形状生成一个数组,每个元素值都是val

(3)  使用NumPy中其他函数创建ndarray数组

            函数                                  说明
np.linspace() 根据起止数据等间距地填充数据,形成数组
np.concatenate() 将两个或多个数组合并成一个新的数组

在这里,endpoint=False指的是最后一个数10不可取。

  • ndarray数组的变换

对于创建后的ndarray数组,可以对其进行维度变换和元素类型变换。

(1)  ndarray数组的维度变换

            方法                                     说明
.reshape(shape) 不改变数组元素,返回一个shape形状的数组,原数组不变
.resize(shape) 与.reshape()功能一致,但修改原数组
.swapaxes(ax1,ax2) 将数组n个维度中两个维度进行调换
.flatten() 对数组进行降维,返回折叠后的一维数组,原数组不变

(2)  ndarray数组的类型变换

astype()方法一定会创建新的数组(原始数据的一个拷贝),即使两个类型一致。

除此之外,还可以通过ls = a.tolist()方法将ndarray数组向列表的转换


ndarray数组的操作

  • 数组的索引和切片

索引:获取数组中特定位置元素的过程

切片:获取数组元素子集的过程

  • 一维数组的索引和切片:与Python的列表类似

  •  多维数组的索引:

  •  多维数组的切片:

有 “:” 时,我们就把他当作不考虑这个维度。


ndarray数组的运算

  • 数组与标量之间的运算

数组与标量之间的运算作用于数组的每一个元素

  • 一元函数

函数 说明
np.abs(x)  np.fabs(x) 计算数组各元素的绝对值
np.sqrt(x) 计算数组各元素的平方根
np.square(x) 计算数组各元素的平方
np.log(x)  np.log10(x) np.log2(x) 计算数组各元素的自然对数、10底对数和2底对数
np.ceil(x)  np.floor(x) 计算数组各元素的ceiling值或floor值
np.rint(x) 计算数组各元素的四舍五入值
np.modf(x) 将数组各元素的小数和整数部分以两个独立数组形式返回
np.cosh(x)  np.sin(x) np.sinh(x)   np.tan(x) np.tanh(x)   np.exp(x) 计算数组各元素的普通型和双曲型三角函数
np.exp(x) 计算数组各元素的指数值
np.sign(x) 计算数组各元素的符号值,1(+), 0, ‐1(‐)

  • 二元函数

函数 说明
+ ‐* / ** 两个数组各元素进行对应运算

np.maximum(x,y) np.fmax()

np.minimum(x,y)  np.fmin()

元素级的最大值/最小值计算
np.mod(x,y) 元素级的模运算
np.copysign(x,y) 将数组y中各元素值的符号赋值给数组x对应元素
> < >= <= == != 算术比较,产生布尔型数组

对ndarray中的数据执行元素级运算的函数。

数据分析:单元1 NumPy库入门相关推荐

  1. python数据展示库_数据分析与展示——Matplotlib库入门

    Matplotlib库入门 Matplotlib库介绍 Matliotlib库是Python优秀的数据可视化第三方库. Matliotlib库的效果见:http://matplotlib.org/ga ...

  2. $python数据分析基础——初识numpy库

    numpy库是python的一个著名的科学计算库,本文是一个quickstart. 引入:计算BMI BMI = 体重(kg)/身高(m)^2 假如有如下几组体重和身高数据,让求每组数据的BMI值: ...

  3. python数据分析基础之Numpy库详解(一)

    Numpy库基础 安装numpy库 numpy介绍 Numpy数组对象 创建多维数组 获取数组中的元素 Numpy数据类型 数据类型对象 Numpy字符编码 自定义数据类型 dtype类的属性 创建自 ...

  4. Python数据分析与展示 第一章 Numpy库入门

    数据的维度 维度:一组数据的组织形式 一维数据 一维数据由对等关系的有序或无序数据构成,采用线性方式组织 3.1413, 3.1398, 3.1404, 3.1401, 3.1349, 3.1376 ...

  5. 第三周 数据分析之概要 Pandas库入门

    Pandas库介绍: Pandas库引用:Pandas是Python第三方库,提供高性能易用数据类型和分析工具 import pandas as pd Pandas基于NumPy实现,常与NumPy和 ...

  6. NumPy库入门教程:基础知识总结

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 numpy可以说是Python运用于人工智能和科学计算的一个重要基 ...

  7. 第二周 数据分析之展示 Matplotlib库入门

    Matplotlib库介绍:优秀的数据可视化第三方库 使用:Matplotlib库由各种可视化类构成,内部结构复杂,受Matlab启发,matplotlib.pyplot是绘制各类可视化图形的命令子库 ...

  8. python数据分析与展示--Pandas库入门

    一.Pandas库的引用 Pandas是python第三方库,通过了高性能易用的数据类型和分析工具;Pandas库包含了Series,DataFrame两个数据类型,基于这两个数据类型可以实现基本,运 ...

  9. [转载] [转载] python中的Numpy库入门

    参考链接: Python中的numpy.ones_like 参考链接: Python中的numpy.full_like 目录 N维数组对象: ndarray引例ndarray对象的属性ndarray数 ...

最新文章

  1. software engineering interview domain
  2. Java菜鸟教程math类_Java Number Math 类
  3. 关于真正免费的嵌入式GUI
  4. C#设计模式之12-代理模式
  5. MyBatis框架 注解
  6. 在文件编辑器中添加dock菜单项_将应用程序添加到Mac 的Dock的简便方法
  7. 世界服务器系统竞赛,他们为何对ASC世界大学生超算竞赛情有独钟?
  8. 俞昆20155335《网络对抗》MSF基础应用
  9. C语言_【学习笔记】二元一次方程的虚根
  10. php 判断百度蜘蛛抓取,判断百度蜘蛛偷偷进行转移权重301,给新站提权
  11. 如何通过一根网线连接两台电脑,实现数据的传输?
  12. RHEL5配置Samba服务器实现文件共享
  13. 教你如何提取Window系统蓝屏日志
  14. [转载]JS和AS交互 作者:ludanlove
  15. python中面向对象的思想汇报_python试卷
  16. SNTP获取时间源统一时间
  17. 微信什么时候支持鸿蒙,若微信只支持鸿蒙抛弃安卓,结果如何?别傻了,腾讯不会“作死”...
  18. 从几何角度全新理解线性代数
  19. Java坚挺 PHP要完?TIOBE最新榜单公布
  20. 远程桌面连接时打不开计算机等,远程桌面打不开。怎么办?

热门文章

  1. Google Pixel 2 首次现身:或首发安卓 8.0
  2. vue练手02之表格处理
  3. 2023年南京理工大学控制理论考研上岸前辈备考经验指导
  4. 某电商网站的数据库设计(2)——商品销售相关数据表的设计
  5. 完美洗牌问题(打乱数组间各元素的顺序)
  6. 欧暇·地中海酒店深圳再布局 深圳国际会展中心和平店进入试营业
  7. 如何提高神经网络的泛化能力?八大要点掌握
  8. 计算机科学与技术答辩技巧,计算机专业毕业论文答辩自述稿
  9. element中checkbox全选反选功能
  10. 免费大数据分析云平台有哪些