Numpy, 数组和矢量计算包

前几年前想学数据分析,于是就去学习Python的Numpy。然而看完《利用Python进行数据分析》后,也对它没有多大印象的。但是学了一段时间R语言,并且将R语言和Python进行一些比较,再次学习Numpy就特别轻松了。

由于学过R语言,我可以简单认为Numpy提供的多维数据对象ndarray就是Python版本的R语言的vector, matrixarray。几乎没有特殊说明,这两者的任何操作都是一致的。

Numpy的部分功能如下:

  • ndarray, 一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组
  • 用于对整组数据进行快速运算的标准数学函数(无需编写循环函数)
  • 用于读写磁盘数据的工具以及用于操作内存映射文件的工具
  • 线性代数, 随机数生成以及傅里叶变换功能
  • 用于继承由C, C++, Fortran等语言编写的代码的工具

约定俗成:

import numpy as np

也就说不会特意去声明导入numpy

创建多维数组

多维数组有多种创建方法,其中最简单的就是使用arrary函数。以一切序列类型的对象作为输入

# 一维数组,也就是R语言的最基本元素,vector
In [1]: import numpy as np
In [2]: data1 = [1,2,3,4,5]
In [3]: arr1 = np.array(data1)
In [4]: ?arr1 # 内省下arr1对象
# 二维数组,也就是R语言的matrix
In [5]: data2 = [[1,2,3],[4,5,6]]
In [6]: arr2 = np.array(data2)
In [7]: ?arr2
# 在R语言中用dim(), nrows, ncols查看数据维度
# 在Python中,这些可以用对象的方法查看。
In [10]: arr2.ndim
Out[10]: 2
In [11]: arr2.shape
Out[11]: (2, 3)
# 和R语言一样,ndarray的对象不允许存在多种数据类型
# ndarray会自动根据输入选择最合适的数据类型
In [17]: data3 = [1,"string", True]
In [18]: arr3 = np.array(data3)
In [19]: arr3
Out[19]:
array(['1', 'string', 'True'], dtype='<U11')
In [20]: arr3.dtype
Out[20]: dtype('<U11')

除了用array转换序列型数据输入以外,还可以用arange(类似于内置的ranges), asarray(类似于array)。后面的方法和线性代数密切相关,建议查看相应的说明: ones ones_like, zeros zeros_like empty empty_like,eye identity

关于数据类型, 一般情况下我们没必要对它太过于关注。但是对于大数据集,则需要自己主动声明。因为数据类型(dtype)负责将一块内存解释为特定数据类型,即直接映射到相应的机器表示。在R语言中有一类类型转换函数(例如as.numeric)对数组内的数据类型进行转换,在Numpy则通过dtype.

数组运算

R语言的一大特点就是矢量化运算,能用来检查你是否理解R语言。简单理解,就是不用循环就能对数据批量运算。

个人愚见:矢量化运算是Numpy用C语言编写,在C语言层面是也是循环。这也是为什么一个数组内的数据类型要一致。

# R
> arr1
[1] 1 2 3 4 5
> arr1 + 1
[1] 2 3 4 5 6
# Python
In [29]: arr1 + 1
Out[29]: array([2, 3, 4, 5, 6])
In [35]: arr2 * 3
Out[35]: array([[ 3,  6,  9],[12, 15, 18]])
In [36]: arr2 * arr2
Out[36]: array([[ 1,  4,  9],[16, 25, 36]])

我曾经在 Python和R的异同(一)里谈到原生Python要想实现R语言的矢量化就要使用列表推导式, 而目前可以用numpy带来的矢量化运算属性了。

索引和切片

切片

在R语言和Numpy,包括原生的Python都有切片的功能, 所谓的切片(slicing) 就是从已有的数组中返回选定的元素,而索引(index)提供指向存储在数组指定位置的数据值的指针

# R
arr <-  0:9
arr_sub <- arr[1:5]
# Python default list
data = [i for i in range(10)]
data_sub = data[0:5]
# Python Numpy
arr = np.arange(10)
arr_sub = arr[0:5]

上面的结果都是一致的,都是提取前5个元素。只不过要注意R语言的索引从1开始(5-1+1),而Python从0开始(5-0)。表面看起来是相同的,但其实Numpy切片得到只是原始数据的视图(view),也就是浅复制,即你对Numpy切片后的数据进行操作,会影响到原始数据。

# Python Numpy
In [60]: arr_sub[1] = 100
In [61]: arr
Out[61]: array([  0, 100,   2,   3,   4,   5,   6,   7,   8,   9])
# Python default list
In [65]: data_sub[1] = 100
In [66]: data_sub
Out[66]: [0, 100, 2, 3, 4]
In [67]: data
Out[67]: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
# R 同Python默认的列表

原因就是Numpy的目的是处理大数据,对大规模的数据进行实际复制会消耗不必要的性能和内存。

numpy的索引操作和R语言几乎一模一样,分为切片索引,布尔值索引,花式索引。这些都在《R语言实战》基本数据管理章节中的数据集选取子集里面提及。

切片索引:

In [79]: arr = np.eye(9,9)
## 类似于R的操作
In [80]: arr[1,1]
Out[80]: 1.0
In [82]: arr[:,:]
## Python原来是通过递归对元素进行访问
In [81]: arr[1][1]
Out[81]: 1.0

布尔值索引, 也就是先产生一个True, False的数组,然后根据这个数组提取数据

In [87]: arr[arr == 1]
Out[87]: array([ 1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.])

花式索引, 就是提供指定顺序的整数型列表

In [94]:  arr = np.empty((8,4))
In [95]: for i in range(8):...:     arr[i] = i...:
## 选取第4,3,1,6行数据
In [99]: arr[[3,2,0,5]]
Out[99]: array([ 3.,  2.,  0.,  5.])
## 在R里面就是
## arr[c(4,3,1,6)]

注意,如果一次性传入多个索引数据,Numpy会返回一维数组,但是R依旧会返回多维。这是目前第一个与R不太一样,当然和预想的结果也不同。

# R
> mdata <- matrix(1:32,nrow=8, ncol=4)
> mdata[c(2,6,8,2),c(1,4,2,3)][,1] [,2] [,3] [,4]
[1,]    2   26   10   18
[2,]    6   30   14   22
[3,]    8   32   16   24
[4,]    2   26   10   18
# Numpy
In [110]: arr = np.arange(1,33).reshape(8,4)
In [111]: arr[[1,5,7,2],[0,3,1,2]]
Out[111]: array([ 5, 24, 30, 11])
## 为了解决这个问题,有两种方法
In [112]: arr[[1,5,7,2]][:,[0,3,1,2]]
Out[112]:
array([[ 5,  8,  6,  7],[21, 24, 22, 23],[29, 32, 30, 31],[ 9, 12, 10, 11]])
In [113]: arr[np.ix_([1,5,7,2],[0,3,1,2])]
Out[113]:
array([[ 5,  8,  6,  7],[21, 24, 22, 23],[29, 32, 30, 31],[ 9, 12, 10, 11]])

: 花式索引以及布尔值索引和切片索引不同, 前者将数据复制到新的数组中,而后者是原始数据的视图。 可能原因是前两者的得到数据在原始数据中位置不是整块存放。

数据转置和轴对换

转置(transpose)是数据重塑的一种特殊形式,返回的是原始数据的视图(这一点和R不同)。数组不仅有transpose方法,还有一个T属性, 这两者在二维数组上是相同的。

arr = np.arange(1,33).reshape(8,4)
arr.T
np.transpose(arr)
# 线性代数的矩阵内积
np.dot(arr.T, arr)

但是在更高维度上,T属性依旧还是轴对换,transpose方法还需要提供轴编号组成的元组,这个真的是非常难以理解。

通用函数:快速的元素级数组函数

我曾经写过一篇文章,叫做R语言的数据管理里面提到了基石函数,来源于《R语言实战》的高级数学管理。在numpy,这类函数叫做通用函数(UNIVERSAL FUNCTIONS, UFUNC),能够进行矢量化运算的函数。按照官方文档的划分,大致分为

  • 数学运算
  • 三角函数
  • 位运算函数
  • 比较函数
  • 浮点函数

按照《利用Pyton进行数据分析》可以分为一元函数和二元函数。

对于一些自定义的函数,R语言采用的apply家族函数进行矢量化操作,避免循环。而在Numpy则是frompyfunc。不过这已经比较高级了。

Numpy更多是Python进行科学计算的基础包,因此数据分析部分的内容就交给pandas吧。

Numpy:数组合矢量计算相关推荐

  1. 【Python】NumPy数组和矢量计算

    目录 一.NumPy的ndarray:一种多维数组对象: 1.NumPy安装: 2.检测安装是否成功: 二.数组创建: 1.array创建: range的使用: arange创建数组: 2.随机数创建 ...

  2. 《利用Python进行数据分析》笔记--NumPy数组和矢量计算

    阅读SeanCheney博主上传的文章有感,特此写一篇笔记,如侵必删. 第四章 NumPy基础 NumPy的ndarray:一种多维数组对象 1. 创建ndarray array函数,接受序列性的对象 ...

  3. 《利用python进行数据分析》读书笔记--第四章 numpy基础:数组和矢量计算

    第四章 Numpy基础:数组和矢量计算 第一部分:numpy的ndarray:一种多维数组对象 实话说,用numpy的主要目的在于应用矢量化运算.Numpy并没有多么高级的数据分析功能,理解Numpy ...

  4. python 数据分析5 NumPy 基础:数组和矢量计算

    系列文章:Python 数据分析 文章目录 五.NumPy 基础:数组和矢量计算 1.n维数组对象 ndarray 创建 dtype 数组运算 基本的索引和切片 一维数组 二维数组 布尔型索引 花式索 ...

  5. Python数据分析学习四 NumPy基础:数组和矢量计算

    Python数据分析学习系列四NumPy基础:数组和矢量计算 资料转自(GitHub地址):https://github.com/wesm/pydata-book 有需要的朋友可以自行去github下 ...

  6. python向量计算库教程_python中numpy基础学习及进行数组和矢量计算

    前言 在python 中有时候我们用数组操作数据可以极大的提升数据的处理效率,类似于R的向量化操作,是的数据的操作趋于简单化,在python 中是使用numpy模块可以进行数组和矢量计算. 下面来看下 ...

  7. Numpy基础:数组和矢量计算-笔记与代码

    本文是对<利用python进行数据分析>第四章,"Numpy基础:数组和矢量计算"的一个回顾性阅读笔记,对于代码已经加上自己的部分注释.  Numpy这章主要是将数据的 ...

  8. python输入数组并计算_利用Python进行数据分析——Numpy基础:数组和矢量计算

    利用Python进行数据分析--Numpy基础:数组和矢量计算 ndarry,一个具有矢量运算和复杂广播能力快速节省空间的多维数组 对整组数据进行快速运算的标准数学函数,无需for-loop 用于读写 ...

  9. python数组计算cos_NumPy 基础:数组和矢量计算

    NumPy 基础:数组和矢量计算 NumPy 的 ndarray : 一种多维数组对象 import numpy as np data = np.array() data.shape #对象的结构,如 ...

最新文章

  1. C语言程序设计模拟卷,C语言程序设计(上)模拟卷
  2. poi获取段落位置_Apache POI:从java中的word文档(docx)中提取段落和后续表格
  3. qt .pro文件
  4. HBase Shell基本操作
  5. Linux sftp用法
  6. nn.AdaptiveAvgPool1d()
  7. 时隔6年,NASA再造仿人机器人,或将在太空工作,应对严苛环境
  8. 《Redis核心技术与实战》学习总结(2)
  9. (枚举)餐厅点餐(fzu2086)
  10. Python——PyCharm常用快捷键
  11. golang 定义一个空切片_Golang切片 一个隐讳的坑
  12. 电大计算机dm编写程序,渭南电大计算机应用基础网考答题过程介绍
  13. Does Your Wooden Surface Really Need Sealing?
  14. MySQL 运维及开发规范
  15. 阿里云ubuntu服务器安装使用mysql并配置远程连接记录
  16. embedding lookup
  17. 易筋SpringBoot 2.1 | 第十一篇:SpringBoot使用actuator
  18. BMFont 快速入门教程
  19. android卡片 弹簧滑动,一种通用式弹簧卡扣的制作方法
  20. App云测试服务对比

热门文章

  1. javascript写各种排序算法
  2. 怎么给电脑设密码_怎么给电脑中重要的文件夹设置密码?
  3. vs2005不能找到ASP.NET网站之郁闷
  4. bond-vlan-bridge
  5. Windows Server 2008 之 终端服务TS WEB ACCESS
  6. 阻塞队列只有一个线程在同一时刻对其进行或者读或者写
  7. 端产品多版本共存服务器端兼容的问题
  8. RabbitMq install on Centos
  9. iphone开发如何测试?
  10. James Fee’s 5 Predictions Geo for 2010 and 5 Things That Won’t Happen