相信大家在做一些算法经常会被庞大的数据量所造成的超多计算量需要的时间而折磨的痛苦不已,接下来我们围绕四个方法来帮助大家加快一下Python的计算时间,减少大家在算法上的等待时间。今天给大家介绍Numba这一块的内容。

1.简介

所以什么是Numba呢?

Numba是Python的即时编译器,也就是说当你调用Python函数时,你的全部或部分代码都会被计时转换成为机器码进行执行,然后它就会以你的本机机器码速度运行,Numba由Anaconda公司赞助,并得到了许多组织的支持。

使用Numba,你可以加速所有以集中计算的、计算量大的python函数(例如循环)的速度。它还支持numpy库!因此,你也可以在计算中使用numpy,并加快整体计算的速度,因为python中的循环非常慢。你还可以使用python标准库中的数学库的许多功能,例如sqrt等。

2.为什么选择Numba?

所以,为什么要选择Numba?特别是当存在有许多其他编译器,例如cython或任何其他类似的编译器,或类似pypy的东西时。

选择Numba的理由很简单,那就是因为你不需要离开使用Python编写代码的舒适区。是的,你没看错,你不需要为了加速数据的运行速度而改变你的代码,这与从具有类型定义的相似cython代码获得的加速相当。那不是更好么?

你只需要在函数周围添加一个熟悉的Python功能,也就是装饰器(包装器)。目前类的装饰器也在开发之中。

所以,你只需要添加一个装饰器就可以了。例如:
from numba import jit@jitdef function(x): # 循环或数值密集型的计算 return x
它看起来仍然像是纯python代码,不是吗?

3. Numba如何工作?

Numb使用LLVM编译器基础结构,从纯Python代码生成优化的机器码。使用Numba的代码运行速度与C,C ++或Fortran中的类似代码相媲美。

这是代码的编译方式:

首先,获取,优化Python函数并将其转换为Numba的中间表示形式,然后类似于Numpy的类型推断一样进行类型判断(因此python float为float64),然后将其转换为LLVM可解释的代码。

然后,该代码被馈送到LLVM的即时编译器以发出机器代码。
你可以根据需要在运行时生成代码或在CPU(默认)或GPU上导入代码。

4.使用基本的Numba功能(只需要@jit!)

小菜一碟!
为了获得最佳的性能,numba建议在你的jit包装器中使用参数nopython = True,但它根本不会使用Python解释器。

或者你也可以使用@njit。如果你使用nopython = True的包装器失败并出现错误,则可以使用简单的@jit包装器,该包装器将编译部分代码,对其进行循环,然后将其转换为函数,再编译为机器码,然后将其余部分交给python解释器。

因此,你只需要执行以下操作:
from numba import njit, jit@njit # 或者@jit(nopython=True)def function(a, b): # 循环或数值密集型计算 return result

使用@jit时,请确保你的代码具有Numba可以编译的内容,例如计算密集型循环,使用它支持的库(Numpy)及其支持的函数。否则,它将无法编译任何内容。

首先,numba在首次用作机器代码后还会缓存这些函数。因此,在第一次使用之后,它会变得更快,因为你无需再次编译该代码,因为你使用的参数类型和你之前使用的相同。

而且,如果你的代码是可以并行化运行的,那么也可以将parallel = True作为参数传递,但是必须跟参数nopython = True结合使用。目前,它仅可以在CPU上工作。

你也可以指定你想要的函数签名,但是它不会编译你给他的任何其他类型的参数

比如:
你还可以指定你希望函数具有的函数签名,但是对于提供给它的任何其他类型的参数,它将不会编译。

例如:

from numba import jit, int32@jit(int32(int32, int32))def function(a, b): #循环或数值型密集型计算 return result#或者你还没有导入类型的名称#你可以将他们作为字符串传递@jit('int32(int32, int32)')def function(a, b): #循环或数值型密集型计算 return result
现在,你的函数将只接受两个int32并返回一个int32。这样,你可以更好地控制自己的函数。你甚至可以根据需要传递多个)函数签名。

你还可以使用numba提供的其他装饰器:
1. @vectorize:允许将标量参数用作numpy ufunc,
1. @guvectorize:产生NumPy广义ufuncs
1. @stencil:将函数声明为类似模板操作的内核,
1. @jitclass:对于支持jit的类,
1. @cfunc:声明一个用作本机回调的函数(从C / C ++等调用),
1. @overload:注册自己的函数实现以在nopython模式下使用,

例如

@overload(scipy.special.j0)。
Numba还具有预先(AOT)编译功能,它生成一个编译后的扩展模块,该模块不依赖于Numba。但:
1. 它只允许使用常规函数(不能使用ufuncs),
1. 你必须指定一个函数签名。你只能指定一个,因为许多指定使用不同的名称。
它还会为你的CPU架构系列生成通用代码。

5. @vectorize包装器

通过使用@vectorize包装器,你可以将对标量进行操作的函数转换为数组,例如,如果你正在使用math仅在标量上运行的python 库,则可以对数组使用。

这提供了类似于numpy数组操作(ufuncs)的速度。例如:

@vectorizedef func(a, b): # 对标量进行运算 return result
你还可以将target参数传递给此包装器,该包装器的值可以等于parallel用于并行化代码,cuda用于在cuda / GPU上运行代码的值。

@vectorize(target="parallel")def func(a, b): # 对标量进行运算 return result
假设你的代码具有足够的计算密集性或数组足够大,则使用numpy进行矢量化target = "parallel"或"cuda"通常比numpy实现运行得更快。

如果不是这样的话,这将花费大量时间来制作线程和为不同的线程拆分元素,这可能会超过整个过程的实际计算时间。因此,工作应该足够繁重才能加快速度。

6.在GPU上运行函数

你也可以像包装器一样传递@jit来在cuda / GPU上运行函数。为此,你将必须numba库中导入cuda。但是在GPU上运行代码不会像以前那样容易。为了在GPU上的数百个甚至数千个线程上运行函数,它需要完成一些初始计算。你必须声明和管理网格,块和线程的层次结构。但是这并不难。

要在GPU上执行一个函数,你必须定义一个 kernel function(内核函数)或一个device function(设备函数)。首先,让我们看一下kernel function(核函数)。

关于内核函数需要记住的几点:
a)内核在被调用时显式声明其线程层次结构,即块数和每个块的线程数。你可以编译一次内核,然后使用不同的块和网格大小多次调用它。
b)内核无法返回值。因此,你将不得不在原始数组上进行更改,或者传递另一个数组来存储结果。对于计算标量,你将必须传递一个一元数组。
# 定义一个内核函数from numba import cuda@cuda.jitdef func(a, result): # 然后是一些CUDA相关的计算 # 你的计算密集的代码 # 你的答案储存在'result'中

因此,要启动内核,你将必须传递两个东西:
1. 每个块的线程数,
1. 块的数量。
例如:
threadsperblock = 32blockspergrid = (array.size + (threadsperblock - 1)) // threadsperblockfunc[blockspergrid, threadsperblock](array)
每个线程中的内核函数必须知道它在哪个线程中,知道它负责数组的哪个元素。通过Numba,只需一次调用即可轻松获得元素的这些位置。

@cuda.jitdef func(a, result): pos = cuda.grid(1) # 对一维数组 # x, y = cuda.grid(2) # 对二维数组 if pos < a.shape[0]: result[pos] = a[pos] * (some computation)
为了节省将numpy数组复制到特定设备并再次将结果存储在numpy数组中的时间,Numba提供了一些函数来声明和发送数组到特定的设备,如:numba.cuda.device_array,numba.cuda.device_array_like,numba.cuda.to_device,等等,以节省不必要的时间复制到cpu(除非必要)。

另一方面,device function只能从设备内部(通过内核或其他设备函数)好处是,你可以从device function返回一个值。因此,你可以使用此函数的返回值来计算kernel function或device function的一些内容。

from numba import cuda@cuda.jit(device=True)def device_function(a, b): return a + b
Numba 在其cuda库中还具有原子操作,随机数生成器,共享内存实现(以加快数据访问速度)等。

ctypes / cffi / cython互操作性:
· cffi- 在nopython模式下支持CFFI函数的调用。
· ctypes — 在nopython模式下支持ctypes包装器函数的调用…

· Cython导出的函数是可调用的。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

原文链接:https://3g.163.com/news/article/FE6KI3PN0531AT43.html?from=history-back-list

python 指定gpu_加快Python算法的四个方法:Numba篇相关推荐

  1. [Python从零到壹] 五十四.图像增强及运算篇之局部直方图均衡化和自动色彩均衡化处理

    首先,祝大家教师节和中秋节快乐! 欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文 ...

  2. Python可以调用Gpu吗_加快Python算法的四个方法:Numba篇

    CDA数据分析师 出品 相信大家在做一些算法经常会被庞大的数据量所造成的超多计算量需要的时间而折磨的痛苦不已,接下来我们围绕四个方法来帮助大家加快一下Python的计算时间,减少大家在算法上的等待时间 ...

  3. python分支计算例题_算法第四次作业-分支限界法求解作业分配问题

    一.运行环境: Win7.Spyder.Python3.7 二.运行过程说明: 数据文件格式:输入数据来源于文件,input_assign04_0*.dat.文件内是n*n矩阵的元素,每行的元素代表每 ...

  4. python平方和计算技巧_Python算法练习题:四平方和

    四平方和的定理又称拉格朗日定理:每个正整数都可以表示至多4个正整数的平方和.如果把0包括进去,就可以表示为4个数的平方和. 比如: 5=0^2+0^2+1^2+2^2 7=1^2+1^2+1^2+2^ ...

  5. python字符串格式化深入详解(四种方法)

    前言:本文详细整理了python字符串格式化的几种方式. 一.使用 % 符号来进行格式化 格式符为真实值预留位置,并控制显示的格式.格式符可以包含有一个类型码,用以控制显示的类型,如下: %s    ...

  6. python中加减乘除_Python基础算法综合:加减乘除四则运算方法

    #!usr/bin/env python # -*- coding:utf-8 -*- #python的算法加减乘除用符号:+,-,*,/来表示 #以下全是python2.x写法,3.x以上请在pyt ...

  7. python交换两个变量的值(四种方法)

    方式一:使用第三个变量的常规交换方式 a = 18 b = 30 temp = a a = b b = temp 方式二:python中特有的交换方式 a = 18 b = 30 a, b = b, ...

  8. 在python代码中调用vba宏的四种方法

    在python代码中调用vba宏 工作以python为主体,但是遇到了一些word操作的需求(详见上一篇),这个需求用word自带的功能会很容易实现,于是就想着能不能用python调用宏来处理. 网上 ...

  9. python中计算n次方运算的四种方法【转】

    https://blog.csdn.net/u011699626/article/details/119582754 这里介绍一下python中n次方运算的四种书写形式,代码如下: # -*- cod ...

最新文章

  1. 想入门图深度学习?这篇55页的教程帮你理清楚了脉络
  2. iOS Swift UISearchController的取消按钮
  3. 皮一皮:直男只想说一句,表白?是表特别白吗?
  4. python3项目-Python3基础教程(十九)—— 项目结构
  5. 树莓派_FTP服务器的搭建
  6. 上海oracle办公地址_筑梦之星上海共享办公基地为什么受到市场追捧?
  7. .NET混淆器 Dotfuscator如何保护应用程序?控制流了解一下!
  8. 后BERT时代:15个预训练模型对比分析与关键点探究
  9. php http请求 微信,微信小程序封装http请求类的代码实例
  10. node 没有界面的浏览器_了不起的Node-为什么要学习Nodejs
  11. 2019个人年度总结:平凡的我,仍然在平淡的生活里打拼,寻找未来的曙光。
  12. 3ds Max随堂笔记 材质和贴图
  13. 对于网络文学而言 计算机叙事,90年代文学的“增量”
  14. uniapp实现左右滑动
  15. 低代码和无代码,完全是两回事
  16. 【LeGO-LOAM论文阅读(二)--特征提取(二)】
  17. 使用HTML5制作的网页游戏-管道小鸟(附源码)
  18. SpringBoot2 整合 JWT 框架,解决Token跨域验证问题
  19. 谷歌自研 Tensor 芯片,8核CPU,20核GPU……
  20. cmw500 lte非信令测试_如何分辩cmw500是信令还是非信令?

热门文章

  1. XSS(跨站脚本攻击)漏洞解决方案
  2. 解决springboot启动失败问题:Unable to start embedded container;
  3. 遇到local variable ‘e‘ referenced before assignment这样的问题应该如何解决
  4. 构建一个基本的Python迭代器
  5. win11联网不能打开网页怎么办 windows11联网不能打开网页的解决方法
  6. 此 Windows 副本不是正版的解决方案
  7. clion开发qt项目QtGui/qcolor.h: In construconstexpr QColor::QColor(int, int, int, int)’:ctor ‘1073741515
  8. 去除主页ImageView图片的上下空白
  9. 在普通类中获取spring容器中的bean
  10. CRT工具连接Linux操作手册