扣丁学堂Python视频教程之Pandas初学者代码优化指南

2018-02-05 10:44:24

1320浏览

今天扣丁学堂给大家介绍一下关于Python视频教程之Pandas详解,首先Pandas是PythonDataAnalysisLibrary的简写,它是为了解决数据分析任务而创建的工具,本文介绍了五种由慢到快逐步优化其效率的方法,如果你用Python语言做过任何的数据分析,那么可能会用到Pandas,一个由WesMcKinney写的奇妙的分析库。通过赋予Python数据帧以分析功能,Pandas已经有效地把Python和一些诸如R或者SAS这样比较成熟的分析工具置于相同的地位。

不幸的是,在早期,Pandas因“慢”而声名狼藉。的确,Pandas代码不可能达到如完全优化的塬始C语言代码的计算速度。然而,好消息是,对于大多数应用程序来说,写的好的Pandas代码已足够快;Pandas强大的功能和友好的用户体验弥补了其速度的缺点。

在这篇文章中,应用于PandasDataFrame函数的几种方法的效率,从最慢到最快:

1.在用索引的DataFrame行上的Crudelooping

2.用iterrows()循环

3.用apply()循环

4.PandasSeries矢量化

5.NumPy数组矢量化

对于我们的实例函数,将使用Haversine(半正矢)距离公式。函数取两点的经纬度,调整球面的曲率,计算它们之间的直线距离。这个函数看起来像这样:

importnumpyasnp

#DefineabasicHaversinedistanceformula

defhaversine(lat1,lon1,lat2,lon2):

MILES=3959

lat1,lon1,lat2,lon2=map(np.deg2rad,[lat1,lon1,lat2,lon2])

dlat=lat2-lat1

dlon=lon2-lon1

a=np.sin(dlat/2)**2+np.cos(lat1)*np.cos(lat2)*np.sin(dlon/2)**2

c=2*np.arcsin(np.sqrt(a))

total_miles=MILES*c

returntotal_miles

Pandas中的Crudelooping,或者你永远不应该这么做

首先,让我们快速回顾一下Pandas数据结构的基本塬理。Pandas的基本结构有两种形式:DataFrame和Series。一个DataFrame是一个二维数组标记轴,很多功能与R中的data.frame类似,可以将DataFrame理解为Series的容器。换句话说,一个DataFrame是一个有行和列的矩阵,列有列名标签,行有索引标签。在PandasDataFrame中一个单独的列或者行是一个PandasSeries—一个带有轴标签的一维数组。

几乎每一个与我合作过的Pandas初学者,都曾经试图通过一次一个的遍历DataFrame行去应用自定义函数。这种方法的优点是,它是Python对象之间交互的一致方式;例如,一种可以通过列表或数组循环的方式。反过来说,不利的一面是,在Pandas中,Crudeloop是最慢的方法。与下面将要讨论的方法不同,Pandas中的Crudeloop没有利用任何内置优化,通过比较,其效率极低(而且代码通常不那么具有可读性)

例如,有人可能会写像下面这样的代码:

#Defineafunctiontomanuallyloopoverallrowsandreturnaseriesofdistances

defhaversine_looping(df):

distance_list=[]

foriinrange(0,len(df)):

d=haversine(40.671,-73.985,df.iloc[i]['latitude'],df.iloc[i]['longitude'])

distance_list.append(d)

returndistance_list

为了了解执行上述函数所需要的时间,我们用%timeit命令。%timeit是一个“神奇的”命令,专用于Jupyternotebook(所有的魔法命令都以%标识开始,如果%命令只应用于一行,那么%%命令应用于整个Jupyter单元)。%timeit命令将多次运行一个函数,并打印出获得的运行时间的平均值和标准差。当然,通过%timeit命令获得的运行时间,运行该函数的每个系统都不尽相同。尽管如此,它可以提供一个有用的基准测试工具,用于比较同一系统和数据集上不同函数的运行时间。

%%timeit

#Runthehaversineloopingfunction

df['distance']=haversine_looping(df)

结果是:

1645ms±31msperloop(mean±std.dev.of7runs,1loopeach)

通过分析,crudelooping函数运行了大约645ms,标准差是31ms。这似乎很快,但考虑到它仅需要处理大约1600行的代码,因此它实际上是很慢的。接下来看看如何改善这种不好的状况。

用iterrows()循环

如果循环是必须的,找一个更好的方式去遍历行,比如用iterrows()方法。iterrows()是一个生成器,遍历DataFrame的所有行并返回每一行的索引,除了包含行自身的对象。iterrows()是用PandasDataFrame优化,尽管它是运行大多数标准函数最不高效的方式(稍后再谈),但相对于Crudelooping,这是一个重大的改进。在我们的案例中,iterrows()解决同一个问题,几乎比手动遍历行快四倍。

%%timeit

#Haversineappliedonrowsviaiteration

haversine_series=[]

forindex,rowindf.iterrows():

haversine_series.append(haversine(40.671,-73.985,row['latitude'],row['longitude']))

df['distance']=haversine_series

1166ms±2.42msperloop(mean±std.dev.of7runs,1loopeach)

使用apply()方法实现更好的循环

一个比iterrows()更好的选择是用apply()方法,它应用一个函数,沿着DataFrame某一个特定的轴线(意思就是行或列)。虽然apply()也固有的通过行循环,但它通过采取一些内部优化比iterrows()更高效,例如在Cython中使用迭代器。我们使用一个匿名的lambda函数,每一行都用Haversine函数,它允许指向每一行中的特定单元格作为函数的输入。为了指定Pandas是否应该将函数应用于行(axis=1)或列(axis=0),Lambda函数包含最终的axis参数。

%%timeit

#TimingapplyontheHaversinefunction

df['distance']=df.apply(lambdarow:haversine(40.671,-73.985,row['latitude'],row['longitude']),axis=1)

190.6ms±7.55msperloop(mean±std.dev.of7runs,10loopseach)

iterrows()方法用apply()方法替代后,大致可以将函数的运行时间减半。为了更深入地了解函数中的实际运行时间,可以运行一个在线分析器工具(Jupyter中神奇的命令%lprun)

#Haversineappliedonrowswithlineprofiler

%lprun-fhaversinedf.apply(lambdarow:haversine(40.671,-73.985,row['latitude'],row['longitude']),axis=1)

结果如下:

我们可以从这个信息中得到一些有用的见解。例如,进行叁角计算的函数占了总运行时间的近一半。因此,如果想优化函数的各个组件,可以从这里入手。现在,特别值得注意的是每一行都被循环了1631次—apply()遍历每一行的结果。如果可以减少重复的工作量,就可以降低整个运行时间。矢量化提供了一种更有效的替代方案。

PandasSeries矢量化

要了解如何可以减少函数所执行的迭代数量,就要记得Pandas的基本单位,DataFrame和Series,它们都基于数组。基本单元的固有结构转换成内置的设计用于对整个数组进行操作的Pandas函数,而不是按各个值的顺序(简称标量)。矢量化是对整个数组执行操作的过程。

Pandas包含一个总体的矢量化函数集合,从数学运算到聚合和字符串函数(可用函数的扩展列表,查看Pandasdocs)。对PandasSeries和DataFrame的操作进行内置优化。结果,使用矢量Pandas函数几乎总是会用自定义的循环实现类似的功能。

到目前为止,我们仅传递标量给Haversine函数。所有的函数都应用在Haversine函数中,也可以在数组上操作。这使得距离矢量化函数的过程非常的简单:不是传递个别标量值的纬度和经度给它,而是把它传递给整个series(列)。这使得Pandas受益于可用于矢量函数的全套优化,特别是包括同时执行整个数组的所有计算。

%%timeit

#VectorizedimplementationofHaversineappliedonPandasseries

df['distance']=haversine(40.671,-73.985,df['latitude'],df['longitude'])

11.62ms±41.5μsperloop(mean±std.dev.of7runs,1000loopseach)

通过使用apply()方法,要比用iterrows()方法改进50倍的效率,通过矢量化函数则改进了iterrows()方法100倍—除了改变输入类型,什么都不要做!

看一眼后台,看看函数到底在做什么:

注意,鉴于apply()执行函数1631次,矢量化版本仅执行一次,因为它同时应用于整个数组,这就是主要的时间节省来源。

用NumPy数组矢量化

Pandasseries矢量化可以完成日常计算优化的绝大多数需要。然而,如果速度是最高优先级,那么可以以NumPyPython库的形式调用援军。

NumPy库,将自己描述为一个“Python科学计算的基本包”,在后台执行优化操作,预编译C语言代码。跟Pandas一样,NumPy操作数组对象(简称ndarrays);然而,它省去了Pandasseries操作所带来的大量资源开销,如索引、数据类型检查等。因此,NumPy数组的操作可以明显快于pandasseries的操作。

当Pandasseries提供的额外功能不是很关键的时候,NumPy数组可以用于替代Pandasseries。例如,Haversine函数矢量化实现不使用索引的经度和纬度系列,因此没有那些索引,也不会导致函数中断。通过比较,我们所做的操作如DataFrame的连接,它需要按索引来引用值,可能需要坚持使用Pandas对象。

仅仅是使用Pandasseries的values的方法,把纬度和经度数组从Pandasseries转换到NumPy数组。就像series矢量化一样,通过NumPy数组直接进入函数将可以让Pandas对整个矢量应用函数。

%%timeit

#VectorizedimplementationofHaversineappliedonNumPyarrays

df['distance']=haversine(40.671,-73.985,df['latitude'].values,df['longitude'].values)

1370μs±18μsperloop(mean±std.dev.of7runs,1000loopseach)

NumPy数组操作运行取得了又一个四倍的改善。总之,通过looping改进了运行时间超过半秒,通过NumPy矢量化,运行时间改进到了叁分之一毫秒级!

以上就是关于扣丁学堂Python视频教程之Pandas初学者代码优化指南的详细介绍,最后想要了解更多关于Python发展前景趋势,请关注扣丁学堂官网、微信等平台,扣丁学堂IT职业在线学习教育平台为您提供最新的Python培训视频教程系统,通过千锋扣丁学堂金牌讲师在线录制的Python视频教程课程,让你快速掌握Python从入门到精通开发实战技能。扣丁学堂Python开发工程师技术交流群:279521237。

【关注微信公众号获取更多学习资料】

标签:

Python视频教程

Python基础教程

Python爬虫

Python培训

Python开发工程师

python代码优化指南_扣丁学堂Python视频教程之Pandas初学者代码优化指南相关推荐

  1. python 技巧视频教程_扣丁学堂Python视频教程之Python开发技巧

    扣丁学堂Python视频教程之Python开发技巧 2018-07-25 14:09:44 808浏览 关于Python开发的技巧小编在上篇文章已经给大家分享过一些,本篇文章扣丁学堂 神秘eval: ...

  2. python如何离线安装第三方模块_扣丁学堂python开发之第三方模块pip离线安装

    扣丁学堂python开发之第三方模块pip离线安装 2018-08-14 14:02:22 747浏览 最近很多参加Python培训的同学说在学习过程中需要安装一些第三方的模块,今天小编就来给大家讲一 ...

  3. python的excell库_扣丁学堂Python基础教程之Excel处理库openpyxl详解

    扣丁学堂Python基础教程之Excel处理库openpyxl详解 2018-05-04 09:49:49 3197浏览 openpyxl是一个第三方库,可以处理xlsx格式的Excel文件.pipi ...

  4. python socket编程之双方相互通信简单实例_扣丁学堂Python开发socket实现简单通信功能实例...

    扣丁学堂Python开发socket实现简单通信功能实例 2018-08-21 14:12:38 747浏览 今天扣丁学堂Python培训老师给大家结合实例介绍一下关于socket实现的简单通信功能, ...

  5. python调用函数指定次数_扣丁学堂Python在线视频之Python限制函数调用次数实例

    扣丁学堂Python在线视频之Python限制函数调用次数实例 2018-07-06 14:56:43 859浏览 本篇文章扣丁学堂 博客中指定的是缓存,我这里换成限制访问次数,异曲同工: #newt ...

  6. python在线学习pdf_扣丁学堂Python在线学习之将pdf转成图片的方法

    扣丁学堂Python在线学习之将pdf转成图片的方法 2018-05-23 11:29:01 1266浏览 Python将pdf转成图片的方法,不论是参加 本篇文章记录如何使用python将pdf文件 ...

  7. python 调用event handler_扣丁学堂Python开发之调用语音模块时报错及解决方法

    扣丁学堂Python开发之调用语音模块时报错及解决方法 2018-03-09 11:45:57 3346浏览 python调用语音模块时,遇见TypeError:NoneTypetakesnoargu ...

  8. python自动化部署nginx_扣丁学堂Python开发运维自动化之nginx配置文件对比操作

    扣丁学堂Python开发运维自动化之nginx配置文件对比操作 2018-08-30 09:51:29 646浏览 今天扣丁学堂Python培训老师给大家介绍一下关于Python运维自动化之nginx ...

  9. python面试题网站有哪些_扣丁学堂解析Python爬虫工程师面试题汇总

    扣丁学堂解析Python爬虫工程师面试题汇总 2018-08-20 11:24:39 1664浏览 今天,扣丁学堂的小编来给大家总结一下Python爬虫的面试技巧,希望给参加Python培训的同学一点 ...

最新文章

  1. C++类的案例(一)
  2. javascript 2
  3. 【数理知识】《矩阵论》方保镕老师-第6章-广义逆矩阵及其应用
  4. java EF6,EF Core 2.0和EF6(Entity Framework 6)中配置实体映射关系
  5. python爬虫中文乱码_解决Python爬虫处理文件时候中文名称出现乱码问题
  6. ROS学习记录:Ubuntu18下ROS摄像头标定
  7. FIB常见应用明细及原理分析
  8. 艺龙深耕酒店VS携程 布局旅游全产业
  9. 世界三大短篇小说之王 代表作介绍
  10. 学海无涯提供100-300M免费全能空间申请
  11. w10启动无线网服务器,Win10系统怎么开启无线wifi_w10开启wifi图文教程
  12. FPGA结构分析——IDELAY2,网口储备点3
  13. 管理计算机域的内置账户怎么取消,取消普通域用户将计算机加入域的权限
  14. 新冠病毒核酸检测点建模分析
  15. 吴恩达机器学习视频学习笔记
  16. Android直播实现(一)Android端推流、播放
  17. windbg-!cs、~~[TID](经典死锁)
  18. 可爱的手绘涂鸦元素视频包装AE竖屏模板
  19. mysql主要学什么_mysql学什么
  20. 日语常用口语(日常总结)

热门文章

  1. 大学数学中的1和0、求根公式相关和待定系数法
  2. 微信源码多功能 微cms微信营销服务平台
  3. Razor引擎学习:RenderBody,RenderPage和RenderSection
  4. Outlook邮箱添加163邮箱
  5. 计算机上的符号并不代表分数,Excel里轻松插入分数、符号和特殊字符
  6. 大学计算机专业绩点在3.5算好,大学平均绩点3.5算差吗 是什么水平
  7. 压力传感器在煤矿机械上的应用
  8. yolov5实时检测屏幕python代码
  9. 啃 matlab一本通读书笔记
  10. Matlab中dec2hex函数使用