一、定义一个50000行的Dataframe

a1 = np.random.randint(1,100,[1,50000]).T
a2 = np.random.rand(1,50000).T
c = np.hstack((a1,a2))
df = pd.DataFrame(c,columns=['m1','m2'])

二、定义一个函数

def simple_fun(v):return (v**2 - v) // 2 + (v**0.5) // 2

三、测试

1、先取行再取列,平均4.7264s

start = time.time()
m3 = []
for i in range(len(df)):m3.append(simple_fun(df.iloc[i]['m1']))
df['m3'] = m3
print(time.time() - start)

2、先取列再取行,0.5956s

start = time.time()
m3 = []
for i in range(len(df)):m3.append(simple_fun(df['m1'][i]))
df['m3'] = m3
print(time.time() - start)

3、使用apply,平均0.0409s

start = time.time()
df['m3'] = df['m1'].apply(simple_fun)
print(time.time() - start)

4、使用Pandas series,平均0.0249s

start = time.time()
df['m3'] = simple_fun(df['m1'])
print(time.time() - start)

5、使用NumPy arrays,平均0.0029s

start = time.time()
df['m3'] = simple_fun(df['m1'].values)
print(time.time() - start)

Dataframe处理速度测试相关推荐

  1. Cloudera系列(2)使用数据帧(DataFrame)和模式(Schemas)

    一.从Data Sources创建DataFrames 1.DataFrame的数据源 DataFrames从数据源读取数据,并将数据写入数据源 Spark SQL支持广泛的数据源类型和格式 Text ...

  2. 【知识发现】天池平台新浪微博互动预测-ItemCF推荐方法

    1.比赛内容: https://tianchi.aliyun.com/getStart/introduction.htm?spm=5176.100066.0.0.62a0c916DZRdDr& ...

  3. python数据生成正态分布图_Python 与金融数据生成机器学习的特征数据

    记得 关注.分享.点在看 呀- 这样您就能持续收到优质的推送啦 接下来几期我们将使用机器学习方法帮助我们预测未来股票交易数据的走势.在此之前我们需要对数据进行预处理以供机器学习方法使用.这一期我们将以 ...

  4. python中knn_如何在python中从头开始构建knn

    python中knn k最近邻居 (k-Nearest Neighbors) k-Nearest Neighbors (KNN) is a supervised machine learning al ...

  5. spark sql 上个月_Spark学习之路 (十八)SparkSQL简单使用

    一.SparkSQL的进化之路 1.0以前: Shark 1.1.x开始: SparkSQL(只是测试性的)  SQL 1.3.x: SparkSQL(正式版本)+Dataframe 1.5.x: S ...

  6. python数据容器专题

    Python容器专题 [导读] 容器通常属于序列(如列表或元组)或映射(如字典),但也存在其他形式的容器.依据Python官方的说法,Python语言中标准内建容器包括 dict , list , s ...

  7. 计算机网络管理员绩效考核,网络工程师专业考核方案

    网络工程师专业考核方案 第一阶段 硬件工程师测试题(理论+实操) 第一部分.理论知识测试(100分) 一. 计算机硬件基础知识测试(10分) 1. 计算机系统组成是什么?(1分) 2. 计算机工作原理 ...

  8. 大数据Hadoop之——Spark SQL+Spark Streaming

    文章目录 一.Spark SQL概述 二.SparkSQL版本 1)SparkSQL的演变之路 2)shark与SparkSQL对比 3)SparkSession 三.RDD.DataFrames和D ...

  9. 互联网+业务转型,云计算厂商对比

    作为一个传统金融商,在互联网+的旋风下,转型互联网金融行业,计划使用云计算服务器,数据库等.然而,在朋友建议使用阿里云仅凭其先发优势来说服我时,职业属性,我明白在选择云服务器.数据库.存储等方面是不容 ...

最新文章

  1. 客快物流大数据项目(十三):Docker镜像
  2. JavaCollection
  3. win10设置默认打开方式
  4. Java Spring连接Tibco Queue 总结
  5. java regex 简单使用
  6. mybatis逆向工程利用mybatis-generator-core自动生成代码
  7. python输出unicode字符_如何在Python中打印Unicode字符?
  8. 5 个关键点!优化你的 UI 原型设计
  9. 分享一篇酷炫粒子风暴代码!
  10. ocx找不到指定模块
  11. 揭秘!苏宁“信息基础设施”型零售实践大解析
  12. 【庄碰辉】物质与精神的对垒中选择
  13. Linux中查看jdk版本-20190306
  14. 用java写修改器_一些修改器1
  15. android 语音识别文字
  16. linux驱动主从设备号,在 Linux 设备管理中,除了设备类型外,内核还需要一对被称为主从设备号的参数,才能唯一标识一个设备。( )相同的设备使用相同的驱动程序...
  17. 热搜第一!名校博士挤破头进中学当老师,甚至还有颜宁弟子......
  18. amd 邮件 服务器,[转]免费邮件服务器hMailServer搭配SpamAssassin过滤垃圾邮件:安装和设置...
  19. Windows内网协议学习Kerberos篇之PAC
  20. nutz dao基本应用

热门文章

  1. 网易云接口手机号验证码验证登录
  2. length属性和length()方法
  3. 在线购物系统 实验三分析类类图
  4. 找出知晓秘密的所有专家
  5. 设置苹果手机的生日提醒
  6. Android 集成极光推送和厂商通道
  7. 四、文件管理(三)文件系统
  8. 成为互联网企业家的10个理由
  9. 使用YASM编程 - 01
  10. 从头开始搞懂 MySQL(07)为什么同一条 SQL 时快时慢