Dataframe处理速度测试
一、定义一个50000行的Dataframe
a1 = np.random.randint(1,100,[1,50000]).T
a2 = np.random.rand(1,50000).T
c = np.hstack((a1,a2))
df = pd.DataFrame(c,columns=['m1','m2'])
二、定义一个函数
def simple_fun(v):return (v**2 - v) // 2 + (v**0.5) // 2
三、测试
1、先取行再取列,平均4.7264s
start = time.time()
m3 = []
for i in range(len(df)):m3.append(simple_fun(df.iloc[i]['m1']))
df['m3'] = m3
print(time.time() - start)
2、先取列再取行,0.5956s
start = time.time()
m3 = []
for i in range(len(df)):m3.append(simple_fun(df['m1'][i]))
df['m3'] = m3
print(time.time() - start)
3、使用apply,平均0.0409s
start = time.time()
df['m3'] = df['m1'].apply(simple_fun)
print(time.time() - start)
4、使用Pandas series,平均0.0249s
start = time.time()
df['m3'] = simple_fun(df['m1'])
print(time.time() - start)
5、使用NumPy arrays,平均0.0029s
start = time.time()
df['m3'] = simple_fun(df['m1'].values)
print(time.time() - start)
Dataframe处理速度测试相关推荐
- Cloudera系列(2)使用数据帧(DataFrame)和模式(Schemas)
一.从Data Sources创建DataFrames 1.DataFrame的数据源 DataFrames从数据源读取数据,并将数据写入数据源 Spark SQL支持广泛的数据源类型和格式 Text ...
- 【知识发现】天池平台新浪微博互动预测-ItemCF推荐方法
1.比赛内容: https://tianchi.aliyun.com/getStart/introduction.htm?spm=5176.100066.0.0.62a0c916DZRdDr& ...
- python数据生成正态分布图_Python 与金融数据生成机器学习的特征数据
记得 关注.分享.点在看 呀- 这样您就能持续收到优质的推送啦 接下来几期我们将使用机器学习方法帮助我们预测未来股票交易数据的走势.在此之前我们需要对数据进行预处理以供机器学习方法使用.这一期我们将以 ...
- python中knn_如何在python中从头开始构建knn
python中knn k最近邻居 (k-Nearest Neighbors) k-Nearest Neighbors (KNN) is a supervised machine learning al ...
- spark sql 上个月_Spark学习之路 (十八)SparkSQL简单使用
一.SparkSQL的进化之路 1.0以前: Shark 1.1.x开始: SparkSQL(只是测试性的) SQL 1.3.x: SparkSQL(正式版本)+Dataframe 1.5.x: S ...
- python数据容器专题
Python容器专题 [导读] 容器通常属于序列(如列表或元组)或映射(如字典),但也存在其他形式的容器.依据Python官方的说法,Python语言中标准内建容器包括 dict , list , s ...
- 计算机网络管理员绩效考核,网络工程师专业考核方案
网络工程师专业考核方案 第一阶段 硬件工程师测试题(理论+实操) 第一部分.理论知识测试(100分) 一. 计算机硬件基础知识测试(10分) 1. 计算机系统组成是什么?(1分) 2. 计算机工作原理 ...
- 大数据Hadoop之——Spark SQL+Spark Streaming
文章目录 一.Spark SQL概述 二.SparkSQL版本 1)SparkSQL的演变之路 2)shark与SparkSQL对比 3)SparkSession 三.RDD.DataFrames和D ...
- 互联网+业务转型,云计算厂商对比
作为一个传统金融商,在互联网+的旋风下,转型互联网金融行业,计划使用云计算服务器,数据库等.然而,在朋友建议使用阿里云仅凭其先发优势来说服我时,职业属性,我明白在选择云服务器.数据库.存储等方面是不容 ...
最新文章
- 客快物流大数据项目(十三):Docker镜像
- JavaCollection
- win10设置默认打开方式
- Java Spring连接Tibco Queue 总结
- java regex 简单使用
- mybatis逆向工程利用mybatis-generator-core自动生成代码
- python输出unicode字符_如何在Python中打印Unicode字符?
- 5 个关键点!优化你的 UI 原型设计
- 分享一篇酷炫粒子风暴代码!
- ocx找不到指定模块
- 揭秘!苏宁“信息基础设施”型零售实践大解析
- 【庄碰辉】物质与精神的对垒中选择
- Linux中查看jdk版本-20190306
- 用java写修改器_一些修改器1
- android 语音识别文字
- linux驱动主从设备号,在 Linux 设备管理中,除了设备类型外,内核还需要一对被称为主从设备号的参数,才能唯一标识一个设备。( )相同的设备使用相同的驱动程序...
- 热搜第一!名校博士挤破头进中学当老师,甚至还有颜宁弟子......
- amd 邮件 服务器,[转]免费邮件服务器hMailServer搭配SpamAssassin过滤垃圾邮件:安装和设置...
- Windows内网协议学习Kerberos篇之PAC
- nutz dao基本应用