pandas 多线程处理数据框
我假设看到这里的朋友都已经掌握了 apply。
核心函数:
def parallelize_dataframe(df, func, **kwargs):CPUs = multiprocessing.cpu_count()num_partitions = CPUs # number of partitions to split dataframenum_cores = CPUs # number of cores on your machinedf_split = np.array_split(df, num_partitions)pool = Pool(num_cores)func = partial(func, **kwargs)df = pd.concat(pool.map(func, df_split))pool.close()pool.join()return df
一个具体的例子(仔细看注释):
import seaborn as sns
import numpy as np
import pandas as pd
from functools import partial
from multiprocessing import Pool
import multiprocessing# 这个函数就是用来做多线程的,输入是你要处理的数据框和相应的函数
def parallelize_dataframe(df, func, **kwargs):CPUs = multiprocessing.cpu_count()num_partitions = CPUs # number of partitions to split dataframenum_cores = CPUs # number of cores on your machinedf_split = np.array_split(df, num_partitions)pool = Pool(num_cores)func = partial(func, **kwargs)df = pd.concat(pool.map(func, df_split))pool.close()pool.join()return df# 导入 iris 数据集
iris = pd.DataFrame(sns.load_dataset('iris'))# 首先你需要定义好你要对每一行处理的函数
def count(x):return len(x)# 然后需要定义一个使用上述count函数的parall_func函数
def parall_func(df):df['length_of_word'] = df['species'].apply(count)return df# 然后把上一步定义好的这个 parall_func 和 数据集,一起放入 parallelize_dataframe
iris = parallelize_dataframe(iris, parall_func)
pandas 多线程处理数据框相关推荐
- Pandas之数据框运算
Python数据分析博文汇总 Pandas重复值处理函数drop_duplicates() Pandas数据库缺失值处理函数dropna Pandas中slice函数字段抽取 python数据分析-D ...
- pandas提取数据框其中几列生成新数据框
假设列名如下: Team Goals Yellow Cards Red Cards 数据框:euro2012 要取得其中的yellow cards 和 red cards,形成 新的 数据框new: ...
- 【python pandas】数据框行转列,列转行
测试数据: context_id subject_gmt differtime browse_count click_count like_count commet_count reply_count ...
- python values count_使用Python Pandas从数据框中获取总values_count
小编典典 如果性能是一个问题,请尝试: from collections import Counter Counter(df.values.ravel()) #Counter({'string1': ...
- Python:在Pandas数据框中查找缺失值
How to find Missing values in a data frame using Python/Pandas 如何使用Python / Pandas查找数据框中的缺失值 介绍: (In ...
- pandas数据框,统计某列或者某行数据元素的个数
版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/sinat_38893241/artic ...
- Python数据挖掘2:pandas使用:Series一串数字和DataFrame数据框
''' pandas 来源:Dust的天善智能韦玮老师 课堂笔记 ''' import pandas as pda ''' Series 一串数字 index 索引,默认0,1,2,3 DataFra ...
- 在pandas数据框中选择多个列
本文翻译自:Selecting multiple columns in a pandas dataframe I have data in different columns but I don't ...
- xlsxwriter写行合并_使用xlsxwriter将pandas数据框写入excel并包含“write-rich”字符串格式...
以下是可复制的,并产生所需的输出. import xlsxwriter, pandas as pd workbook = xlsxwriter.Workbook('pandas_with_rich_s ...
最新文章
- Centos-Mysql配置my.cnf内容
- linux用户管理最常用的三个文件说明(不完整版)
- c#中控件重绘(放大缩小移动隐藏恢复后不消失)实例
- 30分钟掌握 C#6
- 比特币算法——SHA256算法介绍
- C语言中的static 具体分析
- NLP+语义分析(四)︱中文语义分析研究现状(CIPS2016、角色标注、篇章分析)
- 深度学习笔记_评分函数/损失函数
- 匹配追踪分解 时频 matlab,基于匹配追踪(MP)算法的信号自适应分解研究及其应用...
- CorelDRAWX4的VBA插件开发{一}前言及最简单的小程序写法
- 创业36条军规值得一读
- B 站递给 GitHub 的 DMCA 文件被公布,蹩脚的英语引发争议
- 统计案例分析之预测社会消费品零售总额
- 江苏理工学院计算机网络期末,江苏理工学院数据中心机房管理制度
- 第六章 深入理解Magento – 高级Magento模型(EAV)
- SSL证书过期怎么办?别慌!SSL应急解决方案及注意事项来了
- C语言三个整蛊程序,很强!!
- java查询全国地区
- c语言实验一,c语言实验-实验一.doc
- 创建cocos2dx项目