我假设看到这里的朋友都已经掌握了 apply。

核心函数:

def parallelize_dataframe(df, func, **kwargs):CPUs = multiprocessing.cpu_count()num_partitions = CPUs  # number of partitions to split dataframenum_cores = CPUs  # number of cores on your machinedf_split = np.array_split(df, num_partitions)pool = Pool(num_cores)func = partial(func, **kwargs)df = pd.concat(pool.map(func, df_split))pool.close()pool.join()return df

一个具体的例子(仔细看注释):

import seaborn as sns
import numpy as np
import pandas as pd
from functools import partial
from multiprocessing import Pool
import multiprocessing# 这个函数就是用来做多线程的，输入是你要处理的数据框和相应的函数
def parallelize_dataframe(df, func, **kwargs):CPUs = multiprocessing.cpu_count()num_partitions = CPUs # number of partitions to split dataframenum_cores = CPUs  # number of cores on your machinedf_split = np.array_split(df, num_partitions)pool = Pool(num_cores)func = partial(func, **kwargs)df = pd.concat(pool.map(func, df_split))pool.close()pool.join()return df# 导入 iris 数据集
iris = pd.DataFrame(sns.load_dataset('iris'))# 首先你需要定义好你要对每一行处理的函数
def count(x):return len(x)# 然后需要定义一个使用上述count函数的parall_func函数
def parall_func(df):df['length_of_word'] = df['species'].apply(count)return df# 然后把上一步定义好的这个 parall_func 和 数据集，一起放入 parallelize_dataframe
iris = parallelize_dataframe(iris, parall_func)

pandas 多线程处理数据框相关推荐

Pandas之数据框运算
Python数据分析博文汇总 Pandas重复值处理函数drop_duplicates() Pandas数据库缺失值处理函数dropna Pandas中slice函数字段抽取 python数据分析-D ...
pandas提取数据框其中几列生成新数据框
假设列名如下: Team Goals Yellow Cards Red Cards 数据框:euro2012 要取得其中的yellow cards 和 red cards,形成新的数据框new: ...
【python pandas】数据框行转列，列转行
测试数据: context_id subject_gmt differtime browse_count click_count like_count commet_count reply_count ...
python values count_使用Python Pandas从数据框中获取总values_count
小编典典如果性能是一个问题,请尝试: from collections import Counter Counter(df.values.ravel()) #Counter({'string1': ...
Python：在Pandas数据框中查找缺失值
How to find Missing values in a data frame using Python/Pandas 如何使用Python / Pandas查找数据框中的缺失值介绍: (In ...
pandas数据框，统计某列或者某行数据元素的个数
版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/sinat_38893241/artic ...
Python数据挖掘2：pandas使用：Series一串数字和DataFrame数据框
''' pandas 来源:Dust的天善智能韦玮老师课堂笔记 ''' import pandas as pda ''' Series 一串数字 index 索引,默认0,1,2,3 DataFra ...
在pandas数据框中选择多个列
本文翻译自:Selecting multiple columns in a pandas dataframe I have data in different columns but I don't ...
xlsxwriter写行合并_使用xlsxwriter将pandas数据框写入excel并包含“write-rich”字符串格式...
以下是可复制的,并产生所需的输出. import xlsxwriter, pandas as pd workbook = xlsxwriter.Workbook('pandas_with_rich_s ...

pandas 多线程处理数据框

我假设看到这里的朋友都已经掌握了 apply。

核心函数:

一个具体的例子(仔细看注释):

pandas 多线程处理数据框相关推荐

最新文章

热门文章