我假设看到这里的朋友都已经掌握了 apply。

核心函数:

def parallelize_dataframe(df, func, **kwargs):CPUs = multiprocessing.cpu_count()num_partitions = CPUs  # number of partitions to split dataframenum_cores = CPUs  # number of cores on your machinedf_split = np.array_split(df, num_partitions)pool = Pool(num_cores)func = partial(func, **kwargs)df = pd.concat(pool.map(func, df_split))pool.close()pool.join()return df

一个具体的例子(仔细看注释):

import seaborn as sns
import numpy as np
import pandas as pd
from functools import partial
from multiprocessing import Pool
import multiprocessing# 这个函数就是用来做多线程的,输入是你要处理的数据框和相应的函数
def parallelize_dataframe(df, func, **kwargs):CPUs = multiprocessing.cpu_count()num_partitions = CPUs # number of partitions to split dataframenum_cores = CPUs  # number of cores on your machinedf_split = np.array_split(df, num_partitions)pool = Pool(num_cores)func = partial(func, **kwargs)df = pd.concat(pool.map(func, df_split))pool.close()pool.join()return df# 导入 iris 数据集
iris = pd.DataFrame(sns.load_dataset('iris'))# 首先你需要定义好你要对每一行处理的函数
def count(x):return len(x)# 然后需要定义一个使用上述count函数的parall_func函数
def parall_func(df):df['length_of_word'] = df['species'].apply(count)return df# 然后把上一步定义好的这个 parall_func 和 数据集,一起放入 parallelize_dataframe
iris = parallelize_dataframe(iris, parall_func)

pandas 多线程处理数据框相关推荐

  1. Pandas之数据框运算

    Python数据分析博文汇总 Pandas重复值处理函数drop_duplicates() Pandas数据库缺失值处理函数dropna Pandas中slice函数字段抽取 python数据分析-D ...

  2. pandas提取数据框其中几列生成新数据框

    假设列名如下: Team Goals Yellow Cards Red Cards 数据框:euro2012 要取得其中的yellow cards 和 red cards,形成 新的 数据框new: ...

  3. 【python pandas】数据框行转列,列转行

    测试数据: context_id subject_gmt differtime browse_count click_count like_count commet_count reply_count ...

  4. python values count_使用Python Pandas从数据框中获取总values_count

    小编典典 如果性能是一个问题,请尝试: from collections import Counter Counter(df.values.ravel()) #Counter({'string1': ...

  5. Python:在Pandas数据框中查找缺失值

    How to find Missing values in a data frame using Python/Pandas 如何使用Python / Pandas查找数据框中的缺失值 介绍: (In ...

  6. pandas数据框,统计某列或者某行数据元素的个数

    版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/sinat_38893241/artic ...

  7. Python数据挖掘2:pandas使用:Series一串数字和DataFrame数据框

    ''' pandas 来源:Dust的天善智能韦玮老师 课堂笔记 ''' import pandas as pda ''' Series 一串数字 index 索引,默认0,1,2,3 DataFra ...

  8. 在pandas数据框中选择多个列

    本文翻译自:Selecting multiple columns in a pandas dataframe I have data in different columns but I don't ...

  9. xlsxwriter写行合并_使用xlsxwriter将pandas数据框写入excel并包含“write-rich”字符串格式...

    以下是可复制的,并产生所需的输出. import xlsxwriter, pandas as pd workbook = xlsxwriter.Workbook('pandas_with_rich_s ...

最新文章

  1. Centos-Mysql配置my.cnf内容
  2. linux用户管理最常用的三个文件说明(不完整版)
  3. c#中控件重绘(放大缩小移动隐藏恢复后不消失)实例
  4. 30分钟掌握 C#6
  5. 比特币算法——SHA256算法介绍
  6. C语言中的static 具体分析
  7. NLP+语义分析(四)︱中文语义分析研究现状(CIPS2016、角色标注、篇章分析)
  8. 深度学习笔记_评分函数/损失函数
  9. 匹配追踪分解 时频 matlab,基于匹配追踪(MP)算法的信号自适应分解研究及其应用...
  10. CorelDRAWX4的VBA插件开发{一}前言及最简单的小程序写法
  11. 创业36条军规值得一读
  12. B 站递给 GitHub 的 DMCA 文件被公布,蹩脚的英语引发争议
  13. 统计案例分析之预测社会消费品零售总额
  14. 江苏理工学院计算机网络期末,江苏理工学院数据中心机房管理制度
  15. 第六章 深入理解Magento – 高级Magento模型(EAV)
  16. SSL证书过期怎么办?别慌!SSL应急解决方案及注意事项来了
  17. C语言三个整蛊程序,很强!!
  18. java查询全国地区
  19. c语言实验一,c语言实验-实验一.doc
  20. 创建cocos2dx项目

热门文章

  1. (转)C#中的Abstract和Virtual函数区分,因我老弄不明白这个问题,所以转到这儿
  2. VirtualBox基础使用
  3. LeetCode 101 对称二叉树的几种思路(Python实现)
  4. 前端面试题集锦(二)之CSS部分
  5. docker网络基础配置
  6. 一个切图仔的工作日常
  7. Spring中使用JdbcTemplate和HibernateTemplate的数据库操作
  8. [python网络编程]使用scapy修改源IP发送请求
  9. python标准库学习笔记
  10. 一文搞懂 CPU、GPU 和 TPU