我目前有2个数据帧,1个用于捐赠者,1个用于筹款.理想情况下,我想要找到的是,如果有任何筹款人也捐赠,如果是的话,将一些信息复制到我的募捐人数据集(捐赠者姓名,电子邮件和他们的第一次捐赠).我的数据有问题

1)我需要通过姓名和电子邮件进行匹配,但用户可能会略有不同的名称(前Kat和Kathy).

2)捐赠者和筹款人的名称重复.

2a)有了捐赠者,我可以得到唯一的姓名/电子邮件组合,因为我只关心第一个捐赠日期

2b)虽然我需要保留两行,而不是像日期一样丢失数据.

我现在的示例代码:

import pandas as pd

import datetime

from fuzzywuzzy import fuzz

import difflib

donors = pd.DataFrame({"name": pd.Series(["John Doe","John Doe","Tom Smith","Jane Doe","Jane Doe","Kat test"]), "Email": pd.Series(['a@a.ca','a@a.ca','b@b.ca','c@c.ca','something@a.ca','d@d.ca']),"Date": (["27/03/2013 10:00:00 AM","1/03/2013 10:39:00 AM","2/03/2013 10:39:00 AM","3/03/2013 10:39:00 AM","4/03/2013 10:39:00 AM","27/03/2013 10:39:00 AM"])})

fundraisers = pd.DataFrame({"name": pd.Series(["John Doe","John Doe","Kathy test","Tes Ester", "Jane Doe"]),"Email": pd.Series(['a@a.ca','a@a.ca','d@d.ca','asdf@asdf.ca','something@a.ca']),"Date": pd.Series(["2/03/2013 10:39:00 AM","27/03/2013 11:39:00 AM","3/03/2013 10:39:00 AM","4/03/2013 10:40:00 AM","27/03/2013 10:39:00 AM"])})

donors["Date"] = pd.to_datetime(donors["Date"], dayfirst=True)

fundraisers["Date"] = pd.to_datetime(donors["Date"], dayfirst=True)

donors["code"] = donors.apply(lambda row: str(row['name'])+' '+str(row['Email']), axis=1)

idx = donors.groupby('code')["Date"].transform(min) == donors['Date']

donors = donors[idx].reset_index().drop('index',1)

因此,这给了我每个捐赠者的第一次捐赠(假设任何具有完全相同名称和电子邮件的人都是同一个人).

理想情况下,我希望我的筹款人数据集看起来像:

Date Email name Donor Name Donor Email Donor Date

2013-03-27 10:00:00 a@a.ca John Doe John Doe a@a.ca 2013-03-27 10:00:00

2013-01-03 10:39:00 a@a.ca John Doe John Doe a@a.ca 2013-03-27 10:00:00

2013-02-03 10:39:00 d@d.ca Kathy test Kat test d@d.ca 2013-03-27 10:39:00

2013-03-03 10:39:00 asdf@asdf.ca Tes Ester

2013-04-03 10:39:00 something@a.ca Jane Doe Jane Doe something@a.ca 2013-04-03 10:39:00

我尝试了这个帖子:is it possible to do fuzzy match merge with python pandas?但是不断让索引超出范围错误(猜测它不喜欢筹款活动中的重复名称):(那么任何想法如何匹配/合并这些数据集?

用for循环做它(它工作但速度很慢,我觉得必须有更好的方法)

fundraisers["donor name"] = ""

fundraisers["donor email"] = ""

fundraisers["donor date"] = ""

for donindex in range(len(donors.index)):

max = 75

for funindex in range(len(fundraisers.index)):

aname = donors["name"][donindex]

comp = fundraisers["name"][funindex]

ratio = fuzz.ratio(aname, comp)

if ratio > max:

if (donors["Email"][donindex] == fundraisers["Email"][funindex]):

ratio *= 2

max = ratio

fundraisers["donor name"][funindex] = aname

fundraisers["donor email"][funindex] = donors["Email"][donindex]

fundraisers["donor date"][funindex] = donors["Date"][donindex]

python 模糊匹配 合并_Python Pandas模糊合并/匹配重复相关推荐

  1. pythonpandas无列名数据合并_python – Pandas:合并多个数据帧和控制列名?

    您可以使用 functools.reduce迭代地将pd.merge应用于每个DataFrame: result = functools.reduce(merge, dfs) 这相当于 result ...

  2. python 二进制文件合并_python 读写和合并二进制bin文件,,在烧录程序的时候,需...

    python 读写和合并二进制bin文件,,在烧录程序的时候,需 在烧录程序的时候,需要将多个二进制bin文件合成一个,并且要指定数据段地址偏移量,在数据段之间的地址填充默认值0xff.因为不想手动操 ...

  3. python所有模块图解_Python pandas模块21个常用操作可视化图解

    Pandas 是 Python 的核心数据分析支持库,提供了快速.灵活.明确的数据结构,旨在简单.直观地处理关系型.标记型数据.Pandas 的目标是成为 Python 数据分析实践与实战的必备高级工 ...

  4. python pdf处理 图片_python PDF文件合并、图片处理

    一.合并多个PDF文件 实例: #导入模块import codecs import os import PyPDF2 as PyPDF2 #建立一个装pdf文件的数组 files = list()#遍 ...

  5. python list合并_python中如何合并两个列表

    python合并列表的方法如下: 方法一 最原始,最笨的方法,分别从两个列表中取出所有的元素,再放入新列表中就OK了.示例代码如下:list1 = [1,2,3] list2 = [4,5,6] li ...

  6. python列表间隔合并_Python使用zip合并相邻列表项的方法示例

    本文实例讲述了Python使用zip合并相邻列表项的方法.分享给大家供大家参考,具体如下: 1>使用zip()函数和iter()函数,来合并相邻的列表项 >>> x [1, 2 ...

  7. python切割音频文件_python切割和合并wav音频文件

    切割wav音频文件 如果没有pydub需要使用pip install pydub来安装模块 from pydub import AudioSegment from pydub.utils import ...

  8. python两个一维数组合并_python:16.合并两个排序的链表

    题目描述 输入两个单调递增的链表,输出两个链表合成后的链表,当然我们需要合成后的链表满足单调不减规则. 解析 构建列表 # -*- coding:utf-8 -*- # class ListNode: ...

  9. python查看dataframe数据类型_python pandas中DataFrame类型数据操作函数的方法

    python数据分析工具pandas中DataFrame和Series作为主要的数据结构. 本文主要是介绍如何对DataFrame数据进行操作并结合一个实例测试操作函数. 1)查看DataFrame数 ...

最新文章

  1. 如何在java中去除中文文本的停用词
  2. linux nexus端口配置,Linux下安装Nexus-3.15私服
  3. 从串行线程封闭到对象池、线程池
  4. 网络通信协议-TCP/IP模型实战
  5. JS 实现 jQuery的$(function(){});
  6. oracle数据库笔记---pl/sql的基础使用方法
  7. 如何做到“对扩展开放、修改关闭”?
  8. 拓端tecdat|R语言分布滞后非线性模型(DLNM)空气污染研究温度对死亡率影响建模应用
  9. Simulink与Flightgear的倾转旋翼联合仿真
  10. 【Java】爬虫,看完还爬不下来打我电话
  11. wifi mouse linux,WiFi Mouse Pro
  12. Holy Grail
  13. 女双中后场常用技术及训练方法[技术解码]
  14. html如何提取素材,如何优雅地提取App的素材
  15. Windows 下的一款弱网模拟工具NEWT
  16. 如何查找python各种路径
  17. IDEA 注释模板,这样配置才够逼格!
  18. Spring各种注解 @PersistenceContext和@Resource @GetMapping、@PostMapping、@PutMapping、@DeleteMapping
  19. NSMutableAttributedString图文并茂
  20. 成为顶级博主的秘诀是什么?《乘风者周刊》专访“处女座程序猿”牛亚运

热门文章

  1. 干式双离合和湿式双离合的优缺点
  2. 通过案例学调优之--Oracle Cluster Table
  3. hadoop Federation搭建
  4. Word 2007中隐藏段落和格式标记
  5. CentOS安装Pure-FTPd+MySQL
  6. 五个运动员参加比赛根据他们说的话判断结果
  7. springCloud(22):Eureka总结提升
  8. Java线程总结(转)
  9. spring Cloud中,解决Feign/Ribbon整合Hystrix第一次请求失败的问题?
  10. python爬虫怎么爬小说_python从爬虫基础到爬取网络小说实例