原文:

Synthetic Financial Datasets For Fraud Detection

Synthetic datasets generated by the PaySim mobile money simulator

Context

There is a lack of public available datasets on financial services and specially in the emerging mobile money transactions domain. Financial datasets are important to many researchers and in particular to us performing research in the domain of fraud detection. Part of the problem is the intrinsically private nature of financial transactions, that leads to no publicly available datasets.

We present a synthetic dataset generated using the simulator called PaySim as an approach to such a problem. PaySim uses aggregated data from the private dataset to generate a synthetic dataset that resembles the normal operation of transactions and injects malicious behaviour to later evaluate the performance of fraud detection methods.

Content

PaySim simulates mobile money transactions based on a sample of real transactions extracted from one month of financial logs from a mobile money service implemented in an African country. The original logs were provided by a multinational company, who is the provider of the mobile financial service which is currently running in more than 14 countries all around the world.

This synthetic dataset is scaled down 1/4 of the original dataset and it is created just for Kaggle.

Headers

This is a sample of 1 row with headers explanation:

1,PAYMENT,1060.31,C429214117,1089.0,28.69,M1591654462,0.0,0.0,0,0

step - maps a unit of time in the real world. In this case 1 step is 1 hour of time. Total steps 744 (30 days simulation).

type - CASH-IN, CASH-OUT, DEBIT, PAYMENT and TRANSFER.

amount -

amount of the transaction in local currency.

nameOrig - customer who started the transaction

oldbalanceOrg - initial balance before the transaction

newbalanceOrig - new balance after the transaction

nameDest - customer who is the recipient of the transaction

oldbalanceDest - initial balance recipient before the transaction. Note that there is not information for customers that start with M (Merchants).

newbalanceDest - new balance recipient after the transaction. Note that there is not information for customers that start with M (Merchants).

isFraud - This is the transactions made by the fraudulent agents inside the simulation. In this specific dataset the fraudulent behavior of the agents aims to profit by taking control or customers accounts and try to empty the funds by transferring to another account and then cashing out of the system.

isFlaggedFraud - The business model aims to control massive transfers from one account to another and flags illegal attempts. An illegal attempt in this dataset is an attempt to transfer more than 200.000 in a single transaction.

译文:

用于欺诈检测的综合金融数据集

PaySim移动货币模拟器生成的合成数据集

内容:

缺乏关于金融服务的公共数据集,特别是在新兴的移动货币交易领域。金融数据集对许多研究人员,特别是对我们在欺诈检测领域进行研究非常重要。问题的一部分在于金融交易本质上的私有性,这导致没有公开可用的数据集。

我们提出了一个使用名为PaySim的模拟器生成的合成数据集,作为解决此类问题的方法。PaySim使用来自私有数据集的聚合数据生成一个类似于交易正常操作的合成数据集,并注入恶意行为,以便稍后评估欺诈检测方法的性能。

PaySim根据从非洲国家实施的移动货币服务的一个月财务日志中提取的真实交易样本模拟移动货币交易。原始日志由一家跨国公司提供,该公司是移动金融服务的提供商,目前在全球14多个国家运营。

该合成数据集的比例缩小为原始数据集的1/4,并且仅为Kaggle创建。

这是一个带有标题说明的1行示例:

1,付款,1060.31,C4292141171089.0,28.69,M1591654462,0.0,0.0,0,0

step-映射真实世界中的时间单位。在这种情况下,一步是一小时的时间。总步骤744(30天模拟)。

type-现金输入、现金输出、借记、付款和转账。

amount-以当地货币表示的交易金额。

nameOrig-启动交易的客户

oldbalanceOrg-交易前的初始余额

NewBalanceOrg-交易后的新余额

nameDest-作为交易接收方的客户

oldbalanceDest-交易前的初始余额接收人。请注意,没有以M(商家)开头的客户信息。

NewBalanceTest-交易后的新余额接收人。请注意,没有以M(商家)开头的客户信息。

isFraud-这是模拟中欺诈代理进行的交易。在这个特定的数据集中,代理人的欺诈行为旨在通过控制或客户账户获利,并试图通过转移到另一个账户然后从系统中套现来清空资金。

isFlaggedFraud——该业务模式旨在控制从一个帐户到另一个帐户的大规模转账,并标记非法尝试。此数据集中的非法尝试是试图在单个事务中传输超过200.000的数据。

大家可以到官网地址下载数据集,我自己也在百度网盘分享了一份。可关注本人公众号,回复“2021092801”获取下载链接。

用于欺诈检测的综合金融数据集相关推荐

  1. 基于Python,OpenCV,Numpy和Albumentations实现目标检测的合成数据集

    1.总述 训练一个对象检测模型,如YOLOv5,需要一个包含感兴趣对象的图像和注释(带有对象边界框坐标的文本文件)的数据集. 例如,在下面的图片中,你可以看到可视化的边界框.每个边界框表示与特定类别相 ...

  2. python金融数据分析案例_Python数据分析行业案例课程--欺诈检测

    注意: 1. 本行业案例课程为Python 3 数据分析系列课程的行业案例部分,学员请务必先观看课程介绍免费视频,确认已学习本课程所需Python分析技能. 2. 本课程的核心目的是协助学员学习具体业 ...

  3. Credit Card Fraud Detection(信用卡欺诈检测相关数据集)

    原文: Credit Card Fraud Detection Anonymized credit card transactions labeled as fraudulent or genuine ...

  4. 【机器学习】决策树原理、调参、可视化 + 银行信用卡欺诈检测案例(含数据集)

    目录 决策分类树 2.1 ID3算法(信息增益) 2.2 C4.5 算法(信息增益率) 2.3 CART算法(Gini系数) CART构造决策树实例 决策树的剪枝 sklearn实现决策树 决策树的调 ...

  5. Rail-5k:一个用于轨道表面缺陷检测的真实数据集

    Rail-5k:一个用于轨道表面缺陷检测的真实数据集 文章目录 Rail-5k:一个用于轨道表面缺陷检测的真实数据集 摘要 1 介绍 2 相关工作 2.1自然图像数据集 2.2合成缺陷数据集 2.3铁 ...

  6. 【机器学习】信用卡欺诈检测|用启发式搜索优化XGBoost超参数

    本文将展示如何使用模拟退火[1]启发式搜索[2]机器学习算法中超参数的最佳组合.这些方法比盲随机生成参数得到的模型效果好.另外,模型效果最好是分别微调每个超参数,因为它们之间通常存在交互. 模拟退火简 ...

  7. 大数据分析实战-信用卡欺诈检测(三)- 模型评估

    大数据分析实战-信用卡欺诈检测(二)-下采样方案和交叉验证 大数据分析实战-信用卡欺诈检测(一) 文章目录 模型评估方法 模型评估方法 接下来,没错,还没到实际建模任务,还需要考虑模型的评估方法,为什 ...

  8. 大数据分析实战-信用卡欺诈检测(二)-下采样方案和交叉验证

    第一部分已经写到这里了,看完第一部分再看这一部分:大数据分析实战-信用卡欺诈检测 文章目录 下采样方案 交叉验证 下采样方案 下采样方案的实现过程比较简单,只需要对正常样本进行采样,得到与异常样本一样 ...

  9. 欺诈检测_签名欺诈检测-一种高级分析方法

    欺诈检测 In my previous article, I discussed advanced analytics application in the area of fraud in a ge ...

最新文章

  1. CEO亲自写代码登上热榜,从零开始打造“裸金属”树莓派
  2. 只需单击三次,让中文GPT-2为你生成定制故事
  3. 皮一皮:这是什么家族企业?
  4. Spore是一个平台,就知道没那么简单
  5. C 库函数 - vprintf()
  6. java 插桩 工具_一个基于Eclipse的通用Java程序插桩工具.pdf
  7. 定时任务的并发_03
  8. 【CMAKE】 is not able to compile a simple test program.
  9. 【Hadoop】同步集群时间
  10. 文字处理技术:表格与形状的布局差异
  11. 安装IIS以及配置ASP.NET流程
  12. java初学者:封装 继承 多态的理解
  13. 解决Xcode报错“The certificate used to sign “xxxxxx” has either expired or has been revoked“
  14. win7查看隐藏文件夹
  15. 计算机主机电池馈电,电脑主板电池没电了会出现什么情况?电脑主板电池没电的解决方法...
  16. 个人网站如何转型为商业网站
  17. 如何启动Intel VT-x
  18. 2022湖南株洲服饰产业数智互联网峰会暨湖南服饰产业互联网高峰论坛成功举办
  19. 【VMCloud云平台】SCAP(四)租户(一)
  20. 常用的大数据技术有哪些?

热门文章

  1. PHP 实现 阿里云 短信发送 功能步骤
  2. android 生成带有系统权限的apk
  3. 安卓简洁地实现点击ImageView查看大图功能
  4. 安搭Share:如果说格局决定人生,那么什么决定格局
  5. 【word】插入自动目录
  6. 2014华为武汉上机试题一:手机电池余量
  7. 一文告诉你CXL是什么,有什么新的机会 (上)
  8. 调用后台接口返回报错前端隐藏提示_前端异常监控解决方案研究(转)
  9. HTTP权威指南读书笔记
  10. 2022企业人效管理白皮书