本篇博客继续为大家介绍一篇论文,也是关于用卷积神经网络 CNN 来进行信用卡欺诈检测的。

论文信息

论文题目:Credit card fraud detection using convolutional neural networks

作者姓名:Fu K, Cheng D, Tu Y, et al.

会议期刊:International Conference on Neural Information Processing

发表时间:2016

关键词

信用卡欺诈 卷积神经网络 数据不平衡

一、四个问题

1. 文章解决了什么问题?

检测信用卡欺诈。

2. 用什么方法解决?

基于卷积神经网络CNN的框架

3. 有什么效果?

用F1score评估模型的表现,结果优于SVM、 RF、 NN等方法。

4. 存在什么问题?

作者没有提到。

存在的疑惑有:CNN的方法虽然优于SVM等,但是不是最好的?是不是有更好的,但是没有被提及。

二、文章内容

1. Introduction

机器学习的很多方法被可以用来解决信用卡欺诈问题,比如决策树,boolean logic 函数等。但由于一些欺诈交易和合法交易类似,采用传统的机器学习方法有时候不能发现这些欺诈类型的交易。也有采用神经网络或者贝叶斯的方法,但被批评太复杂或过拟合。采用CNN的方法可以发现欺诈交易潜在模式,避免过拟合,降低特征冗余。

特征生成是机器学习的一大挑战,一些研究采用集成方法获得客户消费模型,但不能描述复杂模式。本文基于客户的交易偏好,提出交易熵的方法。将交易数据转换为特征矩阵,按照内在联系和时间序列,用于CNN模型。

用基于成本的抽样方法,从真实欺诈的数据来合成欺诈样本,解决数据不平衡的问题。

2. Methodology

2.1 欺诈检测框架


如图所示,欺诈检测框架由训练和预测两部分组成。

训练部分主要包括四个模块:特征工程(feature engineering),采用方法(sampling methods),特征转换(feature transformation)和基于 CNN 的训练过程(a CNN-based training procedure)。

检测过程包括特征提取(feature extraction),特征转换(feature transformation)和分类模块(classification module)。

2.2 特征工程

Table 1 描述了不同特征类型,前7个是传统的特征,最后一个特征是本文提出的新特征。

提出来的新的特征叫交易熵(trading entropy)。假定在当前交易之前,同一个客户在过去的一段时间的所有交易里,有 K 种不同类型的交易,所有的交易总量为 TotalAmountTTotalAmountTTotalAmountT, 第 iii 种交易的总量为 AmountTi,(i=1,2,...,K)AmountT_i, (i = 1, 2, ...,K)AmountTi​,(i=1,2,...,K),那么第iii种交易类型的占比pip_ipi​为:
pi=AmountTiTotalAmountTp_i = \frac{AmountT_i}{TotalAmountT} pi​=TotalAmountTAmountTi​​
第 iii 种类型的交易可以被定义为 EntTEntTEntT:
EntT=−∑iKpilogpiEntT = -\sum_i^Kp_i logp_i EntT=−i∑K​pi​logpi​
交易熵定义为:
TradingEntropyT=EntT−NewEntTTradingEntropyT = EntT - NewEntT TradingEntropyT=EntT−NewEntT

如果交易熵的值很大,则有很大概率是欺诈的。

2.3 成本采样

基于成本的抽样方法是根据以下的观察:决策边界附近的欺诈交易有较高的概率会产生更多的合成欺诈样本。

对于第 iii 次欺诈交易,在 iii 周围的欺诈次数定义为 fdifd_ifdi​,在 iii 周围的正常交易次数定义为 ndind_indi​,第 iii 次交易的成本定义为 costicost_icosti​。第 iii 个欺诈和第 jjj 个交易之间的距离为 dijd_ijdi​j。

可以通过交易函数 f(x)f(x)f(x) 和截止值来限制第 iii 个欺诈的邻区数量。如果 x<0x<0x<0,则f(x)=1f(x)=1f(x)=1,否则 f(x)=0f(x)=0f(x)=0,CCC 为截止点。
costi=∑j∈legitimatef(dij−C)∑k∈fraudf(dik−C)cost_i = \frac{\sum_{j\in legitimate}f(d_{ij} - C)}{\sum_{k\in fraud} f(d_{ik} - C)} costi​=∑k∈fraud​f(dik​−C)∑j∈legitimate​f(dij​−C)​

获得每笔欺诈交易的成本后,我们使用k-means算法将欺诈行为划分为若干个簇。如果要生成新的欺诈样本,则根据成本选择欺诈交易 x1x_1x1​ 作为种子,然后我们从与 x1x_1x1​相同的集群中选择另一个欺诈交易 x2x_2x2​。

新的合成欺诈样本可以生成为 newFraud=αx1+(1−α)⋅x2newFraud= \alpha x_1+(1−\alpha)·x_2newFraud=αx1​+(1−α)⋅x2​,其中 α\alphaα 在 0 和 1 之间随机生成。

2.4 CNN模型

2.4.1 特征转换

特征转换是为了适应 CNN 模型。将信用卡交易的特征分为好几个组,每个组有不同时间窗口的不同的特征。

相同类的两个特征之间有强关系,因此在矩阵中放近一些,局部相关,可以降低数据处理的时间复杂性。


这些热力图展示了局部的强相关性。

2.4.2 模型框架


模型与LeNet相似,6层。第一层是卷积层,第二层是次采用层,该层用于特征选择,max pooling也是一种特征选择。

3. 实验

3.1 数据集

To evaluate the proposed model, we use real credit card transaction data from a commercial bank. It contains over 260 million transactions of credit cards in a year. About four thousand transactions are labeled as frauds and the rest are legitimate transactions. The transaction data is divided into two sets. We take the data of the first 11 months as the training set and the data of the next month as the testing set. And we take the F1 score to evaluate the performance of models.

3.2 Feature Evaluation

提出特征得分的计算方法:
FeatureScore=1T∑t=1T∣∣utf−utl∣∣Stf+StlFeatureScore = \frac{1}{T}\sum_{t=1}^T\frac{||u_t^f - u_t^l||}{\sqrt{S_t^f + S_t^l}} FeatureScore=T1​t=1∑T​Stf​+Stl​​∣∣utf​−utl​∣∣​
TTT 代表时间窗口的大小,utfu_t^futf​ 和 utlu_t^lutl​ 代表给定特征在第 ttt 个时间窗口上的欺诈样本和合法样本的平均值。StfS_t^fStf​ 和 StlS_t^lStl​ 分别代表欺诈特征和合法特征的方差。然后计算每一个特征的得分,得分越高,说明特征越重要。

下图(a)展示了特征得分图,(b) © (d) 分别用SVM, NN, RF的方法验证了在有特征 trading entropy 和没有该特征的情况下分类结果的表现。结论是:trading entropy是个很重要的特征。

3.3 Model Evaluation

展示模型的最佳准确率(不同的数据集下,CNN比NN,SVM,RF略胜一筹)

4. Conclusion

  • In this paper, we introduce a CNN-based method of credit card fraud detection.
  • And the trading entropy is proposed to model more complex consuming behaviors.
  • Besides, we recombine the trading features to feature matrices and use them in a convolutional neural network.
  • Experimental results from the real transaction data of a commercial bank show that our proposed method performs better than other state-of-art methods.

论文 | Credit Card Fraud Detection Using Convolutional Neural Networks相关推荐

  1. Credit Card Fraud Detection(信用卡欺诈检测相关数据集)

    原文: Credit Card Fraud Detection Anonymized credit card transactions labeled as fraudulent or genuine ...

  2. 论文《ImageNet Classification with Deep Convolutional Neural Networks》阅读及AlexNet的Tensorflow2复现

    论文<ImageNet Classification with Deep Convolutional Neural Networks>阅读及AlexNet的Tensorflow2复现 论文 ...

  3. [Paper]Cardiologist-Level Arrhythmia Detection with Convolutional Neural Networks

    Cardiologist-Level Arrhythmia Detection with Convolutional Neural Networks 基于卷积神经网络的心脏科医生级别的心律失常检测 A ...

  4. 【读点论文】Image Style Transfer Using Convolutional Neural Networks(将卷积特征图提取语义信息,融合内容和风格的做法)

    Image Style Transfer Using Convolutional Neural Networks 以不同风格呈现图像的语义内容是一项困难的图像处理任务.可以说,以前的方法的一个主要限制 ...

  5. 《每日论文》ImageNet Classification with Deep Convolutional Neural Networks

    这篇论文是剖析 CNN 领域的经典之作,也是入门 CNN 的必读论文.作者训练了一个面向数量为 1.2 百万的高分辨率的图像数据集 ImageNet, 图像的种类为 1000 种的深度卷积神经网络. ...

  6. 论文学习笔记:CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly Congested Scenes

    CSRNet是2018年提出来的人群计数模型,其论文发表于CVPR会议. 论文链接:CSRNet Abstract 摘要 我们提出了一个拥挤场景识别网络CSRNet,它提供了一种数据驱动的深度学习方法 ...

  7. #论文阅读CTG The Use of Convolutional Neural Networks in Biomedical Data Processing

    DOI 10.1007/978-3-319-64265-9_9 所属期刊 ITBAM 2017 论文发表时间 2017年07月26日 记录时间 2023年01月03日 记录人 Troye Jcan T ...

  8. TensorFlow for Hackers (Part VII) - Credit Card Fraud Detection using Autoencoders in Keras

    It's Sunday morning, it's quiet and you wake up with a big smile on your face. Today is going to be ...

  9. 【论文翻译】A Survey of Convolutional Neural Networks: Analysis, Applications, and Prospects

    原文地址:https://arxiv.org/ftp/arxiv/papers/2004/2004.02806.pdf 摘要 卷积神经网络(CNN)是深度学习领域最重要的网络之一.由于 CNN 在 许 ...

最新文章

  1. 从一道面试题分析Thread.interrupt方法
  2. 机器学习特征筛选:方差选择法VarianceThreshold
  3. 一级建造师考试通过了 !
  4. 转 jquery插件--241个jquery插件—jquery插件大全
  5. laravel redis_thinkphp+redis实现秒杀,缓存等功能
  6. 正态分布解释“剩女”现象——只因爱才子
  7. 数字人民币在京东累计交易金额超2.2亿
  8. 流水线的效率_自动化生产流水线的使用注意事项
  9. lammps教程:高熵合金建模之set type/ratio命令
  10. 7660生成负电压芯片
  11. 免费网页设计学习课程,视频以及设计工具大全,网页设计不过如此!!!
  12. PHP没有工作经验简历怎么写,没有工作经验应届生如何写简历呢?
  13. java:comp/env 解释
  14. windows键被禁用_如何在Windows 10上禁用插入键
  15. Cubase10自编曲平台,享受音乐带来的快乐!
  16. 通过WIFI(不用数据线)连接Android手机调试
  17. pixel 3 变焦_D3变焦—缺少的手册
  18. sw2014计算机配置,solidworks配置要求高吗,solidworks需要什么样的电脑配置
  19. 【学术】写文章的框架
  20. 修改andriod模拟器的IMEI,IMSI,手机号,SIM卡号

热门文章

  1. 企业申报能力评估CS1级\CS2级该如何选择?
  2. 兔子、狼、老虎的故事
  3. 金蝶K3案例教程应收账款前台操作
  4. 【强烈推荐】人工智能系列文章推送公告!!!
  5. 影视剪辑,如何一个人自学短视频7天vlog教程
  6. 如何恢复计算机中被隐藏的文件夹,电脑中病毒后,文件与文件夹被隐藏,如何恢复正常显示。...
  7. Java Map以及HashMap、TreeMap、HashTable
  8. 保持好距离才会保持好爱情!情侣间最好的距离!很值得一看!
  9. 如何迅速成为Java高手-王维树
  10. 阿里云负载均衡【SLB】使用实践方案