信用卡交易欺诈风险预测
数据来源:
Kaggle数据集
匿名的信用卡交易数据,数据集中包含标签字段区分此交易是否是存在欺诈行为
出于用户隐私的保护的需要,数据中的V1-V28特征可能来自于对用户信息特征和其他敏感特征的主成分分析(PCA)结果
字段属性:

Time: 交易发生时间

V1-V28:PCA处理后的用户信息及其他敏感信息

Amount:交易金额

Class:交易类型标签;1:欺诈型交易;0:非欺诈型交易

学习目标:
1)探索数据
要求:

① 读取数据表

② 查看数据的基本情况

2)针对数据存在的问题,应该采取怎么样的特征工程?
要求:

① 分别查看交易金额和交易时间,并对这两列特征进行处理

② 查看V1-V28这些特征与因变量标签之间的关系

③ 对数据进行共线性筛查

3)数据集是否存在分类不平衡的问题,如果存在应该如何解决?
要求:

① 查看数据标签类别分布是否平衡

② 如果存在不平衡的问题,对样本进行重取样(建议采取随机欠取样的方法),获得平衡分类的数据

随机欠取样:抽取所有的总量较少的类别,然后对总量较多的类别进行随机抽样,抽取和总量较少类别一样多的样本,构成采样均匀的数据集
4)如何进行模型数据预处理?
要求:

① 在平衡取样的数据集上对时间、金额特征进行标准化处理

5)选取不同的模型进行模型训练并对比模型效果、优化模型效果,确定最终预测模型
要求:

① 使用留一法进行数据集划分,验证集比例:30%

② 选取至少两个不同类型的分类算法进行欺诈风险预测模型训练,并对比模型效果(kaggle数据提供方推荐以AUC值来评价模型),选出最佳模型

偏态处理

取log
df[‘Amount’] = df[‘Amount’].map(lambda x: np.log(x) if x>0 else 0)

增加时间特征:小时、分钟

timedelta = pd.to_timedelta(df[‘Time’], unit=‘s’)
df[‘Time_min’] = (timedelta.dt.components.minutes).astype(int)
df[‘Time_hour’] = (timedelta.dt.components.hours).astype(int)

查看其他特征跟欺诈的关系

相关性举证,检查共线性问题

plt.figure(figsize=(48,24))
sns.heatmap(df.corr(),linewidths=0.1,vmax=1.0,
square=True, linecolor=‘white’, annot=True)
plt.show()

未完,待续。。。。

信用卡教育风险预测项目--kaggle算法实战相关推荐

  1. kaggle—HousePrice房价预测项目实战

    房价预测是kaggle官网的一个竞赛项目,算是机器学习的一个入门项目.kaggle官网链接: link. 关于kaggle竞赛项目的操作流程可以参看这篇博客: link. 一.kaggle介绍 kag ...

  2. Python预测之美 数据分析与算法实战(一)

    Python预测之美 数据分析与算法实战 声明:本文旨在对这本书进行简单的整理,列出大致得内容框架,不做具体而又深入的分析.想要深入了解的小伙伴们,自行解决吧. 第一篇 预测入门 第二篇 预测算法 第 ...

  3. 利用随机森林算法实现Bank风险预测

    利用随机森林算法实现Bank风险预测 源码分享及数据集分享:https://github.com/luo948521848/BigDatas 在机器学习中,随机森林是一个包含多个决策树的分类器, 并且 ...

  4. 讲解虚拟服务器的书_亲测竞价虚拟教育项目暴利竞价实战玩法

    亲测竞价虚拟教育项目暴利竞价实战玩法 黄岛主蓝海项目:亲测竞价虚拟教育项目+寻找暴利竞价虚拟项目实战玩法[价值3980元] 那么在2020年里,为了感谢以前小伙伴的支持,这次我将分享市场和流量是母婴项 ...

  5. 【机器学习】KNN算法实战项目二:水果分类

    KNN算法实战项目二:水果分类 2 KNN实现水果分类 2.1 模块导入与数据加载 2.2 数据EDA 2.3 模型创建与应用 2.4 绘制决策边界 手动反爬虫: 原博地址 https://blog. ...

  6. kaggle住房预测项目——第2部分(bagging)

    kaggle住房预测项目--第2部分(bagging) 基线模型 import xgboost as xgb import copy import datetime,time from sklearn ...

  7. 【机器学习】KNN算法实战项目三:金融贷款策略分类

    KNN算法实战项目三:金融贷款策略分类 3 金融贷款策略中的KNN分类 3.1 模块导入与数据加载 3.2 数据EDA 3.2.1 数据预处理 3.2.2 数据可视化 3.2.3 特征工程 3.3 模 ...

  8. 05- 泰坦尼克号海难生死预测 (机器学习集成算法) (项目五)

    Kaggle:  一个数据建模和数据分析竞赛平台 sns画柱状图:  sns.barplot(data=train,x='Pclass',y='Survived') 查看数据分布(survived 和 ...

  9. 深度学习时间序列预测:LSTM算法构建时间序列单变量模型预测大气压( air pressure)+代码实战

    深度学习时间序列预测:LSTM算法构建时间序列单变量模型预测大气压( air pressure)+代码实战 长短期记忆(Long short-term memory, LSTM)是一种特殊的RNN,主 ...

最新文章

  1. SQLServer之ISO游标使用
  2. 使用rel=noopener
  3. mysql linux版安装
  4. 如何在C语言中使用正则表达式
  5. 只要200页!火爆全网的Python学习知识手册!拿走不谢!
  6. 织梦wap.php绑定域名,dedecms织梦cms 手机站移动端 绑定设置独立M或wap域名的方法...
  7. 详解Object.defineProperty
  8. 反射之关于MethodInfo的使用
  9. 在VS 2010上搭建Windows Phone 7开发平台
  10. dataobject java_Object类和@Data注解
  11. java 安装包_手机也可以编写Java程序代码?这些黑科技你值得拥有!
  12. kindEditor文本编辑器
  13. python机器学习库sklearn——模型评估
  14. 【动态规划】LeetCode 377. Combination Sum IV
  15. 实战:SpringMVC实现用户角色管理
  16. XMLHttpRequest简介
  17. C#选择文件、选择文件夹、打开文件(或者文件夹)
  18. macos 旧版本 lightroom 找不到新镜头配置文件 新镜头配置导入lr/ps
  19. 冯诺依曼结构与哈佛结构的区别
  20. 微信小程序开发竟然这么简单?!

热门文章

  1. 计算方法:列主元消去法,LU分解法, 雅可比迭代法,高斯塞德尔迭代法 解线性方程(C++)
  2. 《Python从入门到实践》第五章动手试一试
  3. android技术分析
  4. 计算机哪个自考学校好,哪个学校的自考计算机专业本科比较好通过?
  5. 超级计算机榜单说明:TOP500、Green500、Graph500、IO500
  6. 地级市各产业从业人数数据集(1999-2018年)
  7. 服务搭建篇(七) Elasticsearch单节点部署以及多节点集群部署
  8. java park_park和unpark
  9. Android自定义控件之短信验证码自动填充
  10. JHOK-ZBL1漏电继电器