XGBoost算法案例实战—— 金融反欺诈模型
案例背景
信用卡盗刷一般发生在持卡人信息被不法分子窃取后复制卡片进行消费或信用卡被他人冒领后激活消费的情况。一旦发生信用卡盗刷,持卡人和银行都会蒙受一定的经济损失。因此,通过大数据搭建金融反欺诈模型对银行来说尤为重要。
模型搭建
1.读取数据
import pandas as pd
df = pd.read_excel('信用卡交易数据.xlsx')
df.head()
2.提取特征变量和目标变量
# 通过如下代码将特征变量和目标变量单独提取出来,代码如下:
X = df.drop(columns='欺诈标签')
y = df['欺诈标签']
3.划分训练集和测试集
# 提取完特征变量后,通过如下代码将数据拆分为训练集及测试集:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=123)
4.模型训练及搭建
# 划分为训练集和测试集之后,就可以引入XGBoost分类器进行模型训练了,代码如下:
from xgboost import XGBClassifier
clf = XGBClassifier(n_estimators=100, learning_rate=0.05)
clf.fit(X_train, y_train)
模型预测及评估
# 模型搭建完毕后,通过如下代码预测测试集数据:
y_pred = clf.predict(X_test)
y_pred # 打印预测结果
# 通过和之前章节类似的代码,我们可以将预测值和实际值进行对比:
a = pd.DataFrame() # 创建一个空DataFrame
a['预测值'] = list(y_pred)
a['实际值'] = list(y_test)
a.head()
# 可以看到此时前五项的预测准确度为60%,如果想看所有测试集数据的预测准确度,可以使用如下代码:
from sklearn.metrics import accuracy_score
score = accuracy_score(y_pred, y_test)
score
# XGBClassifier分类器本质预测的并不是准确的0或1的分类,而是预测其属于某一分类的概率,可以通过predict_proba()函数查看预测属于各个分类的概率,代码如下:
y_pred_proba = clf.predict_proba(X_test)
print(y_pred_proba[0:5]) # 查看前5个预测的概率
# 此时的y_pred_proba是个二维数组,其中第一列为分类为0(也即非欺诈)的概率,第二列为分类为1(也即欺诈)的概率,因此如果想查看欺诈(分类为1)的概率,可采用如下代码:
# y_pred_proba[:,1] # 分类为1的概率
# 下面我们利用4.3节相关代码绘制ROC曲线来评估模型预测的效果:
from sklearn.metrics import roc_curve
fpr, tpr, thres = roc_curve(y_test, y_pred_proba[:,1])
import matplotlib.pyplot as plt
plt.plot(fpr, tpr)
plt.show()
# 通过如下代码求出模型的AUC值:
from sklearn.metrics import roc_auc_score
score = roc_auc_score(y_test, y_pred_proba[:,1])score
# 我们可以通过查看各个特征的特征重要性(feature importance)来得出信用卡欺诈行为判断中最重要的特征变量:
clf.feature_importances_
# 通过如下5.2.2节特征重要性相关知识点进行整理,方便结果呈现,代码如下:
features = X.columns # 获取特征名称
importances = clf.feature_importances_ # 获取特征重要性# 通过二维表格形式显示
importances_df = pd.DataFrame()
importances_df['特征名称'] = features
importances_df['特征重要性'] = importances
importances_df.sort_values('特征重要性', ascending=False)
模型参数调优
from sklearn.model_selection import GridSearchCV
parameters = {'max_depth': [1, 3, 5], 'n_estimators': [50, 100, 150], 'learning_rate': [0.01, 0.05, 0.1, 0.2]} # 指定模型中参数的范围
clf = XGBClassifier() # 构建模型
grid_search = GridSearchCV(clf, parameters, scoring='roc_auc', cv=5)
# 下面我们将数据传入网格搜索模型并输出参数最优值:
grid_search.fit(X_train, y_train) # 传入数据
grid_search.best_params_ # 输出参数的最优值
# 下面我们根据新的参数建模,首先重新搭建XGBoost分类器,并将训练集数据传入其中:
clf = XGBClassifier(max_depth=1, n_estimators=100, learning_rate=0.05)
clf.fit(X_train, y_train)
# 因为我们是通过ROC曲线的AUC评分作为模型评价准则来进行参数调优的,因此通过如下代码我们来查看新的AUC值:
y_pred_proba = clf.predict_proba(X_test)
from sklearn.metrics import roc_auc_score
score = roc_auc_score(y_test, y_pred_proba[:,1])
print(score)
XGBoost算法案例实战—— 金融反欺诈模型相关推荐
- 金融反欺诈模型----项目实战--机器学习
机器学习:从源数据清洗到特征工程建立谈金融反欺诈模型训练 本文旨在通过一个完整的实战例子,演示从源数据清洗到特征工程建立,再到模型训练,以及模型验证和评估的一个机器学习的完整流程.由于初识机器学习,会 ...
- XGBoost算法案例实战——信用评分模型
案例背景 为了降低不良贷款率,保障自身资金安全,提高风险控制水平,银行等金融机构会根据客户的信用历史资料构建信用评分模型给客户评分.根据客户的信用得分,可以估计客户按时还款的可能,并据此决定是否发放贷 ...
- 实操信贷场景中的反欺诈模型
今天的文章,关于反欺诈模型的实操,之前有跟大家分享过相关内容,部分反欺诈的领域的童鞋感觉内容比较有帮助,今天就该内容进行讲解.本文介绍的产品适合在消费零售信贷及现金场景贷中的中短期产品,其中涉及的变量 ...
- 项目:金融行业反欺诈模型
当今以互联网.移动终端等为代表的技术力量正深刻地影响着金融支付市场,信息化.网络化.无线终端等技术的应用,使金融机构特别是银行业的经营发生了天翻地覆的变化,传统的银行柜台和网点业务,正渐渐被电子化交易 ...
- AI:人工智能实践六大场景(金融信用违约、反欺诈模型、客户偏好洞察、智能推荐、精准营销、客户流失管理)及其对应常用机器学习算法经验总结(不断更新)
AI:人工智能实践六大场景(金融信用违约.反欺诈模型.客户偏好洞察.智能推荐.精准营销.客户流失管理)及其对应常用机器学习算法经验总结(不断更新) 目录
- python 靶心_手把手教你使用Python实战反欺诈模型|原理+代码
原标题:手把手教你使用Python实战反欺诈模型|原理+代码 作者 | 萝卜 来源 | 早起Python(ID: zaoqi-python) 本文将基于不平衡数据,使用Python进行 反欺诈模型数据 ...
- 金融反欺诈和金融构建信用评分或者金融预测特征抽取案例
金融反欺诈和金融构建信用评分或者金融预测特征抽取案例 之前在微信朋友圈读到过这样一篇文章,施一公:"我国的最大危机,是所有精英都想干金融!",当然,笔者是非常赞同的,因为和钱距离越 ...
- 原理+代码|手把手教你使用Python实战反欺诈模型
三本点击上方"早起Python",关注并"星标" 每日接收Python干货! 本文含 6192 字,15 图表截屏 建议阅读 20分钟 本文将基于不平衡数据,使 ...
- 【采用】互联网金融反欺诈体系构建及典型应用案例
一.互联网反欺诈体系的构建存在着以下三个原则: (准)实时性:考虑到用户体验,互联网反欺诈体系必须能够在非常短的时间内对欺诈行为进行认定,并给出判断.对于注册.登陆.支付等一些场景,必须能够在用户无感 ...
- 金融反欺诈-交易基础介绍 - 阿里巴巴云誉【转载】
转载{http://www.vuln.cn/7136} 0×00 前言 一.简介 如今,互联网金融比较火热,金融欺诈也变得非常普遍,金融反欺诈也应运而生.本文将主要介绍下金融交易中的一些基本内容,并简 ...
最新文章
- vibe前景提取算法示例代码
- Google的系统工程师(SA)如何工作
- amaze 绝对位置 html,Amaze UI 兼容性列表
- Ural_1353. Milliard Vasya's Function(DP)
- win10水印烦死了_win10系统下word去水印的方法【图文】
- 执行点击事件,第一次点击后,一切正常,第二次点击,执行两次,以此类推
- 获取linux服务器基本信息命令行,centos 查看服务器运行的服务和基本信息
- 利用sort对数组快速排序
- Why Not Specialize Function Templates?
- 零基础带你学习MySQL—创建表(四)
- 给大忙人们看的 Java NIO 极简教程
- C语言关键字必备练习题
- 基于区块链的医疗供应链数据隐私保护分布式信息隐藏框架
- 基于Cocos2d-x学习OpenGL ES 2.0之多纹理
- 火灾报警(烟雾火焰检测)-STM8L
- 28335之GPIO输入
- 国家/地区 语言缩写代码 查询备用
- 顺丰该不该开除删库的运维工程师?
- 基于北洋PT站表结构分析以及ORM重写
- 如何从0到1搭建业务架构?
热门文章
- EXCEL【数据处理之数据抽取——随机抽样】
- 二手笔记本测试软件,想买二手笔记本?先学会这些检测方法才最大限度不被坑...
- php怎么调用php语言包,thinkphp里怎么调用语言包
- java redis令牌桶_redis实现的简单令牌桶
- apex乱码_[请教]apex安装简体中文语言包的步骤
- 让数据分析更easy的选择—贪心科技AI商业数据分析课程深度测评
- php 盗链新浪图片_php实现博客,论坛图片防盗链的方法
- Python中的装饰器及@用法详解
- 条码打印二 - 1.ZebraDesigner软件生成ZPL指令
- 小说网站源码_ptcms精美小说阅读网站源码(带采集规则)