天云大数据_【案例分享】天云大数据最佳实践系列之——信用评分模型
本文为天云大数据原创
大数据能力特有的性质,使其正在成为大型银行真正的核心竞争力。银行大数据能力表现在多方面,但大数据思维和数据挖掘能力是最关键、也是最重要的。天云大数据自成立以来,一直深耕于金融领域,积累了大量成功案例。从本期微信开始,分享天云在金融领域的最佳实践系列。
大数据事关银行战略转型全局
进入大数据时代,随着数据处理技术的进步和数据来源的迅速扩展,银行业的一切业务活动都被数字化,商业银行得以在更多领域和更深层次获得并使用更加全面、完整、系统的数据。这些数据涉及客户的方方面面,对这些数据的深入分析可以得到过去不可能获得的知识和无法企及的商机。深入的数据挖掘分析对银行客户营销、产品创新、绩效考核以及风险管理等必将发挥日益重要的作用,数据应用能力将成为银行核心竞争力的重要体现。因此,大数据不是一地一隅的事情,事关银行战略转型全局。
银行大数据能力表现在多方面,但大数据思维和数据挖掘能力是最关键、也是最重要的。大数据价值的实现,关键在于挖掘分析能力。数据挖掘可以推动商业银行战略转型、提升运营管理能力、重塑银行企业文化、促进风险经营的精细化专业化。
天云一体化数据分析挖掘平台
天云大数据分析挖掘平台基于Hadoop/Spark技术框架实现,结合分布式文件系统HDFS和ALLUXI0分层存储技术,实现对结构化及非结构化数据的存储、加载及恢复,保证了数据存储的有效、安全和快速加载。
平台采用图形用户界面交互Free Coding模式,对海量数据的分析及预测建模周期进行工程化管理;支持数据的可视化、清洗、预处理、变换以及统计分析,使用户对数据有更全面的把握,提升数据质量。数据挖掘算法建模方面,平台实现了深度学习、逻辑回归等主流算法的分布式运行,相关模型的参数调优,以及分析及预测模型结果的显示分析和评价。平台同时兼容支持SAS、R、Python等多种建模环境,建设满足企业级建模需求大数据挖掘平台。实现面向业务发展、客户营销、风险预警与识别、产品组合定价等方面的大数据分析与挖掘的持续创新能力。 平台通过简化预测模型生命周期的管理,加快建模速度,实现AI算法生产和分析,辅助企业进行机器学习和建模。通过天云大数据挖掘平台实现一站式建模、移植、验证和优化。
天云信用评分模型
目前,大部分银行信用卡业务使用的风险计量工具有:针对不同客群的申请评分卡、行为评分卡等工具,这些工具主要通过logistic回归模型或专家经验,是基于传统的结构化数据上开发完成。
随着大数据和互联网的发展,出现了很多结构稀疏的数据或非结构化数据,这些数据无法利用传统的统计法分析工具进行处理,需要借助新的数据存储或处理技术来辅助优化评分以助力信用卡业务的风险管控,并通过大数据技术来探索一些新的应用点。
信用评分不仅能够帮助银行划分借款户的信用等级,而且能够直接预测借款户的违约概率。借助天云大数据分析挖掘平台,通过序别化处理、逻辑回归模型、分数转换、模型验证等步骤,实现对信用评分模型的建立和优化。
天云信用评分模型处理流程主要步骤如下图所示:
1、 输入数据和数据清洗—数据准备
本评分卡针对M1-M2信用风险进行评分,根据银行要求,数据选取观察点时客户标记为M1的客户,表现期为1个月。对客户特征维度数据进行收集,目前数据维度包括了开户月龄、近几个月有消费的月份数、近半年最大cd值等十几个客户维度信息。
2、 数据转换:变量序别化处理—数据准备
借款人的各项信息作为信用评分卡的因变量,在信用评分模型建立的过程中,会出现离散变量和连续变量两种形式。对于连续变量,在输入到评分卡模型中时,需要对变量进行序别化转换,使其具有一定的稳定性和可解释性。
方法目标:对M模型数据进行序别化,为后面决策树和逻辑回归提供输入。
方法思路:利用反复试错方式搜索能使信息值极大化的分组数目和组界点。
输入:维度特征X,取值范围[0,m];对应每个整数取值上的客户违约率p。
输出:序别化分段区间界点值。
3、 回归模型建模—模型建立
信用评分卡建模中有很多种实现方法,其中Logistic回归分析运用比较广泛。系统将采用Logistic回归模型进行评分建模。运用Logistic回归模型,因变量是一个二元制的概率,如坏客户或者好客户的概率。
4、 评分卡模型—模型建立
Logistic模型得到的结果Logit(pi)是一个对数值,其取值在-∞到∞。为了使获得的评分更具有实用性,需要对每个属性的分值进行线性比例变换,然后再加上一个偏移量。评分和用于逻辑回归的建模的好坏比的对数(Logit(pi))成比例,而不是好坏比本身。所以分值可以是负数,而且越小的分值代表风险越高。5、 模型验证
a) KS统计量
KS值计量K-S图中好客户与坏客户的积累分布曲线最大垂直差值。K-S图的横轴为10等分百分数,刻度为0%,10%,20%,...,90%,100%,表示累计总客户百分数。纵轴为好客户与坏客户的占比百分数。建好模型后,按照评分从大到小排列客户,检验好客户和坏客户两类客户分布的差异性。
b) ROC曲线和AUC
ROC曲线数据的计算方法是用分数切分点为参变量,计算不同切分点整体数据的实查率和误查率进行绘图。作者 天云大数据 转载请注明出处
天云大数据
天云大数据是专注于大数据分布式计算平台软件、AI算法的国家高新科技企业。孵化并成长于北京云基地的天云大数据是北京祥云工程代表企业,作为秘书长或理事成员参与了中国云产业联盟,中关村大数据产业联盟,国家统计局大数据战略合作企业,中关村-滨海大数据产业技术创新战略联盟,上海大数据产业技术创新战略联盟的筹建。被硅谷GigaOM大数据先锋评论冠以改变中国云计算最有影响力的企业;帮助某全国性股份制商业银行获得了国际化组织IDC的“2014年度中国金融行业最佳创新项目”大奖;2016年荣选由毕马威评选的中国领先金融科技公司50强企业。
更多精彩内容请关注微信公众号:BeagleData_
天云大数据_【案例分享】天云大数据最佳实践系列之——信用评分模型相关推荐
- 分布式从mysql查数据_技术分享 | 从库数据的查找和参数 slave_rows_search_algorithms...
作者:高鹏 文章末尾有他著作的<深入理解MySQL主从原理 32讲>,深入透彻理解MySQL主从,GTID相关技术知识. 本文节选自<深入理解MySQL主从原理>第24节 注意 ...
- 【ECdataway数据威】2018电商大数据与案例分享会 品牌方免费公开报名开启
5月中旬开始,电商2大平台已经打响了"年中大促"的大战,并且将战线拉长到接近一个月,2大平台随后也晒出了骄人的战绩,在这战绩的背后是电商迭代的进化与演变,ECdataway数据威用 ...
- jsp给前端注入值失败_基于 qiankun 的微前端最佳实践(图文并茂) 应用间通信篇...
引言 大家好~ 本文是基于 qiankun 的微前端最佳实践系列文章之 应用间通信篇,本文将分享在 qiankun 中如何进行应用间通信. 在开始介绍 qiankun 的应用通信之前,我们需要先了解微 ...
- 【实践】一站式数据开发平台在有赞的最佳实践.pdf(附下载链接)
猜你喜欢 0.[免费下载]2021年11月热门报告盘点1.如何搭建一套个性化推荐系统?2.从零开始搭建创业公司后台技术栈3.全民K歌推荐系统算法.架构及后台实现4.微博推荐算法实践与机器学习平台演进5 ...
- 【综合案例】信用评分模型开发
目录 一.案例背景 二.前置知识 2.1 数据分箱 2.2 属性选择 2.3 回归方程 三.数据处理 3.1 数据清洗 3.2 因素分析 四.模型训练 五.模型预测 六.结语 后记 一.案例背景 在上 ...
- 信创办公–基于WPS的EXCEL最佳实践系列 (规整数据摆放)
信创办公–基于WPS的EXCEL最佳实践系列 (规整数据摆放) 目录 应用背景 操作步骤 1.数据排序 2.例如:职务按照 经理-主任-职员 排序 3.排列第二种方法 4.实操案例 5.案例练习一 方 ...
- XGBoost算法案例实战——信用评分模型
案例背景 为了降低不良贷款率,保障自身资金安全,提高风险控制水平,银行等金融机构会根据客户的信用历史资料构建信用评分模型给客户评分.根据客户的信用得分,可以估计客户按时还款的可能,并据此决定是否发放贷 ...
- 信创办公–基于WPS的EXCEL最佳实践系列 (筛选重要数据)
信创办公–基于WPS的EXCEL最佳实践系列 (筛选重要数据) 目录 应用背景 操作步骤 1.筛选 2.高级筛选 应用背景 在WPS里,筛选有两种,一种是筛选,另外一种则是高级筛选. 操作步骤 1.筛 ...
- 基于 Python 的信用评分模型开发-附数据和代码
来源 | 知乎 作者 | Carl 文章链接 | https://zhuanlan.zhihu.com/p/35284849 信用评分模型可用"四张卡"来表示,分别是 A卡(Ap ...
最新文章
- 546. Remove Boxes 移除盒子
- php怎样加速,php 提速
- 机器学习者都应该知道的五种损失函数!
- python 3.8.2_python-3.8.2-docs-html
- 指定jupyter运行的conda环境和报错处理generator_to_async_generator
- Efficient Inference in Fully Connected CRFs with Gaussian Edge Potential
- Ubuntu下The program 'python' can be found in the following packages:
- springMVC从发送hello请求到响应的执行流程分析
- 如何计算页面打开获取流量_网站SEO优化如何获取更多的流量?
- linux常见命令用法之(一)
- 为什么公司宁可高薪招一个新员工,也不愿意给老员工涨一点工资?
- ethool工具之TSO、UFO、GSO、LRO、GRO和RSS介绍
- ubuntu 16.04安装中文输入法
- 7-12 求和:m+mm+mmm+mmmm+ ... +mmm……mmm(n个m)
- 快速对齐word中目录的页码|容易上手的方法
- 树莓派语音控制开关灯
- webservice 405 java_用浏览器测试Get与Post Webservice,Post一直报405错误,而Get能够成功的原因与解决方法...
- 星起航:抖音小店适合去做吗
- Sourcetree安装详细(最新版本)
- 重新开始学python,梦在远方路就在脚下 选择学习Python重新开始