数据模型同学看过来|代码案例实操来袭

去年年底，央行开出反洗钱罚单，多家银行合计被罚1040万元。
当时，中国人民银行石家庄中心支行披露的反洗钱行政处罚信息公示表显示，因涉及未按照规定履行客户身份识别义务等，中行、邮储、浦发三家银行以及阳光人寿被罚，同时多名相关责任人均被处罚。
值得注意的是，此次罚单中，中国银行被罚金额最大，合计被罚1040万元。

详见链接：
http://news.bandao.cn/a/427838.html

其中处罚原因占比最高的三项为“客户身份识别”、“未按照规定报送大额和（或）可疑交易报告”，以及“客户身份资料和交易记录保存”。

监管的合规要求越来越高，而机构在有限的资源下，必然会面临着较大的反洗钱合规压力。越来越多的金融机构面对反洗钱也面有难色。比如刚开始提到的难题：如何监控大额和可疑交易监测及报告、客户洗钱风险评级等。因此本文我们跟大家分享下反洗钱模型的一些经验内容。
反洗钱模型，涉及客户洗钱风险等级划分模型、产品或业务洗钱风险评估模型以及可疑交易监测模型等。
反洗钱监管部门也明确要求法人机构应定期对模型的有效性进行评估并予以完善。而模型的开发流程借鉴之前的内容可以有以下流程：
管理和监督——>数据收集——>假设数据——>原理和方法——>操作与测试——>输出
对于很多金融机构来说，可疑交易的监测会面临类似的问题，如触发的可疑交易数量庞大、人工分析效率不高等。
而模型的引入就是解决人工筛查慢的一个重要工具。模型通过定性分析与定量分析的结合，并且对于模型运行进行综合的评估并提出优化建议，不断提高系统的有效性。
模型主要关注机构的监控场景是否完备，以及监控系统是否囊括了机构现行的产品与业务。通过梳理机构的产品、业务，以及对照监管要求与权威组织发布的指引等内容，审阅可疑交易监控规则是否存在缺漏和不足。
而监控模型的有效性验证则主要通过对关键绩效指标和场景重复性予以评估。关键绩效指标是根据机构交易监控场景中产生的关键性的数据指标，分析不同场景下数据的差异。场景重复性分析则会重点审阅系统监控场景配置中生成重复案例的情况及原因。
监控场景阈值测试通过数据分析方法，判断各个场景下技术指标设定值的适当性，是模型验证中非常重要的组成部分。
监控场景阈值测试从场景上来可分为商户与个人，从数据分析方法来分可以分为定量分析和定性分析两部分：
a.定量分析：
主要为技术指标的设置和调整提供量化建议
确定活动因子
确定监测模型中的关键活动因子，及确定纳入分析范围的子场景和活动因子
相关性分析
判断活动因子的相关性，确定主要技术指标和次要技术指标
稳定性分析
计算活动因子的各月分位数和平均数的值，确定数据分布的稳定性、周期性和趋势
分布情况分析
分析数据的分布情况，确定技术指标阈值和STR的分位数，使用K-Means方法确定群组上下限，确定建议阈值。
b.定性分析：
主要判断建议的阈值是否符合成本效用原则，以进一步确定是否需要进行阈值调整
确定增量样本
对于建议调低阈值的，按照建议阈值调整设定，并导出阈值调整后增加的样本记录
样本抽样
确定置信度、边际误差和预测有效案例生产率，对于调整阈值后增加的样本记录进行抽样
检查有效性
结合交易记录内容和客户信息，检查抽取样本的有效性并记录
接受/拒绝建议
根据样本有效性的检查结果，使用假设检验法作出接受/拒绝建议的决定，形成最终调整结果通过定量分析与定性分析相结合，对于监控模型的阈值区间给出了具体的建议，从而有效帮助客户对于阈值设置进行量化的考量。对于监控模型的验证，可以有效帮助机构全面评估可疑交易监测系统的实际情况，发现有可能会影响系统运行的薄弱环节，从而提高系统监控的效率。此外，在完成阈值设置的验证后，当然对阈值进行持续的动态调整与优化，根据积累的可疑交易监测数据定期对阈值进行优化。

客户洗钱风险等级划分
根据以往的项目经验，交易监控模型被归类为高风险模型，而某些不使用任何算法进行的筛选，则将其分类为非模型或中、低风险模型。而客户风险评级模型的评级则会因机构的固有风险评级方法的不同而进行差异化调整。
一般来说，客户风险等级划分的参考因素主要包括：
•客户的特点，如法人信息、所有权类型、业务性质等。
•地域的因素，如客户所在地、经营所在地等。
•产品/业务因素，如产品匿名性、是否跨境等。
•行业因素，如现金密集性行业等。
•预期行为，如客户预期的交易金额或交易数量等。

利用以上规则细细梳理而来，反洗钱的规则大概有以下内容：
1、时间多在凌晨，或不分昼夜；
2、短时间内现金交易突增长或突然加快；
3、拥有N个账户(N>2)且这些账户现金交易频繁，单笔或累计交易金额大；
4、长期闲置或少使用的账户突然存取大量现金；
5、频繁接收境外汇入资金，并在短期内要求现金解冻；
…….
N、频繁或大量存取现金，与他身份跟自身身份不相符…….
在对客户风险等级划分模型验证时，同时也会采用定性分析和定量分析结合的方式。首先会审阅机构现行的风险评级参考因素，检查风险要素是否还存在不足。在此基础上，结合机构风险偏好、监管要求，以及专家意见等综合考量风险评级因素的权重，通过与现行评级进行比较，发现实际评级与预期评级之间的差异。
而定量分析侧重于对于评级分数区间的计算和评估，以验证评级分配是否合理且符合业务预期。
通过聚类分析等算法，为不同的风险评级测算出科学、合理的评分区间。最终我们基于监管要求、行业标准、最佳经验以及评估结果等，为客户提出改善化建议，解决现有评级中发现的差距和不足。
反洗钱模型，充分利用现有反洗钱系统的历史记录、指标、规则以及分析结果等相关数据，通过行之有效的分析计算等验证方式，最后将模型予以优化和完善。建立这样长效的工作机制，可以逐步形成良性的生态循环，不断提高系统模型运行的效果。这样的长效工作机制，更需要机构在内部合规体系构建、制度流程建设，以及日常运营等方面的通力配合。

案例实操：反洗钱实战分享
传统的反洗钱监测可疑交易主要基于客户交易金额、地点、时间等维度，依靠人工来甄别排查，而本次案例我们尝试一些不一样的类型的数据用上目前的AI技术帮我们缩窄筛查面。
本次案例背景，我们基于银行某支行的交易数据。其中相关的数据较为敏感，本次暂不公开，其所含字段类型大概包括以下类型：
1.支行
2.存/取现时间
3.卡类型
4.交易金融

5.消费时间
6.消费金额

7.近半年消费次数

8.近三月大额消费次数
9.近三月小额交易次数

…
做过反洗钱工作的同学肯定知道，很多反洗钱只是会进行大额的监控，并且还自带相关白名单，等到冲过银行的限定阈值就会报警。比如单笔交易5W，月均30W这样的阈值。这一次我们利用神经网络Auto Encoder算法来做相关模型开发，来增强模型的敏感性。
AE，Auto encoder，非监督学习算法的一种。因为其损失函数，MSE,对偏离更大的值较为敏感，也是被人吐槽多次的模型，当然其中的一部分还要归因于神经网络自身。但考虑到我们本次开发用到的是数据样本，不是图形样本，所以用AE也是合适的。因为MSE对数据平均值上下浮动的感知不会明显，其loss不会降的很低，但也不会升的很离谱，其对离群感知明显，效率也快。

目前来讲，AE整个算法最起到作用的就是降维，比如原来的客户有600个数据特征，即600维度特征。Auto encoder就如上面那个漏斗形的网络那样，将600个特征值降维到二维。即：将600个客户特征浓缩到两维特征。当然浓缩后的特征代表着什么仍有待考究，但是重要的是浓缩后的特征的数据的趋向性。
以下图为例，每个点是一个客户。大家能发现明显的聚合趋势，都能发现明显的极端值。这样就完成了第一步的客户特征值降维。

根据反洗钱案例评分模型找出潜在的高洗钱评分案例，筛选出top N排名高的客群作为高评分案例，作为可疑案例排查，有效降低了排查成本，提高了排查效率，减少了误报率。
通过与客户画像的匹配，识别出客户交易行为的合理性，及时发现客户身份与交易行为之间的异常，有效指导业务部门进一步精细化、针对性地开展反洗钱工作，为及时做出决策提供信息依据。
本次实操代码如下：

在实际的业务中，我们会再根据模型评分开展日常反洗钱交易的监测与筛查，实现反洗钱可疑交易数据的集中分析与管理。同时，根据模型的评分给定三个等级：高风险、中风险、低风险，对客户进行更全面、更立体化的识别，多角度勾勒出客户的行为特征，形成全方位的客户风险画像。
这次关于反洗钱相关资料教材也同步至知识星球平台，星球同学可以上去查收：

~原创文章
…
end

数据模型同学看过来|代码案例实操来袭相关推荐

【Java】接口长URL转成短连接的实现（代码案例实操）
有时候,我们不想采用很长的url链接,主要的一些原因: URL太长占显示空间.难于输入,转成二维码点点小,难于识别长的URL提供的信息太多,不利于信息安全,甚至容易造成倒库其他理由......例如 ...
尚硅谷大数据技术Spark教程-笔记09【SparkStreaming（概念、入门、DStream入门、案例实操、总结）】
尚硅谷大数据技术-教程-学习路线-笔记汇总表[课程资料下载] 视频地址:尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据技术Spark教程-笔记01[SparkCore ...
Arduino案例实操 -- 语音播放模块（DY-SV5W）
案例主控板如不做特殊说明的话,均默认是Arduino UNO控制板. 本次实验以UNO发送串口协议控制语音播放器播放歌曲,语音播放模块选型DY-SV5W. 文章标题导航一.硬件选择 1. Ardui ...
51单片机案例实操 -- 倒车雷达
结合前面学习的流水灯.蜂鸣器.外部中断.超声波和OLED显示,实现51单片机平台的倒车雷达案例 51单片机倒车雷达案例实操 1. 倒车雷达 2. 功能模块回顾 2.1 流水灯 2.2 蜂鸣器多频率 2 ...
大数据之Spark案例实操完整使用(第六章)
大数据之Spark案例实操完整使用一.案例一 1.准备数据 2.需求 1:Top10 热门品类 3.需求说明方案一. 实现方案二实现方案三二 .需求实现 1.需求 2:Top10 热门品类中每 ...
Spark转换算子大全以及案例实操
1.RDD 转换算子 RDD转换算子实际上就是换了名称的RDD方法 RDD 根据数据处理方式的不同将算子整体上分为 Value 类型.双 Value 类型和 Key-Value 类型算子:Opera ...
PaddleDetection行人分析工具PP-Human案例实操
PaddleDetection行人分析工具-PP-Human案例实操本项目将带大家快速上手PP-Human,实操行人跟踪.属性分析和行为识别等行人高频场景应用,以及PP-Human多种使用方式. 光 ...
【报告分享】见实私域流量白皮书：私域流量案例实操手册.pdf
大家好,我是文文(微信:sscbg2020),今天给大家分享见实科技于2020年10月份发布的报告<见实私域流量白皮书:私域流量案例实操手册.pdf>. 本报告共73页,包含如下鞋服.餐饮 ...
MapReduce入门（一）—— MapReduce概述 + WordCount案例实操
MapReduce入门(一)-- MapReduce概述文章目录 MapReduce入门(一)-- MapReduce概述 1.1 MapReduce 定义 1.2 MapReduce 优缺点 1. ...

数据模型同学看过来|代码案例实操来袭

数据模型同学看过来|代码案例实操来袭相关推荐

最新文章

热门文章