去年年底,央行开出反洗钱罚单,多家银行合计被罚1040万元。
当时,中国人民银行石家庄中心支行披露的反洗钱行政处罚信息公示表显示,因涉及未按照规定履行客户身份识别义务等,中行、邮储、浦发三家银行以及阳光人寿被罚,同时多名相关责任人均被处罚。
值得注意的是,此次罚单中,中国银行被罚金额最大,合计被罚1040万元。

详见链接:
http://news.bandao.cn/a/427838.html

其中处罚原因占比最高的三项为“客户身份识别”、“未按照规定报送大额和(或)可疑交易报告”,以及“客户身份资料和交易记录保存”。

监管的合规要求越来越高,而机构在有限的资源下,必然会面临着较大的反洗钱合规压力。越来越多的金融机构面对反洗钱也面有难色。比如刚开始提到的难题:如何监控大额和可疑交易监测及报告、客户洗钱风险评级等。因此本文我们跟大家分享下反洗钱模型的一些经验内容。
反洗钱模型,涉及客户洗钱风险等级划分模型、产品或业务洗钱风险评估模型以及可疑交易监测模型等。
反洗钱监管部门也明确要求法人机构应定期对模型的有效性进行评估并予以完善。而模型的开发流程借鉴之前的内容可以有以下流程:
管理和监督——>数据收集——>假设数据——>原理和方法——>操作与测试——>输出
对于很多金融机构来说,可疑交易的监测会面临类似的问题,如触发的可疑交易数量庞大、人工分析效率不高等。
而模型的引入就是解决人工筛查慢的一个重要工具。模型通过定性分析与定量分析的结合,并且对于模型运行进行综合的评估并提出优化建议,不断提高系统的有效性。
模型主要关注机构的监控场景是否完备,以及监控系统是否囊括了机构现行的产品与业务。通过梳理机构的产品、业务,以及对照监管要求与权威组织发布的指引等内容,审阅可疑交易监控规则是否存在缺漏和不足。
而监控模型的有效性验证则主要通过对关键绩效指标和场景重复性予以评估。关键绩效指标是根据机构交易监控场景中产生的关键性的数据指标,分析不同场景下数据的差异。场景重复性分析则会重点审阅系统监控场景配置中生成重复案例的情况及原因。
监控场景阈值测试通过数据分析方法,判断各个场景下技术指标设定值的适当性,是模型验证中非常重要的组成部分。
监控场景阈值测试从场景上来可分为商户与个人,从数据分析方法来分可以分为定量分析和定性分析两部分:
a.定量分析:
主要为技术指标的设置和调整提供量化建议
确定活动因子
确定监测模型中的关键活动因子,及确定纳入分析范围的子场景和活动因子
相关性分析
判断活动因子的相关性,确定主要技术指标和次要技术指标
稳定性分析
计算活动因子的各月分位数和平均数的值,确定数据分布的稳定性、周期性和趋势
分布情况分析
分析数据的分布情况,确定技术指标阈值和STR的分位数,使用K-Means方法确定群组上下限,确定建议阈值。
b.定性分析:
主要判断建议的阈值是否符合成本效用原则,以进一步确定是否需要进行阈值调整
确定增量样本
对于建议调低阈值的,按照建议阈值调整设定,并导出阈值调整后增加的样本记录
样本抽样
确定置信度、边际误差和预测有效案例生产率,对于调整阈值后增加的样本记录进行抽样
检查有效性
结合交易记录内容和客户信息,检查抽取样本的有效性并记录
接受/拒绝建议
根据样本有效性的检查结果,使用假设检验法作出接受/拒绝建议的决定,形成最终调整结果通过定量分析与定性分析相结合,对于监控模型的阈值区间给出了具体的建议,从而有效帮助客户对于阈值设置进行量化的考量。对于监控模型的验证,可以有效帮助机构全面评估可疑交易监测系统的实际情况,发现有可能会影响系统运行的薄弱环节,从而提高系统监控的效率。此外,在完成阈值设置的验证后,当然对阈值进行持续的动态调整与优化,根据积累的可疑交易监测数据定期对阈值进行优化。

客户洗钱风险等级划分
根据以往的项目经验,交易监控模型被归类为高风险模型,而某些不使用任何算法进行的筛选,则将其分类为非模型或中、低风险模型。而客户风险评级模型的评级则会因机构的固有风险评级方法的不同而进行差异化调整。
一般来说,客户风险等级划分的参考因素主要包括:
•客户的特点,如法人信息、所有权类型、业务性质等。
•地域的因素,如客户所在地、经营所在地等。
•产品/业务因素,如产品匿名性、是否跨境等。
•行业因素,如现金密集性行业等。
•预期行为,如客户预期的交易金额或交易数量等。

利用以上规则细细梳理而来,反洗钱的规则大概有以下内容:
1、时间多在凌晨,或不分昼夜;
2、短时间内现金交易突增长或突然加快;
3、拥有N个账户(N>2)且这些账户现金交易频繁,单笔或累计交易金额大;
4、长期闲置或少使用的账户突然存取大量现金;
5、频繁接收境外汇入资金,并在短期内要求现金解冻;
…….
N、频繁或大量存取现金,与他身份跟自身身份不相符…….
在对客户风险等级划分模型验证时,同时也会采用定性分析和定量分析结合的方式。首先会审阅机构现行的风险评级参考因素,检查风险要素是否还存在不足。在此基础上,结合机构风险偏好、监管要求,以及专家意见等综合考量风险评级因素的权重,通过与现行评级进行比较,发现实际评级与预期评级之间的差异。
而定量分析侧重于对于评级分数区间的计算和评估,以验证评级分配是否合理且符合业务预期。
通过聚类分析等算法,为不同的风险评级测算出科学、合理的评分区间。最终我们基于监管要求、行业标准、最佳经验以及评估结果等,为客户提出改善化建议,解决现有评级中发现的差距和不足。
反洗钱模型,充分利用现有反洗钱系统的历史记录、指标、规则以及分析结果等相关数据,通过行之有效的分析计算等验证方式,最后将模型予以优化和完善。建立这样长效的工作机制,可以逐步形成良性的生态循环,不断提高系统模型运行的效果。这样的长效工作机制,更需要机构在内部合规体系构建、制度流程建设,以及日常运营等方面的通力配合。

案例实操:反洗钱实战分享
传统的反洗钱监测可疑交易主要基于客户交易金额、地点、时间等维度,依靠人工来甄别排查,而本次案例我们尝试一些不一样的类型的数据用上目前的AI技术帮我们缩窄筛查面。
本次案例背景,我们基于银行某支行的交易数据。其中相关的数据较为敏感,本次暂不公开,其所含字段类型大概包括以下类型:
1.支行
2.存/取现时间
3.卡类型
4.交易金融

5.消费时间
6.消费金额

7.近半年消费次数

8.近三月大额消费次数
9.近三月小额交易次数


做过反洗钱工作的同学肯定知道,很多反洗钱只是会进行大额的监控,并且还自带相关白名单,等到冲过银行的限定阈值就会报警。比如单笔交易5W,月均30W这样的阈值。这一次我们利用神经网络Auto Encoder算法来做相关模型开发,来增强模型的敏感性。
AE,Auto encoder,非监督学习算法的一种。因为其损失函数,MSE,对偏离更大的值较为敏感,也是被人吐槽多次的模型,当然其中的一部分还要归因于神经网络自身。但考虑到我们本次开发用到的是数据样本,不是图形样本,所以用AE也是合适的。因为MSE对数据平均值上下浮动的感知不会明显,其loss不会降的很低,但也不会升的很离谱,其对离群感知明显,效率也快。

目前来讲,AE整个算法最起到作用的就是降维,比如原来的客户有600个数据特征,即600维度特征。Auto encoder就如上面那个漏斗形的网络那样,将600个特征值降维到二维。即:将600个客户特征浓缩到两维特征。当然浓缩后的特征代表着什么仍有待考究,但是重要的是浓缩后的特征的数据的趋向性。
以下图为例,每个点是一个客户。大家能发现明显的聚合趋势,都能发现明显的极端值。这样就完成了第一步的客户特征值降维。

根据反洗钱案例评分模型找出潜在的高洗钱评分案例,筛选出top N排名高的客群作为高评分案例,作为可疑案例排查,有效降低了排查成本,提高了排查效率,减少了误报率。
通过与客户画像的匹配,识别出客户交易行为的合理性,及时发现客户身份与交易行为之间的异常,有效指导业务部门进一步精细化、针对性地开展反洗钱工作,为及时做出决策提供信息依据。
本次实操代码如下:

在实际的业务中,我们会再根据模型评分开展日常反洗钱交易的监测与筛查,实现反洗钱可疑交易数据的集中分析与管理。同时,根据模型的评分给定三个等级:高风险、中风险、低风险,对客户进行更全面、更立体化的识别,多角度勾勒出客户的行为特征,形成全方位的客户风险画像。
这次关于反洗钱相关资料教材也同步至知识星球平台,星球同学可以上去查收:

~原创文章

end

数据模型同学看过来|代码案例实操来袭相关推荐

  1. 【Java】接口长URL转成短连接的实现(代码案例实操)

    有时候,我们不想采用很长的url链接,主要的一些原因: URL太长占显示空间.难于输入,转成二维码点点小,难于识别 长的URL提供的信息太多,不利于信息安全,甚至容易造成倒库 其他理由......例如 ...

  2. 尚硅谷大数据技术Spark教程-笔记09【SparkStreaming(概念、入门、DStream入门、案例实操、总结)】

    尚硅谷大数据技术-教程-学习路线-笔记汇总表[课程资料下载] 视频地址:尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据技术Spark教程-笔记01[SparkCore ...

  3. Arduino案例实操 -- 语音播放模块(DY-SV5W)

    案例主控板如不做特殊说明的话,均默认是Arduino UNO控制板. 本次实验以UNO发送串口协议控制语音播放器播放歌曲,语音播放模块选型DY-SV5W. 文章标题导航 一.硬件选择 1. Ardui ...

  4. 51单片机案例实操 -- 倒车雷达

    结合前面学习的流水灯.蜂鸣器.外部中断.超声波和OLED显示,实现51单片机平台的倒车雷达案例 51单片机倒车雷达案例实操 1. 倒车雷达 2. 功能模块回顾 2.1 流水灯 2.2 蜂鸣器多频率 2 ...

  5. 大数据之Spark案例实操完整使用(第六章)

    大数据之Spark案例实操完整使用 一.案例一 1.准备数据 2.需求 1:Top10 热门品类 3.需求说明 方案一. 实现方案二 实现方案三 二 .需求实现 1.需求 2:Top10 热门品类中每 ...

  6. Spark转换算子大全以及案例实操

    1.RDD 转换算子 RDD转换算子实际上就是换了名称的RDD方法 RDD 根据数据处理方式的不同将算子整体上分为 Value 类型.双 Value 类型和 Key-Value 类型 算子:Opera ...

  7. PaddleDetection行人分析工具PP-Human案例实操

    PaddleDetection行人分析工具-PP-Human案例实操 本项目将带大家快速上手PP-Human,实操行人跟踪.属性分析和行为识别等行人高频场景应用,以及PP-Human多种使用方式. 光 ...

  8. 【报告分享】见实私域流量白皮书:私域流量案例实操手册.pdf

    大家好,我是文文(微信:sscbg2020),今天给大家分享见实科技于2020年10月份发布的报告<见实私域流量白皮书:私域流量案例实操手册.pdf>. 本报告共73页,包含如下鞋服.餐饮 ...

  9. MapReduce入门(一)—— MapReduce概述 + WordCount案例实操

    MapReduce入门(一)-- MapReduce概述 文章目录 MapReduce入门(一)-- MapReduce概述 1.1 MapReduce 定义 1.2 MapReduce 优缺点 1. ...

最新文章

  1. PEAR, PECL和Perl的区别
  2. 今天写的一个GetProcAddress
  3. spring配置异步执行
  4. php和python哪个好-PHP和Python语言选择哪个好
  5. EL之GB(GBR):利用GBR对回归问题(实数值评分预测)建模
  6. Unity按钮禁用和变灰
  7. 使用js在桌面上写一个倒计时器_论一个倒计时器的性能优化之路
  8. 【youcans 的 OpenCV 例程200篇】114. 形态学操作之膨胀
  9. python模拟访问js_python模拟http请求,返回“浏览器不支持javascript,请设置您的浏览器开启javascript支持”...
  10. 计算机网络学习笔记(27. Email应用概述)
  11. 本地chrome调试服务器node
  12. 伺服驱动器cn1引脚定义_伺服驱动器CN1引脚定义,和面板操作设置,跪求高手指点。...
  13. 串口调试助手fx2n_PLC串口调试软件(PLC串口通信调试)
  14. .Net Core 使用Swagger,且使用自定义UI(Knife4jUI)
  15. sis最新地址获取方法_微信表情悄悄更新,获取最新表情方法!
  16. 暗黑-角色-中英文对照
  17. 《机器学习实战》(七)-- LinearRegression
  18. linux 复制并替换文件,linux – 复制/ Tarring在过去14天内修改过的文件
  19. Rest风格请求方式
  20. 华为nova10和华为nova9哪个值得买 两者配置对比

热门文章

  1. neo4j禁用服务器身份验证,bulls/Neo4j:创建图形对象时发生身份验证错误
  2. mysql数据库优化skip_优化配置mysql数据库优化
  3. python创建maven工程_Maven项目
  4. tia v15 添加项目_基于博途V15 西门子S7-1200 星三角启动实例演示
  5. 软件的接口设计图_基于GJB 5000A的软件配置管理研究与系统实现
  6. 29岁学java_今年29岁小学文化,想学java请各位指点怎么入手?
  7. 5课件制作_【计算机论文】虚拟现实技术下多媒体课件开发的流程
  8. 前端与移动开发乐淘项目-day02
  9. nested set model应用系列文章-基于后根跳跃遍历的规则匹配算法
  10. Iptables Nat转发