比赛名称:蚂蚁金服-支付风险识别

比赛链接

https://dc.cloud.alipay.com/index#/topic/intro?id=4

比赛背景

基于移动互联网的线下支付、保险、理财等新金融业务快速发展,互联网金融行业不断突破创新。与此同时,潜伏在网络暗处的黑产势力也不断升级,并威胁着整个行业,其中以信息泄露导致电子账户安全最为严重,并且愈演愈烈之趋势。

黑客窃取的用户信息包括社保号码、地址、信用卡信息等,并利用这些泄露信息尝试登陆盗取账号资金或盗刷银行卡,直接导致银行和第三方支付公司的用户蒙受大量经济损失。

赛题目的

如何更好地利用海量的交易数据和有限的样本来识别迁移中的黑产手法,从而高效准确地判别交易的风险,是人工智能和大数据在风控场景中需要持续解决的技术难题。

在此背景下,本次大赛希望围绕信息泄露导致账户安全威胁为课题,面向行业征集最智慧的安全解决方案,引领互联网风控核心技术发展。

赛题数据

在本次大赛中,将给出由一段时间内有正负标签样本的支付行为样本和没有标签的支付行为样本组成的训练数据集和一段时间后的某个时间范围内的有正负标签的支付行为样本构成的测试数据集,数据集均经过严格处理。

亚军方案

赛题背景

赛题数据为支付宝交易数据,根据历史交易中(17.09-17.10)欺诈情况来预测未来的交易行为(18.02)的欺诈情况。

测评指标是用于反欺诈测评指标的覆盖率:

下面是本次比赛中的原生特征,可以看到基本全部来自于设备信息。

在本次比赛中数据有以下特点,并且我们针对数据的特点需要提出针对性的处理方案。由图可见,数据样本的标签类别极度不均衡,缺失值情况也参差不齐,并且欺诈率与缺失情况关系很明显。

特征工程

不管是机器学习还是深度学习都是要有合适应用场景,熟悉其中的业务知识其实往往可以更快速或者更好的去做好一个模型,我们根据交易的业务将字段进行整理和分类,然后从业务的角度多维度的建立特征。

从多维度多角度去思考特征,思考通常欺诈交易会产生哪些方面的变化和异常。

多维度考虑,我们做了以下维度的特征依次为基础特征,信息校验,用户行为,即时特征,设备特征,时间特征,IP属性特征,收款方特征。

其实可以看出交易量是呈周期性变化的,在训练集中有两个完整月的数据,测试集为一个完整月的数据,为充分利用数据同时保证训练验证测试的一致性,我们将训练集按月与测试集同结构拆分,分别做off_val,然后分别预测测试集,以更好的依据期周期来进行训练和预测。也由于复赛线上平台训练速度太慢,但拆分预测我们认为也是更合理的充分利用数据的一种方式。

构造特征时保证特征的稳定性是金融行业最重要的思想,我们需要使特征在训练集 验证集和测试集保证分布一致,这也是保证模型稳定的关键。

标签为-1是蚂蚁金服模型中判断为异常从而使交易失败的样本,灰样本的处理也是本赛题上分的关键点,这里涉及到一部分拒绝推断知识。

这里可以看出交易的场景,方式,与交易相关的次数和频度都是具有良好区分度的特征。

模型设计

模型结构分为以下四部分,我们依次进行分析。

  • 首先是最好的白样本的剔除,我们用9月标签为0和1的样本预测10月标签为0,1的样本,去除其中概率最小的一部分(最优阈值需要不断尝试),同理去除9月的一部分白样本。

  • 然后训练去除最好白样本的这批样本,预测off_val的-1,然后将概率最大的一部分加入到样本中给定标签为1。

我们先去除好样本是为了弱化好客户的特征,凸显坏客户的特征,增加预测-1是坏客户的准确性。

比赛开源

第7名代码:https://github.com/mathcbc/Rank7-Solution-for-2018-ATEC-Anti-Fraud-Competition

亚军文章转载自:吊车尾学院-E哥

原文链接:https://zhuanlan.zhihu.com/p/57347243

竞赛组队交流群

鱼佬,武汉大学硕士,2020腾讯广告算法大赛冠军

阿水,北航计算机硕士,CV领域Top选手

杰少:南京大学硕士,DCIC冠军选手

蚂蚁金服-支付风险识别亚军方案!相关推荐

  1. 我在蚂蚁金服技术风险部做“医生”

    有一种误解流传甚广,认为技术风险工程师是一个"背锅"的岗位,干着脏活累活--事实真的如此吗?蚂蚁金服技术风险部的孝泰同学以他的亲身经历来"辟谣",并广发英雄帖- ...

  2. 我在蚂蚁金服技术风险部做“医生” 1

    有一种误解流传甚广,认为技术风险工程师是一个"背锅"的岗位,干着脏活累活--事实真的如此吗?蚂蚁金服技术风险部的孝泰同学以他的亲身经历来"辟谣",并广发英雄帖- ...

  3. 【风控实践】ATEC蚂蚁开发者大赛-支付风险识别

    赛题的目的是根据历史交易数据识别当前交易是否为欺诈交易.举办方给出由一段时间内有正负标签样本的支付行为样本和没有标签的支付行为样本组成的训练数据集和一段时间后的某个时间范围内的支付行为样本构成的测试数 ...

  4. 蚂蚁金服服务注册中心数据一致性方案分析 | SOFARegistry 解析

    SOFAStack (Scalable Open Financial Architecture Stack) 是蚂蚁金服自主研发的金融级云原生架构,包含了构建金融级云原生架构所需的各个组件,是在金融场 ...

  5. 蚂蚁金服支付平台代码配置

    1.添加依赖 <dependency> <groupId>com.alipay.sdk</groupId> <artifactId>alipay-sdk ...

  6. 支付宝花呗接口接入php,蚂蚁金服支付宝花呗分期支付接入实战分享|分分钟钟快速接入demo 企业开通接入花呗支付就是这么easy 想分就分 花呗技术走一波...

    " Yuema约吗?一起学技术,一起成长!他山之石,可以攻玉系列" 程序的世界,就是有坑的地方!分享踩坑的心得与体验!每天分享一点点! 关注公众号,可获取每日分享!小手点点,即可关 ...

  7. 服务全球近 9 亿人后,蚂蚁金服的技术开放进入 3.0 时代

    小蚂蚁说: 2018年9月21日下午,一年一度的蚂蚁金服ATEC金融科技开放峰会顺利召开.围绕"预践未来数字金融",来自蚂蚁金服.花旗.麦肯锡.建行.DBS.光大.中国外汇交易中心 ...

  8. 独家专访蚂蚁金服旗下蚂蚁佐罗CEO Toby Rush,揭秘识别同卵多胞胎背后的技术力量

    撰文 | 高静宜 编辑 | 微胖 11 月 3 日,iPhone X 全球同步开售,不过在此之前,第一批入手 iPhone X 测评机的媒体,已经掀起了一波用双胞胎测试 FaceID 识别功能的高潮. ...

  9. 我在蚂蚁金服做SRE

    有一种误解流传甚广,认为技术风险工程师是一个"背锅"的岗位,干着脏活累活--事实真的如此吗?蚂蚁金服技术风险部的孝泰同学以他的亲身经历来"辟谣",并广发英雄帖- ...

最新文章

  1. 集合php,PHP问题集合
  2. log_softmax
  3. 一、为什么要使用NoSQL数据库
  4. 转发与重定向的区别,特点
  5. C51单片机其他名词英文全称
  6. 某同学正为自己安装不上sqlserver数据库而愁眉苦脸,使用朋友给的方法顿时喜笑颜开,那么朋友到底出了个什么样的方法呢?...
  7. jQuery→事件、jQuery事件对象属性方法、多事件、自定义事件
  8. DjVu Reader Pro for Mac(DjVu阅读软件)
  9. 计分及竞赛软件启动时的错误现象及解决方法
  10. 【Unity效率优化】资源管理系统Addressable Asset
  11. 身份证号前缀与区域对照表
  12. C#程序实现鼠标移动
  13. bat批处理注释方法总结
  14. 《计算机操作系统》(慕课版)课后习题
  15. flutter之dart语言发展
  16. springboot整合微信网页授权登陆
  17. 将Linux 标准输出,错误输出重定向到文件
  18. 深度学习(自然语言处理)RNN、LSTM、TextCNN
  19. history.back(argu);
  20. 20171204 甲流疫情死亡率

热门文章

  1. 论5级流水32bit risc cpu设计
  2. 百度UEditor开发案例(JSP)
  3. OD使用教程6 - 调试篇06|解密系列
  4. ThinkPHP的标签制作
  5. VC 单文档程序 隐藏程序及任务栏图标
  6. javascript tab切换类LixTabs最新版
  7. Numpy入门教程:07. 随机抽样
  8. 刻意练习:LeetCode实战 -- Task17. 最长回文子串
  9. 刻意练习:Python基础 -- Task06. 字典与集合
  10. 开放-封闭原则(The Open-Closed Principle,OCP)