案例来源:@AI科技大本营
案例地址: https://mp.weixin.qq.com/s?__biz=MzI0ODcxODk5OA==&mid=2247495146&idx=1&sn=5cd9a49fcc52fa429c689880a08d095f&chksm=e99ede13dee95705947a2de932d8c1ea5c6dbcb7954b9ee11b80b7220d577705d129c4acc3ac&scene=0#rd
1. 目标:改进现有模型,对套现欺诈进行检测
2. 数据:
1)买家身份信息
2)卖家身份信息
3)当笔交易特征
4)历史交易特征
3. 过程:
1)由于原始数据共有5000维,因此训练MART树,计算出特征的重要性分数,实验中选择前300维就有较好的性能
2)根据300维特征,训练深度森林。(深度森林由多层模块组成,每层的基础模块是MART树;对于每个基础模块,输入是上一层的类别输出和原始的输入数据;对每一层进行验证,当准确率不再提高时,级联过程结束
4. 结果:
1)性能:在AUC、F1与KS指标评估下,均好于现有模型
2)经济效益:之前最好的模型是600棵树的MART模型,深度森林模型每个MART模块用200棵树
3)鲁棒性
(补充资料: https://mp.weixin.qq.com/s/d54phy7IfTpyRSkYOS8bpw )
多粒度级联森林
1. 深度模型有效的要点:
1)层层处理
2)特征转换:原始特征不能有效表达分类信息或者人工难以构建有效的特征,因此需要进行特征转换。如图片、视频
3)足够的模型复杂度
2. 深度模型的缺点:
1)太多超参数要调
2)结构确定后复杂度也定死了
3)需要大量数据
4)理论分析复杂
5)黑盒
6)面对不可微问题无法用反向传播
3. 树模型相对于深度神经网络的缺点:
1)缺乏足够的模型复杂度
2)不管是RF还是GBDT,都只使用了原始特征
4. 提出多粒度级联森林,优点:
1)拥有特征转换能力,多层结构提高模型复杂度
2)更少的超参数
3)根据数据量自适应模型复杂度
5. 多粒度级联森林
1)特征转换与多级处理:
a. 每层多个不同的随机森林,以提高集成效果
b. 每层森林的输出结果作为下一层的增强特征。如某一层有4个森林,训练的是三分类问题,那么下一层会接收到4*3=12个增强特征
c. 每一层使用上一层的增强特征+原始特征进行训练
d. 直到训练的评估函数不再提升,停止加层
(树中包含完全随机树,是为了保留原始信息?还是如文中所言,是为了探索未标记数据的信息?)
2)多粒度:用于处理图片或音频等原始数据,采用滑动窗口的方式进行切片采样。下图是序列数据,类别数为3。
a. 原始400维样本,以100维为窗口期滑动采样,这样获得了301个样本,每个样本100维度
b. 用301个样本训练完全随机森林和随机森林
c. 每个森林的输出结果是301个样本在3个类别上的score
d. 将301*3的输出结果展开,森林之间结果进行拼接,得到新的特征表示
3)多粒度+多级处理:

【数据产品案例】周志华团队和蚂蚁金服合作:用分布式深度森林算法检测套现欺诈相关推荐

  1. 最喜欢随机森林?周志华团队 DF21 后,TensorFlow 开源决策森林库 TF-DF

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 转自 | 机器之心 TensorFlow 决策森林 (TF-DF) ...

  2. 最喜欢随机森林?周志华团队DF21后,TensorFlow开源决策森林库TF-DF

    来源:机器之心本文约2500字,建议阅读9分钟TensorFlow 开源了 TensorFlow 决策森林 (TF-DF). TensorFlow 决策森林 (TF-DF) 现已开源,该库集成了众多 ...

  3. 周志华团队 | TensorFlow开源决策森林库TF-DF

    点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:机器之心 AI博士笔记系列推荐 周志华<机器学习>手推笔记正式开源!可打印版本附pdf下载链接 在 ...

  4. 南大周志华团队开源深度森林软件包DF21:训练效率高、超参数少,普通设备就能跑 | AI日报...

    中国学者研发新型电子纹身,实现8倍延展,有望用于医疗.VR和可穿戴机器人等领域 可穿戴设备,已经成为我们生活中极为常见的一种设备,它们体积轻巧.佩戴方便.检测数据齐全,但也存在一个很明显的缺点--无法 ...

  5. 周志华团队:深度森林挑战多标签学习,9大数据集超越传统方法

    来源:arXiv 本文转载自新智元(公众号ID:AI_era),未经许可请勿二次转载. [导读]南京大学周志华团队最新研究首次将深度森林引入到多标签学习中,提出多标签深度森林方法MLDF,在9个基准数 ...

  6. 蚂蚁金服自研分布式关系数据库OceanBase上线阿里云

    OceanBase于2020年3月在阿里云上完成了商业化,在公有云上正式对外开放.同步上线的还有相关的生态产品,包括集群管控(OCP:OceanBase Cloud Platform),诊断(OTA: ...

  7. 岗位推荐 | 蚂蚁金服招聘机器学习、自然语言处理算法工程师

    PaperWeekly 致力于推荐最棒的工作机会,精准地为其找到最佳求职者,做连接优质企业和优质人才的桥梁.  如果你需要我们来帮助你推广实习机会或全职岗位,请添加微信号「pwbot02」. 你想知道 ...

  8. 蚂蚁金服:超大规模分布式计算系统 + 超大规模分布式优化算法

             人工智能大数据与深度学习  公众号: weic2c 近年来,随着"大"数据及"大"模型的出现,学术界和工业界对分布式机器学习算法引起了广泛关注 ...

  9. 苹果与蚂蚁金服合作 首次在中国推出iPhone免息分期服务

    [TechWeb]2月22日消息,据国外媒体报道,苹果公司已与中国支付巨头蚂蚁金服和多家当地银行合作,提供免息分期服务.这是苹果首次为中国iPhone推出免息分期服务. (官网截图) 苹果上个月罕见地 ...

最新文章

  1. R语言基于随机森林进行特征选择(feature selection)
  2. 很多人很想知道怎么扫一扫二维码就能打开网站,就能添加联系人,就能链接wifi,今天做个demo(续集)...
  3. 《编写高质量代码:改善c程序代码的125个建议》——第1章 数据,程序设计之根本建议1:认识ANSI C...
  4. maven生命周期lifecycle和plugins介绍
  5. kindle 3快捷键
  6. Android之在TextView里面部分文字变颜色并且可以点击
  7. web.config中的globalization 标签在将几个不同服务器上的网闸内容以统一面貌集成在自己网站上时的要考虑的问题
  8. 认识Linux系统中的inode,硬链接和软链接
  9. javascript基础修炼——手把手教你造一个简易的require.js
  10. mysql 怎么改属性_mysql怎么修改字段的属性
  11. C++中常用到的容器
  12. HDU 2159 完全背包
  13. [UEFI启动教程]移动硬盘安装U盘装机助理(双模式启动)
  14. vm虚拟机关机后打不开_VMWARE虚拟机非正常关机导致无法启动的解决办法
  15. linux服务器防攻击脚本,防止服务器被攻击的妙招(推荐)
  16. mysql8.0 无法加载身份验证插件“缓存_sha2_密码” 问题解决方法
  17. 你知道吗?除了迅雷,这几款下载神器也不错!
  18. SQL合并 合并id相同的数据
  19. 关于考研的几个潜规则
  20. 【LeetCode】999. 车的可用捕获量

热门文章

  1. 你可曾拥有过存钱罐(迭代器模式)
  2. eBPF/sockmap实现socket转发offload
  3. DHCP和BOOTP
  4. 现在开个水果店前景怎么样,精品水果店的前景如何
  5. 图像相减的matlab仿真及光栅滤波法,图像相减的MATLAB 仿真及光栅滤波法实验实现.doc...
  6. 使用jdk工具jdb调试Java应用程序
  7. 计算机说课比赛题目,小学信息技术《文章标题更醒目》说课稿
  8. java.lang.SecurityException: Permission Denial:错误解决办法
  9. 运算符重载的基本规则和习语是什么?
  10. windows 10右下角的时间显示带上星期