通常情况下,我们一般都会使用交叉验证来作为评估模型的标准,来选择我们最后的模型。但是在一些数据挖掘竞赛中,数据集一般分为训练集合测试集,国内比赛可能根据比赛阶段划分多个测试集,由于数据集采样和分布的原因导致训练集和线上测试集可能存在分布不一致的情况,这时候CV无法准确的评估模型在测试集上的效果,导致线上线下不统一,分数上不去。而缓解这一问题的黑科技,就是对抗验证Adversarial validation。(图片来自 Coggle数据科学公众号,见致谢。)

样本分布的变化

样本分布变化主要体现在训练集和测试集的数据分布存在差异。比如,在化妆品或者医美市场,男性的比例越来越多。基于过去的数据构建的模型,渐渐不适用于现在。

此时为什么交叉验证不适用?

比如我们现在要对淘宝用户的购买行为进行推荐或者预测。
我们的训练数据集中用户的年龄分布大概在18~25岁,而我们的测试集中主要是70岁以上的老人组成。这时我们的数据样本分布就发生了变化。(图片来自知乎刘秋言)

数据挖掘竞赛黑科技——对抗验证(Adversarial validation)相关推荐

  1. 人大附中高中生学Python获数据挖掘竞赛一等奖,将去旷视科技实习

    本文授权转自光明社教育家(微信ID:jyjzzwx) 作者 | 翟小宁 武迪 朱星宇是人大附中2011级早培班的一名学生,现在在高三出国班上课.他在学校的身份不只是学生,同时也是计算机视觉与深度学习研 ...

  2. 【数据竞赛】竞赛宝典黑科技:基于开源结果的高端融合策略

    作者: 尘沙杰少,樱落 竞赛宝典黑科技_基于开源结果的融合 (轻轻松松挖银牌) 背景 本篇文章的思想很简单,不需要自己跑任何的模型,只需要将现有的开源提交结果进行"直接优化两步走" ...

  3. 极狐阿尔法s 鸿蒙系统,满身黑科技 极狐阿尔法S HI版量产验证车下线

    原标题:满身"黑科技" 极狐阿尔法S HI版量产验证车下线 5月26日,网通社从官方获悉,ARCFOX极狐与华为合作打造的阿尔法S HI版首台量产验证车,在北汽蓝谷麦格纳镇江工厂正 ...

  4. 互动让综艺再进化,「黑科技」如何让这届年轻人身临其境做戏精?

    ‍ 看惯了野外生存达人贝爷上山下河.吃虫求生的画面,你有没有想过,当这种"残酷"的选择需要由你来做出的时候,或许作为观众就不会在如此轻松惬意了.而这种扣人心弦,恰恰就是互动内容所体 ...

  5. 网易超分黑科技来了!全新移动端视频体验时代来临

    如今,互联网上的社交行为已不局限于QQ和微信.泛娱乐与社交领域相融合所形成的泛娱乐社交正在帮助企业打开全新的文娱布局.泛娱乐应用社交与互动性强成为共同特征,而具备这些特性的产品往往都集中在直播.短视频 ...

  6. 4K修复版《海上钢琴师》登陆全国院线,一文读懂背后的黑科技!

    最近有件大事,11 月 15 日,全球瞩目的经典电影<海上钢琴师>4K 修复版登陆了全国院线.岁月侵蚀的影片经典场景,在老胶片的保存下只剩模糊的影像.而此次经 4K 技术修复的版本,据说采 ...

  7. 微软云强劲增长的背后,是全新的人工智能黑科技

    众所周知,近年来微软Azure云计算平台一直保持着强劲的增长势头.在上一个财季的财报中,微软CEO Satya Nadella表示,数字技术是通胀经济中的去通胀之力,不论是大企业还是小企业,都能通过构 ...

  8. Adversarial validation

    之前参加了kaggle的Toxic比赛,名次为Top1%(瞎打,忙于项目--提不上去的理由了,安慰自己).回头看别人分享的kernel时,发现了Adversarial validation,本文也是直 ...

  9. DL之GAN:HighNewTech基于计算机视觉领域GAN技术—最新黑科技之秒变宝宝——回到最初的样子

    DL之GAN:High&NewTech基于计算机视觉领域GAN技术-最新黑科技之秒变宝宝--回到最初的样子 导读      8月14日,快手APP上线名为"变小孩"的魔法表 ...

最新文章

  1. Xamarin Essentials教程安全存储SecureStorage
  2. emacs php,如何在Emacs中关闭php-indent警告
  3. 设置MySQL的字符编码
  4. gpu版tensorflow测试
  5. [引]VS2005 之 Visual Basic 程序的结构
  6. 某公司PIX 520防火墙系统和NAT的实施
  7. Office文档在线预览接口服务器
  8. php获取数据3中方式,PHP面向对象之3种数据访问方式详解(代码实例)
  9. UVA - 10976 分数拆分
  10. 电阻、电容、电感、半导体器件的失效分析!
  11. Flink在bilibili的优化与实践
  12. 论文常用图表三:盒图 Boxplot【MATLAB】
  13. 新版标准日本语中级_第十四课
  14. java groovy 表达式_Groovy的基础语法
  15. 科普硬解,软解,gpu,dsp等等的关系
  16. EXCEL 字符替换为换行符
  17. 注册微信小程序需要多少钱
  18. 计算机用户账户类型,计算机系统帐户的分类
  19. 【干货】磨金石教育UI快速入门!U设计基础知识整理,新人必备
  20. java jpanel 层,java – 循环遍历JPanel

热门文章

  1. 用 Canvas 编织璀璨星空图
  2. 学了python可以做什么兼职,学python真的能做兼职吗
  3. 【机器学习】信用卡欺诈检测 (下采样、SMOTE过采样、集成学习、Pytorch)
  4. 泰勒级数sinx c语言,C语言用泰勒级数计算sinx,计算sin1,sin2都正确,sin
  5. 会员分析(Excel)+可视化
  6. UML工具带有数据流程图的客户服务系统案例研究
  7. 如何让计算机听懂指令,4个方法,让自闭症孩子听懂你的话
  8. c语言ofstream未定义标识符,C++ 标准文件的写入读出(ifstream,ofstream)
  9. 查看linux是哪个版本号,linux 版本号的查看
  10. 小程序开发之影分身术 1