数据科学竞赛中有时会出现这样的奇特景观:某只队伍,靠着对极个别feature的充分利用,立即将对手超越,成功霸占冠军位置,而且与第二名的差距远超第二名与第十名的差距。然而,这些feature却不是在因果关系上顺利解释预测值的‘因’,反而是预测值的‘果’。

1. Data Leakage定义

存在和利用这种倒‘因’为‘果’的feature的现象,叫数据竞赛中的Data Leakage

这里的Data Leakage 跟其他场合说的数据安全数据泄漏完全不一样。从字面上理解,我们说的Data Leakage不是数据泄漏,而是因果关系的纰漏,是由于数据准备过程中出现的失误,使模型沿着有纰漏的,甚至是颠倒的因果关系进行预测,但得到极好的预测结果。

2. Data Leakage案例

Data Leakage 在数据科学竞赛中时常发生。

INFORMS 2010 Data Mining Challenge (预测患者是否有肺炎),Kaggle里面的the IJCNN 2011 Social Network Challenge (预测人们在社交网络中的关系类型),已经男性前列腺癌数据中,都存在不同程度的Data Leakage。

案例1

在男性前列腺癌数据中,有个feature叫PROSSUG,代表着这个患者是否接受过前列腺的手术,这个feature很难说是病人患前列腺癌的‘原因’(患心脏病的原因是接受过心脏手术?),而更像是一个标记,当然与病人是否患有前列腺癌极度相关。依靠着这样的feature训练出来的模型,肯定能够得到很好的预测结果,但对实际了解男性前列腺癌的成因,没有一点帮助。

Data Leakage不仅在竞赛中会发生,在实际工作中也会出现。

案例2

Chris老师就举过一个非常经典的例子。在处理电信用户流失的时候,用原有的数据集轻轻松松就可以把AUC达到0.99以上。这让人非常警惕。于是Chris老师仔细查看了一下模型和数据,原来数据中有一个权重极高的feature是“3个月内的缴费纪录”。很多流失用户的账户内,这个feature的值是0。再进一步,他跟会计核实了一下,在会计记账中,这个feature 代表的是用户已经流失后的三个月的缴费纪录,那肯定就是0了。这是典型的因果关系颠倒

3. Data Leakage的原因

以此我们可以看出,Data Leakage 基本都是在准备数据的时候,或者数据采样的时候出了问题,误将与结果直接相关或存在颠倒因果关系的feature纳入了数据集。这样的纰漏,比较难以发现。

这真是让人欢喜让人忧。

竞赛选手们肯定希望自己能够找到Data Leakage, 这样排名就可以大幅度提升。但对于竞赛主办方,或者实际工作中的数据科学家,则要千方百计识别Data Leakage,要不然比赛会被引入歧途,还会影响日常工作质量。

4. 必须重视因果性

我们再把讨论往前推一步:大数据,是要相关性,还是因果性?

某数据应用学院专门组织过讨论,集中批判一本畅销书《大数据时代》。这本书的主要观点就是,在大数据时代,要放宽对因果性的要求,充分利用相关性去挖掘数据的价值。我们上面的案例分析再一次证明,这样的观点是危险的。

而且,在数据科学家的Skillset中,为什么除了计算机技能统计分析外,还要加一个“行业知识”?这其实是要求数据科学家能够利用行业知识来判断数据模型中的因果关系是否有价值,还是落脚到因果关系上。

5、令一种直观的理解

数据泄露就是说用了不该用的数据,比如

  1. 在训练模型时,利用了测试集的数据、信息
  2. 在当前使用了未来的数据
  3. 在交叉验证进行调参时,使用了验证集的信息参与模型建立

具体说下第三点,比如对特征进行标准化,正确的方法应该是在训练集上标准化,然后应用到验证集上,而非先标准化,再划分验证集。即:标准化为,(数值-均值)/标准差,这个“均值”和“标准差”应该是训练集的“均值”和“标准差”。“数值”是测试集里的数值。

如何理解数据科学的中的数据泄露(Data Leakage)相关推荐

  1. 机器学习中的数据泄露(Data Leakage)

    在 Kaggle竞赛中出现过奇怪的现象:一只队伍,靠着对极个别特征feature的充分利用(被称为魔法属性),立即将对手超越,成功霸占冠军位置.然而,这可能是竞赛方数据准备过程中出现的失误,使模型沿着 ...

  2. 机器学习实战——数据探索之数据泄露(Data Leakage)

    1.什么是数据泄露 数据科学的中的数据泄露(Data Leakage)和其他场合涉及信息安全的数据泄漏不一样,是指一些feature不是在因果关系上顺利释预测值的'因',而是预测值的'果',存在和利用 ...

  3. 独家 | 2种数据科学编程中的思维模式,了解一下(附代码)

    作者:Srini Kadamati 翻译:梁傅淇 校对:丁楠雅 本文约2500字,建议阅读10分钟. 本文以具体的例子阐释了如何最优化原型思维模式及生产流思维模式的应用. 数据科学的完整流程一般包含以 ...

  4. 细数数据科学团队中的十大关键角色

    作者 Cassie Kozyrkov 编译 Mika 本文为 CDA 数据分析师原创作品,转载需授权 应用数据科学是一项高度跨学科的团队工作,需要用多样性的角度看问题.事实上,比起专业知识和经验,观点 ...

  5. 香港中文大学深圳(CUHKSZ)数据科学硕士(MSc in Data Science)笔试面试经验(2018/9/16)

    香港中文大学深圳(CUHKSZ)数据科学硕士(MSc in Data Science)笔试面试经验(2018/9/16) 写在前面的前面(2020.5.3) 写在前面(2019.2.19) 关于申请 ...

  6. python的numpy库结构_NumPy构成了数据科学领域中许多Python库的基础。

    关于数据科学的一切都始于数据,数据以各种形式出现.数字.图像.文本.x射线.声音和视频记录只是数据源的一些例子.无论数据采用何种格式,都需要将其转换为一组待分析的数字.因此,有效地存储和修改数字数组在 ...

  7. 翻译:数据科学简历中的7个必备条件

    管理Riskified的数据科学部门需要大量招聘-我们已经增加了一倍以上我ñ不到一年的时间,和半.作为几个职位的招聘经理,我还阅读了很多简历.招聘人员可在7.4秒内通过简历进行筛选,并且在招聘了几年之 ...

  8. 数据科学工作中存在的7大问题与解决方案

    注:在本文中,虽然我使用数据科学家一词,但是诸如机器学习工程师,数据分析师,数据工程师,BI分析师之类的热门职务也承担着类似的责任,可以在此处互换使用. 本文编译自Dan_Friedman的技术博客. ...

  9. 数据科学家访谈录 百度网盘_您应该在数据科学访谈中向THEM提问。

    数据科学家访谈录 百度网盘 A quick search on Medium with the keywords "Data Science Interview" resulted ...

最新文章

  1. 数据结构与算法:14 Leetcode同步练习(五)
  2. 【控制】《多无人机协同控制技术》周伟老师-第8章-危险状态下的无人机编队运动控制策略
  3. Windows系统下使用protobuf:protobuf的简介、安装、使用方法之详细攻略
  4. centos7安装ansible AWX17.1.0
  5. play版 高德地图google_iOS 12 发布,苹果 CarPlay 终于开始支持谷歌、高德导航
  6. theano中的Rop和Lop的详细解释
  7. 巧用TreeSet求解第k小整数(洛谷P1138题题解,Java语言描述)
  8. Kubernetes Resource QoS Classes介绍
  9. 请教 indy 中的 tldUdpServer 如何实现对本地端口6100进行监听!
  10. 全网首发:SHELL多个判断条件,不会短路
  11. 误差分析(python)
  12. yui3学习(-)简单介绍
  13. 软件测试工作的不足与改善,软件测试工作中对问题的发现和改进
  14. 单片机实验汇编案例---单片机串行口与PC机通讯实验
  15. 数据库系统-存储过程
  16. TPM 2.0规范系列解读——Part 1体系结构第(四)读:TPM架构
  17. 【xla】五、【构图阶段】xlaCompileOp
  18. 火影T5A笔记本系统损坏了无法进入桌面怎么办?
  19. 快速计算log2()
  20. DPDK支持的Intel网卡

热门文章

  1. python 测试用例 自动生成目录_如何在python中自动向测试套件添加十几个测试用例...
  2. VMware官网获取VMware Workstation Pro、安装及注册
  3. 一文了解 Python 中的生成器
  4. oracle 数据转换不报错,oracle数据库与hibernate方言转型异常
  5. Redis基础-下载安装、配置、数据类型、指令、Jedis、持久化
  6. 哈密顿量模拟(Hamiltonain simulation)
  7. 海地PVC/COC认证
  8. 泉州计算机公司排名2015,福建企业100强榜单出炉!分布在这些地方
  9. (项目)在线教育平台(十二)
  10. 插入排序监视哨和鸡尾酒排序