先来一个自编的段子镇楼:

话说这齐天大圣孙悟空大闹天宫,玉帝派二郎神杨戬去镇压,兵力占尽优势却屡次不胜。问题就在孙猴子有一招十分厉害的分身术,拔一把毫毛一吹一变,地上就冒出成千上万只一模一样的猴子,每次大费周章抓回的都是假猴子。二郎神无奈之下只好去找如来佛祖,求教鉴别真假美猴王的方法。

佛祖呵呵一笑,说这招分身术是从菩提老祖那里学来的,只是孙猴子的技艺还不到精纯,会露三个破绽:假猴子的右手无名指会隐隐发光;假猴子头顶的黄色毫毛会多于九九八十一根;假猴子左右眼珠子的大小也有点差别。

二郎神拿了这秘诀就志得意满出发了,谁知来到花果山之后傻眼了,满眼望去都没有露出这三个破绽的猴子,结果又只能胡乱抓了几只假猴子回天庭交差,然后一脸懊丧又去找如来佛祖吐槽。

佛祖眉头一皱,说这孙猴子又跑去和混元老祖学了这分身术的第二层,破绽被修复了,真假猴子差别已经十分微妙。不过有一方法可解此难题,让二郎神带着十万天庭画师下山,等孙猴子使出分身术这一招,就下令画师一人画一只猴子,有多精妙画多精妙。

这十万画像来到天庭,佛祖一一鉴别之后,又召集了十万天庭算师,经过七七四十九昼夜的演算,得出一机器,对着猴子咔擦一算,是真是假逃不掉。最终天庭凭着技术上的优势,成功活捉了齐天大圣。

我的点评:

数据的妙用,无论包装如何眼花缭乱,结论总逃不掉是一个分类:真猴子假猴子、男用户女用户、明天股票是涨是跌、给老司机推荐哪种类型的歌曲。哪怕到个性化的推荐,也是物以类聚人以群分。条件简单的,三五条规则就可以,就像佛祖第一次给二郎神支招,看准那三个破绽,假猴子没错!可如果你的场景没办法用简单的规则去评判呢?那么你就需要包含成千上万个特征的数据(天庭画师),需要用专家的知识给原始数据做标签(如来佛祖),需要把数据和标签混合训练出一个高性能的算法模型(天庭算师)。这就是数据挖掘。

相当长的一段时间里,我都是糊里糊涂在做数据挖掘,琢磨工具、深挖算法、堆砌架构,也许碰巧也解决了一些难题,但方法论层面的东西远谈不上能融会贯通。近一年来才慢慢对整个链条有更深的体会,知道数据挖掘的关键并不在于工具、算法和架构,而在于获取标签、定义特征、评估模型这三个环节

先说标签,我们面对的真实世界其实是不存在可靠标签的,哪怕是最简单的区分男女,也有边缘不清的部分,这就决定了我们已知的标签往往只是真实世界里的一个子集。打个比方,香山的红叶很出名,其实就是枫树的叶子,大部分人就会自然延伸出一个想法,枫叶就是红色的,至少秋天是红色的,但他们都不知道加拿大就有一种黑枫。你对真实世界了解越多,你的标签就越全面,最终算法模型的覆盖度也就更高。

再说特征,很多人相信数据挖掘的核心就是人工特征工程,事实上特征的好坏远比算法的优劣更影响性能。在深度学习被广泛普及之前,特征的生造只能是一门古老而隐秘的手艺,想象、创造、组合、通过标签看分布、加入模型看结果。举个小例子,对一个恶意发广告的用户,发帖频率(组合了发帖总数和在线时长两个特征)也许就是一个比发帖总数更强更有效的特征。

后说评估,评估永远是最为重要的,它决定了事情的意义、基准和价值。评估包括模型的评估和效果的评估,模型的评估衡量的是算法准不准,效果的评估衡量的是带来了多少的价值。效果的评估可以是标签(像枫树林面积的提升),也可以是比标签更弱的特征(像红色树林面积的提升,红色的树叶也许不只有枫树,但只要枫树的面积变大了,红色的树林面积肯定也会随之上涨)。

获取标签、定义特征、评估模型,既是数据挖掘的关键,也是数据挖掘工程师的核心价值所在。联想到最近谷歌的AlphaGo三比零完胜围棋大师李世石,感觉数据挖掘的进化会朝着越来越少人工驱动的方向演进,逐步把体系内拍脑袋的环节取代掉。那么到时人的最终价值又在哪里?彻底沦为给机器调参数的修理工么?还真的有点惶恐不安。

更多精彩内容,欢迎关注微信公众号「码农咖啡馆」

一个段子来解释数据挖掘相关推荐

  1. 全国计算机二级表情包,计算机考试报名照片却上传成表情包 又一个段子?

    原标题:计算机考试报名照片却上传成表情包 又一个段子? [观察者网 文/赵可心]昨晚,微博网友@明还_ 讲述了一段让人哭笑不得的故事,引来4万人转发. 一师兄报名计算机考试,证件照一直上传不成功,结果 ...

  2. 开始研究WEKA,一个开源java的数据挖掘工具

    开始研究WEKA,一个开源java的数据挖掘工具. HS沉寂这么多天,谁知道偏偏在我申请离职的时候给我安排了个任务,哎,无语. 于是,今天看了一天的Weka. 主要是看了HS提供的三个文章(E文,在g ...

  3. 技术人生:希望有生之年开发一个“自己的解释语言”

    一直有这样一个梦想:开发一个自己的"解释语言",不过感觉自己的能力非常有限,或许需要耗尽半生了. 转载于:https://www.cnblogs.com/happyframewor ...

  4. 苹果M1芯片为何如此快?一个开发者的解释

    苹果M1芯片为何如此快?一个开发者的解释 This Is Fast But The Best Is Yet To Come You may have wondered why the Apple M1 ...

  5. #第23篇分享:一个北京二手房价格数据挖掘实例(python语言:sklearn随机森林)

    #本次是做一个北京二手房的数据挖掘案例,主要是汇总一下学过的知识,并且通过实例加深一下印象,话不多说,开干: 目的:预测二手房的价格: 工具:语言python:爬虫模块scrapy,数据清洗:xpat ...

  6. 用一个例子来解释ThreadLocal

    ThreadLocal叫线程本地变量,他为每个线程都创建了一个副本变量,每个线程都只能访问自己的副本变量. 我们直接用一个例子来解释ThreadLocal. class Message{private ...

  7. [转]详细解释数据挖掘中的 10 大算法

    在一份调查问卷中,三个独立专家小组投票选出的十大最有影响力的数据挖掘算法,今天我打算用简单的语言来解释一下. 一旦你知道了这些算法是什么.怎么工作.能做什么.在哪里能找到,我希望你能把这篇博文当做一个 ...

  8. 产品经理心中都住着一个段子手?看看他们如何相爱相撕的...

    PMCAFF新版社区上线之后,聚集了各行业的优秀的产品经理,他们不仅爱智善答,而且还有段子手神奇的技能~ 哈哈,小编整理一些神吐槽在周末分享给大家. PMCAFF最新版的APP(IOS)已经上线啦!希 ...

  9. python 数据挖掘论文,Orange:一个基于 Python 的数据挖掘和机器学习平台

    Orange 简介 Orange 是一个开源的数据挖掘和机器学习软件.Orange 基于 Python 和 C/C++ 开发,提供了一系列的数据探索.可视化.预处理以及建模组件. Orange 拥有漂 ...

最新文章

  1. apache php linux 安全,Centos7环境下的apache和php安全设置及优化 | 彬菌
  2. 匹兹堡大学申请条件计算机科学,匹兹堡大学cs
  3. mysql批量加逗号_批量插入数据到数据库的方式
  4. Cpp 对象模型探索 / delete 运算符内部调用过程分析
  5. 联想电脑如何添加无线网络连接服务器,安装英特尔MYWIFI的操作步骤
  6. 虹软sdk 服务器运行 错误码94212 解决方案
  7. web里如何在背景图片上放置div元素_2020年web前端开发经典面试题总结整理(建议收藏)...
  8. php 下载的文件损坏,php 文件下载 出现下载文件内容乱码损坏的解决方法
  9. 【VRP】基于matlab蚁群算法求解多配送中心的车辆调度问题【含Matlab源码 1098期】
  10. linux mysql数据库升级_Linux升级mysql到5.7
  11. win10 android fastboot usb驱动
  12. python视频教程全集免费-Python免费视频教程
  13. 系统优化怎么做-开篇
  14. 搭建VUE脚手架 + 引入element-ui
  15. poj-3295 Tautology
  16. 《信息系统安全》课后习题答案(陈萍)
  17. 江苏单招C语言试题,2011年对口单招计算机试卷(C语言+原理+电工答案).doc
  18. 计算机职业生涯测评,皮纹检测职业版——职业生涯规划指南测评系统
  19. 垂涎欲滴的互联网灰色产业链!
  20. Windows 10 喇叭红叉 重装驱动无效 点击喇叭显示无插座信息

热门文章

  1. 优秀程序猿写技术文档的正确姿势
  2. 记一次nginx配置自定义错误页面的麻瓜经历
  3. edittext 软键盘上方_Android 软键盘的全面解析,让你不再怕控件被遮盖
  4. 笔记 - chalk 使用
  5. 华为防火墙查看日志命令_华为防火墙常用命令.doc
  6. 周鸿祎:如何做好产品经理
  7. C++转换函数 (conversion function)
  8. 配置 sysctl.conf 系统参数详解
  9. CIKM 2021 | 基于池化结构搜索的图分类
  10. 游戏原画师需要学什么软件?动漫绘画软件推荐