昆仑数据田春华老师在微信公众号的专栏培训:工业数据分析与实战。培训给出了一些实际的数据分析例子,包括“设备管理”、“运作优化”和“营销服务”三类;然后讲了数据分析的基本框架、方法和技术;最后给出了大数据时代,数据分析的认识误区和挑战。田老师发音不标准啊,好多词听好几遍,再关联上下文,连猜带蒙的才勉强能明白,不过有的也不一定对。记录以反复学习。
[视频链接]

本课讲大数据为数据分析带来的变化。
首先在计算架构上带来的变化。原来的数据分析都是基于单机的,服务器的,当数据量大了以后,计算受硬件限制,解决这个问题就引入了分布式架构,这就需要对原有算法进行重构,以适用于将数据拆分以后,怎么保证收敛性,怎么保证大致聚合,也就是数据分开的情况下,计算怎么跟着数据走,一些边界条件还能整合到一起,最终结果像一个单机计算一样,当然中间会损失一些东西。还产生了一些新的算法,比如深度学习算法也有了很大发展。
再就是当大数据来了以后,很多原来的需求变得更加紧迫,比如在线学习,半监督学习,特征工程等等。有了大量数据以后,原来的特征工程由专家来做,现在有没有自动化手段,比如AUTOML,机器学习算法能不能自动调参,自动提取等能做一些工作。
第三块儿就是大数据来了以后,结构化数据变得越来越重要,原来我们讲大数据,都是讲在互联网上的文本数据,图片、视频数据,多媒体数据,这是我们在过去移动互联网以及web式的网络带来的数据。但是我们看现在随着大数据发展,物联网以及工业互联网这一块儿,很多都是由传感器收集的结构化数据,包括我们的移动互联网,时空的,位置、时间等的社交媒体社交数据,这些都是结构化数据。虽然我们讲非结构化,半结构化,但是我们现在发现结构化数据还是我们数据分析很重要的一部分,这就是大数据给我们带来的新的变化。
然后我们讲一下大数据分析的几个误区。有些人认为大数据就是全样本分析,如果是不严格的讲,也可以,但是严格的将,全样本这个词,样本全不全是个相对的概念。特别是在工业行业讲样本,相对于物理世界,我们的任何采样都是部分样本,全样本只存在于逻辑世界,现实世界的数据不可能是全样本。再就是,说是大数据大数据,但是对于数据分析师来说,数据从来就没大过。为什么这么说呢。比如说有一千行数据,就想要做统计,如果有一万条数据,就可能想要做关联,如果有了10万条数据,就可能想做深度挖掘。也就是说,数据越多,探索的欲望、兴趣就越多。相对于人的探索兴趣来说,数据量从来没大过。所以作为数据分析师来说,我们有时候不太愿意提大数据分析,因为我们觉着数据从来没有大过。另外有些人说,当数据大了以后,不用太关心数据的业务意义了,这句话是完全错的。特别是在工业行业,数据的产生机制,是用什么传感器采集来的,传感器布在什么位置,都非常重要,如果传感器布的位置有问题的话,它采的数据肯定反应不了一些现象。当时在讲票房预测的时候也给大家讲到,来自社交媒体的数据,它们的意义还是要关心的,比如什么年龄段的人群等等。当然在工程化方法中间,我们可以先把业务意义放到一边,先做做看,效果好了或效果不好,我们回头再来看业务,这是可以的。但是不可能说完全抛弃业务意义纯用数据来做,无论是做商业数据分析还是做工业数据分析都是一样的。
第三是说数据质量不再重要,这个说法也是有前提的。如果是少量数据有质量问题可能影响不大,因为数据分析是走的统计路线,是看大样本,看绝大多数,那少量的样本可能就被算法忽略了,甚至强噪声我们也有算法消除掉。但是,如果数据本身是垃圾,也就是Garbage in ,Garbage out。这个问题在大数据时代越来越重要,数据越来越多之后,如果不及时处理,如果一年、两年数据都不处理,再想处理的时候,大家就都不知道该怎么处理了。所以大数据时代,数据质量更加重要。一些数据入湖,入湖之前进行检测质量问题,有问题把它及时的消除掉,这些我们在过去的工程测量网上发现好多问题,比如在实际工况中间好多数据丢了,或者早期的接入协议,可能写错等等。过了三年,这些数据再回去去找,或者再想纠正的时候非常困难。因为大家都回忆不起来到底是什么原因了。另外还有一个错误观念就是数据量大比维度组合更重要,这个其实恰恰相反,维度比数据量更重要。比如在用户画像里面,我能够拿到用户所有的行为记录,反而比拿到一个两个行为的很多数据更重要,我要的是一个全维度的画像,比如他的社交行为,他在物理世界的行走行为,他的出差行为,他的消费行为等等各种行为,这样的维度全比单独的量大更重要。在工业上更是这样,如果看一个现象,它有10个维度,即使有少量数据,如果维度全面的话,远远比只才一个维度的大量数据更重要。所以好多时候,不同领域的数据怎么打通,比如在互联网上各种平台比如银行、电信他们之间进行数据交换变现,做一个数据安全问题等等。
另外一个误区就是说大数据能秒杀传统的统计与数据挖掘手段,有了“大”数据,“小”数据就没事干了,其实这个说法有两个问题,一个是说什么是小数据,ERP数据、交易数据、订单数据、设计数据,这些都是小数据,反而说这些小书架都是高业务价值的数据,都比大数据的价值密度高。大数据分析的目的,其实就是挖掘出价值密度高的“小”数据,从这些大数据中间找出不变量,或者一些恒定的量,找出一些规律等。这个得根据具体问题,有些问题就比较简单,用小数据就能解决,一些场合,比如说医学里的问卷调查,临床实验仍然是非常重要的手段,这时候在成本范围内还是非常有效的。但是在有些情况下,比如说在线医疗设备的接入,协助这些严密的手段,这些也很好。所以说还是得看具体的业务场景。
最后一个说,也是宣传比较多的,有了深度学习/认知计算等,整个数据分析只要为给我数据,这个问题就能自动解决了,就不需要建模了。这个其实是我们一直以来的理想,实际上从来没达到过。包括我们医学发展几千年,到现在医生同样很重要。智能算法只是在部分问题上做了一些智能化,一些高难度的问题还是需要人的参与。包括医学也一样,有了智能设备以后,一些低价值的,重复性的工作就被取代了。但是那些高价值的工作还是得医生参与,这就是我们常说的,世上没有万能药。
刚才我们讲的是大数据带来了什么以及对大数据认识的一些误区。在实际做一个分析项目时应该注意哪些问题呢,大概有四个方面:
一是业务驱动。我们的数据分析结果,最终还是被业务利用的,我们可以假设我们的模型非常理想,可以做100%的精度。那大家可以先问一下,在100%的精度下,业务怎么用它。是一天用一次还是一个月用一次,谁来用。再回到现实,我们80%的精度,有没有用?60%的精度有没有用?我们一定要找到一个最低的有用的精度是多高。因为在现实中间,精度越高对数据的要求,对技术的要求非常高,包括对前置条件的要求也很苛刻,那我们肯定要找到一个最松的条件,如果我们做一个60%精度的模型还可以有一些用处的话,那就挺好了,我们不一定非要做到90%甚至99%。所以说我们还是讲究业务驱动,我们的数据分析模型怎么融入到业务体系里面。
第二个是看数据。其实数据分析一方面是看完备度,这个完备度不是说数据的缺失什么的,而是说从业务意义上讲,从物理意义上讲,这些数据有没有反应这个现象,或者说在多大程度上反应了这个现象,或者说是与我们要预测的东西有多大的相关性。也就是从业务上把握一下。第二看数据质量,一方面包括数据本身的质量,另一方面是从业务角度上来看这些数据的质量怎样,有没有反应业务上的常见场景。
第三算法,算法这一块儿反而是简单的。一方面尽量简洁一些,这跟我们做学术研究不一样,工程上我们尽量用简洁的算法,越简单越好。能用简单方程做的,就不要用方程组,能用方程组做的就不要用动态方程,能用常微分方程的就不要用偏微分方程,不要把问题复杂化。有时候损失一点儿精度损失一点儿性能,来换取一个简洁的模型,是非常非常值得的。因为这样这个模型的健壮性、灵活性,实用性都有保证。因为在数据分析上有个现象就是过度关注算法,其实在工程上,特征变量比算法更重要。并不是说你用SVM或deeplearning就比我用决策树高明,虽然你的精度可能比我高一点。更重要的是特征,一些行业应用以及竞赛上来看,特征更重要。特征从哪里来呢?两块儿,一个是行业常识,包括先验知识,已经知道的就融入到模型中去,不要再让机器去猜。第二是专家经验,针对某个故障,某些质量,专家有些先验经验,这时候就要与业务专家经验结合,特别是在我们数据挖掘结果不好的时候,通常拿出来一些反例,在我们模型中表现很差的,给业务专家看,一起讨论,很多时候是因为数据不全或意外情形造成的。
最后一个是结果的可解释性,业务意义是什么。无论在工业还是商业,不管是用什么方法,还是要知道模型背后的基本逻辑是什么样子的,这个模型的精度高为什么高,在什么情况下高,你的结果比我好为什么比我好,是你考虑的维度更多?还是你考虑了非线性关系?一定是得符合常识的。如果做一个模型,意料之外情理之中,就做的比较好,或者乍一看不合理,但是仔细一想也符合常理,是我们过去忽略了一些因素,某个因素在某些情况下变成重要因素了,这时候我们模型做的非常好,这是有可能的。数据挖掘做项目,和做学术的不一样,学术一定是说通用性,领先性各方面,项目的话是解决当前问题,有应用价值,真正的好用,它们的关注点不一样。
除了关注点不一样,数据本身可能也会造成一些假象,就讲两个比较有名的例子,一个叫幸存者偏差,一个叫精神病悖论。
幸存者偏差是由这个场景出来的:二战的时候,要确定在轰炸机的哪个部位装上更厚的装甲,可以提高本方飞机的防御能力,减少损失。由于装甲很厚,会极大的增加飞机的重量,不可能将飞机从头到尾全都用装甲包起来,因此研究人员需要做出选择,在飞机最易受到攻击的地方加上装甲。当时的英国军方研究了那些从欧洲大陆空战中飞回来的轰炸机。如上图所示,飞机上被打到的弹孔主要集中在机身中央,两侧的机翼和尾翼部分。因此研究人员提议,在弹孔最密集的部分加上装甲,以提高飞机的防御能力。这一建议被美国军队统计研究部的统计学家Abraham Wald否决。Wald连续写了8篇研究报告,指出这些百孔千疮的轰炸机是从战场上成功飞回来的“幸存者”,因此它们机身上的弹孔对于飞机来说算不上致命。要想救那些轰炸机飞行员的性命,更正确的方法应该是去研究那些被打中并坠毁的轰炸机。只有研究那些没有成功返航的“倒霉蛋”,才能有的放矢,找到这些飞机最脆弱的地方并用装甲加强。Wald的建议后来被英国军方采纳,挽救了成千上万的飞行员性命。
也就是说,我们能拿到的数据,其实是不重要的,真正出问题的数据,是拿不来的。
精神病悖论: “你被送入病院,暴跳如雷,不承认,是精神病指证之一。你被送入,很冷静,不闹,和常人不一样。是精神病。你吃药,吃成精神病。你不吃,违抗医嘱,电击。单独关押,时间一长,神功必定练成!你不信?咱试试?”实际上还不止如此,只要被强制收治入院,精神病的帽子恐怕就不好摘了——即使你跑出来到另外的医院诊断并非精神病,人家也可以说:“这人本来有精神病的,病的还不轻呢,这是经过我们精心治疗,给治好了!”如果你跑出来后不幸又被收进去了,人家肯定也有说辞:“这人精神病又犯了,收回重治!
用这个概念来看开车风险和速度的关系。但从速度和事故率来看,发现速度和事故率居然成反比。这是因为我们忽略了驾驶员的经验。有经验的老驾驶员,速度快但是事故率也低,而新手开的慢但是事故率还高。这反应了我们在做数据分析时所用的数据,可能没有将有关键影响的因素纳入,所以导致挖掘的规律与实际情况相反。在这工业上也经常遇到。比如说调查显示,某学校女教师平均工资低于男教师,得出结论该学校存在性别歧视。其实该分析推论遗漏的因素可能是,现有女教师的教育水平、经验、资料可能较低。
另外有一个特别功利的问题:是不是所有数据挖掘得出来的结论都是有用的,或者说都是有趣的。这个不一定。首先说怎么才叫有趣,可能踏实易于被人理解的,在某种程度上在新的或测试数据上是有效的,潜在有用的,新颖的。其实挖掘的结论并不一定是有趣的,只是说数据里包含了这个规律,能够被挖掘出来,有没有用就不好说了。数据挖掘有的时候是证伪,证明这个规律不存在。这对数据分析来说也是一种确定性结论,我们证明了这个东西不存在。以前我们做过一些质量分析的课题,合作方也比较务实,他们说你能快速的证明我们这个猜想是错的,或者不存在,也是有价值的,那我就不在这上面试了,我取试更好的方向。有的时候我们的应用部门有好多的考核指标,大家都期望数据分析能挖掘出有用的,甚至把几种指标写到合同交付里面。这个东西,成功不成功,其实是不符合自然规律的,数据分析就是说在数据是可信的、客观的情况下,我们尽量的反应一个客观事实,而不是说为了交付什么指标,来刻意的捏造事实,用有偏的数据,故意做出一个好的结果。这在好多劣质的论文上会出现,他们给的实验结果非常好,但是在实际重现的时候完全不是那么回事儿。因为他们刻意挑了一些数据集,这个数据集对结果比较有利。在过去的小数据的时候,有很多这种做法,到大数据这里我们就发现,原来看起来在小数据上或特意挑选的数据上表现很好的模型,一到大数据平台自动跑就发现很多问题。这也就说其实我们过去做的模型其实并没有那么好,而是因为巧合,或我们每太注意,挑了一个对模型有益的数据。
我们一定要注意,我们通过统计分析得出来的模型,与数据是关联关系,关联关系不等于因果关系。因果还是得通过业务来解决。当然现在有些讲时序,有一个东西总在另外一个之前发生,或是说一个现象总伴随着另一个发生,我们可以近似的认为是因果关系,但是在哲学上讲这也不是真的因果关系。
然后再说一下数据挖掘项目与解决方案的几点思考。第一就是业务优先,技术其次。数据挖掘项目是需要业务专家出面参与,一般项目刚开始的时候,尽量的请业务专家把已有的经验先讲一讲。比如说大家都知道的行业里面的常识,隔行如隔山,对于一个数据分析师来说可能就是完全陌生的新东西。可能有一些行业常识,数据分析很容易就挖掘出来,但是这个没有什么意义,你挖掘出来的东西行业内都知道,就你不知道,那这个就没有任何价值。前期先请行业专家把常识讲讲,在做数据分析的时候把这些知识融入到分析过程中,要不把它们作为特征加进去进行预测,如果实在用不了可以根据专家经验对挖掘结果进行筛选,这些大家都知道的就不再汇报了。在一个就是在挖掘过程中,我们要把挖掘的好的地方,一些特例给业务专家看,通常可能会发现我们的数据不全,或者实际的业务数据有新的业务场景。
第二是数据挖掘平民化。企业要有自己的数据分析师,然后专业的数据分析师尽量少耍小花招,要让结果易懂,易解释,尽量有好的展现方式。另外一定要思考与业务流程怎样紧密的融合。
第三是业务上对实时预测和评分的需求是什么,到底关注的评分要求是什么。
最后总结,数据分析的几大原则:

  • Garbage in,Barbage out
  • No free Lunch
  • Occam’s razor

工业数据分析技术与实战之数据分析的误区——昆仑数据田春华培训听课记录相关推荐

  1. 工业数据分析技术与实战之运作优化——昆仑数据田春华培训听课记录

    昆仑数据田春华老师在微信公众号的专栏培训:工业数据分析与实战.培训给出了一些实际的数据分析例子,包括"设备管理"."运作优化"和"营销服务" ...

  2. 工业数据分析技术与实战之入门——昆仑数据田春华培训听课记录

    昆仑数据田春华老师在微信公众号的专栏培训:工业数据分析与实战.培训给出了一些实际的数据分析例子,包括"设备管理"."运作优化"和"营销服务" ...

  3. 工业数据分析技术与实战之数据分析的挑战——昆仑数据田春华培训听课记录

    昆仑数据田春华老师在微信公众号的专栏培训:工业数据分析与实战 视频链接 .培训给出了一些实际的数据分析例子,包括"设备管理"."运作优化"和"营销服务 ...

  4. 工业数据分析技术与实战之营销服务——昆仑数据田春华培训听课记录

    昆仑数据田春华老师在微信公众号的专栏培训:工业数据分析与实战.培训给出了一些实际的数据分析例子,包括"设备管理"."运作优化"和"营销服务" ...

  5. 工业数据分析技术与实战之设备管理——昆仑数据田春华培训听课记录

    昆仑数据田春华老师在微信公众号的专栏培训:工业数据分析与实战.培训给出了一些实际的数据分析例子,包括"设备管理"."运作优化"和"营销服务" ...

  6. clickhouse大数据分析技术与实战_比Hive快500倍!大数据实时分析领域的黑马

    戳蓝字"小强的进阶之路"关注我们哦! 大数据实时分析领域的黑马是ClickHouse一个用于联机分析(OLAP)的列式数据库管理系统(DBMS). clickhouse背景 俄罗斯 ...

  7. 《Python数据分析与挖掘实战》一3.1 数据质量分析

    本节书摘来自华章出版社<Python数据分析与挖掘实战>一书中的第3章,第3.1节,作者 张良均 王路 谭立云 苏剑林,更多章节内容可以访问云栖社区"华章计算机"公众号 ...

  8. clickhouse大数据分析技术与实战_从销售到经营——大客户销售策略与实战技术...

    对于首席客户代表而言,要走出困局,所需要大客户销售策略性的训练,而不是像基层客户经理的销售技巧训练一样:新业务的学习固然重要,但更重要的是转化成实战绩效.从组织变革角度,每次成功的业务转型背后都意味着 ...

  9. 01、python数据分析与机器学习实战——python数据分析处理库-Pandas

    pandas介绍 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的. Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具. panda ...

最新文章

  1. Pyhton 单行、多行注释方法
  2. 腾讯为什么不开发linux软件下载,你认为国产操作系统如何搭建生态?为什么腾讯不给Linux系统适配QQ?...
  3. ios wkweb设置图片_iOS WKWebView的使用
  4. 【计蒜客 - 蓝桥训练】阶乘位数(数学,对数运算,求阶乘位数)
  5. HDU-时间挑战 树状数组
  6. 时隔两年,运维人必备的PuTTY 终于发布新版!
  7. [给创业公司的原生云] ②Spine L1
  8. android 投屏原理图,手机投屏是什么原理
  9. 基于51单片机超声波测距仪设计倒车雷达防撞报警器
  10. 系统辨识总论(System Identification)
  11. 论大学学霸是怎样炼成的……
  12. Electron使用nodejs的坑,Can‘t resolve ‘child_process‘错误
  13. 【GitHub】README.md文件中 markdown语法 插入超链接
  14. 计算机桌面图标被挡怎么办,电脑桌面图标偏左,被挡住了大半,就连网页窗口也...
  15. 【EXLIBRIS】#小词旮旯# 002 Rape
  16. hdfs高可用与高拓展机制分析
  17. widows下安装pycurl并利用pycurl请求https地址
  18. 硬件入门之: 滞回比较器分析计算
  19. 塞拉菲娜创始人 - 钰儿
  20. 女人要想赚钱,应该选什么路?

热门文章

  1. Freewind主题自由之风typecho主题最新版
  2. ubantu 系统分区介绍
  3. 自动回复mysql数据库设计_微信自动回复数据库设计思路【微擎】
  4. JZOJ4025. 【佛山市选2015】找回密码(后缀自动机SAM)
  5. 【不到1G的win10,老机专用】星岚技术 Win10 x64 极限精简版 V2021.5
  6. 量化金融分析AQF(12):配对交易 Pair trading - 考虑时间序列平稳性、协整关系
  7. Windows获取本机MAC地址方法(C语言)
  8. scala类型变量界定、视图界定、上下文界定
  9. 信号分析之时间序列频谱分析
  10. JPA踩坑笔记(一) - 数据查询的两种方式