工业数据分析技术与实战之数据分析的误区——昆仑数据田春华培训听课记录

昆仑数据田春华老师在微信公众号的专栏培训：工业数据分析与实战。培训给出了一些实际的数据分析例子，包括“设备管理”、“运作优化”和“营销服务”三类；然后讲了数据分析的基本框架、方法和技术；最后给出了大数据时代，数据分析的认识误区和挑战。田老师发音不标准啊，好多词听好几遍，再关联上下文，连猜带蒙的才勉强能明白，不过有的也不一定对。记录以反复学习。
[视频链接]

本课讲大数据为数据分析带来的变化。
首先在计算架构上带来的变化。原来的数据分析都是基于单机的，服务器的，当数据量大了以后，计算受硬件限制，解决这个问题就引入了分布式架构，这就需要对原有算法进行重构，以适用于将数据拆分以后，怎么保证收敛性，怎么保证大致聚合，也就是数据分开的情况下，计算怎么跟着数据走，一些边界条件还能整合到一起，最终结果像一个单机计算一样，当然中间会损失一些东西。还产生了一些新的算法，比如深度学习算法也有了很大发展。
再就是当大数据来了以后，很多原来的需求变得更加紧迫，比如在线学习，半监督学习，特征工程等等。有了大量数据以后，原来的特征工程由专家来做，现在有没有自动化手段，比如AUTOML，机器学习算法能不能自动调参，自动提取等能做一些工作。
第三块儿就是大数据来了以后，结构化数据变得越来越重要，原来我们讲大数据，都是讲在互联网上的文本数据，图片、视频数据，多媒体数据，这是我们在过去移动互联网以及web式的网络带来的数据。但是我们看现在随着大数据发展，物联网以及工业互联网这一块儿，很多都是由传感器收集的结构化数据，包括我们的移动互联网，时空的，位置、时间等的社交媒体社交数据，这些都是结构化数据。虽然我们讲非结构化，半结构化，但是我们现在发现结构化数据还是我们数据分析很重要的一部分，这就是大数据给我们带来的新的变化。
然后我们讲一下大数据分析的几个误区。有些人认为大数据就是全样本分析，如果是不严格的讲，也可以，但是严格的将，全样本这个词，样本全不全是个相对的概念。特别是在工业行业讲样本，相对于物理世界，我们的任何采样都是部分样本，全样本只存在于逻辑世界，现实世界的数据不可能是全样本。再就是，说是大数据大数据，但是对于数据分析师来说，数据从来就没大过。为什么这么说呢。比如说有一千行数据，就想要做统计，如果有一万条数据，就可能想要做关联，如果有了10万条数据，就可能想做深度挖掘。也就是说，数据越多，探索的欲望、兴趣就越多。相对于人的探索兴趣来说，数据量从来没大过。所以作为数据分析师来说，我们有时候不太愿意提大数据分析，因为我们觉着数据从来没有大过。另外有些人说，当数据大了以后，不用太关心数据的业务意义了，这句话是完全错的。特别是在工业行业，数据的产生机制，是用什么传感器采集来的，传感器布在什么位置，都非常重要，如果传感器布的位置有问题的话，它采的数据肯定反应不了一些现象。当时在讲票房预测的时候也给大家讲到，来自社交媒体的数据，它们的意义还是要关心的，比如什么年龄段的人群等等。当然在工程化方法中间，我们可以先把业务意义放到一边，先做做看，效果好了或效果不好，我们回头再来看业务，这是可以的。但是不可能说完全抛弃业务意义纯用数据来做，无论是做商业数据分析还是做工业数据分析都是一样的。
第三是说数据质量不再重要，这个说法也是有前提的。如果是少量数据有质量问题可能影响不大，因为数据分析是走的统计路线，是看大样本，看绝大多数，那少量的样本可能就被算法忽略了，甚至强噪声我们也有算法消除掉。但是，如果数据本身是垃圾，也就是Garbage in ,Garbage out。这个问题在大数据时代越来越重要，数据越来越多之后，如果不及时处理，如果一年、两年数据都不处理，再想处理的时候，大家就都不知道该怎么处理了。所以大数据时代，数据质量更加重要。一些数据入湖，入湖之前进行检测质量问题，有问题把它及时的消除掉，这些我们在过去的工程测量网上发现好多问题，比如在实际工况中间好多数据丢了，或者早期的接入协议，可能写错等等。过了三年，这些数据再回去去找，或者再想纠正的时候非常困难。因为大家都回忆不起来到底是什么原因了。另外还有一个错误观念就是数据量大比维度组合更重要，这个其实恰恰相反，维度比数据量更重要。比如在用户画像里面，我能够拿到用户所有的行为记录，反而比拿到一个两个行为的很多数据更重要，我要的是一个全维度的画像，比如他的社交行为，他在物理世界的行走行为，他的出差行为，他的消费行为等等各种行为，这样的维度全比单独的量大更重要。在工业上更是这样，如果看一个现象，它有10个维度，即使有少量数据，如果维度全面的话，远远比只才一个维度的大量数据更重要。所以好多时候，不同领域的数据怎么打通，比如在互联网上各种平台比如银行、电信他们之间进行数据交换变现，做一个数据安全问题等等。
另外一个误区就是说大数据能秒杀传统的统计与数据挖掘手段，有了“大”数据，“小”数据就没事干了，其实这个说法有两个问题，一个是说什么是小数据，ERP数据、交易数据、订单数据、设计数据，这些都是小数据，反而说这些小书架都是高业务价值的数据，都比大数据的价值密度高。大数据分析的目的，其实就是挖掘出价值密度高的“小”数据，从这些大数据中间找出不变量，或者一些恒定的量，找出一些规律等。这个得根据具体问题，有些问题就比较简单，用小数据就能解决，一些场合，比如说医学里的问卷调查，临床实验仍然是非常重要的手段，这时候在成本范围内还是非常有效的。但是在有些情况下，比如说在线医疗设备的接入，协助这些严密的手段，这些也很好。所以说还是得看具体的业务场景。
最后一个说，也是宣传比较多的，有了深度学习/认知计算等，整个数据分析只要为给我数据，这个问题就能自动解决了，就不需要建模了。这个其实是我们一直以来的理想，实际上从来没达到过。包括我们医学发展几千年，到现在医生同样很重要。智能算法只是在部分问题上做了一些智能化，一些高难度的问题还是需要人的参与。包括医学也一样，有了智能设备以后，一些低价值的，重复性的工作就被取代了。但是那些高价值的工作还是得医生参与，这就是我们常说的，世上没有万能药。
刚才我们讲的是大数据带来了什么以及对大数据认识的一些误区。在实际做一个分析项目时应该注意哪些问题呢，大概有四个方面：
一是业务驱动。我们的数据分析结果，最终还是被业务利用的，我们可以假设我们的模型非常理想，可以做100%的精度。那大家可以先问一下，在100%的精度下，业务怎么用它。是一天用一次还是一个月用一次，谁来用。再回到现实，我们80%的精度，有没有用？60%的精度有没有用？我们一定要找到一个最低的有用的精度是多高。因为在现实中间，精度越高对数据的要求，对技术的要求非常高，包括对前置条件的要求也很苛刻，那我们肯定要找到一个最松的条件，如果我们做一个60%精度的模型还可以有一些用处的话，那就挺好了，我们不一定非要做到90%甚至99%。所以说我们还是讲究业务驱动，我们的数据分析模型怎么融入到业务体系里面。
第二个是看数据。其实数据分析一方面是看完备度，这个完备度不是说数据的缺失什么的，而是说从业务意义上讲，从物理意义上讲，这些数据有没有反应这个现象，或者说在多大程度上反应了这个现象，或者说是与我们要预测的东西有多大的相关性。也就是从业务上把握一下。第二看数据质量，一方面包括数据本身的质量，另一方面是从业务角度上来看这些数据的质量怎样，有没有反应业务上的常见场景。
第三算法，算法这一块儿反而是简单的。一方面尽量简洁一些，这跟我们做学术研究不一样，工程上我们尽量用简洁的算法，越简单越好。能用简单方程做的，就不要用方程组，能用方程组做的就不要用动态方程，能用常微分方程的就不要用偏微分方程，不要把问题复杂化。有时候损失一点儿精度损失一点儿性能，来换取一个简洁的模型，是非常非常值得的。因为这样这个模型的健壮性、灵活性，实用性都有保证。因为在数据分析上有个现象就是过度关注算法，其实在工程上，特征变量比算法更重要。并不是说你用SVM或deeplearning就比我用决策树高明，虽然你的精度可能比我高一点。更重要的是特征，一些行业应用以及竞赛上来看，特征更重要。特征从哪里来呢？两块儿，一个是行业常识，包括先验知识，已经知道的就融入到模型中去，不要再让机器去猜。第二是专家经验，针对某个故障，某些质量，专家有些先验经验，这时候就要与业务专家经验结合，特别是在我们数据挖掘结果不好的时候，通常拿出来一些反例，在我们模型中表现很差的，给业务专家看，一起讨论，很多时候是因为数据不全或意外情形造成的。
最后一个是结果的可解释性，业务意义是什么。无论在工业还是商业，不管是用什么方法，还是要知道模型背后的基本逻辑是什么样子的，这个模型的精度高为什么高，在什么情况下高，你的结果比我好为什么比我好，是你考虑的维度更多？还是你考虑了非线性关系？一定是得符合常识的。如果做一个模型，意料之外情理之中，就做的比较好，或者乍一看不合理，但是仔细一想也符合常理，是我们过去忽略了一些因素，某个因素在某些情况下变成重要因素了，这时候我们模型做的非常好，这是有可能的。数据挖掘做项目，和做学术的不一样，学术一定是说通用性，领先性各方面，项目的话是解决当前问题，有应用价值，真正的好用，它们的关注点不一样。
除了关注点不一样，数据本身可能也会造成一些假象，就讲两个比较有名的例子，一个叫幸存者偏差，一个叫精神病悖论。
幸存者偏差是由这个场景出来的：二战的时候，要确定在轰炸机的哪个部位装上更厚的装甲，可以提高本方飞机的防御能力，减少损失。由于装甲很厚，会极大的增加飞机的重量，不可能将飞机从头到尾全都用装甲包起来，因此研究人员需要做出选择，在飞机最易受到攻击的地方加上装甲。当时的英国军方研究了那些从欧洲大陆空战中飞回来的轰炸机。如上图所示，飞机上被打到的弹孔主要集中在机身中央，两侧的机翼和尾翼部分。因此研究人员提议，在弹孔最密集的部分加上装甲，以提高飞机的防御能力。这一建议被美国军队统计研究部的统计学家Abraham Wald否决。Wald连续写了8篇研究报告，指出这些百孔千疮的轰炸机是从战场上成功飞回来的“幸存者”，因此它们机身上的弹孔对于飞机来说算不上致命。要想救那些轰炸机飞行员的性命，更正确的方法应该是去研究那些被打中并坠毁的轰炸机。只有研究那些没有成功返航的“倒霉蛋”，才能有的放矢，找到这些飞机最脆弱的地方并用装甲加强。Wald的建议后来被英国军方采纳，挽救了成千上万的飞行员性命。
也就是说，我们能拿到的数据，其实是不重要的，真正出问题的数据，是拿不来的。
精神病悖论： “你被送入病院，暴跳如雷，不承认，是精神病指证之一。你被送入，很冷静，不闹，和常人不一样。是精神病。你吃药，吃成精神病。你不吃，违抗医嘱，电击。单独关押，时间一长，神功必定练成！你不信？咱试试？”实际上还不止如此，只要被强制收治入院，精神病的帽子恐怕就不好摘了——即使你跑出来到另外的医院诊断并非精神病，人家也可以说：“这人本来有精神病的，病的还不轻呢，这是经过我们精心治疗，给治好了！”如果你跑出来后不幸又被收进去了，人家肯定也有说辞:“这人精神病又犯了，收回重治！
用这个概念来看开车风险和速度的关系。但从速度和事故率来看，发现速度和事故率居然成反比。这是因为我们忽略了驾驶员的经验。有经验的老驾驶员，速度快但是事故率也低，而新手开的慢但是事故率还高。这反应了我们在做数据分析时所用的数据，可能没有将有关键影响的因素纳入，所以导致挖掘的规律与实际情况相反。在这工业上也经常遇到。比如说调查显示，某学校女教师平均工资低于男教师，得出结论该学校存在性别歧视。其实该分析推论遗漏的因素可能是，现有女教师的教育水平、经验、资料可能较低。
另外有一个特别功利的问题：是不是所有数据挖掘得出来的结论都是有用的，或者说都是有趣的。这个不一定。首先说怎么才叫有趣，可能踏实易于被人理解的，在某种程度上在新的或测试数据上是有效的，潜在有用的，新颖的。其实挖掘的结论并不一定是有趣的，只是说数据里包含了这个规律，能够被挖掘出来，有没有用就不好说了。数据挖掘有的时候是证伪，证明这个规律不存在。这对数据分析来说也是一种确定性结论，我们证明了这个东西不存在。以前我们做过一些质量分析的课题，合作方也比较务实，他们说你能快速的证明我们这个猜想是错的，或者不存在，也是有价值的，那我就不在这上面试了，我取试更好的方向。有的时候我们的应用部门有好多的考核指标，大家都期望数据分析能挖掘出有用的，甚至把几种指标写到合同交付里面。这个东西，成功不成功，其实是不符合自然规律的，数据分析就是说在数据是可信的、客观的情况下，我们尽量的反应一个客观事实，而不是说为了交付什么指标，来刻意的捏造事实，用有偏的数据，故意做出一个好的结果。这在好多劣质的论文上会出现，他们给的实验结果非常好，但是在实际重现的时候完全不是那么回事儿。因为他们刻意挑了一些数据集，这个数据集对结果比较有利。在过去的小数据的时候，有很多这种做法，到大数据这里我们就发现，原来看起来在小数据上或特意挑选的数据上表现很好的模型，一到大数据平台自动跑就发现很多问题。这也就说其实我们过去做的模型其实并没有那么好，而是因为巧合，或我们每太注意，挑了一个对模型有益的数据。
我们一定要注意，我们通过统计分析得出来的模型，与数据是关联关系，关联关系不等于因果关系。因果还是得通过业务来解决。当然现在有些讲时序，有一个东西总在另外一个之前发生，或是说一个现象总伴随着另一个发生，我们可以近似的认为是因果关系，但是在哲学上讲这也不是真的因果关系。
然后再说一下数据挖掘项目与解决方案的几点思考。第一就是业务优先，技术其次。数据挖掘项目是需要业务专家出面参与，一般项目刚开始的时候，尽量的请业务专家把已有的经验先讲一讲。比如说大家都知道的行业里面的常识，隔行如隔山，对于一个数据分析师来说可能就是完全陌生的新东西。可能有一些行业常识，数据分析很容易就挖掘出来，但是这个没有什么意义，你挖掘出来的东西行业内都知道，就你不知道，那这个就没有任何价值。前期先请行业专家把常识讲讲，在做数据分析的时候把这些知识融入到分析过程中，要不把它们作为特征加进去进行预测，如果实在用不了可以根据专家经验对挖掘结果进行筛选，这些大家都知道的就不再汇报了。在一个就是在挖掘过程中，我们要把挖掘的好的地方，一些特例给业务专家看，通常可能会发现我们的数据不全，或者实际的业务数据有新的业务场景。
第二是数据挖掘平民化。企业要有自己的数据分析师，然后专业的数据分析师尽量少耍小花招，要让结果易懂，易解释，尽量有好的展现方式。另外一定要思考与业务流程怎样紧密的融合。
第三是业务上对实时预测和评分的需求是什么，到底关注的评分要求是什么。
最后总结，数据分析的几大原则：

Garbage in，Barbage out
No free Lunch
Occam’s razor

工业数据分析技术与实战之数据分析的误区——昆仑数据田春华培训听课记录相关推荐

工业数据分析技术与实战之运作优化——昆仑数据田春华培训听课记录
昆仑数据田春华老师在微信公众号的专栏培训:工业数据分析与实战.培训给出了一些实际的数据分析例子,包括"设备管理"."运作优化"和"营销服务" ...
工业数据分析技术与实战之入门——昆仑数据田春华培训听课记录
昆仑数据田春华老师在微信公众号的专栏培训:工业数据分析与实战.培训给出了一些实际的数据分析例子,包括"设备管理"."运作优化"和"营销服务" ...
工业数据分析技术与实战之数据分析的挑战——昆仑数据田春华培训听课记录
昆仑数据田春华老师在微信公众号的专栏培训:工业数据分析与实战视频链接 .培训给出了一些实际的数据分析例子,包括"设备管理"."运作优化"和"营销服务 ...
工业数据分析技术与实战之营销服务——昆仑数据田春华培训听课记录
昆仑数据田春华老师在微信公众号的专栏培训:工业数据分析与实战.培训给出了一些实际的数据分析例子,包括"设备管理"."运作优化"和"营销服务" ...
工业数据分析技术与实战之设备管理——昆仑数据田春华培训听课记录
昆仑数据田春华老师在微信公众号的专栏培训:工业数据分析与实战.培训给出了一些实际的数据分析例子,包括"设备管理"."运作优化"和"营销服务" ...
clickhouse大数据分析技术与实战_比Hive快500倍！大数据实时分析领域的黑马
戳蓝字"小强的进阶之路"关注我们哦! 大数据实时分析领域的黑马是ClickHouse一个用于联机分析(OLAP)的列式数据库管理系统(DBMS). clickhouse背景俄罗斯 ...
《Python数据分析与挖掘实战》一3.1　数据质量分析
本节书摘来自华章出版社<Python数据分析与挖掘实战>一书中的第3章,第3.1节,作者张良均王路谭立云苏剑林,更多章节内容可以访问云栖社区"华章计算机"公众号 ...
clickhouse大数据分析技术与实战_从销售到经营——大客户销售策略与实战技术...
对于首席客户代表而言,要走出困局,所需要大客户销售策略性的训练,而不是像基层客户经理的销售技巧训练一样:新业务的学习固然重要,但更重要的是转化成实战绩效.从组织变革角度,每次成功的业务转型背后都意味着 ...
01、python数据分析与机器学习实战——python数据分析处理库-Pandas
pandas介绍 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的. Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具. panda ...

工业数据分析技术与实战之数据分析的误区——昆仑数据田春华培训听课记录

工业数据分析技术与实战之数据分析的误区——昆仑数据田春华培训听课记录相关推荐

最新文章

热门文章