2019独角兽企业重金招聘Python工程师标准>>>

数据分析,并不抽象,传统的数据分析,包括很多。例如信号处理中的DCT,滤波,IDCT变换。由于确定了滤波窗口的特性,使得对一个时间轴上的数据进行了频谱处理,增强了我们希望的信息,弱化了我们不想要的噪声。这就是数据分析。而如果这个滤波窗口的参数在根据期望目标而改变时,以检测期望的目标在数据中是否存在,则是数据挖掘。例如我们尝试判断在不同频带中是否有,具备有机组合的频率信号存在。或许是火星人‘s 妈喊他回家吃饭的信号呢?哈。

我不想和别人讨论狭义的数据分析或数据挖掘,例如,指定什么数据流程,指定什么数据处理工具。如同oracle,DB2才是数据库,mysql则不是数据库一样,有点偏激了。这会如同除了C就不是编程一样极端,记得嵌入式有个uc/OS,我也看过部分代码。严格说,只是个OS的kernel,但是也仍然是OS,OS不代表一定要谈linux, windows。早期的DOS也是OS。

如果一个团队,一个从业者,将数据分析,数据挖掘这个业务行为混为某个工具,某个设计流程规范,那么恐怕他们要被最早的数据分析和数据挖掘的技术人员BS了。就是无线电监听信号的模拟电子工程师们。

这里简单的再说两个例子。

1、例如假设京东商城,在上海,存在三个仓库,分别在北,西,南三个外环以外的地方。任意仓库都不能满足所有物品的摆放。那么如何规划,使得物品能够有效的摆放,以满足更多用户的一次性采购需求,而不要额外增加运输成本。

这不是个系统可预先规划的问题。因为,结论和客户的动态行为有关联。这里将客户的行为,经过分析,反过来影响系统运行状态,就是数据分析和数据挖掘区别其他数据处理的差异。也是数据分析和数据挖掘和数据库化的差异所在。

不妨可以简单的说一句,任何数据库只能作为数据分析或数据挖掘的一个可选择工具,而不能作为数据分析和数据挖掘的必要条件。更别提指定的数据库。库化操作是可预先规划的,而特别是数据挖掘是无法预先确认的。

这里不再讨论数据分析和数据挖掘的区别,另有水贴已讨论。

2、例如假设一个客户周末去百货,通常会不只买一个物品。那么什么样的物品组合销售(包括优惠)的方式,即能让客户感到实惠,也提高了销售额和利润率?这是即定向广告之后,定向营销的新研究内容。任何成熟的案例,有价值的是抽象出来的理论方法,而不是案例中的数据结论和案例处理中使用的工具。

这个也不是系统可预先规划的问题。而是动态分析的。

不过,以上两点,均存在一个数据来源问题。但是数据来源并不属于数据挖掘,数据分析本身。有些数据是系统自身产生的,很容易收集,有些数据则反之,例如第2个案例。百货具备统一收银系统,而商场并不必备,此处对后者会引出数据从何来的问题。包括数据准确性的问题。但这些都不属于数据分析和数据挖掘本身所要面对的问题。

数据分析,和数据挖掘,最有价值的在于解决方案的有效性。有效性则需要足够的理论作为支撑,专设这个BLOG分类,就是希望从集合论开始梳理,并将集合论补充到现有图论中人为描述过多的定义中。由此另更多的方案具备一定的理论基础。希望要理解,此处的理论,并不是所谓“聚类,分类,关联学习”等名词手段。聚类分类,滤波,神经网络,等等,都是一种手段的名词,不会因为名称时髦而有价值。有价值的在于具备良好的理论支撑,哪怕理论解释复杂,如下谈论的模糊类型的理论描述。

特别是数据挖掘,和数据统计很像,同样也存在这一个悖论。即,我知故我在,我在故我知。简单说,我知道数据确实存在,由此我做了很多方法来从数据中找到我的结论。数据挖掘不是金矿挖掘,必须要在指定坑里挖到金子。数据挖掘的价值在于,不同角度的观测,是否有具备可价值化的信息,同时对同一个角度观测,可以判断是否存在价值化的信息。如果形而上学的为了挖掘而挖掘。努力的构造算法,使用工具,是为了证明自身的观测角度正确,那么对最终客户又有何用。

如下:

1、一个数据统计表格中有两个选项。你对这款产品的感受是: 1、好,2、还不错。

由这种题目,获得的数据,不考虑是否真实有效。但得出的统计结果,始终会带有设计者的倾向性,至少我的产品不差。如果存在理论基础,例如集合论的分析,命题中并不是在观测空间中存在互补,这个命题则需要缩小观测空间,同时增补对空间的额外约束条件。就是,针对不排斥此产品的人群,好的百分比,还不错的百分比。而不能简单说,根据统计,觉得非常满意(就是好)的人群百分比为多少多少。这对实际客户有价值吗?没有,甚至会迷惑和伤害到客户未来的业务开展。

而数据挖掘,和数据统计之所以很象,是数据挖掘需要带有主观偏好性。例如古代人在一个稀土矿中找金子,金子没找到,不妨碍现代人挖稀土。同样的数据,有没有价值,在于挖掘者根据需求来做不同的筛选判断。这又需要理论进行严格的外部约束,以防止自娱自乐的情况出现。

例如,第一个例子,京东的例子,数据挖掘的对象是“客户的大概率采购集中度是否存在?从而获得以通过调整仓储的存储方式以优化成本的方法”。

过小的样本会出现的结论的实际概率并不大,甚至不如静态规划更为有效的情况。

过短的样本窗口会导致,仓储方案调整密集,而额外带来不必要的成本。

过大的样本会导致信息均衡化(结论就是不需要调整)无用论的情况。

过长的窗口,会导致调整过于缓慢,好时是好,差时周期也不短的现象。

如果4个人,每个人坚持固守上述4个方法,估计最终结果就是不了了之。做等于没做,所以不如不做,因为谁的结论中都有缺陷。出现这种情况,如果没有理论支撑,则没有办法区分每个人的不同方法中,好坏的内容。不可能某个人的方法中任何信息都是有价值的,也不可能所有的信息和手段都没有价值。那么评价标准难道是老板的喜好?老板唯一喜好的是省钱,省心,而不是到处当裁判,落个偏袒美女之名。其实评价的标准是在于成本的优化。不择手段的在保证客户体验度下,最大可能的优化成本。而前面的一个?只是一个选择性的条件。后面的陈述才是目标。数据挖掘没有动态修正观测期望的动作,就不是挖掘了。

我是个工程师,不是个理论研究者。但是很多理论虽然抽象,对实际工程生产却具备重要的指导作用。甚至包括那些不可细分一一对应的模糊理论。这种指导作用更大的来源于告诉你,什么不可为,而不是什么可为。例如,上面假设4个人都没有错,那么则告诉我们不能通过采购集中度的概率方式来判断,因为基本等概率。以此不可为,则可以引出其他再次数据挖掘的策略。

说到理论对工程的价值,在于限制,而非指导,例如,我的本行是做算法优化。充分利用系统资源,无论软件硬件,是我的手段,以在稳定性,健壮性的前提下,尽可能的提升系统的速度或规模。但是系统资源我只使用85%左右。你让我一一说明,为什么86%就不行,我没有办法。但我可以理论并且联系具体实例的告诉你。系统资源是组合资源。组合过程中存在成本。当系统资源占用过多时,瞬时负载过大,也就是传说中的峰值达到时,没有一定的系统资源余量,保证组合过程的成本得以消化,会使得系统负载能力迅速下降。

哈。你一定会觉得很抽象。我举2个例子,就不说我擅长的C的算法设计了。谈下抽象理论对实际的工作的意义和不可一一对应的现实。

1、马路上,车越多,开的越慢。当然车越少,开的越快。难道是最快和最慢的车速下,马路上的流量最大吗?显然不是,这个是常识,而且大家的常识是对的。车最少,开的最快的时候,和车最多,马路停车场状态下,开的最慢的时候,都不是车网流量最大的时候。

即便每辆车之间没有复杂的同步关系,对资源站用也是分空间,分时间的,够简单了吧,连死锁都没有,除了十字路口。但车就是车,不是火车的车厢。当车与车的距离过于紧密时,车速会急速下降。再加点复杂的,车网流量不同压力下,红绿灯的等候时间的规划问题。这就是个模糊理论。

2、企业支付大量资金做广告。几乎很难找到一个具体自然人,是因为看了这个广告,决定购买产品的,就是有,这个人群对产品购买的总贡献度也不大。那么广告没有必要吗?这么多企业做广告,谈不上每家的策略都是对的,至少整体,广告行为是有存在价值的。但是如果没有理论的支撑,行为学,心理学,社会学(当然这些不是我的方向),企业做广告几乎和赌博没有区别。

但专业的广告公司,和不专业的广告公司,不是以所用的流程,工具,手段来区分的。而是在于谁更多的将理论应用,通过理论,决策什么可为,什么不可为,使得企业的投入,更大概率的获取对应的回报。

数据分析和数据挖掘同样需要理论进行支撑。重复,别和我提工具,语言和流程。我本身是做系统优化的。系统本身是我的优化目标。而不是针对一个具体的系统、具体的工具、具体的流程,来静态的实现一个任务指标。杀鸡焉牛刀?我只在讨论理论,并帮助你选择杀鸡的方式和对刀的态度。因为这样对实际客户更有价值。

最后,简单重复一句话:理论的力量在于让你远离不合理的危险区域,而不是直接帮你达到目标,但这并不妨碍理论对你价值存在。

转载于:https://my.oschina.net/luckystar/blog/56190

数据分析和数据挖掘的理论研究必要性相关推荐

  1. 数据分析与数据挖掘的基础概念

    一.数据分析与数据挖掘的定义 数据分析 ​ 数据分析是使用适当的统计分析的方法对收集的大量的数据进行分析,提取有用的信息和形成结论而对数据加以详细研究的概括总结的过程. 数据挖掘 ​ 数据挖掘是在大型 ...

  2. 如何用现在的大数据分析和人工智能技术来研究和论证翁文波先生的可公度性预测理论?

    欢迎大家前来讨论 知乎传送门:如何用现在的大数据分析和人工智能技术来研究和论证翁文波先生的可公度性预测理论?

  3. 空间数据挖掘技术理论及方法

    葛继科(西南农业大学信息学院 400716)   摘要  本文简要论述了空间数据库技术及空间数据挖掘技术的理论及特点,分析了空间数据挖掘技术的层次.方法,并重点介绍了当前常用的分类.聚类.关联规则等空 ...

  4. 数据分析和数据挖掘的概念和理念

    1.数据分析和数据挖掘的定义和概念 2.数据分析及数据挖掘的层次 3.数据分析及数据挖掘的模型框架 1.1数据分析及数据挖掘的定义: 数据分析 数据分析是指用适当的统计方法对收集来的大量数据进行分析, ...

  5. 视频教程-数据分析与数据挖掘导论(R语言)-MySQL

    数据分析与数据挖掘导论(R语言) 叶梓,博士.高级工程师.上海交通大学计算机专业博士毕业,主研方向为数据挖掘.机器学习.人工智能等.现为某大型上市软件企业的人工智能团队技术负责人 叶梓 ¥199.00 ...

  6. 浅谈数据分析和数据挖掘

    1.数据分析 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程. 数据分析有极其广泛的应用范围,典型的数据分析过程可看做" ...

  7. 数据分析和数据挖掘有啥关系?

    今天给大家分享下数据分析与数据挖掘之间的关系是怎么样的?本篇内容来源于书籍<数据分析与挖掘算法>,文末会免费送大家几本. 是不是有了数据分析基础以后更容易上手数据挖掘?在学习路径方面又需要 ...

  8. 数据分析与数据挖掘的区别

    随着大数据爆发式增长,市场上对大数据相关人才的需求与日俱增,导致大数据行业人才需求紧缺,引发了关于大数据的学习浪潮,在这个过程中,人们也会不时将数据分析与数据挖掘的关系混淆,什么是数据挖掘?与数据分析 ...

  9. 数据分析、数据挖掘、数据运营有啥区别?【通俗版】

    作者:陈老师 个人公众号:接地气学堂 陈老师新课:商业分析全攻略 https://edu.hellobi.com/course/308 用数据分析方法解决商业问题,目前已经100+学员加入!5星好评. ...

最新文章

  1. esp32 python-MicroPython for esp32
  2. Spring Boot----基础
  3. scikit_learn中fit()/transform()/fit_transform()区别和联系
  4. 通过少儿英语入门孩子的自信更多
  5. c++ 多线程 垃圾回收器_并行并发CMS垃圾回收器:-XX:+UseConcMarkSweepGC
  6. 设计模式学习总结——工厂模式
  7. java string 对象地址_Java中String对象的存储位置(学习笔记)
  8. mysql查看当前连接数据
  9. 戴尔:未来就绪的IT
  10. 大数据导论章节答案_苹果手机一般能用几年 一份大数据告诉你答案
  11. linux软件包管理rpm
  12. Lync常识之Lync Server有哪些角色
  13. 剪切音频matlab_怎样用matlab分割音频文件(wav)或其他
  14. 项目管理 计算机仿真,刘宝林老师【项目管理】《挑战埃及》沙盘课程内容分享...
  15. Highcharts 隐藏右下角的官网链接
  16. OpenNESS NTS 的前世今生
  17. 小学计算机表格课件,小学信息技术级轻松做表格Word表格制作PPT课件.ppt
  18. 魔兽世界 - 宏命令
  19. RK3399 GT1X触摸屏驱动调试笔记
  20. Spring - bean

热门文章

  1. (转)创建X509证书,并获取证书密钥的一点研究
  2. jvm指令重排原因?怎么避免?
  3. python变量名可以包含的字符有问号吗,带问号文字的Python正则表达式
  4. 15 张图,了解一下 TCP/IP 必知也必会的 10个要点
  5. 盘点计算机世界那些经典谣言
  6. npz文件转为npy_numpy的文件存储 .npy .npz 文件
  7. android 定位 广播,android - 如何触发广播接收器在GPS开启/关闭? - SO中文参考 - www.soinside.com...
  8. Android 第九课 常用控件-------ListView
  9. 和菜鸟一起学linux之DBUS基础学习记录
  10. 畅销书《深入浅出Vue.js》作者,在阿里淘系1年的收获成长