本文简要介绍了大数据、数据挖掘和机器学习。对于任何想要理解什么是大数据、数据挖掘和机器学习以及它们之间的关系的人来说,这篇文章都应该很容易读懂。

数据挖掘和大数据能做什么?

简而言之,它们赋予我们预测的能力。

1、我们的生活已经被数字化

今天,我们每天做的许多事情都可以被记录下来。每笔信用卡交易都是数字化、可追溯的;我们的公众形象一直受到在城市各处悬挂的许多中央电视台的监视;对于企业来说,大部分的财务和运营数据都保存在一些ERP中;随着可穿戴设备的兴起,每一次心跳和呼吸都被数字化并保存为可用的数据。就在我们的生活被数字化的时候,一台电脑现在比以往任何时候都能更好地“理解”我们的世界。

2、如果模式保持不变,则过去=未来

我们生活中的许多不同事物都显示出模式。例如,一个人可能在任何工作日往返于工作和家庭之间,在任何非工作时间去度假或看电影,这种模式不太可能改变。商店会有一天的高峰时间和休闲时间,这种模式不太可能改变。企业将在一年中的某些月份要求更高的劳动力投入,这种模式不太可能改变。

总结第一点和第二点,我们可以得出这样的结论:如果提供过去的模式,计算机很有可能预测未来,因为这些模式在很长一段时间内很可能是一致的。

如果电脑能预测人们的生活方式,它就能准确地知道企业什么时候是进行促销的最佳时机,比如,如果这个人倾向于每周五洗车,那么企业可以给他推送一次洗车促销;如果这个人倾向于每年3月去度假,那么企业就会给他推送一张酒店住宿优惠券。在商业上,电脑还可以预测商店全天的销售预测,然后制定商业策略,使营收最大化。对于企业来说,计算机也可以设计出最佳的工作计划,以及最合理的劳动力安排。

一旦未来变得可预测,我们总是可以提前计划,并为最好的行动做好准备。就像《黑客帝国》中的Neo一样,他可以躲避所有的子弹,因为他可以清楚地看到子弹从哪里来。根据夏洛克·福尔摩斯的说法,“对概率数学的高级掌握,映射到对人类心理的透彻理解,以及任何已知个体的已知性情,都可以大大减少变量的数量”,换句话说,“大数据赋予我们预测未来的能力”。这就是数据挖掘的力量。数据挖掘始终与大数据联系在一起,仅仅是因为大数据支持大规模数据集,从而为所有预测提供了基础。

那么,什么是大数据、数据挖掘和机器学习呢?

1、大数据

当数据量非常大时,很明显,这些数据不能在任何一台机器上处理。一个非常大的文件,比如说10GB,你很有可能无法在任何Windows系统中打开它,直到它崩溃。大数据就是为此而开发的。您可以将它看作是一个特殊的软件,它将一个大文件分割成小得多的文件,然后可以在许多机器上处理这些文件。划分和梳理数据块的过程称为MapReduce。这个过程中最常用的软件框架叫做Hadoop。Hadoop解决了这个基本问题,并且有一堆工具可以和Hadoop一起使用,比如Pig、Zookeeper和Hive,让这个过程更加容易。Hadoop及其许多相关工具通常被称为“大数据技术”。

2、机器学习

刚才我们接触了如何处理数据。假设这段数据包含一组购物者的购买行为,包括购买的商品总数、每个购物者购买的商品数量。到目前为止,这只是一个简单的统计分析。然而,如果我们的目标是分析不同类型购物者之间的相关性,或者如果我们想推断特定类型购物者的特定偏好,甚至预测任何购物者的性别或年龄,我们需要一个更复杂的模型,我们称之为算法。机器学习可以更容易理解为为数据挖掘目的而开发的各种不同的算法,如逻辑回归、决策树、协作过滤等等。

 

3、数据挖掘

通过机器学习算法的应用,现有的数据实际上可以用来预测未知,这正是为什么数据挖掘的奇迹与机器学习紧密相连的原因。然而,任何机器学习算法的强度都严重依赖于大量数据集的供应。请记住,无论算法有多复杂,都无法通过几行数据做出鼓舞人心的预测。大数据技术是机器学习的前提,利用机器学习,我们可以从现有的数据集中获得有价值的见解,这就是数据挖掘。

5分钟快速入门大数据、数据挖掘、机器学习相关推荐

  1. 【快速入门大数据】hadoop和它的hdfs、yarn、mapreduce

    文章目录 导学 大数据概述 初识Hadoop 概述 核心组件 HDFS分布式文件系统 资源调度系统YARN MapReduce 优势 发展史 生态系统 发行版本选择 企业应用案例 第3章 分布式文件系 ...

  2. 【快速入门大数据】Hadoop项目实战-用户行为日志

    文章目录 用户日志 用处 日志生成渠道 日志内容 意义 离线数据处理架构 分析日志 引入解析UserAgent 单体实现 hadoop-MapReduce实现 效果图 总结 用户日志 用处 分析行为 ...

  3. 机器学习 大数据 数据挖掘_什么是机器学习? 来自数据的情报

    机器学习 大数据 数据挖掘 机器学习的定义 机器学习是人工智能的一个分支,其中包括用于自动根据数据创建模型的方法或算法. 与通过遵循明确的规则执行任务的系统不同,机器学习系统从经验中学习. 基于规则的 ...

  4. 三分钟入门大数据之用户画像标签的分类

    哈喽,大家好,我是汉斯老师.近几年来,互联网行业由于较高的薪资收入,受到许多人的追捧.很多年轻的学子,或是其他行业的有志青年,都想要投身到这个行业中来.然而一方面受到"互联网寒冬" ...

  5. 全网最详细中英文ChatGPT接口文档(六)30分钟快速入门ChatGPT——使用策略和API数据使用策略

    30分钟快速入门使用ChatGPT--使用策略和API数据使用策略 Usage policies使用策略 Disallowed usage of our models 禁止使用我们的模型 API da ...

  6. 分析,大数据,数据挖掘,数据科学,机器学习100个活跃的博客

    分析,大数据,数据挖掘,数据科学,机器学习100个活跃的博客 留在数据科学技能的巅峰!下面是对大数据,数据科学,数据挖掘,机器学习和人工智能约100最活跃,最有趣的博客的列表. Devendra De ...

  7. 三分钟入门大数据之什么是用户画像?

    哈喽,大家好,我是汉斯老师.近几年来,互联网行业由于较高的薪资收入,受到许多人的追捧.很多年轻的学子,或是其他行业的有志青年,都想要投身到这个行业中来.然而一方面受到"互联网寒冬" ...

  8. 大数据与机器学习算法相关的电子书分享

    大数据与机器学习算法相关的电子书分享 近日,偶然看到一个帖子,上面有一些常用的机器学习常用的电子书下载路径,遂复制到这里,分享给大家,希望可以有你需要的- @ 欢迎关注微信公众号:算法全栈之路心智探奇 ...

  9. 上海浦发银行总行信息科技部大数据专家陈春宝:大数据与机器学习重塑零售银行业务...

    人工智能.区块链.容器技术等新兴技术的快速演进和发展,正在不断地推进企业数字化变革.8月10日,由上海市经济和信息化委员会.上海市国有资产监督管理委员会指导,上海市国有资产信息中心.上海市计算机用户协 ...

  10. 为什么都建议学java而不是python-为什么入门大数据选择Python而不是Java?

    马云说:"未来最大的资源就是数据,不参与大数据十年后一定会后悔."毕竟出自wuli马大大之口,今年二月份我开始了学习大数据的道路,直到现在对大数据的学习脉络和方法也渐渐清晰.今天我 ...

最新文章

  1. nowcoder 202F-平衡二叉树
  2. 语音识别中强制对齐_语音识别中的标注问题和嵌入式训练
  3. 【XAudio2】8.怎么播放音效
  4. docker镜像、容器以及命令操作
  5. mysql用 fifo 记录日志_MySQL一丢丢知识点的了解
  6. 维基百科(wikipedia)数据下载(含地理数据)
  7. golang make第三个参数的作用
  8. 支持多协议多服务的服务器设计和实现的步骤,基于多协议的人工影响天气接入服务器设计与实现...
  9. php adodb使用,ADODB类使用_PHP教程
  10. 码农如何写好一封邮件/1
  11. 「分块系列」数列分块入门6 解题报告
  12. geohash java 距离排序_APP筛选附近的人并排序(geohash算法)
  13. 44000+ 人一夜之间失业
  14. 网络攻防技术——端口扫描
  15. 服务器系统survey,LimeSurvey:Linux下实现问卷调查系统
  16. java毕业设计成品SpringBoot+VUE实现的电影院会员积分管理系统
  17. 使用plupload压缩图片
  18. 安卓apkcpu占用过高_Android CPU占用高问题分析
  19. 如何使用 Swift 开发简单的条形码检测器?
  20. 语音合成:transformer tts 论文复现以及dockerfile

热门文章

  1. matlab纹理分析,基于MATLAB的遥感影像纹理特征分析
  2. Opencv之threshold
  3. 数据结构和算法的区别
  4. 关于华为手机无线调试
  5. select_io(LVDS) 参数设置与物理层的对应关系
  6. MATLAB在主成分分析中的应用
  7. LANP+KEEPALIVED集群(一)
  8. 2021Java实现关注公众号登陆网站
  9. 采用LocalDateTime获取指定时间段
  10. 悉尼大学计算机科学,悉尼大学计算机科学