在上一讲中,我就什么是大数据做了简要的介绍,涉及大数据的主要步骤,以及每个步骤要解决什么样的问题。相信你对大数据已经有了一个初步的认知。这一讲,让我们一起来探讨下大数据的发展过程,看看大数据这个词最初起源于哪里,经历了什么样的变化,最后,随着大数据的发展,我们该如何选择学习路径。

大数据的发展过程

萌芽阶段(1980-2007)

说起萌芽,一般都是这样的一个“套路”:某位知名人士首先创造性地使用了一个新的词汇,然后这个词逐渐流传开来,成为某件重要的事情。大数据也不例外。

早在 1980 年,大数据这个词被阿尔文·托夫勒写在了他的新书《第三次浪潮》里,不仅如此,他还声称大数据是第三次浪潮的华彩乐章,这就是大数据一词的由来。阿尔文·托夫勒是一位著名的未来学家,他非常成功地预测了大数据的爆发。

随着时间的推移,到 2000 年,最早在网络上兴起的论坛和博客开始引起大众的兴趣,随后,各种社交网络、自媒体逐渐开始壮大,2008 年 9 月《自然》杂志也推出了名为“大数据”的封面专栏。象征着大数据概念已经成为大家普遍认同的事实。这个阶段,大数据正式诞生了。在这个时间段的中国,以腾讯、网易、新浪、搜狐、百度为代表的主流互联网公司,依赖社交、搜索、门户等产品迅速崛起。

虽然说大数据这个词已经成为科技行业的热门词汇,但是面对技术的变革,很多公司还没有明白,自己做的事情跟大数据到底有什么关系,大数据该如何从一个概念落地到工程生产中。2004 年前后,谷歌发表了三篇论文,也就是我们常说的大数据三驾马车:

  • 分布式文件系统GFS

  • 大数据分布式计算框架MapReduce

  • NoSQL 数据库系统BigTable

这 3 篇论文的发表惊醒了很多懵懂的人,也解决了大数据体系中最核心的 3 个问题:

  • GFS 文件系统解决了数据的底层存储问题

  • 计算框架 MapReduce 解决了数据的处理运算问题

  • BigTable 数据库系统解决了数据的有序组织问题

但论文的公布,只是一种思想和方案的共享,谷歌并没有公开自己的技术细节。

随后一个叫作 Doug Cutting 的码农开了一家小公司,想要做一个超越谷歌搜索的开源搜索引擎,尽管当时的谷歌搜索基本是独步天下的状态了。他先是开发了一个叫 Nutch 的项目,但随着谷歌公布的三驾马车论文,他将目标转向实现 GFS 和 MapReduce 方案,并想办法融合进自己的 Nutch 项目里。后来这个模块被雅虎看中了,于是 Doug Cutting 带着他的项目加入了雅虎,顺手拿了他儿子的一个大象玩具给这个项目命名为 Hadoop。

由于 Hadoop 是一个开源项目,在那个大数据技术刚刚兴起的时间点,受到了众多公司的追捧,并在 2008 年成了 Apache 的顶级项目。至此,大数据生态体系逐渐形成,主流互联网公司开始上马相关的项目。

很快,移动互联网时代到来了。2007 年,苹果推出了第一代 iPhone,开创了智能手机的先河。同年底,谷歌也发布了 Android 手机操作系统。2008 年支持 3G 网络的 iPhone 问世,并加入了 App Store 功能。随后,各大互联网公司将自己的战略重心由 PC 端转移到移动端,实时,大批量的数据源源不断地产生。

热门阶段(2008-2016)

  • 随着网络、存储、计算等硬件的成熟;

  • 智能手机成为移动业务的标配;

  • Hadoop 项目不断成熟。

大量依赖大数据的个性化 App 在这个阶段如雨后春笋般涌出,并迅速壮大。做社交的Facebook,做云服务的亚马逊,做内容服务的今日头条等等都在这个时间内发展起来,赚得盆满钵满。

在这个阶段,大数据迎来了第一次发展的小高潮,世界各个国家纷纷布局大数据战略规划,将大数据作为国家发展的重要标准之一,同时这也意味着大数据时代正在悄然开启。

不断爆发(2017 之后)

最近这几年,大数据基本上渗透到了人们生活的方方面面。比如说:

  • 无处不在的交通违法监控;

  • 前面介绍过的天气预测;

  • 疫情之下的健康码。

这些都是大数据的产物。

同时,当前优秀的互联网公司都已经建设起了比较完善的大数据体系架构,并且在各自的业务中进行应用。各种新的数据库、计算引擎、数据流转框架喷涌而出,并随着新的需求不断迭代。伴随着互联网的成熟和发展,这充分说明了技术对于大数据行业发展的重要性,随着人工智能、云计算、区块链等新科技和大数据的融合,大数据将释放更多的可能,迎来全面的爆发式增长。

大数据在互联网公司中的发展

说了这么多大数据总体的发展过程,那么大数据体系在互联网中到底是一个什么状态呢?

就我而言,我所接触的大数据体系可以说是伴随着推荐系统而来的。推荐系统可以看作是一种信息筛选的机制,与搜索系统等待用户主动检索不同,推荐系统则会主动把信息推荐给用户。

  • PC 时代虽然就已经有了推荐技术,但是 PC 网页面积巨大,门户网站精心编辑的分类整整齐齐排放在网站上供大家自行查阅,用户对推荐的需求不是很大。

  • 而来到了移动时代,一个屏幕的空间很小,如果在手机 App 上面星罗棋布各种信息,那估计再好的眼神也得变成近视眼,所以简洁成了移动端追求的目标。

那么如何能够又简捷又精准地抓住用户兴趣,于是推荐系统迎来了春天。

那么,推荐系统中需要解决的问题,就成了公司中大数据体系需要处理的问题。

  • 推荐系统需要使用大量用户信息,那么大数据体系建设就需要解决用户信息的采集、存储问题;

  • 推荐系统需要计算每个用户与任意商品或者资讯的匹配程度,那么大数据体系建设就需要解决大规模计算与建模的问题;

  • 推荐系统需要更加快速响应,那么大数据体系建设就需要朝着实时的方向解决问题。

所以,围绕推荐系统的大数据体系,有了以下 3 个大的工作方向:

  • 大数据架构

  • 大数据分析

  • 大数据开发

接下来,让我们看一下如果在这几个方向中谋取一份工作,应该去学习一些什么样的知识。

工作方向选择

(1)大数据架构方向

大数据架构方向涉及偏向大数据底层大数据工具的一些工作。做这一方向的工作更注重的是:

  • Hadoop、Spark、Flink 等大数据框架的实现原理、部署、调优和稳定性问题;

  • 在架构整合、数据流转和数据存储方面有比较深入的理解,能够流畅地落地应用;

  • 熟知各种相关工具中该如何搭配组合才能够获取更高的效率,更加符合公司整体的业务场景。

从事这一方向的工作,需要具备以下技术。

  • 大数据框架:Hadoop、Spark、Flink、高可用、高并发、并行计算等。

  • 数据存储:Hive、HDFS、Cassandra、ClickHouse、Redis、MySQL、MongoDB 等。

  • 数据流转:Kafka、RocketMQ、Flume 等。

(2)大数据分析方向

这里所说的大数据分析方向是一个广义上的大数据分析,在这个方向上,包含了各类算法工程师和数据分析师,一方面要熟练掌握本公司业务,一方面又具备良好的数学功底,能够使用数据有针对性的建设数据指标,对数据进行统计分析,通过各类数据挖掘算法探寻数据之间的规律,对业务进行预测和判断。

从事这一方向的工作,需要具备以下技术。

  • 数据分析:ETL、SQL、Python、统计、概率论等。

  • 数据挖掘:算法、机器学习、深度学习、聚类、分类、协同过滤等。

(3)大数据开发方向

大数据开发是大数据在公司内使各个环节得以打通和实施的桥梁和纽带,爬虫系统、服务器端开发、数据库开发、可视化平台建设等各个数据加工环节,都离不开大数据开发的身影。大数据开发需要具备 2 方面的能力:

  • 要了解大数据各类工具的使用方法;

  • 要具备良好的代码能力。

从事这一方向的工作,需要具备的技术有这些:数仓、推荐引擎、Java、Go、爬虫、实时、分布式等。

当然,除了上面这三个大的方向,在整个互联网大数据体系中,还有非常多的细分方向,甚至每一个关键词都可以作为一个方向考虑。随着大数据的发展,我想在未来还会有更多各式各样的岗位等待着你。

总结

这一讲我们主要学习了大数据的发展过程。总的来说,大数据并不是一个特别的东西,而是在互联网时代必然的产物。从大数据概念的提出到现在有四十年的时间,但是我们可以预见,大数据的发展绝对不会止步于前,甚至可以说,大数据的发展才刚刚步入正常的轨道。

同时,根据我自己的经验,列举了在当前互联网公司中,大数据相关的工作方向,如果你对其中的内容感兴趣,抑或是想入行大数据,可以选择一个方向深入地了解和学习。在此过程中,有任何问题都可以在交流区留言。

希望通过这一讲的学习,你对大数据的了解又深入了一个层次。下一讲,我们将学习“为了追赶当下趋势,我们要做什么思想准备”。



精选评论

**4975:

迫不及待学习,什么时候更新完

大数据基础课02 从萌芽到爆发,大数据经历了哪些发展?相关推荐

  1. 大数据基础课01 如何在庞大的大数据体系中明确路径?

    你好,我是荒川,目前在一线大厂做高级算法专家,曾经主导过数据平台建设.推荐系统数据流框架设计.数字化内容运营平台.用户画像平台等大型项目.在这些工作的过程中,我有幸熟悉了以个性化推荐为应用的大数据体系 ...

  2. 大数据基础课04 大数据开发必备工具和来源

    在前面的章节里,我们多次提到了 Hadoop 这个名称,想必你也大概知道了 Hadoop 是一个用于大数据的架构解决方案.关于 Hadoop 的理论基础以及是如何诞生的,我们在<02 | 从萌芽 ...

  3. R 数据可视化 02 | 火山图

    R 数据可视化 02 | 火山图 文章目录 R 数据可视化 02 | 火山图 一. 示例数据准备 二. 环境需求 三. 绘制火山图 1. 火山图 2. 标记基因的火山图 四. 保存为图片 五. 详细参 ...

  4. 大数据与云计算:进入技术爆发期

    被称作第三次IT浪潮的云计算,带来生活.生产方式和商业模式的根本性改变,成为当前全社会关注的热点.随着"宽带中国"战略的落地,云计算与大数据技术作为信息化转型升级的新引擎,已逐渐进 ...

  5. 大数据基础课第三课 spark_core、Spark_sqlSpark_streaming

    spark 入门 课程目标: 了解spark概念 知道spark的特点(与hadoop对比) 独立实现spark local模式的启动 1.1 spark概述 1.什么是spark 基于内存的计算引擎 ...

  6. 大数据基础课11 让你一看就懂的数据挖掘四大经典算法

    上一讲,我们从流程上介绍了数据挖掘,而在整个数据挖掘实施的流程中,数据挖掘算法可能是我们的算法工程师最关注的环节.在常见的数据挖掘过程中,通常会用到什么类型的算法,不同的算法又应对什么样的问题?在实际 ...

  7. 大数据基础课03 阿里美团这些大厂都在用什么大数据架构?

    首先,我想讲一个叫庖丁解牛的故事,想必你应该听过.庖丁从开始杀牛,到他的故事被写下,操刀十九年,杀了数千头牛.也正是由于丰富的实践经验,他总结出了解杀牛的方法论:依照牛生理上的天然结构,砍入牛体筋骨相 ...

  8. 【大数据作业02】HDFS中的名称节点和数据结点的具体功能

    试述HDFS中的名称节点和数据结点的具体功能 名称节点负责管理分布式文件系统的命名空间,记录每个文件中各个块所在的数据节点的位置信息: 数据节点是分布式文件系统HDFS的工作节点,负责数据的存储和读取 ...

  9. 清华朱民:数据「资产化」,将是大变革!

    伴随大数据.人工智能等技术的发展,人类正逐步由「信息时代」走进「智能时代」. 在这个过程中,「数据」逐渐成为商业经济的核心. 清华大学国家金融研究院院长朱民在"2021北京智源大会" ...

  10. 数据挖掘,你知道的大公司有哪些?独家揭秘:大数据公司挖掘数据价值的49个典型案例

    对于企业来说,100条理论确实不如一个成功的标杆有实践意义,本文的主旨就是寻找"正在做"大数据的49个样本. 本文力图从企业运营和管理的角度,梳理出发掘大数据价值的一般规律:一是以 ...

最新文章

  1. [转载]Outlook 2016 显示正在启动... 无法进入Outlook的解决方案
  2. 关于敏捷规划的微信对话
  3. 前端学习(2167):前端路由和后端路由
  4. MySQL锁定机制简介
  5. Linux中搭建YUM
  6. GMQ区块链生态系统平行链,未来将应用于众多产业
  7. 程序MD5校验的作用
  8. 修改服务器后账套不存在,金蝶KIS专业版环境配置常见问题
  9. 20191026每日一句
  10. whoami 显示“我是谁”
  11. weblogic部署war
  12. linux 水印软件下载,水印美图滤镜相机
  13. 使用Node.js爬取双色球十六年来所有中奖号码
  14. Niagara内容示例 1.3 Simple GPU Emitter
  15. excel单元格显示公式_Excel公式显示在单元格中
  16. Genymotion安卓模拟器常见问题汇总
  17. python画圣诞树代码解读_使用Python画了一棵圣诞树的实例代码
  18. 力扣(LeetCode)——编译、提交和注释快捷键
  19. H3C交换机SSH配置(20200922)
  20. NIST随机数检测软件使用

热门文章

  1. 投资的收益与风险的数学建模
  2. pe和linux一起安装到移动硬盘,PE安装在移动硬盘的详细教程
  3. HDMI调试基本原理
  4. PhantomJS not found on PATH
  5. 2022高等代数笔记整理
  6. 如何修改jar包并重新打包
  7. html5字体的格式转换,font字体
  8. 签张回执单 保险合同就生效?
  9. 求梯形面积python
  10. 用云服务器搭建一个属于自己的网站(手把手教学)