你好,我是荒川,目前在一线大厂做高级算法专家,曾经主导过数据平台建设、推荐系统数据流框架设计、数字化内容运营平台、用户画像平台等大型项目。在这些工作的过程中,我有幸熟悉了以个性化推荐为应用的大数据体系上下游工作,所涉及的推荐系统有日活百万级、千万级,甚至上亿级,它们所使用的大数据体系各有不同。

在当下的互联网公司中,推荐系统几乎成了一个标配,用于解决信息过载问题,提高用户体验,提升公司整体收益。而围绕着推荐系统,公司要构建的则是一套大数据体系,从数据的收集、存储,到数据的分析、计算,最后在推荐系统上进行应用,发挥大数据的价值。

你真的理解大数据吗?

我们每天都能听到有人说“大数据”,但是大数据到底是什么,又代表着怎样的发展趋势,貌似有不少人会有这样的误解:

  • 在大数据中数据越多越好,数据够多就可以有更多的价值;

  • 我们是小公司,所以跟大数据没关系;

  • 大数据就是 Hadoop;

  • ……

其实不然,大数据并不是数据越多越好,数据也有好坏之分,只有挖掘出数据背后的关系和价值,才是真正的大数据之道。另外,是否需要做大数据是由公司业务决定的,并不是小公司就与大数据没关系。而 Hadoop 绝对不等于大数据,虽然 Hadoop 已经成为大数据领域的标准工具,但该领域还存在很多其他类型的处理系统。

之所以我们对大数据有各种各样的误解,主要是因为大数据本身是一个很庞杂的体系。作为一个火热概念,很多人在宣讲自己的成果时都把“大数据”挂在嘴边,以至于很多公司以为只要搭建起大数据体系,一股脑地把数据收集起来,就能够提升公司的业绩,发现新的商机。

我根据以往的经历,大概整理了一幅大数据技能图谱,汇总了这些年来我所接触过的有关大数据的各种工具、框架及方法,你可以体会一下。

大数据技能图谱

面对如此庞大的体系,从业者的学习曲线也十分陡峭。这些年来我也磕磕绊绊走了不少弯路,有时候要花费不少时间去了解各种术语和陌生词汇到底是个什么,比如 Hadoop 生态里的 Hive、HBase、HDFS,广告投放中的 CPA、CPC、CPM,推荐系统中常用的 CTR、CVR、DAU 等。所以在这门课程中,我也希望能够把这些经验或者教训告诉你,减少你学习路上的绊脚石,帮你建立框架感,提升学习效率。

大数据体系如此庞大,它的职业发展路径无疑也有很多,我总结了 3 大方向,你可以根据爱好和自身情况等来具体选择。

  • “大数据架构”方向。主要工作是从众多的大数据工具中选取合适的工具,并能够让这些工具在庞大的云服务器或者集群中良好的配合和运转,来支撑上层的应用。职业发展路径为:数据运维工程师 → 高级运维工程师 → 架构师 → 技术专家。所涉及的技能主要在上面图谱的左半部分,比如通用框架、流式计算、消息队列、资源调度等。

  • “大数据开发”方向。每家公司的情况各不相同,业务也各不相同,因此要想数据能够在这些工具中良好地运转,以及适配公司业务,就需要大数据开发工程师来进行建设。职业发展路径为:开发工程师 → 高级开发工程师 → 组件代码提交者。所涉及的技能也是图谱的左半部分居多,但与架构方向不同,重点在于熟悉这些工具的用法。

  • “数据挖掘与分析”方向。有了底层的框架和适配公司业务的各种系统,这时候就轮到数据挖掘与分析工程师来对数据进行精加工,从而在大数据中发现对业务有帮助的部分,最终实现数据到现金的转化。这一方向的职业发展路径为:数据清洗师 → 数据分析师 → 高级数据分析师 → 数据科学家。该方向的技能主要分布在图谱的右侧,比如数据可视化、机器学习工具、算法与数据结构等。

这 3 大方向都有着大好的发展前景,无论你选择哪一方向精进,都是不错的选择。当然本课程也会从这 3 个方向出发,介绍每个方向需要了解的知识和技能

经过调研,我也发现不管是现在还是将来,对大数据人才的需求非常稳定,甚至是非常紧缺的。而且,除了主流的互联网公司,很多传统行业的公司也都已经看到了数据带来的利润增长点,开始大力招聘大数据相关人才。下图是在拉勾招聘网站上搜索“大数据”这一关键词时获得的职位截图,可以看到薪资都处于非常高的水平。

大数据招聘职位图

这一课程适合怎样的你?

期望转行大数据的开发者。你或许已经在从事 Java 开发、PHP 开发、iOS 开发,但是你不满足于现在的工作,期望能够在大数据体系下发挥更大的作用,但又不知道该从哪里入手。本课程或许能帮你找到一个最适合的点,从而让你能够针对性地深入,最终转行大数据。

期望明确上下游关系的新入行者。你或许在学校中学过相关的课程,了解了很多与大数据有关的技术和知识,但是刚进入到工作中,你做的只是其中的一小块事情,不明白自己所处的环节,因此感到迷茫,甚至有时候会误解领导的意思。本课程可以让你快速地了解在公司里,这些技术和知识是如何与公司业务紧密联系良好运转的,从而了解到自己的位置所在,并快速进入工作状态,升职加薪。

期望对大数据体系建立了解的人。你可能没有加入开发的行列,但是你的工作却与大数据相关技术人员(比如数据分析师、大数据开发工程师等)有着千丝万缕的交集,如何与他们进行工作上的对接呢?本课程将带你了解大数据体系到底是什么样子的,在与其他部门对接时能充分展现你的专业度。

如何跨越大数据的鸿沟?

我将以最常见的推荐系统为背景,讲解大数据体系都涉及哪些技术和要点,从而帮你快速了解大数据体系的全貌。

我还会借助很多互联网公司的案例来介绍大数据在各个公司中的应用情况,比如阿里、网易、滴滴等知名互联网公司的大数据设计,从而让你了解大数据是如何在公司实际的场景中落地和应用的

同时,我还将介绍互联网公司中最常用到的各种大数据工具,借助简单的代码带你建立初步的认识,让你明白它是什么,能够做什么,在将来的工作中如果有诸如此类的需求可以快速上手。

本课程共划分 5 个模块,合计 22 讲。

模块一大数据简介。既然是一门基础入门课程,我们就先从整体上认识一下什么是大数据,让你有一个思维和理念的准备。

模块二 ~ 模块四,我会按照大数据的相关工作职能去划分,沿着数据流转的链条讲解,介绍当前主流的大数据框架工具,并穿插一些公司的实际例子以及简单的代码,帮你熟悉这些工具与技术,同时能够明白它们在公司业务中起到的作用。

模块二大数据架构。先介绍几个一线互联网大厂案例,了解它们的大数据架构以及大数据体系是如何演进到如今这样子的,然后从最共性的部分出发,带你了解 Hadoop 的整个生态都有哪些重要的组成部分。

模块三大数据开发。这一部分实际上是对模块二的拆分,即深入到实际的开发工作中,告诉你每一个环节是如何独立运行,又是如何与上下游相联系的。同时,我也会从 Hadoop 框架向外延伸,看看哪些部分已经不适应当前的发展,又有怎样的解决方案。

模块四数据挖掘与分析。这一部分着重讲解当前火热的算法相关工作,包括数据挖掘算法如何在公司的大数据体系下发挥作用、如何为公司带来业务价值,又有哪些主流的算法是这一部分主要关注的。

模块五大数据应用。通过讲解推荐系统、数据化运营、数据中台这些应用案例,让你明白大数据体系并不是空中楼阁,它们有着非常丰富的应用。大数据框架的各个部分是如何在这些应用中联合起来发挥作用的,在这一部分你会有自己的发现。

你可能发现了,我们没有讲解工具的底层实现细节,仅以概念的形式去介绍大数据,我希望这是一个阅读门槛低、较易理解的大数据课程。

作者寄语

“万丈高楼平地起”,这门基础课程,一定可以给你带来很大的收获和进步,不仅提升你的专业度,还可以为你现在迷茫的工作找到一个“抓手”。

我想看到这个课程的你一定是渴望成长的,而我也与你一样期待着自己的成长。希望你在这个课程中学到的不仅仅是那些刻板的知识,而是你获取知识的起点。学习也主动与被动相结合,你可以在留言区积极评论和互动,期待你的成长。



精选评论

**的伟:

好像觉得大数据现在已经进到我们生活的方方面面了吧,尽管不是做大数据工作的,很多人也会这很感兴趣,建议大家都来学习学习。

**3869:

大数据包含的知识和技能太多了,希望学习完这个专栏,可以找个一条自己感兴趣的和适合自己发展的路径。

**大佬:

看了下目录,涉及的内容很全面呀,从数据生产到数据应用都有呢。

**荣:

“找到抓手”有阿里的感觉了

**可以:

看了这个目录,很全面呀,虽然是基础,但是很有必要都了解一下,需要大框架都有个了解。

**楠:

老师,请问想做数据方向的产品经理,需要懂的有多深呢,还是说了解业务流程就好

讲师回复:

你好,业务流程的话肯定是都需要理解,但是这个一般根据每个公司的情况来。另外要看具体负责的方向,我了解的话数据产品也有策略型的产品,这个比较偏数据分析;也有功能型的产品,主要是来设计数据相关的系统建设。

从今天开始,我们就正式进入大数据基础的学习课程。正如我在开篇词中介绍的,这个专栏的目标是:

  • 让你能够快速地了解大数据体系的全貌

  • 建立大数据时代的思维模式

  • 能学习到一些简单的大数据工具使用方法。

那么达到这些目的的第一步是了解什么是大数据,即先来解决“What”的问题。

在定义“大数据”之前,我们先来回顾一下这些年关于天气预报的一些变化。

天气预报的变化

小时候我们家每天晚上都要看新闻联播,但主要目的不是了解国家大事,而是等着看新闻联播后的天气预报。那时获取天气情况基本上就只有这一个渠道,每天晚上看一下第二天的天气情况,为即将的出行做准备。这可能是我这一代人共同的童年记忆。

但那时的天气预报只能对后一天的天气进行一个大概预估,包括最高温、最低温、阴晴雨雪等,精确度还比较低。比如天气预报说明天会有降雪,但是究竟会不会下雪,下多大的雪,都是一个未知数。但不出意外,老师会告诉你:明天带铁锨过来!

而现在,我们随时随地都可以打开一个天气 App:

  • 不仅可以看到明天的天气预测,甚至还可以看到后面长达 40 天的预测;

  • 而对于最近 1~2 天的天气情况,可以精确到小时,甚至是分钟级别;

  • 除了阴晴雨雪,还有实时的湿度、气压、紫外线指数等各项详细信息。

在日常生活中,尤其是面临突发状况时,这么精准而详细的天气预报可以起到非常有效的防范作用。比如前阵子哈尔滨发布暴雪警告,并宣布受降雪影响较大的地区学生停课,而影响较小的地区则可以根据实际情况自行决定,这在很大程度上减少了极端天气带来的损失。你看这是多么幸福的一个时代——智能、便利。

为什么在开篇我要提“天气预报”呢?

因为气象预测是一个浩大的工程,尤其是在我们这样一个幅员辽阔的国家。

  • 过去实况数据的采集和传输工作大部分都要靠人力完成。气象观测员每天要定时记录百叶箱内的温度、湿度等,并通过打电话、发电报等方式将全国的观测数据进行汇总。

  • 而现在,只需要在各个位置投放气象相关的传感器,并把这些设备接入网络中,然后用后端服务器对这些上传的数据进行收集和计算,就可以自动化地实现过去需要耗费大量人力和时间才能完成的事情。

这就是大数据系统的应用给我们的生活带来的变化。

为什么大数据会被广泛应用

大数据系统能够得到广泛应用,主要得益于以下两方面的进展。

(1)底层硬件的支撑

1997 年,我拿到的第一台电脑内存只有 16 MB,硬盘只有 2 GB。放现在来看,这样的配置就是一个“笑话”,但在当时,这已经算是一个中等偏上的个人电脑配置了。而就是这样一台电脑,在那个年代竟然要花 7000 元,这个价格在今天随随便便都可以配一个 16 GB 内存、2 TB 硬盘的机器,内存和硬盘的容量增加了 1000 倍!更别说,虽然都是 7000 元,但是二十多年前一元钱的购买力是明显超过现在的。

我记得当时用电脑玩《三国群英传》的游戏,100+ MB 的存储大小还需要我对硬盘各种清理才能有空间容纳,而现在一个游戏动辄几十个 GB,我们的电脑存储起来都不在话下。

可见,我们的数据存储成本比起二十多年前已经极低极低了

也正是这样,在气象相关的数据收集上,不再是只能保存重要数据,而是可以保存更多更完整的数据,到需要用到的时候,就可以取出来进行挖掘分析。

当然,除了存储以外,计算性能、网络带宽,这些年都在快速地发展,这些都为大数据的运算处理以及大数据集群的构建提供了有力的硬件支撑,在这方面我想你也有非常深刻的感受。

(2)数据生产方式

在硬件发展利好的基础上,数据生产的方式也随之发生了巨大的改变。

就拿自己工作的环境来说,我最早在互联网新闻行业做开发。

在过去,新闻都是由专业的编辑采编而成,全国上下大大小小的新闻报社机构以及互联网编辑,一天最多也就能生产 10000~20000 条专业的新闻。

而随着网络、手机、电脑等设备的普及,越来越多的人成了内容的生产者,也就是我们现在所说的自媒体。微信公众号、今日头条,以及今天盛极一时的抖音、快手,都是依赖大家自发地去制作和上传内容,在这些平台上,每天发布的内容数量要以千万甚至亿级来进行计算。

在我们的生活中,除了这种主观创造的内容数据,被动数据的生产则更加迅速:

  • 手机会时刻记录下你停留的位置、你行走的步数;

  • 路口的摄像头不停地记录着每天在这里发生的事情;

  • 气象站的传感器 24 小时都在上传各种气象指标。

这些数据的生产是源源不断的,所以,每天都会有大量的数据产生并且被存储下来。

大数据的 4 个重要特点

基于以上两方面的发展,大数据系统才得以广泛应用,从中我们不难看出大数据的一些特征。

同样如果在网上搜索“大数据”,可能大家对它的定义不尽相同,但总体而言,都有着一些共同的特征。这些特征不外乎 4 点:数量多(Volume)、种类多(Variety)、速度快(Velocity)及数据价值(Value)。

(1)大量数据

要说大数据数量多,这是无可争议的。正如我们上面所说的,硬件的发展及数据生产方式的变化,使得数据的数量急剧膨胀。使原本散落的信息变得连贯起来,并不停地生产,不停地交换。有一种说法是,最近两年所产生的数据量与过去人类产生的数据总量基本一致,而且在接下来的一段时间里,仍将继续保持这样快速的增长速度。

(2)种类繁多

现在的数据不再局限于一些精密的数字,你写的一段话、拍下的一张照片、录制的一段音频或者视频,都是大数据的组成部分。这些主要源于我们的视觉、听觉,在不久的将来,我们的触觉、味觉、嗅觉等数据也会进入机器获取的范畴,从而形成完整的数据获取体系。

(3)高速

在大数据的背景下,所有环节都变得更快了。这里的高速不单单指数据的生产速度,还有数据的交换速度处理速度等。比如,当你在京东商城浏览商品的时候,你的每一次点击都会以毫秒级的时延传输到服务器上,而服务器集群又会根据你的这些行为,迅速地为你推荐出新的商品,在你下一秒的浏览内容中展示出来。显然,如果这个过程太慢,可能还没等后台的数据计算完成,你就已经关掉了京东转头去了淘宝,那岂不是会损失客户?所以,高速也是大数据体系一直不懈追求的目标。

(4)数据价值

我们拥有了大量数据,一定是期望这些数据能给我们带来一些价值。显然,大数据是有价值的,但是大数据价值有一个特色——价值密度低。

比如,危险品生产车间的监控摄像头在 24 小时不间断地记录并回传着数据,但是这些数据通常都是毫无变化的,它日复一日地记录着,每隔一段时间就需要删除一些,以便腾出存储空间。当出现异常的时候,比如说在视频中发现了高温点,可能是车间中存在火苗,这个时候需要立即调用消防系统对火苗进行扑灭,从而防止危险发生。像这种存在价值的数据可能只是摄像头记录的一个微小片段,所以说数据的价值密度较低。

以上就是大数据的一些重要特点。也就是说,符合这些特征的数据,我们基本可以认为是“大数据”。

大数据的工作环节

你明白了什么是大数据以及大数据的特点,就能够推断出大数据体系在实践中,包含哪些环节,以及要解决什么样的问题。

(1)数据的采集

各式各样的数据生产方式都需要我们配备完整的数据采集方案,譬如你想要在 App 上收集用户的行为信息,就需要进行各种数据埋点

(2)数据的存储

虽然说存储的硬件成本降低了,但是终归还是有成本的,同时数据也不可能杂乱无章地堆放在存储设备上,所以对应的数据库和文件存储方案,需要经过精密的设计来支撑这种巨量的数据存取。

(3)数据的计算

目前主流的就是批处理流处理两种方式,而针对这些方式,又有多种计算框架被研制出来,比如当前应用广泛的 Spark、Flink 等。

(4)数据挖掘与分析

鉴于大量的数据和低密度的价值,我们期望能够使用一些巧妙的方案,从中找到那些有用的信息甚至是结论,于是各种算法与工具层出不穷。

(5)数据的应用

从数据中挖掘到的有价值的信息正在我们的身边发挥着巨大的经济价值,内容推荐、气象预测,乃至疫情控制,都是在大数据的指导之下进行的。

(6)数据安全

大数据有着重要的价值,而这些数据一旦泄露也会成为不法分子危害我们权益的帮手。所以,如何保障数据安全也是一个重要的问题。

总结

这一讲,我们以天气预报的变化为例,讲解了大数据的特点及工作环节。

经过这一讲的介绍,我希望你对什么是大数据有了一个初步的印象,最好还能够有一些自己的思考。大数据这个词并不是单纯地表示数据量大,同时它还有很多其他的特点,并且形成了一个概念体系。虽然大数据到现在并不成熟、并不完善,但是它确实已经深入到我们生活的各个部分。

当然,尤其对于我们这些在互联网行业摸爬滚打的人,大数据切切实实地在我们的工作中占据着举足轻重的地位。

那在你的生活和工作中,哪些都应用到大数据呢,你可以根据本讲所学分析下它们的特点表现在哪些方面,欢迎在评论区留言。

下一讲,我们将学习“从萌芽到爆发,大数据经历了哪些发展”,让我们下一讲再见。



精选评论

**晟:

看了不少专栏,老师讲的很通俗易懂

**林:

学习大数据,数据创造价值!

**3961:

数量多(Volume)、种类多(Variety)、速度快(Velocity)及数据价值(Value)

**普:

工作中一直在使用大数据,各种数据报表,状态变更,消息提醒等等

**冬:

前几天看了 布拉德皮特的 《点球成金》(moneyball),就是通过分析棒球队员的一些得分数据,之后取得了胜利,不知道大数据分析球员,能不能分析国足,之后拿到世界杯冠军

大数据基础课01 如何在庞大的大数据体系中明确路径?相关推荐

  1. 【数据治理-01】开篇:一起聊聊数据治理

    统一赵秦车轨,推行秦篆,统一七国文字,兵器统一标准,统一度量衡- 我们优秀的数据治理专家-秦始皇! 数据治理这个名字起得好,一般人听不懂,实际上并不是IT人员的专属,广义上来说我们日常工作生活不自觉的 ...

  2. 大数据基础课第三课 spark_core、Spark_sqlSpark_streaming

    spark 入门 课程目标: 了解spark概念 知道spark的特点(与hadoop对比) 独立实现spark local模式的启动 1.1 spark概述 1.什么是spark 基于内存的计算引擎 ...

  3. 大数据基础课04 大数据开发必备工具和来源

    在前面的章节里,我们多次提到了 Hadoop 这个名称,想必你也大概知道了 Hadoop 是一个用于大数据的架构解决方案.关于 Hadoop 的理论基础以及是如何诞生的,我们在<02 | 从萌芽 ...

  4. 大数据基础课03 阿里美团这些大厂都在用什么大数据架构?

    首先,我想讲一个叫庖丁解牛的故事,想必你应该听过.庖丁从开始杀牛,到他的故事被写下,操刀十九年,杀了数千头牛.也正是由于丰富的实践经验,他总结出了解杀牛的方法论:依照牛生理上的天然结构,砍入牛体筋骨相 ...

  5. 大数据学习01:大数据概述

    typora-root-url: -/Hadoop Hadoop光速入门 一 .大数据基本概念 1.1 大数据概念 大数据:指无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合,是需要新 ...

  6. 大数据基础课11 让你一看就懂的数据挖掘四大经典算法

    上一讲,我们从流程上介绍了数据挖掘,而在整个数据挖掘实施的流程中,数据挖掘算法可能是我们的算法工程师最关注的环节.在常见的数据挖掘过程中,通常会用到什么类型的算法,不同的算法又应对什么样的问题?在实际 ...

  7. 数据挖掘,你知道的大公司有哪些?独家揭秘:大数据公司挖掘数据价值的49个典型案例

    对于企业来说,100条理论确实不如一个成功的标杆有实践意义,本文的主旨就是寻找"正在做"大数据的49个样本. 本文力图从企业运营和管理的角度,梳理出发掘大数据价值的一般规律:一是以 ...

  8. 水滴数据建设实践及思考:2大关键问题,4大破局措施

    近日,水滴公司数据平台产品部负责人SKY在「让业务用起来 · 观远数据2022智能决策峰会暨产品发布会」北京站现场带来<水滴数据建设实践及思考>主题分享.SKY在分享中讲述了水滴数据团队在 ...

  9. 每日生产万亿消息数据入库,腾讯如何突破大数据分析架构瓶颈

    背景介绍 对于腾讯庞大的大数据分析业务,几千台的 Hadoop 集群,近百 P 级的存储总量,每日产生万亿的消息数据入库,需要针对几十亿 IMEI 手机设备去重,并关联数千亿的历史全表,进行曝光.点击 ...

最新文章

  1. Python+OpenCV+OpenPose实现人体姿态估计(人体关键点检测)
  2. c++ include 路径_头文件中,#include使用引号“”和尖括号lt;gt;有什么区别?
  3. RabbitMQ死信队列,延时队列
  4. c++ 查找文件夹下最新创建的文件_Linux文件查找进阶知识,find命令的用法及解读...
  5. 禁止Win7系统自动安装驱动程序
  6. Linux Sendfile的优势
  7. 操作 实例 / dom
  8. 电脑服务器传文件夹吗,服务器和电脑传文件夹吗
  9. Excel的html转换成unicode,EXCEL表格中把汉字转换成unicode编码
  10. C++ Error: error LNK2019: unresolved external symbol
  11. web前端效率提升之浏览器与本地文件的映射-遁地龙卷风
  12. 电路调试之_稳压管,三端稳压的反向二极管,三级管的基极耐压
  13. 简单python代码讲解-【第一期】用pycharm来编写简单代码(python教程)
  14. C++ 7:深拷贝和浅拷贝,,值类型,构造函数和拷贝构造函数,函数重载,移动构造函数和移动赋值函数
  15. 哪个选项是python语言_关于Python语言的描述,错误的选项是______。???????????????????????????????????????...
  16. SVN上传的时候没法显示文件名,只显示后缀名
  17. html5页面蒙版原理,js如何实现蒙版效果
  18. c语言学习笔记(持续更新中)
  19. TensorFlow Ranking框架在海外推荐业务中的实践与应用
  20. scala case 常用简写

热门文章

  1. 沃尔玛ERP系统定制哪家好?
  2. 犇牛(usp10.dll)专杀工具1.0下载
  3. python微信群聊助手
  4. 1、JAVA微信开发-微商城_O2O微门店SAAS系统开发
  5. 机器人 郑佳佳_浙大硕士造了个智能充气娃娃 和她结婚了
  6. 转:WINFORM加Pannel背景图闪烁终极解决办法
  7. 车联网高速公路智能交通解决方案
  8. 火影忍者第1集-日语自学
  9. Excel如何快速将工作表公式删除只保留数值
  10. ash、awr和addm详解