前 言: 相信很多小伙伴都听说过推荐算法、“未来新石油”、大数据杀熟、信息茧房等词条, 大数据究竟是什么, 现在就来揭开它神秘的面纱

  • 一. 何为大数据
    • 1.1 背景
    • 1.2 大数据的特点(5v)
    • 1.3 应用场景
    • 1.4 发展趋势
  • 二.大数据相关岗位
  • 三.大数据处理流程
  • 四.大数据框架
  • 五.大数据与传统的数据技术,主要有什么差别?
  • 六.大数据的挑战与危机

一. 何为大数据

\quad

1.1 背景

都说大数据大有裨益, 它是怎么来的呢?, 为什么以前没有,现在才有?, 它是否真能反应世界的运行规律?

数据不仅仅是数字(1,2,3)这种形式
在广义上数据包括(文字、字母、数字符号的组合、图形、图像、视频、音频等)
数据是信息的载体,而信息是数据的表达

从文明之初的“结绳记事”

到文字发明后的“文以载道”

再到近现代科学的“数据建模”

数据一直伴随着人类社会的发展变迁,承载了人类基于数据和信息认识世界的努力和取得的巨大进步。然而,随着计算机等信息技术的进步,为数据处理提供了自动的方法,人类掌握数据、处理数据的能力才实现了质的跃升。信息技术及其在社会发展方方面面的应用(即信息化),推动数据(信息)成为继物质、能源之后的又一种重要战略资源

大多数学者认为,“大数据”这一概念最早公开出现于1998年,美国科学家约翰·马西在一个国际会议报告中指出:随着数据量的快速增长,必将出现数据难理解、难获取、难处理和难组织等四个难题,并用“Big Data(大数据)”来描述这一挑战,在计算领域引发思考。

2007年,数据库领域的先驱人物吉姆·格雷(Jim Gray)指出大数据将成为人类触摸、理解和逼近现实复杂系统的有效途径,并认为在实验观测、理论推导和计算仿真等三种科学研究范式后,将迎来第四范式——“数据探索”,后来同行学者将其总结为“数据密集型科学发现”,开启了从科研视角审视大数据的热潮。

2012年,牛津大学教授维克托·迈尔-舍恩伯格在其畅销著作《大数据时代》中指出,数据分析将从“随机采样”、“精确求解”和“强调因果”的传统模式演变为大数据时代的全体数据”、“近似求解”和“只看关联不问因果的新模式,从而引发商业应用领域对大数据方法的广泛思考与探讨。

大数据的价值本质上体现为:提供了一种人类认识复杂系统的新思维和新手段。在拥有充足的计算能力和高效的数据分析方法的前提下,将有可能理解和发现现实复杂系统的运行行为、状态和规律。

大数据为人类提供了全新的思维方式和探知客观规律、改造自然和社会的新手段,这也是大数据引发经济社会变革最根本性的原因。

1.2 大数据的特点(5v)

Volume(大量)

我国已经超过10亿网络用户, 我们手机里都有各种APP, 每次搜索,点击,浏览,收藏和评论等, 都会产生数据,我们每个人都是大数据的生产者, 同时也是大数据的使用者

下面用数据存储单位感受一下大数据之"大"
bit, Byte, KB, MB, GB, TB, PB, EB, ZB, YB, BB, NB, DB。
其中 1Byte=8bit, 1KB=1024Byte, 1MB=1024KB…后面的换算都是1024

假设手机播放MP3的编码速度为平均每分钟1MB,而1首歌曲的平均时长为4分钟,那么1PB歌曲可以连续播放2000年。

大企业数据量已达EB

\quad
Velocity(高速)

数据本身具有一定的时效性,
例如,购物平台的推荐系统,在我们搜索某个商品的时候,实时推送营销效果最好的产品

Variety(多样)

数据种类多样包括(文字、字母、数字符号的组合、图形、图像、视频、音频等)

Value(低价值密度)

虽然数据量极大,但是真正有价值的数据很少,就像冶金

Veracity(真实性)

大数据不是选取部分数据进行抽样分析,而是分析处理全部的数据,这样得到的结果更为可靠
比如, 昨天在北京消费了1万, 今天在上海消费了1元,那么大概率这笔消费是异常的,有了大数据就可以检测这种异常情况,从而规避金融风险

\quad

1.3 应用场景

按照数据开发应用深入程度的不同,可将众多的大数据应用分为三个层次。
第一层,描述性分析应用
第二层,预测性分析应用
第三层,指导性分析应用

\quad
在疫情防控中的应用(第一层)

描述性分析应用, 是指从大数据中总结、抽取相关的信息和知识,帮助人们分析发生了什么,并呈现事物的发展历程

2020 年开年之际,新型冠状病毒带来的肺炎疫情汹涌而至。疫情突发性高、传染性强、防控工作任务艰巨,在这场疫情阻击战中,大数据与医疗领域深度融合,让疫情防控的组织和执行更加高效,成为战“疫”的强有力武器

在迅速锁定“涉疫”人员流动轨迹方面, 通过互联网公司、交通部门等单位的信息,大数据可以分析出人员流动轨迹。具体来说,利用数据分析、数据挖掘等技术,一方面可以通过手机信令等包含 地理位置和时间戳信息的数据绘制病患的行动轨迹;另一方面,根据病患确诊日期前一段时间的行动轨迹和同行时间较长的伴随人员,基于大数据分析可以推断出病患密切接触者。综合分析确诊病患、疑似病患和相关接触者的行动轨迹
\quad
\quad
在预测方面的应用(第二层)

预测性分析应用,是指从大数据中分析事物之间的关联关系、发展模式等,并据此对事物发展的趋势进行预测


微软公司纽约研究院研究员David Rothschild通过收集和分析赌博市场、好莱坞证券交易所、社交媒体用户发布的帖子等大量公开数据,建立预测模型,对多届奥斯卡奖项的归属进行预测。2014和2015年,均准确预测了奥斯卡共24个奖项中的21个,准确率达87.5%

\quad
在智能驾驶方面的应用(第三层)

指导性分析应用,是指在前两个层次的基础上,分析不同决策将导致的后果,并对决策进行指导和优化


无人驾驶汽车分析高精度地图数据和海量的激光雷达、摄像头等传感器的实时感知数据,对车辆不同驾驶行为的后果进行预判,并据此指导车辆的自动驾驶。

当然, 大数据的应用领域远不止这些, 随着技术的成熟进步, 大数据与其他新兴技术强强联合, 一股深刻改变着传统的生活、工作和思维模式的浪潮已经翻涌而至, 但就其效果和深度而言,当前大数据应用尚处于初级阶段,根据大数据分析预测未来、指导实践的深层次应用将成为发展重点

\quad

1.4 发展趋势

趋势一:数据的资源化

何为资源化,是指大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。这也是大数据被称为"未来的新石油"的重要原因, 所以企业必须要提前制定大数据营销战略计划,抢占市场先机。
\quad
\quad
趋势二:与云计算的深度结合

大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。自2013年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者关系将更为密切。除此之外,物联网、移动互联网等新兴计算形态,也将一齐助力大数据革命,让大数据营销发挥出更大的影响力。
\quad
\quad
趋势三:科学理论的突破

随着大数据的快速发展,就像计算机和互联网一样,大数据是新一轮的技术革命。随之兴起的数据挖掘、机器学习和人工智能等相关技术,可能会改变数据世界里的很多算法和基础理论,实现科学技术上的突破。
\quad
\quad
趋势四:数据科学和数据联盟的成立

数据科学已成为一门专门的学科,被越来越多的人所认知。各大高校已设立专门的数据科学类专业,催生了越来越多与之相关的新的就业岗位。与此同时,基于数据这个基础平台,也将建立起跨领域的数据共享平台,之后,数据共享将扩展到企业层面,并且成为未来产业的核心一环。
\quad
\quad
趋势五:数据泄露泛滥

未来几年数据泄露事件的增长率也许会达到100%,除非数据在其源头就能够得到安全保障。可以说,在未来,每个财富500强企业都会面临数据攻击,无论他们是否已经做好安全防范。而所有企业,无论规模大小,都需要重新审视今天的安全定义。在财富500强企业中,超过50%将会设置首席信息安全官这一职位。企业需要从新的角度来确保自身以及客户数据,所有数据在创建之初便需要获得安全保障,而并非在数据保存的最后一个环节,仅仅加强后者的安全措施已被证明于事无补
\quad
\quad
趋势六:数据管理成为核心竞争力

数据管理成为核心竞争力,直接影响财务表现。当“数据资产是企业核心资产”的概念深入人心之后,企业对于数据管理便有了更清晰的界定,将数据管理作为企业核心竞争力,持续发展,战略性规划与运用数据资产,成为企业数据管理的核心。数据资产管理效率与主营业务收入增长率、销售收入增长率显著正相关;此外,对于具有互联网思维的企业而言,数据资产竞争力所占比重为36.8%,数据资产的管理效果将直接影响企业的财务表现。
\quad
\quad
趋势七:数据质量是BI(商业智能)成功的关键

采用自助式商业智能工具进行大数据处理的企业将会脱颖而出。其中要面临的一个挑战是,很多数据源会带来大量低质量数据。想要成功,企业需要理解原始数据与数据分析之间的差距,从而消除低质量数据并通过BI获得更佳决策。
\quad
\quad
趋势八:数据生态系统复合化程度加强

大数据的世界不只是一个单一的、巨大的计算机网络,而是一个由大量活动构件与多元参与者元素所构成的生态系统,终端设备提供商、基础设施提供商、网络服务提供商、网络接入服务提供商、数据服务使能者、数据服务提供商、触点服务、数据服务零售商等等一系列的参与者共同构建的生态系统。而今,这样一套数据生态系统的基本雏形已然形成,接下来的发展将趋向于系统内部角色的细分,也就是市场的细分;系统机制的调整,也就是商业模式的创新;系统结构的调整,也就是竞争环境的调整等等,从而使得数据生态系统复合化程度逐渐增强。

\quad
\quad

二.大数据相关岗位

大数据开发工程师
开发,建设,测试和维护架构;负责公司大数据平台的开发和维护,
负责大数据平台持续集成相关工具平台的架构设计与产品开发等

数据分析师
收集,处理和执行统计数据分析;运用工具,提取、分析、呈现数据,实现数据的商业意义,
需要业务理解和工具应用能力

数据挖掘工程师
数据建模、机器学习和算法实现;商业智能,用户体验分析,预测流失用户等;
需要过硬的数学和统计学功底以外,对算法的代码实现也有很高的要求

数据架构师
需求分析,平台选择,技术架构设计,应用设计和开发,测试和部署;高级算法设计与优化;
数据相关系统设计与优化,需要平台级开发和架构设计能力

数据科学家
数据挖掘架构、模型标准、数据报告、数据分析方法;
利用算法和模型提高数据处理效率、挖掘数据价值、实现从数据到知识的转换

大数据运维工程师
负责数据平台的集群管理,机器优化,集群监控等
参与数据架构选型,为核心服务提供稳定保障,对现有集群的优化和性能调优,满足不断增长的业务需求

大数据算法工程师
Hadoop数据分析平台建设、开发、测试、部署和优化,基于Hadoop的存储平台架构设计与性能优化,设计和开发海量数据的管理系统;
基于现有数据统计平台,开发数据统计报表;结合当前大数据平台技术,设计和实现数据收集模型、数据分析处理模型和数据汇总展现模型;实现各运营组织要求的相关数据的统计报表

数据治理工程师
负责全司数据治理工作的指导、监督和检查及数据资产平台系统建设;
负责数据架构、数据模型、数据质量、元数据、主数据和数据标准等相关内容的管理;
负责数据监管报送;负责数据管控平台的升级、维护、培训、推广和使用

根据一,二线等城市, 不同公司以及自身的技术水平和面试的具体情况, 同种岗位的薪资也会有所不同

\quad
\quad

三.大数据处理流程

大数据处理流程: 采集 – 预处理 – 存储 – 处理 – 挖掘 – 分析与可视化
数据处理流程与从果园到餐桌有异曲同工之妙

数据采集(相当于摘取水果)
数据采集,又称数据获取,是利用一种装置,从系统外部采集数据并输入到系统内部的一个接口
采集的渠道

数据预处理(对水果进行清洗)
数据预处理是指对现有数据进行的一些处理

数据存储(水果入库)
数据存储对象包括数据流在加工过程中产生的临时文件或加工过程中需要查找的信息

数据处理(分大小果)
数据处理是指对数据进行分析和加工的计算过程

数据挖掘(去果皮果核,取可食用的果肉)
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程

数据分析与可视化(切水果,装盘)
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用

\quad
\quad

四.大数据框架

大数据的五个框架: Hadoop、Storm、Samza、Spark和Flink

Hadoop框架

Hadoop是应用最广泛的框架, 我们知道大数据主要解决海量数据的采集, 存储和分析计算问题
而Hadoop就占了存储和分析计算两巨头

Hadoop之所以能成为应用最广泛的框架,离不开它的四个优势(4高)
(1)高可靠性: Hadoop底层维护多个数据副本, 所以即使Hadoop某个计算元素或存储出现故障, 也不会导致数据丢失

\quad
(2)高扩展性: 在集群间分配任务数据, 可方便的扩展 数以千计的节点
比如: 在双11服务器不够的时候,直接增加,不用停止前面的服务器

\quad
(3)高效性: Hadoop是并行工作的, 可以加快处理速度, 正所谓众人拾材火焰高

\quad
(4)高容错性: 能够将失败任务重新分配, 失败的任务自动迁移到另一台服务器上计算,不影响计算结果

\quad
\quad

五.大数据与传统的数据技术,主要有什么差别?

1、数据规模大: 传统数据技术主要是利用现有存在关系性数据库中的数据,对这些数据进行分析、处理,找到一些关联,并利用数据关联性创造价值。这些数据的规模相对较小,可以利用数据库的分析工具处理。而大数据的数据量非常大,不可能利用数据库分析工具分析。

2、非结构化数据:传统数据主要在关系型数据库中分析,而大数据可以处理图像、声音、文件等非结构化数据。

3、处理方式不同:因为数据规模大、非结构化数据这两方面因素,导致大数据在分析时不能取全部数据做分析。大数据分析时如何选取数据?这就需要根据一些标签来抽取数据。
所以大数据处理过程中,比传统数据增加了一个过程Stream。就是在写入数据的时候,在数据上打一个标签,之后在利用大数据的时候,根据标签抽取数据。
这个过程就类似于寻找图书:如果你在你个人书柜里,寻找一本书是很容易的,所以你买了书,可以直接放到书柜上,不用做任何处理;而如果图书馆买了书,如果不做任何处理的话,你是很难找到一本书的,所以图书馆在新书入库的时候,首先会对每本书打上标签,而这个打标签的过程,就是类似于Stream的工作。

\quad
\quad

六.大数据的挑战与危机

5.1 大数据治理体系尚待构建
首先,法律法规滞后。目前,我国尚无真正意义上的数据管理法规,只在少数相关法律条文中有涉及到数据管理、数据安全等规范的内容,难以满足快速增长的数据管理需求。

其次,共享开放程度低。推动数据资源共享开放,将有利于打通不同部门和系统的壁垒,促进数据流转,形成覆盖全面的大数据资源,为大数据分析应用奠定基础

第三,安全隐患增多。近年来,数据安全和隐私数据泄露事件频发,凸显大数据发展面临的严峻挑战

2021年6月3日,商丘市睢阳区人民法院公开一份刑事判决书,被告人逯某通过其开发的软件爬取淘宝客户的数字ID、淘宝昵称、手机号码等淘宝客户信息共计11.81亿条,将其中的淘宝客户手机号码通过微信文件的形式发送给被告人黎某用于商业营销,共获利34万元。

\quad
5.2 核心技术薄弱
基础理论与核心技术的落后导致我国信息技术长期存在“空心化”和“低端化”问题,大数据时代需避免此问题在新一轮发展中再次出现。

近年来,我国在大数据应用领域取得较大进展,但是基础理论、核心器件和算法、软件等层面,较之美国等技术发达国家仍明显落后。

在大数据管理、处理系统与工具方面,我国主要依赖国外开源社区的开源软件,然而,由于我国对国际开源社区的影响力较弱,导致对大数据技术生态缺乏自主可控能力,成为制约我国大数据产业发展和国际化运营的重大隐患。

\quad
5.3 融合应用有待深化
我国大数据与实体经济融合不够深入,主要问题表现在:基础设施配置不到位,数据采集难度大;缺乏有效引导与支撑,实体经济数字化转型缓慢;缺乏自主可控的数据互联共享平台等。

当前,工业互联网成为互联网发展的新领域,然而仍存在不少问题:政府热、企业冷,政府时有“项目式”、“运动式”推进,而企业由于没看到直接、快捷的好处,接受度低;设备设施的数字化率和联网率偏低;

大多数大企业仍然倾向打造难以与外部系统交互数据的封闭系统,而众多中小企业数字化转型的动力和能力严重不足;国外厂商的设备在我国具有垄断地位,这些企业纷纷推出相应的工业互联网平台,抢占工业领域的大数据基础服务市场。

\quad
5.4 大数据杀熟
大数据杀熟,企业通过大数据分析掌握用户的消费习惯和购买偏好,同样的商品或服务,老客户看到的价格反而比新客户要贵出许多

链接: 怎样避免大数据杀熟

\quad
5.5 信息茧房
信息茧房是指人们关注的信息领域会习惯性地被自己的兴趣所引导,从而将自己的生活桎梏于像蚕茧一般的“茧房”中的现象, 当我们倾向于某一类信息时,大数据会为我们推送,越来越多这类的信息,导致我们接收到的信息比较片面

链接: 如何对抗算法,避免信息茧房

\quad
\quad
参考材料来源:
尚硅谷大数据hadoop教程
百度百科
十三届全国人大常委会专题讲座第十四讲
纪录片《大数据时代》
知乎: https://zhuanlan.zhihu.com/p/433469244
https://zhuanlan.zhihu.com/p/118060390
CSDN: https://blog.csdn.net/duozhishidai/article/details/86514953

大数据,大智慧,大未来相关推荐

  1. Hadoop十岁!Doug Cutting成长史+他眼中大数据技术的未来

    上次见到(膜拜)Hadoop之父Doug Cutting是在2年前,2014中国大数据技术大会上.今年Hadoop10岁,刚看到他的Hadoop十周年贺词,感觉时间飞逝.最近CSDN和InfoQ都在制 ...

  2. python大数据和java大数据的区别-未来Java、大数据、Python哪个前景更好,薪资更高?...

    都知道现在最火爆的是人工智能.大数据.而人工智能和大数据主要用的语言就是Java和Python.今天我们就来分析一下,当前java,python和大数据,哪个就业前景更好?自己该学哪一个? Java和 ...

  3. 【2015年第4期】大数据引领教育未来:从成绩预测谈起

    大数据引领教育未来:从成绩预测谈起 吕红胤,连德富,聂敏,夏虎,周涛 电子科技大学 doi: 10.11959/j.issn.2096-0271.2015045 Big Data Drives a N ...

  4. 大数据智能交通未来会是怎样的交通状况?

    大数据智能交通未来会是怎样的交通状况?智能交通也是智慧城市的一个重要组成部分将会改变我们的交通,交通少不了大数据的处理,人工智能自动驾驶离不开大数据的支撑. 实现智能交通需要高效地从海量数据中分析.挖 ...

  5. 大数据创业的未来到底如何?

    数据分析师.数据挖掘师.数据科学家等大数据时代诞生的岗位让人蠢蠢欲动,越来越多人都开始踏进大数据分析行列.面对大数据时代大数据的火爆,大数据创业这个词汇也开始涌现,很多人学习了大数据分析培训,觉得自己 ...

  6. 大数据创业的未来到底在哪里?

    数据分析师.数据挖掘师.数据科学家等大数据时代诞生的岗位让人蠢蠢欲动,越来越多人都开始踏进大数据分析行列.面对大数据时代大数据的火爆,大数据创业这个词汇也开始涌现,很多人学习了大数据分析培训,觉得自己 ...

  7. 大数据应用及未来展望

    大数据应用及未来展望,紧跟互联网+,便捷未来人们的生活,方便用户.畅想未来人与人之间的联系,从社交网络.社区文化,到"六度空间";展望教育对于国家的希望,大数据和教育整合.合理的早 ...

  8. 基于大数据的健康未来

    这样的设计思路会带来什么样的大逆转?这要从一年前顾东君带领九阳团队打下的一场社会营销战说起. 这是怎么实现的?您可能立刻会想到,找KOL,那些活跃在新浪微博的"关键意见领袖".顾东 ...

  9. 大数据在职研究生哪个好_报考大数据在职研究生未来的就业的方向有哪些

    报考人员选择就读的专业都是与自己目前的工作息息相关,对于未来的就业等各个方面的信心关注却是比较少的.因为一些人员并不具备长远的目光,选择专业就是看最近的情况.大数据在职研究生报考人员对于未来就越是比较 ...

  10. 爆发:大数据时代预见未来的新思维 (湛庐文化•财富汇) - 电子书下载 -(百度网盘 高清版PDF格式)...

    爆发:大数据时代预见未来的新思维 (湛庐文化•财富汇)-艾伯特-拉斯洛•巴拉巴西 (Albert-László Barabási) 在线阅读                   百度网盘下载(9jvg ...

最新文章

  1. linux管理员工具
  2. ASP.NET 5 and .NET Core RC 准备投入使用
  3. aac蓝牙编解码协议_最新的真无线蓝牙耳机选购指南
  4. python3+matplotlib+tkinter
  5. 解决vue打包后静态资源路径错误的问题
  6. Swift学习笔记-访问控制(Access Control)
  7. 添加栏目HyperLink
  8. js字符串replace替换多个_汇总几大python常见字符串处理函数与用法(建议收藏)...
  9. 【MATLAB、深度学习】AlexNet及VGG神经网络在MATLAB上的应用
  10. 数据操作(基于MXNET框架)
  11. SPSS实现游程检验
  12. Apple 公司开发者账号注册
  13. 简单三步操作实现任意用户连接云服务器中的MYSQL数据库
  14. 鸭鸭来袭--官方下载
  15. mysql error 364_MySQL事务未提交致使整个表锁死
  16. 喝可乐问题,2个空瓶换一瓶可乐
  17. 让那不如意,都随风而去
  18. multisim 11
  19. 反射(13)——C#开发BHO插件UrlTrack
  20. 基于.net 的web推送组件,SignalR实时消息推送

热门文章

  1. 当你在浏览器中输入 google.com 后按下回车发生了什么?
  2. 图像超分辨率评价指标
  3. 6、获取最低价手机价格
  4. JAVA 判断图片像素大小的方法
  5. 用python写一个按键面板
  6. js两大神兽之“闭包“
  7. win10系统打开更新服务器,win10自动打开更新服务器地址
  8. lintcode - 买卖股票的最佳时机 III
  9. compressor 图片压缩上传
  10. ffmpeg 集成aom av1, 封装avif