大数据导论学习日志Day1
第一章大数据概述
1数据
1.1数据的概念
数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合,是可识别的、抽象的符号。
数据和信息是两个不同的概念,信息是较为宏观的概念,它由数据的有序排列组合而成,传达给读者某个概念方法等,而数据则是构成信息的基本单位,离散的数据没有任何实用价值。
数据也被称为“未来的石油”
1.2数据的类型
文本 图片 音频 视频
1.3数据组织形式
计算机系统中的数据组织形式主要有两种,即文件和数据库。
(1)文件:计算机系统中的很多数据都是以文件形式存在的,比如一个Word文件、一个文本文件、一个网页文件、一个图片文件等等。
(2)数据库:计算机系统中另一种非常重要的数据组织形式就是数据库,今天,数据库已经成为计算机软件开发的基础和核心。
1.4数据的使用
数据清洗->数据管理->数据分析
数据使用的实例:数据仓库
1.5数据的价值性
在过去,一旦数据的基本用途实现了,往往就会被删除,一方面是由于过去的存储技术落后,人们需要删除旧数据来存储新数据,另一方面则是人们没有认识到数据的潜在价值。
数据的价值不会因为不断被使用而削减,反而会因为不断重组而产生更大的价值。
各类收集来的数据都应当被尽可能长时间地保存下来,同时也应当在一定条件下与全社会分享,并产生价值。
1.6数据爆炸
人类进入信息社会以后,数据以自然方式增长,其产生不以人的意志为转移
从1986年开始到2010年的20年时间里,全球数据的数量增长了100倍,今后的数据量增长速度将更快,我们正生活在一个“数据爆炸”的时代。
2大数据时代
2.1第三次信息化浪潮
根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革。
表1-1 三次信息化浪潮
信息化浪潮 |
发生时间 |
标志 |
解决问题 |
代表企业 |
第一次浪潮 |
1980年前后 |
个人计算机 |
信息处理 |
Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等 |
第二次浪潮 |
1995年前后 |
互联网 |
信息传输 |
雅虎、谷歌、阿里巴巴、百度、腾讯等 |
第三次浪潮 |
2010年前后 |
物联网、云计算和大数据 |
信息爆炸 |
将涌现出一批新的市场标杆企业 |
2.2信息科技为大数据时代提供技术支撑
1. 存储设备容量不断增加
图 存储价格随时间变化情况 图 CPU晶体管数目随时间变化情况
2.CPU处理能力大幅提升
在信息化基础设施方面,据工业和信息化部官网消息,截至2019年12月底,我国互联网宽带接入端口数量达9.16亿个,其中,光纤接入端口占互联网接入端口的比重达91.3%;光缆线路总长度已达4750万公里,相当于在京沪高铁线上往返1.8万余次。同时,近五年来固定宽带和移动宽带资费平均下降90%,速率提升6倍。目前,我国已基本实现“城市光纤到楼入户,农村宽带进乡入村”。
据中国信息通信研究院(简称中国信通院)数据,截至2020年2月底,全国建设开通5G基站达16.4万个,5G网络建设基础不断夯实。2020年中国将建设60万~80万个5G基站。
3.网络带宽不断增加
图 网络带宽随时间变化情况
2.3 数据产生方式的变革促成大数据时代的来临
图 数据产生方式的变革
3大数据的发展历程
表 大数据发展的三个阶段
阶段 |
时间 |
内容 |
第一阶段:萌芽期 |
上世纪90年代至本世纪初 |
随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等。 |
第二阶段:成熟期 |
本世纪前十年 |
Web2.0应用迅猛发展,非结构化数据大量产生,传统处理方法难以应对,带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术,谷歌的GFS和MapReduce等大数据技术受到追捧,Hadoop平台开始大行其道 |
第三阶段:大规模应用期 |
2010年以后 |
大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅提高 |
4世界各国的大数据发展战略
国家 |
战略 |
美国 |
稳步实施“三步走”战略,打造面向未来的大数据创新生态 |
英国 |
紧抓大数据产业机遇,应对脱欧后的经济挑战 |
法国 |
通过发展创新性解决方案并应用于实践来促进大数据发展 |
韩国 |
以大数据等技术为核心应对第四次工业革命 |
日本 |
开放公共数据,夯实应用开发 |
中国 |
实施国家大数据战略,加快建设数字中国 |
5大数据的概念
5.1数据量大
根据IDC做出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数据摩尔定律)
人类在最近两年产生的数据量相当于之前产生的全部数据量
预计到2020年,全球将总共拥有35ZB的数据量,相较于2010年,数据量将增长近30倍
5.2数据类型繁多
大数据是由结构化和非结构化数据组成的
--10%的结构化数据,存储在数据库中
--90%的非结构化数据,它们与人类信息密切相关
科学研究 (基因组;LHC加速器;地球与空间探测)
企业应用(Email、文档、文件;应用日志;交易记录)
Web 1.0数据(文本;图像;视频)
Web 2.0数据(查询日志/点击流;Twitter/ Blog / SNS;Wiki)
5.3处理速度快
从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少
1秒定律:这一点也是和传统的数据挖掘技术有着本质的不同
5.4价值密度低
价值密度低,商业价值高
以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒,但是具有很高的商业价值
6大数据的影响
6.1大数据对科学研究的影响
图灵奖获得者、著名数据库专家Jim Gray 博士观察并总结人类自古以来,在科学研究上,先后历经了实验、理论、计算和数据四种范式
6.2大数据对社会发展的影响
大数据决策逐渐成为一种新的决策方式
大数据成为提升国家治理能力的新途径
大数据应用有力促进了信息技术与各行业的深度融合
大数据开发大大推动了新技术和新应用的不断涌现
6.3大数据对就业市场的影响
大数据的兴起使得数据科学家成为热门职业
麦肯锡报告,到2018年,在“具有深入分析能力的人才”方面,美国面临着14万到19万的缺口,“可以利用大数据分析来做出有效决策的经理和分析师”缺口则会达到150万
国内有大数据专家估算过,5年内国内的大数据人才缺口会达到130万,以大数据应用较多的互联网金融为例,这一行业每年增速达到4倍,届时,仅互联网金融需要的大数据人才就是现在需求的4倍以上
根据第四届中国贵州人才博览会发布《全国大数据人才需求指数报告》,2016年2月份,贵阳大数据人才月薪已逼近8000元
6.4大数据对人才培养的影响
大数据时代到底需要什么样的人才?
一是计算机技术相关人才,包括平台搭建和应用开发
二是统计学相关人才,包括数学、建模、算法
三是业务人才,就是要有一定的专业领域知识,只有明白目标领域知识的人才能了解数据的意义以及指导数据分析的方向并判断数据分析结果的可信性
7大数据的应用
大数据无处不在,包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的社会各行各业都已经融入了大数据的印迹
(1)就企业而言,对大数据的掌握程度可以转化为经济价值的源泉
(2)就政府而言,大数据的发展将会提高政府科学决策水平,改变政府传统“拍脑袋”式决策,变为用数据说话,利用大数据分析社会、经济、人文生活等规律,从而为国家宏观调控、战略决策、产业布局等夯实根基
(3)在医疗领域,大数据也有不俗表现
(4)大数据也悄然地影响着绿茵场上强弱的较量
8大数据产业
大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合
产业链环节 |
包含内容 |
IT基础设施层 |
包括提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务的企业,比如,提供数据中心解决方案的IBM、惠普和戴尔等,提供存储解决方案的EMC,提供虚拟化管理软件的微软、思杰、SUN、Redhat等 |
数据源层 |
大数据生态圈里的数据提供者,是生物大数据(生物信息学领域的各类研究机构)、交通大数据(交通主管部门)、医疗大数据(各大医院、体检机构)、政务大数据(政府部门)、电商大数据(淘宝、天猫、苏宁云商、京东等电商)、社交网络大数据(微博、微信、人人网等)、搜索引擎大数据(百度、谷歌等)等各种数据的来源 |
数据管理层 |
包括数据抽取、转换、存储和管理等服务的各类企业或产品,比如分布式文件系统(如Hadoop的HDFS和谷歌的GFS)、ETL工具(Informatica、Datastage、Kettle等)、数据库和数据仓库(Oracle、MySQL、SQL Server、HBase、GreenPlum等) |
数据分析层 |
包括提供分布式计算、数据挖掘、统计分析等服务的各类企业或产品,比如,分布式计算框架MapReduce、统计分析软件SPSS和SAS、数据挖掘工具Weka、数据可视化工具Tableau、BI工具(MicroStrategy、Cognos、BO)等等 |
数据平台层 |
包括提供数据分享平台、数据分析平台、数据租售平台等服务的企业或产品,比如阿里巴巴、谷歌、中国电信、百度等 |
数据应用层 |
提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业、机构或政府部门,比如交通主管部门、各大医疗机构、菜鸟网络、国家电网等 |
9高校大数据专业
9.1 大数据专业的人才培养目标
大数据专业致力于培养符合国家战略及大数据产业发展需求,具备较好的数据素养和数理基础、扎实的编程基础以及大数据基础知识与技能,熟练掌握大数据采集、预处理、存储、处理、分析、应用技术,能够运用大数据思维、模型和工具解决实际问题的高级复合型人才。大数据专业的毕业生能在互联网企业、金融机构、科研院所、高等院校等从事大数据分析、挖掘、处理、服务、应用和研究工作,亦可从事各行业大数据系统的集成、设计、开发、管理、维护等工作,也适合在高等院校及科研院所的相关交叉学科继续深造。
9.2 毕业生就业岗位
9.3 大数据专业知识体系
从学科角度而言,大数据可以理解为一个跨多学科领域的,从数据中获取知识的科学方法、技术和系统的集合。因此,大数据专业知识体系涵盖了计算机、数学、统计学等多个学科领域,结合了诸多领域中的理论和技术,包括应用数学、统计学、模式识别、机器学习、人工智能、深度学习、数据可视化、数据挖掘、数据仓库、分布式计算、云计算、系统架构设计等。
从大数据分析角度而言(如图所示),典型的大数据分析过程包括:数据采集与预处理、数据存储与管理、数据处理与分析、数据可视化等。因此,大数据专业知识体系涵盖了数据采集与预处理技术、数据存储与管理技术、数据处理与分析技术、数据可视化技术等。同时,在分析过程中,对商业领域的业务知识也需要一定的理解。
9.4 大数据专业课程体系
大数据专业课程体系涵盖通识教育课、学科基础课、专业基础课、专业核心课和专业课,具体如下:
(1)通识教育课:思政类课程、军体类课程、外语课、创新创业课等;
(2)学科基础课:高等数学、线性代数、概率论与数理统计等;
(3)专业基础课:程序设计、计算机系统基础及组成原理、离散数学、计算机网络、算法与数据结构、数据库系统、操作系统、软件工程等;
(4)专业核心课:大数据导论、网络爬虫与数据采集、数据清洗、NoSQL数据库、数据可视化、分布式并行编程、机器学习等;
(5)专业课:云计算、数据安全、数据仓库、数据挖掘等。
9.5大数据专业的编程语言
1. C语言
C语言是一门面向过程的计算机编程语言,与C++、Java等面向对象编程语言有所不同。C语言的设计目标是提供一种能以简易的方式编译、处理低级存储器、仅产生少量的机器码以及不需要任何运行环境支持便能运行的编程语言。C语言描述问题比汇编语言迅速、工作量小、可读性好、易于调试、修改和移植,而代码质量与汇编语言相当。C语言一般只比汇编语言代码生成的目标程序效率低10%~20%。因此,C语言可以编写系统软件。C语言在一些编程语言排行榜中长期排在第一的位置。
C语言具有很多优点,主要如下:
(1)它具有现代高级程序设计语言的基本语法特征,并且是编写操作系统的首选语言,与计算机硬件打交道时灵巧且高效,目前几乎所有的操作系统(如Windows、Unix和Linux等)均是由C语言编写的;
(2)常用的面向对象程序设计语言(例如C++和Java),其基本语法源于C语言。C语言甚至是其它编程语言的母语言,比如Java语言就是用C语言编写的。
(3)简洁紧凑,灵活方便。C语言一共只有32个关键字,9种控制语句,程序书写自由,主要用小写字母表示,它把高级语言的基本结构和语句与低级语言的实用性结合了起来。
C语言一般作为学习计算机程序设计语言的入门语言。
2.C++
C++是C语言的继承,是一门以C为基础发展而来的、面向对象的高级程序设计语言,它既可以进行C语言的过程化程序设计,又可以进行以继承和多态为特点的面向对象的程序设计。C++不仅拥有计算机高效运行的实用性特征,同时还致力于提高大规模程序的编程质量与程序设计语言的问题描述能力。
C++的优点主要包括:
(1)实现了面向对象程序设计,处理运行速度非常快,大部分的游戏软件都是由C++来编写的。
(2)语言非常灵活,功能非常强大。
(3)非常严谨、精确和数理化,标准定义很细致。
(4)语言的语法思路层次分明。
大数据领域的不少产品都是使用C++开发的(即产品本身是由C++编写的),包括一些NoSQL数据库(ScyllaDB、MongoDB、Aerospike、Kudu、SequoiaDB)、数据仓库Impala、实时流计算框架Hurricane和Heron、资源调度框架Mesos等。
但是,谈到大数据开发语言,C++要明显逊色于Java,很多大数据应用程序(比如Hadoop程序等)都是使用Java开发的,而不是使用C++。
3.Java
Java是目前最热门的编程语言之一,在一些编程语言排行榜中长期排在前三名。虽然Java没有和 R、Python一样好的可视化功能,也不是统计建模的最佳工具,但是,如果需要建立一个庞大的应用系统,那么Java通常会是较为理想的选择。由于 Java具有简单、面向对象、分布式、鲁棒、安全、体系结构中立、可移植、高性能、多线程以及动态性等诸多优良特性,因此,被大量应用于企业大型系统开发中,企业对于Java人才的需求一直比较旺盛。
Java语言与大数据存在较为紧密的联系,Java在大数据领域有着广泛的应用,是大数据应用程序开发的常用语言。作为大数据领域热门的大数据处理框架Hadoop和Flink等,其框架本身都是采用Java语言开发的,编写Hadoop应用程序也首选Java语言。而目前热门的分布式计算框架Spark,也支持采用Java语言编写应用程序。
4. Python
Python是目前国内外很多大学里流行的入门语言,学习门槛低,简单易用,开发员可以使用Python来构建桌面应用程序和Web应用程序,此外,Python在学术界备受欢迎,常被用于科学计算、数据分析和生物信息学等领域。Python是最近几年发展最为迅速的编程语言,在一些编程语言排行榜当中甚至已经进入了前三名。
Python的主要优点如下:
(1)可以使用多种执行方式。可以直接在命令行执行相关命令,也可以用函数的方式执行相关命令,或者也可以用面向对象的方式执行相关命令。
(2)语法简洁,且强制缩格,程序具有很好的可读性。
(3)跨平台。支持多种开发平台,如Windows、Linux、Mac OS X、Solaris等。
(4)面向对象。Python既支持面向过程,又支持面向对象,这使得其编程更加灵活。
(5)丰富的第三方库。Python有丰富且强大的库,而且由于Python的开源特性,第三方库非常多,如Web开发、爬虫、科学计算等。
在数据分析领域,Python是广受欢迎的编程语言,网络数据采集(比如网络爬虫)、数据清洗、数据分析与挖掘、数据可视化等环节,通常都使用Python语言编写程序。
5.Scala
Scala是一门类似Java的多范式语言,它整合了面向对象编程和函数式编程的最佳特性,具有诸多优点,主要包括以下几个方面:
(1)具备强大的并发性,支持函数式编程,可以更好地支持分布式系统;
(2)Scala兼容Java,可以与Java互操作;
(3)Scala代码简洁优雅;
(4)Scala支持高效的交互式编程;
(5)Scala是Spark的开发语言。
Spark是当前热门的大数据处理技术,开发Spark应用程序时,首选编程语言是Scala,因为Spark框架自身就是使用Scala语言开发的,用Scala语言编写Spark应用程序,可以获得最高的性能。Spark的流行也迅速提升了Scala的影响力。流计算框架Flink的部分模块也是使用Scala语言开发的,也可以使用Scala语言编写Flink应用程序。
6.R语言
R是专门为统计和数据分析开发的语言,具有数据建模、统计分析和可视化等功能,简单易上手。R语言主要具有如下优点:
(1)免费开源。R的源代码可以自由下载使用,也有已编译的可执行文件版本可以下载。
(2)简单易学。虽然R与其他程序设计语言相比结构相对松散,使用变量前不需要明确定义变量类型等,但是,仍然保留了程序设计语言的基础逻辑与自然的语言风格。
(3)几乎兼容全部平台。除了支持OS X、Linux、Windows之外,甚至可以在iOS设备上编辑和运行R程序,还可以在iPhone等移动设备上安装R程序。
(4)多领域的统计资源。学者和数据分析师开发了很多R语言包,涉及到统计的各个方面,资源很丰富。
(5)出色的图形统计功能。除了基本统计直方图、折线图等,还可以绘制一些高级的图形,而这些是SPSS这类软件所不能匹敌的。
总体而言,R和Python都是比较流行的数据分析语言。相对而言,数学和统计领域的工作者更多使用R语言,而计算机领域的工作者更多使用Python。大数据处理框架Spark也提供了对R语言的支持。
10本章小结
人类已经步入大数据时代,我们的生活被数据所“环绕”,并被数据深刻变革。作为大数据时代的公民,我们应该接近数据,了解数据,并利用好数据。因此,本章首先从数据入手,讲解了数据的概念、类型、组织形式、数据价值等内容,然后,把视角切入到大数据时代,介绍了大数据时代到来的背景及其发展历程。接下来,讨论了大数据的“4V”特性以及大数据对科学研究、社会发展、就业市场和人才培养的影响,并简要介绍了大数据在不同领域的应用和大数据产业。最后,对高校大数据专业的建设做了简要探讨。
大数据导论学习日志Day1相关推荐
- 大数据导论学习通考试习题
第7章 数据处理与分析 一.单选题 1.下面描述错误的是:( ) A. 数据分析可以分为广义的数据分析和狭义的数据分析 B.广义的数据分析就包括狭义的数据分析和数据挖掘. C.数据挖掘就是指狭义的数据 ...
- 《大数据导论》——1.4节案例学习背景
本节书摘来自华章社区<大数据导论>一书中的第1章,第1.4节案例学习背景,作者瓦吉德·哈塔克(Wajid Khattak),保罗·布勒(Paul Buhler),更多章节内容可以访问云栖社 ...
- 《大数据导论》一1.4 案例学习背景
本节书摘来自华章出版社<大数据导论>一书中的第1章,第1.4节,作者托马斯·埃尔(Thomas Erl),瓦吉德·哈塔克(Wajid Khattak),保罗·布勒(Paul Buhler) ...
- 大数据Hadoop教程-学习笔记01【大数据导论与Linux基础】
视频教程:哔哩哔哩网站:黑马大数据Hadoop入门视频教程,总时长:14:22:04 教程资源:https://pan.baidu.com/s/1WYgyI3KgbzKzFD639lA-_g,提取码: ...
- 《大数据导论》——1.5节案例学习
本节书摘来自华章社区<大数据导论>一书中的第1章,第1.5节案例学习,作者瓦吉德·哈塔克(Wajid Khattak),保罗·布勒(Paul Buhler),更多章节内容可以访问云栖社区& ...
- 大数据技术 学习之旅_数据-数据科学之旅的起点
大数据技术 学习之旅 什么是数据科学? (What is Data Science?) The interesting thing about Data Science is that it is a ...
- scala spark 数据对比_IT大牛耗时三个月总结出大数据领域学习路线,网友评论:炸锅了...
大数据不是某个专业或一门编程语言,实际上它是一系列技术的组合运用. 有人通过下方的等式给出了大数据的定义. 大数据 = 编程技巧 + 数据结构和算法 + 分析能力 + 数据库技能 + 数学 + 机器学 ...
- 大数据业务学习笔记_学习业务成为一名出色的数据科学家
大数据业务学习笔记 意见 (Opinion) A lot of aspiring Data Scientists think what they need to become a Data Scien ...
- 8年京东大数据架构师推荐的大数据开发学习路线
一.我们先要了解大数据的工作方向 01.大数据工程师 02.数据分析师 03.大数据科学家 04.其他(数据挖掘本质算是机器学习,不过和数据相关,也可以理解为大数据的一个方向吧) 二.大数据工程师的技 ...
- 2018大数据培训学习路线图(详细完整版)
2018大数据培训学习路线全课程目录+学习线路详解(详细完整版) 第一阶段:大数据基础Java语言基础阶段 1.1:Java开发介绍 1.1.1 Java的发展历史 1.1.2 Java的应用领域 1 ...
最新文章
- python刷新页面_小伙利用Python制作浏览器,网友点评这小伙将来要进腾讯
- java用画线写字_用Java画线
- NOIP2011 提高组 Day1
- 【安全漏洞】Emissary 的SSRF漏洞(CVE-2021-32639)发现过程
- 计算机系统崩溃重新装机,当计算机系统崩溃时如何用U盘重新安装Win7系统
- 关于Unity实现AR功能(五)摄像头转换与闪光灯开关控制
- 牧马人鼠标g13鼠标宏_达尔优EM910牧马人轻量化游戏鼠标评测
- Codeforces Round #327 div2
- android 显示canvas,【报Bug】部分情况下,安卓canvas不显示
- 【Oracle】RMAN备份
- python 条件语句、循环语句
- 5.并发工具和执行器(Concurrency Utilities and Executors)5.1 并发工具介绍
- php函数: urlencode
- a-tabs defaultActiveKey默认值无效
- 赚享客系统模式app技术开发
- NBA 球星杜兰特的加密投资版图
- 【构成L4笔记:拆解分组再构筑】
- 深入理解Android之AOP
- python 全栈开发,Day136(爬虫系列之第3章-Selenium模块)
- bzoj3785--骑士游戏--有“环”的动态规划
热门文章
- python视频补帧_AI 复原 100 年前的京城老视频,靠这三个开源工具
- 山地车中轴进水表现_4种自行车中轴的拆卸和保养方法
- 有道云笔记linux使用教程,巧妙地使用typora编辑有道云笔记
- 审计工作存在的难点和问题_基层审计工作中存在的问题及建议
- 工作缺点和不足及措施_个人工作问题不足20条以及改进措施
- 电子元器件采购需要掌握哪些基础知识?
- stm32看门狗定时器记录
- 快速学习JasperReport-数据填充
- 奥克兰计算机科学专业世界排名,2019QS世界大学学科排名出炉,新西兰最强专业看过来!...
- Xilinx FPGA的DNA是什么?