一、大数据导论

1.大数据概念

(1)大数据概念

最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,大数据是当前很热的一个词。这几年来,云计算、继而大数据,成了整个社会的热点,大数据究竟是什么东西?有哪些相关技术?对普通人的生活会有怎样的影响?我们来一步步弄清这些问题。

CCTV9-大数据时代

中国首部大数据产业题材纪录片——《大数据时代》于7月1日20:04分在央视9套纪录频道首播,该片由中央广播电视总台与工业和信息化部联合出品、工业和信息化部信息化和软件服务业司指导、央视纪录频道和国家工业信息安全发展研究中心联合摄制。该片是国内首部大数据产业题材纪录片,节目细致而生动地讲述了大数据技术在政府治理、民生服务、数据安全、工业转型、未来生活等方面给我们带来的改变和影响。

(2)数据

在讲什么是大数据之前,我们首先需要理清数据的基本概念。数据是可以获取和存储的信息,直观而言,表达某种客观事实的数值是最容易被人们识别的数据(因为那是“数”)。但实际上,人类的一切语言文字、图形图画、音像记录,所有感官可以察觉的事物,只要能被记下来,能够查询到,就都是数据(data)。

随着互联网快速发展、智能手机以及“可佩带”计算设备的出现,我们的行为、位置,甚至身体生理数据等每一点变化都成为了可被记录和分析的数据。这些新技术推动着大数据时代的来临,各行各业每天都在产生数量巨大的数据碎片,数据计量单位已从Byte、KB、MB、GB、TB发展到PB、EB、ZB、YB甚至BB来衡量。

(3)数据存储单位

常见数据存储单位:

1Byte = 8bit    1K(千)= 1024Byte  1MB(兆)=1024K  1G(吉) = 1024M

1T(太)=1024G   1P(拍)=1024T     1E(艾)=1024P     1Z(泽)=1024E

1Y (尧)=1024Z   1B(布)=1024Y     1N(诺)=1024B    1D(刀)=1024N

(4)大数据

大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

(5)​​​​​​​大数据要解决的问题

数据分析的前提是有数据,数据存储的目的是支撑数据分析。究竟怎么去存储庞大的数据量,是开展数据分析的企业在当下面临的一个问题。传统的数据存储模式存储容量是有大小限制或者空间局限限制的,怎么去设计出一个可以支撑大量数据的存储方案是开展数据分析的首要前提。

当解决了海量数据的存储问题,接下来面临的海量数据的计算问题也是比较让人头疼,因为企业不仅追求可以计算,还会追求计算的速度、效率。

以目前互联网行业产生的数据量级别,要处理这些数据,就需要一个更好、更便捷的分析计算方式了。传统的显然力不从心了,而且效率也会非常低下。这正是传统数据分析领域面临的另一个挑战,如何让去分析、计算。这个时候就需要有新的技术去解决这些问题,这个技术就是大数据。

大数据主要解决的问题: 海量数据的存储和海量数据的计算问题

(6)大数据的特点

大数据的特点可以使用5个字来概括:大、多、值、快、信

  •  数据的采集,计算,存储量都非常的庞大。是数据体量巨大(Volume)。截至目前,人类生产的所有印刷材料的数据量是200PB(1PB=210TB),而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。
  • 种类和来源多样化。种类有:结构化、半结构化和非结构化数据等,常见的来源有:网络日志、音频、视频、图片等等。
  • 大数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,存在大量不相关信息。因此需要对未来趋势与模式作可预测分析,利用机器学习、人工智能等进行深度复杂分析。而如何通过强大的机器算法更迅速地完成数据的价值提炼,是大数据时代亟待解决的难题。
  •  数据增长速度快,处理速度也快,获取数据的速度也要快。这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。
  • 2019年11月11日,阿里巴巴天猫成交额达2684亿元,2018年为2135亿元。
  •  数据的准确性和可信赖度,即数据的质量。

2.​​​​​​​大数据应用场景

​​​​​​​1.电商方面

精准广告位,通过对用户的浏览行为,点击行为等进行大数据采集,分析,挖掘用户的二层三层喜欢,扩大产出。

​​​​​​​2.传媒方面

猜你喜欢,通过对受众人群机型大数据分析,结合对应算法,对受众喜欢的进行交互推荐。

3.金融领域

理财投资,通过对个人的信用评估,风险承担能力评估,集合众多理财产品、推荐响应的投资理财产品。

4.交通方面

目前,交通的大数据应用主要在两个方面:一方面通过对车流量等海量数据的收集,估算,预测该路段一定时间内的车流量情况,给用户提供便利,合理进行道路规划;另一方面可以利用大数据来实现即时信号灯调度,提高已有线路通行能力。

5.电信方面

智慧营业厅,通过对用户当前的行为习惯、偏好,节假日的相应数据变化,调节自身业务结构,做到按需分配。

6.安防方面

人脸识别,通过人脸识别,--匹配,存储用户数据,结合人工智能,分析及甄别用户行为,预防犯罪行为发生

7.医疗方面

智慧医疗,通过对海量病例大数据的存储,匹配、检索、结合用户的饮食、行为等习惯,搭建智慧医疗体系。

大数据学习开篇:了解大数据导论、清楚大数据应用领域和前景相关推荐

  1. 收藏 | 100+篇大数据学习资讯,带你玩转大数据分析!

    2019独角兽企业重金招聘Python工程师标准>>> 深度解析如何挑选适合自己的Hadoop平台 什么是Hadoop,怎样学习Hadoop 分布式文件系统HDFS解析 Hadoop ...

  2. 大数据学习之初学者必知的十大机器学习算法

    本文转载自科多大数据,大数据学习都要接触到算法. 本文先为初学者介绍了必知的十大机器学习(ML)算法,并且我们通过一些图解和实例生动地解释这些基本机器学习的概念.我们希望本文能为理解机器学习基本算法提 ...

  3. java的大o_学习算法前你需要了解的‘大O表示法’

    不管看懂了没看懂的,

  4. 大数据学习笔记:Hadoop生态系统

    文章目录 一.Hadoop是什么 二.Hadoop生态系统图 三.Hadoop生态圈常用组件 (一)Hadoop (二)HDFS (三)MapReduce (四)Hive (五)Hbase (六)Zo ...

  5. 零基础转行大数据怎么学习?大数据学习路线

    大数据要怎么学,本文来说说到底要怎么学习它,以及怎么避免大数据学习的误区,以供参考.数据科学特点与大数据学习误区 (1)大数据学习要业务驱动,不要技术驱动:数据科学的核心能力是解决问题. 大数据的核心 ...

  6. 大数据学习路线(完整详细版)

    大数据学习路线(完整详细版) 文章目录 大数据学习路线(完整详细版) 大数据学习路线 一.Linux 二.Hadoop 三.机器学习/R 四.storm 五.Spark 六.Python 七.云计算平 ...

  7. 【2020版冲刺年薪30W】超全大数据学习路线+思维导图

    大数据学习路线 ​ 下面和大家讲一下大数据学习的路线,帮助大家快速进入大数据行业.我会结合自己的实际经历还说明学习路线.该路线针对的对象是零基础小白,目标是到初中级大数据工程师,要求掌握数据建模,数据 ...

  8. 大数据学习入门规划?和学习路线

    大数据方向的工作目前分为三个主要方向: 01.大数据工程师  02.数据分析师  03.大数据科学家  04.其他(数据挖掘本质算是机器学习,不过和数据相关,也可以理解为大数据的一个方向吧) 一.大数 ...

  9. 2021最全大数据学习路线(建议收藏)

    个人简介:非科班双一流硕士,CAE仿真方向转行大数据,现杭州某大厂大数据工程师! 我可以给你提供最全的[大数据学习路线]:帮助你搭建大数据知识体系,从入门到精通:亲自指导你大数据工程师面试的简历该如何 ...

  10. 如何学习大数据,到底怎么学?数据科学概论与大数据学习误区在哪

    数据科学家走在通往无所不知的路上,走到尽头才发现,自己一无所知." 最近不少网友向我咨询如何学习大数据技术?大数据怎么入门?怎么做大数据分析?数据科学需要学习那些技术?大数据的应用前景等等问 ...

最新文章

  1. oracle如何查看数据安全用户,oracle用户安全管理
  2. Scala中那些令人头痛的符号
  3. debug LUW1 - do binding workflow
  4. 支付宝瓜分9亿,20倍大概能分到多少钱?
  5. html、css、js注释,js,html,css注释大集合
  6. 深入理解 JVM Class文件格式(七)
  7. SELECT语句选项
  8. selenium 示例_Selenium findElement和findElements示例
  9. DelegatingFilterProxy详解
  10. python 3d绘图kmeans_使用python绘制3d的图形
  11. stm32f103c8t6用stlink下载需要单独供电
  12. AFEchidna示例20--自交对方差分量的影响
  13. navicat连接远程服务器mysql报10060错误
  14. 22-07-14 西安 Git 分布式版本控制系统 、代码管理
  15. [STL]set存储pair并自定义排序
  16. html下拉框 js选中,js实现select下拉框选择
  17. c#下BLE蓝牙通信
  18. python爬虫:案例四:新浪微指数
  19. 山西大学和太原理工大学哪个计算机专业好,山西大学,太原理工大学和中北大学,这三所大学的综合排名,和在山西人心中的地位排名?...
  20. 至简设计法_fpga万年历设计

热门文章

  1. 推荐三个图片无损放大的软件给你
  2. 数据库:增删改查操作
  3. 通过Modbus转EtherNetIP网关连接AB PLC的配置案例
  4. Moment js 计算时间差
  5. 数据分析-数据平滑处理
  6. 勘测定界界址点坐标交换格式的读写
  7. kmeans聚类理论篇
  8. sql中取字符串长度的函数
  9. Python 办公自动化之全网最强最详细PDF 文件操作手册
  10. html5微信mp3播放器代码,[微信音频播放器] html5 audio 制做的微信播放器