大家好,我是不温卜火,昵称来源于成语—不温不火,本意是希望自己性情温和。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限,博客中难免会有一些错误出现,有纰漏之处恳请各位大佬不吝赐教!博客主页:https://buwenbuhuo.blog.csdn.net/

目录

  • 前言
  • 一、大数据时代到来的动因
    • 1.1 第三次信息化浪潮
    • 1.2 信息科技为大数据时代提供技术支撑
      • 1.2.1 存储设备容量不断增加
      • 1.2.2 CPU处理能力大幅提升
      • 1.3.1 网络带宽不断增加
    • 1.3 数据生产方式的变革促成大数据时代的来临
  • 二、大数据的简单介绍
    • 2.1 大数据的定义
    • 2.2 大数据的特点(5V)
    • 2.3 大数据的发展历程
    • 2.4 大数据的关键技术
    • 2.5 大数据计算模式
    • 2.6 大数据产业
    • 2.7 大数据与云计算、物联网的关系
    • 2.8 大数据开发的一般过程
      • 2.8.1 数据采集
      • 2.8.2 数据存储
      • 2.8.3 数据清洗
      • 2.8.4 数据分析
      • 2.8.5 数据可视化
    • 2.9 大数据的应用场景
  • 三、大数据的影响以及未来前景展望
    • 3.1 大数据的影响
    • 3.2 大数据行业发展趋势的两个层面
      • 3.2.1 国家层面
      • 3.2.2 高校教育和就业层面
    • 3.3 未来展望
    • 3.4 大数据职业发展路线

前言

此系列主要为我的学弟学妹们所创作,在某些方面可能偏基础。如果读者感觉较为简单,还望见谅!如果文中出现错误,欢迎指正~

本文主要介绍了大数据发展历程及大数据的简单介绍,包括促进大数据时代到来的动因、大数据简介、大数据开发的一般过程、大数据的应用场景以及未来展望。

一、大数据时代到来的动因

1.1 第三次信息化浪潮

根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革。在2010年前后爆发的第三次信息化浪潮期间,由于信息逐渐增加,为了解决信息爆炸问题,物联网、云计算和大数据相继兴起了起来。下图为三次信息化浪潮发生时间、标志、解决问题以及代表企业。

1.2 信息科技为大数据时代提供技术支撑

1.2.1 存储设备容量不断增加


根据上图我们可以清晰的看出存储价格随着时间的变化而变化。

1.2.2 CPU处理能力大幅提升


根据上图我们可以清晰的看到CPU晶体管数目随着时间的变化而变化。

1.3.1 网络带宽不断增加


根据上图我们可以清晰的看到网络带宽随着时间的变化而变化。

在信息化基础设施方面,据工业和信息化部官网消息,截至2019年12月底,我国互联网宽带接入端口数量达9.16亿个,其中,光纤接入端口占互联网接入端口的比重达91.3%;光缆线路总长度已达4750万公里,相当于在京沪高铁线上往返1.8万余次。同时,近五年来固定宽带和移动宽带资费平均下降90%,速率提升6倍。目前,我国已基本实现“城市光纤到楼入户,农村宽带进乡入村”。

据中国信息通信研究院(简称中国信通院)数据,截至2020年2月底,全国建设开通5G基站达16.4万个,5G网络建设基础不断夯实。2020年中国将建设60万~80万个5G基站。

1.3 数据生产方式的变革促成大数据时代的来临

二、大数据的简单介绍

2.1 大数据的定义

大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

2.2 大数据的特点(5V)

  • 1、大量
    采集、存储和计算的数据量都非常大。
        
    随着科学技术的发展和互联网的普及,全球的数据量已经大到爆了,而传统的关系型数据库根本处理不了如此海量的数据。
        
    截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类总共说过的话的数据量大约是5EB。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。
  • 2、高速
    根据IDC的“数字宇宙”的报告,预计到2025年,全球数据使用量将达到163ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。
    在大数据时代,数据的创建、存储、分析都要求被高速处理,比如电商网站的个性化推荐尽可能要求实时完成推荐,这也是大数据区别于传统数据挖掘的显著特征。
  • 3、多样
    数据形式和来源多样化,包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等,多类型的数据对数据的处理能力提出了更高的要求。其数据类型按照分类可划分为:
        
    ①结构化数据:
    Excel文件、csv文件等。
    结构化数据为表格形式的数据:每列数据类型相同,切不可再细分。
    ②半结构化数据:
    邮件、网页、JSON文件、日志文件等。
    这些数据的结构和内容混在一起,没有明显的区分。
    ③非结构化数据:
    图片、视频等
  • 4、真实
    确保数据的真实性,才能保证数据分析的正确性。
  • 5、低价值
    数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵 。
        
    互联网发展催生了大量数据,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题,也是一个有难度的课题。

2.3 大数据的发展历程

2.4 大数据的关键技术

下图为大数据技术的不同层面及其功能的解释:

大数据的两大关键技术分别为:分布式存储分布式处理

2.5 大数据计算模式

2.6 大数据产业

大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合

2.7 大数据与云计算、物联网的关系

云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者相辅相成,既有联系又有区别,在此就不过多赘述云计算和物联网。如有兴趣可自行查阅相关资料。

2.8 大数据开发的一般过程

如果说公司有需求,比如说双十一实时大屏功能的实现:

下图为实现过程分析:

如果我们想要完整实现的话,一般需要经过以下几个步骤:

下面分别介绍下这几个过程所用到的工具及其简单介绍。

关于数据存储和数据清洗的问题,可以采用原始的先存储后清洗,也可以先进行数据清洗,然后进行数据存储。

2.8.1 数据采集

数据采集:又称数据获取,从传感器和互联网等渠道自动采集信息的过程。

下面为一些常见的数据采集工具:

1️⃣ 普通
1、python网络爬虫

Urllib:HTTP请求库,用于请求、下载网页

Requests:基于Urllib,但更加快捷方便

Scrapy:爬虫框架,用于从网页中提取数据

2、Webmagic(Java):垂直爬虫框架,简单爬虫开发流程,专注于逻辑功能的开发。

3、BotnetSpider(C#):国人开源的跨平台、高性能、轻量级爬虫软件,.NET最为优秀的开源爬虫之一

2️⃣分布式采集工具

1、Chukwa(hadoop):用于监控大型分布式系统的数据收集系统,构建在HDFS和Mapreduce之上。

2、Kafka:由Apache开源,高吞吐量的分布式发布订阅消息系统。

3、Flume:分布式的海量日志采集、集合和传输系统。

2.8.2 数据存储

深入浅出学大数据(一)大数据发展历程及大数据的简单介绍相关推荐

  1. 自然语言处理(NLP)的发展历程,神经语言模型多任务学习介绍, ECM模型介绍等

    1读前准备 读本篇论文之前我先调研了并理解了什么是自然语言处理(自然语言是人类交流信息的工具.很多自然语言处理问题都可以等同于通信系统中的解码问题–一个人根据接收到的信息,去猜测发话人要表达的意思)以 ...

  2. 加拿大高中计算机学什么内容,加拿大大学计算机科学专业排名情况及学习内容简单介绍...

    伴随着近年来前往加拿大留学学生人数的不断增多,如何在众多专业中选择一个优势专业成为不少家长关注的热点.据了解,在加拿大的众多专业中,计算机科学专业不管是就业前景还是薪资待遇都是相当不错的,那么加拿大大 ...

  3. 【JVM笔记】JVM发展历程—VM(Java虚拟机)介绍

    目录 Sun Classic VM Exact VM HotSpot VM JRockit VM J9 VM KVM.CDC.CLDC Azul VM Liquid VM Apache Harmony ...

  4. BAT大厂的架构大数据你有了解么?解析大数据技术及算法

    本篇从大数据架构的角度全面解析大数据技术及算法,探讨大数据的发展和趋势,全面介绍大数据的相关技术.算法和一些应用场景,帮助读者培养大数据的技术选型和系统架构能力. 不仅对大数据相关技术及算法做了系统性 ...

  5. 计算机网络分组交换技术有,论计算机网络数据交换技术的发展

    [论文关键词]数据交换 电路交换 报文交换.分组交换 综合业务数字交换 [论文摘要]本论文讨论计算机网络数据交换技术的发展历程,阐述数据交换每个发展阶段的技术特点.着重对分组交换技术进行分析论述. 交 ...

  6. 数据智能基础概念和发展历程

    数据智能:结合大数据+AI技术在实际商业环境中解决实际业务问题  数据智能(Data Intelligence)是什么呢?数据智能是指基于大数据,通过人工智能(AI)对海量数据进行处理.分析和挖掘, ...

  7. 深入了解云计算:发展历程、服务与部署模型、未来趋势与挑战

    开篇博主 bluetata 的观点:PaaS 服务必将是未来10年云计算权重最高的趋势(05/02/2023 15:32) 文章目录 一.前言 二.认识了解云计算 2.1 什么是云计算 2.1.1 维 ...

  8. 大数据未来会如何发展

    大数据应用的重要性,自全国提出"数据中国"的概念以来,我们周围默默地在发挥作用的大数据逐渐深入人们的心中,大数据的应用也越来越广泛,具体到金融.汽车.餐饮.电信.能源.体育和娱乐等 ...

  9. 大数据学习笔记一:大数据的发展历程--MapReduce,Hive,Yarn,Hadoop,Spark,Flink

    大数据学习系列文章:大数据-博客专栏 今天在学习极客时间专栏:<从0开始学大数据> 从预习 01 | 大数据技术发展史:大数据的前世今生到预习 03 | 大数据应用领域:数据驱动一切,系统 ...

  10. 未来大数据的处理和发展的五个趋势

    本文讲的是未来大数据的处理和发展的五个趋势,近几年,大数据已经从大公司独有的流行词和概念变成了驱动我们数字生活发展的动力.下面是未来大数据的处理和发展的五个趋势. 1.数据科学越来越大众化 随着像Co ...

最新文章

  1. spring框架ioc(控制反转)第二讲
  2. python 装饰器 参数-python装饰器的详细解析
  3. Java 文件压缩与解压缩
  4. Spring MVC研究之MVC pure string response debug
  5. VC问题 IntelliSense:“没有可用的附加信息”,[请參见“C++项目 IntelliSense 疑难解答”,获得进一步的帮助]...
  6. python 杀死子进程_Python:当父异常终止时,如何杀死子进程?
  7. apache.camel_使用Apache Camel 2.14的轻松REST端点
  8. 半年时间能学会php吗_4个月真的能学会PHP吗
  9. Soul 网关源码阅读(四)Dubbo请求概览
  10. 面试必考:秒杀系统的9个核心知识点,一次性打包给你
  11. 微信小程序期末大作业,飞机大战
  12. JavaSE学习脑图
  13. kali linux查看局域网下所有IP,并对指定IP实施局域网内攻击
  14. 利用JS实现QQ空间自动点赞
  15. [Place 30-876] Port ‘txclk‘ is assigned to PACKAGE_PIN * which can
  16. 这个神级编辑器给 Excel 加上了 Python 功能!
  17. uniapp的tabBar不显示
  18. OpenCV探索之路(二十六):如何去除票据上的印章
  19. c 实现linux命令wc,实例分析linux常见命令之wc命令用法。
  20. (小白看了都会!)zzulioj 1107: 回文数猜想(函数专题)

热门文章

  1. i510400和i59400f哪个好?有什么区别
  2. 【信号检测】基于隐马尔可夫模型HMM算法实现睡眠状态检测matlab代码
  3. STC单片机代码烧录
  4. qmail加防病毒网关的郁闷经历
  5. Java基础视频教程(最适合初学者入门)
  6. 学会编单片机必须会c语言吗,十天学会单片机和C语言编程.docx
  7. 计算机导论高清课件教程,计算机导论-PPT课件
  8. 新手学Java编程语言怎么入门?知识点都帮你整理好了
  9. Android报错:The processing instruction target matching [xX][mM][lL] is not allowed.
  10. 安卓谷歌地图离线包_手机卫星地图