科技是第一生产力。进入世纪的第一个20年以来,人们越来越多地将关注的领域集中在大数据、人工智能、云计算、物联网、移动互联网、GIS、AR与VR、5G、区块链、数字化与智慧化等,尤其为最近的风口“ABC”。笔者也一直在关注这方面的研究与学习,最近趁着有时间,将把一些科普性的概念写出来,以帮助关注该领域的人更好地理解这几个热点领域的知识,本次分享将介绍一下大数据的产生、概念、影响以及技术支撑。

1、Why.为什么会产生大数据?

我们遇到一个概念或者一个问题的思路就是去问“为什么?”同样,提起到大数据,我们会想,之前为什么不是大数据时代(DT),为什么现在是?这里我分享几点我的看法。一个方面,产生大数据的一个基础是我们的计算存储技术发生了革命性的变化,从数据大小的单位来看,数据大小的单位可以分为Bit

现在我们称为大数据,我相信单位至少是PB级别的,因为TB已经在我们的生活中很常见。存储技术的发展使得计算机的存储能力得到了飞速的进步,我们不会再像以前那样为了节省空间会清理掉部分的数据,而是基本上在那个地方放着。基于足够性价比、足够低成本的存储技术,这使得数据变得“大”有了最基本的支撑。另一个方面,数据产生的主体与范围发生了重要的变化,之前数据的产生只靠计算工作人员与运营人员的输入,而现在随着自媒体的发展,人人都是数据的生产者,数据的量呈指数增长,最近又随着物联网、感知监测设备、GIS等技术的发展,不仅人是数据产生的组成部分,其他非人物体、地面信息、空气检测信息都能作为数据产生源,并且无时无刻都在产生数据。总结来说,过去我们对数据做“减法”,现在我们不减,而且持续在做“加法”。

2、what,大数据的概念及特征

大数据主要体现在一个“大”大字上面,谈及大数据,我们经常用“4V”来描述,第一,Volume,即容量大、体积大,正如前面所说,大数据的单位应该以PB起步,企业甚至可以到EB。第二个,Velocity,即高速,速率快,大数据产生的速度是很快的,有个知名的说法,即大数摩尔定律,据测算,现在每两年数据就会翻一倍,这个增长量是及其可怕的。第三个,Variety多样性,之前产生的数据多半是结构化的数据,比如多是数值型,而现在越来越多产生图片,音频,视频,网页等半结构化的数据,数据类型的多样性也是大数据的重要体现。第四个,Value,即有价值但又密度低,大数据的背后藏着丰富的商业价值,但是因为海量数据,真正有价值的数据却很难挖掘,数据的价值密度很低。

3、大数据的影响

大数据的影响可以主要概括为,全样而非抽样,效率而非准确,相关而非推断。以前我们获得数据很难,我们会抽样作分析,现在随着大数据的支撑,我们做全样研究很简洁方便。基于之前的抽样研究,我们往往追求模型的准确性,而忽略了效率,大数据的时代,分秒必争,在这一秒,数据是有价值的,而到下一秒,数据就会失去价值,所以大数据时代,效率是王道。最后我们不会再关注特征与特征之间,或者说变量与变量之间的因果推断,而是发现他们相关即可,这在智能推送过程中显得尤为重要。

4、大数据的技术支撑

大数据的技术支撑主要体现在四个方面,主要是数据采集,数据存储与管理、数据处理与分析、数据隐私与安全。其中最为核心的是存储与处理,两者都采用分布式原理,即分布式存储,主要有HDFS,NoSQL,NewSQL;分布式处理,即MapReduce。数据的存储利用分布式文件系统,云数据库,实现对结构化、半结构化和非结构化海量数据进行存储。而数据处理利用分布式并行编程模型,集合机器学习与数据挖掘算法,实现对海量数据的处理与分析,并对分析结构进行可视化呈现。

大数据全样而非抽样原理_一文带你了解什么是大数据相关推荐

  1. 大数据全样而非抽样原理_大数据思维原理,你了解多少?

    原标题:大数据思维原理,你了解多少? 随着大数据的深入人心,很多大数据技术的专家.战略专家.未来学学者等开始提出.解读并丰富大数据思维概念的内涵和外延.总体来说,大数据思维包括全样思维.容错思维和相关 ...

  2. python vector 初始化_一文带你走进Python中的数据类

    全文共2607字,预计学习时长14分钟 图源:unsplash 数据类适用于Python3.7或更高版本,它不仅可以用作数据容器,还可以编写样板代码,简化创建类的过程. 创建第一个数据类 创建一个数据 ...

  3. 数据查询和业务流分开_一文带你了解大数据管道

    介绍 如果您从大数据开始,通常会被众多工具,框架和选项所困扰. 在本文中,我将尝试总结其成分和基本配方,以帮助您开始大数据之旅. 我的目标是对不同的工具进行分类,并试图解释每个工具的目的以及它如何适应 ...

  4. java lambda表达式_凯哥带你从零学大数据系列之Java篇---第二十二章:Lambda表达式...

    温馨提示:如果想学扎实,一定要从头开始看凯哥的一系列文章(凯哥带你从零学大数据系列),千万不要从中间的某个部分开始看,知识前后是有很大关联,否则学习效果会打折扣. 系列文章第一篇是拥抱大数据:凯哥带你 ...

  5. jdbc代码_凯哥带你从零学大数据系列之数据库篇---第三章:JDBC基础

    温馨提示:如果想学扎实,一定要从头开始看凯哥的一系列文章(凯哥带你从零学大数据系列),千万不要从中间的某个部分开始看,知识前后是有很大关联,否则学习效果会打折扣. 系列文章第一篇是拥抱大数据:凯哥带你 ...

  6. map根据value值排序_凯哥带你从零学大数据系列之Java篇---第十九章:集合(Map+Collections)...

    温馨提示:如果想学扎实,一定要从头开始看凯哥的一系列文章(凯哥带你从零学大数据系列),千万不要从中间的某个部分开始看,知识前后是有很大关联,否则学习效果会打折扣. 系列文章第一篇是拥抱大数据:凯哥带你 ...

  7. ios 获取一个枚举的所有值_凯哥带你从零学大数据系列之Java篇---第十一章:枚举...

    温馨提示:如果想学扎实,一定要从头开始看凯哥的一系列文章(凯哥带你从零学大数据系列),千万不要从中间的某个部分开始看,知识前后是有很大关联,否则学习效果会打折扣. 系列文章第一篇是拥抱大数据:凯哥带你 ...

  8. mysql创建非聚集索引_一文看懂聚集索引和非聚集索引的区别

    一.深入浅出理解索引结构 实际上,可以把索引理解为一种特殊的目录.微软的SQL SERVER提供了两种索引:聚集索引(clustered index,也称聚类索引.簇集索引)和非聚集索引(nonclu ...

  9. 后台数据到mysql怎样保持实时更新_京东智联云MySQL数据库如何保障数据的可靠性?...

    MySQL作为当前最流行的关系型数据库,在各个行业的系统中扮演着最重要的角色.随着大家对数据价值认可的逐步加深,数据的可靠性是最常被问到的一个问题.MySQL是如何保证数据可靠性的?京东智联云RDS- ...

最新文章

  1. PowerShell针对SCVMM批量导出模板的描述信息以及导入
  2. Linux搭建lamp(Apache+PHP+Mysql环境)centos7.2版详细教程
  3. spring boot security学习
  4. 精心挑选的23款美轮美奂的 jQuery 图片特效插件
  5. linq中let关键字学习
  6. (斜率,点和线段)zzuli1196数星星(二)
  7. mysql 去重 性能比较_mysql 去重方法distinct 与 group by 性能比较 | 学步园
  8. 【雷达通信】基于mtatlab距离多普勒(RD)、CS、RM算法机载雷达成像【含Matlab源码 284期】
  9. shell如何快速执行上一个命令的最后一个参数
  10. CDN技术详解及实现原理
  11. 如何安装pandas包
  12. ZIPF分布、PARETO分布和幂律分布
  13. 关于 TJA1043 休眠和唤醒一点使用方法
  14. 对话深喉:中小App如何突围?(开发者必看)
  15. php 模拟百度蜘蛛
  16. STM32CubeMX快速生成STM32F407ZG芯片寄存器初始化
  17. 关于工作与生活zz —— 转载
  18. 19个免费的ppt制作网站
  19. 会计跨考计算机考研,考研最累的10大专业,会计排第几?
  20. Android sdk 安装教程

热门文章

  1. 一个IO控制很多个LED,这个技能你get到了吗
  2. java.sql.SQLException: Incorrect string value: '\xE6\x88\x91\xE7\x9A\x84...' for column 'groupName'
  3. 接到个商城任务需要接入个微信或者QQ客服,找到了两篇解决文章
  4. LoadRunner中think time详解
  5. 大数据技术有什么特点
  6. 计算机一个小键盘按不出来怎么办,我的电脑键盘上面1234按不出来怎么办
  7. 用记忆法记忆单词的M种方法 吴天胜
  8. 仿微信二维码极速扫描(MLKit及CameraX初体验),安卓消息分发机制
  9. 阿里云安全中心如何设置掌控云服务器安全
  10. 关于递归删除链表结点时为什么不会出现断链问题