本文作者 陈睿 ,优知学院创始人

新技术、新趋势往往趋之若鹜却又很难说的透彻,希望这篇文章能让大家完整的理解什么是大数据:该篇包含:大数据、技术、场景应用以及大数据的岗位。

什么是大数据

说起大数据,估计大家都觉得只听过概念,但是具体是什么东西,怎么定义,没有一个标准的东西,因为在我们的印象中好像很多公司都叫大数据公司,业务形态则有几百种,感觉不是很好理解,所以我建议还是从字面上来理解大数据,在维克托迈尔-舍恩伯格及肯尼斯库克耶编写的《大数据时代》提到了大数据的4个特征:

  1. 一个是数量大
  2. 一个是价值大
  3. 一个是速度快
  4. 一个是多样性

第一个是数量比较大,只有数据体量达到了PB级别以上,才能被称为大数据。1PB等于1024TB,1TB等于1024G,那么1PB等于1024*1024个G的数据。

第二个是价值大,你如果有1PB以上的全国所有20-35年轻人的上网数据的时候,那么它自然就有了商业价值,比如通过分析这些数据,我们就知道这些人的爱好,进而指导产品的发展方向等等。如果有了全国几百万病人的数据,根据这些数据进行分析就能预测疾病的发生,这些都是大数据的价值。

第三个就是多样性,如果只有单一的数据,那么这些数据就没有了价值,比如只有单一的个人数据,或者单一的用户提交数据,这些数据还不能称为大数据,所以说大数据还需要是多样性的,比如当前的上网用户中,年龄,学历,爱好,性格等等每个人的特征都不一样,这个也就是大数据的多样性,当然了如果扩展到全国,那么数据的多样性会更强,每个地区,每个时间段,都会存在各种各样的数据多样性。

第四个是速度快,就是通过算法对数据的逻辑处理速度非常快,1秒定律,可从各种类型的数据中快速获得高价值的信息,这一点也是和传统的数据挖掘技术有着本质的不同。

大数据的行业应用

大数据无处不在,大数据应用于各个行业,包括金融、汽车、餐饮、电信、能源、体能和娱乐等在内的社会各行各业都已经融入了大数据的印迹。

制造业,利用工业大数据提升制造业水平,包括产品故障诊断与预测、分析工艺流程、改进生产工艺,优化生产过程能耗、工业供应链分析与优化、生产计划与排程。

金融行业,大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重大作用。

汽车行业,利用大数据和物联网技术的无人驾驶汽车,在不远的未来将走入我们的日常生活。

互联网行业,借助于大数据技术,可以分析客户行为,进行商品推荐和针对性广告投放。

电信行业,利用大数据技术实现客户离网分析,及时掌握客户离网倾向,出台客户挽留措施。

能源行业,随着智能电网的发展,电力公司可以掌握海量的用户用电信息,利用大数据技术分析用户用电模式,可以改进电网运行,合理设计电力需求响应系统,确保电网运行安全。

物流行业,利用大数据优化物流网络,提高物流效率,降低物流成本。

城市管理,可以利用大数据实现智能交通、环保监测、城市规划和智能安防。

生物医学,大数据可以帮助我们实现流行病预测、智慧医疗、健康管理,同时还可以帮助我们解读DNA,了解更多的生命奥秘。

体育娱乐,大数据可以帮助我们训练球队,决定投拍哪种题财的影视作品,以及预测比赛结果。

安全领域,政府可以利用大数据技术构建起强大的国家安全保障体系,企业可以利用大数据抵御网络攻击,警察可以借助大数据来预防犯罪。

个人生活, 大数据还可以应用于个人生活,利用与每个人相关联的“个人大数据”,分析个人生活行为习惯,为其提供更加周到的个性化服务。

大数据的价值,远远不止于此,大数据对各行各业的渗透,大大推动了社会生产和生活,未来必将产生重大而深远的影响。

大数据使用的技术

说起大数据,大数据有三个层数据采集、存储、计算三层。

第一个是数据采集层,以App、saas为代表的服务。

大数据基础阶段需掌握的技术有:Linux、Docker、KVM、MySQL基础、Oracle基础、MongoDB、redis以及hadoopmapreduce hdfs yarn等。

第二个数据存储层,比如云存储,需掌握的技术有:hbase、hive、sqoop等。

比如:Hadoop作为一个开源的框架,专为离线和大规模数据分析而设计,HDFS作为其核心的存储引擎,已被广泛用于数据存储。HBase,是一个分布式的、面向列的开源数据库,可以认为是hdfs的封装,本质是数据存储、NoSQL数据库。

HBase是一种Key/Value系统,部署在hdfs上,克服了hdfs在随机读写这个方面的缺点,与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。

第三个是数据计算应用层,以数据为基础,为将来的移动社交、交通、教育,金融进行服务,涉及到大数据架构设计阶段需掌握的技术有:Flume分布式、Zookeeper、Kafka等,以及大数据实时计算阶段需掌握的技术有:Mahout、Spark、storm。

大数据的岗位

1.数据分析师Data analyst

指熟悉相关业务,熟练搭建数据分析框架,掌握和使用相关的分析常用工具和基本的分析方法,进行数据搜集、整理、分析,针对数据分析结论给管理销售运营提供指导意义的分析意见。

2.数据架构师Data architect

对Hadoop解决方案的整个生命周期进行引导,包括需求分析,平台选择,技术架构设计,应用设计和开发,测试和部署。深入掌握如何编写MapReduce的作业及作业流的管理完成对数据的计算,并能够使用Hadoop提供的通用算法, 熟练掌握Hadoop整个生态系统的组件如: Yarn,HBase、Hive、Pig等重要组件,能够实现对平台监控、辅助运维系统的开发。

3.大数据工程师Big DataEngineer

收集和处理大规模的原始数据(包括脚本编写,网页获取,调用APIs,编写SQL查询等);将非结构化数据处理成适合分析的一种形式,然后进行分析;根据所需要的和专案分析商业决策。

4.数据仓库管理员

Data warehousemanager:指定并实施信息管理策略;协调和管理的信息管理解决方案;多个项目的范围,计划和优先顺序安排;管理仓库的各个方面,比如数据外包,移动,质量,设计和实施。

5.数据库管理员Database manager

提高数据库工具和服务的有效性;确保所有的数据符合法律规定;确保信息得到保护和备份;做定期报告;监控数据库性能;改善使用的技术;建立新的数据库;检测数据录入程序;故障排除。

6.商业智能分析员Businessintelligence analyst

就工具,报告或者元数据增强来进行传播信息;进行或协调测试,以确保情报的定义与需求相一致;使用商业智能工具来识别或监测现有和潜在的客户;综合目前的商业只能和趋势数据,来支持采取行动的建议;维护或更新的商业智能工具,数据库,仪表板,系统或方法;及时的管理用户流量的商业情报。

你可能也喜欢:

  1. 史上最全互联网八大技术岗位详解
  2. 阿里P8架构师谈:MongoDB、Hbase、Redis等NoSQL优劣势、应用场景

一篇文章详解大数据技术和应用场景相关推荐

  1. 详解阿里云数据中台,一篇文章全面了解大数据“网红”

    一直想写一篇关于数据中台正面文章,现在有闲时做些总结,想充分诠释一下DT内部人如何看待数据中台. 数据中台的概念是最早由阿里巴巴首次提出,是为了应对内部众多业务部门千变万化的数据需求和高速时效性的要求 ...

  2. 一篇文章看懂大数据的5大关键技术

    大数据技术,就是从各种类型的数据中快速获得有价值信息的技术.大数据领域已经涌现出了大量新的技术,它们成为大数据采集.存储.处理和呈现的有力武器.大数据处理关键技术一般包括:大数据采集.大数据预处理.大 ...

  3. 万字详解大数据架构新概念

    随着近几年数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断.有人说数据湖是下一代大数据平台,各大云厂商也在纷纷的提出自己的数据湖解决方案,一些云数仓产品也增加了和数据湖联动的特性. ...

  4. 详解 | 大数据在智慧城市中的应用

    2019独角兽企业重金招聘Python工程师标准>>> 在智慧城市的建设和应用中,将产生从TB到PB级越来越多的数据,从而进入大数据时代.2011年,Science专刊指出大数据时代 ...

  5. 万字长文详解大数据应用实战案例-万亿级大数据监控平台建设方案

    前言 随着互联网业务的迅速发展,用户对系统的要求也越来越高,而做好监控为系统保驾护航,能有效提高系统的可靠性.可用性及用户体验.监控系统是整个运维环节乃至整个项目及产品生命周期中最重要的一环.百分点大 ...

  6. 一篇文章告诉你大数据的重要性

    在这10年中,几乎所有行业都或多或少的受到大数据的影响.科技渗透到各个领域,并且已经成为每个处理单元的必要元素.谈到IT行业,具体来说,软件和自动化是较基本的术语,并且用于处理循环的每个阶段 毫无疑问 ...

  7. 详解大数据、数据存储和边缘计算技术在元宇宙中的应用

    导读:如果未来的数字社会属于元宇宙,那么我们需要什么来支撑如此庞大的数字世界? 作者:成生辉 来源:大数据DT(ID:hzdashuju) 元宇宙是指与物理世界分离的平行数字世界,由人创造并以数字形式 ...

  8. 万字详解大数据平台异地多机房架构实践

    大家好,我是一哥,我在18年的时候刚好经历过一次机房的数据迁移,之前也给大家分享给 → 你经历过完整的大数据平台迁移吗?,今天看到B站的这个方案,推荐给大家~ 01 背景 随着B站业务的高速发展,业务 ...

  9. 一文详解大数据平台架构

    大数据的4V特征 公司的"大数据" 随着公司业务的增长,大量和流程.规则相关的非结构化数据也爆发式增长.比如: 1.业务系统现在平均每天存储20万张图片,磁盘空间每天消耗100G: ...

最新文章

  1. Ubuntu10.10更新源
  2. 「基本功」不可不说的Java“锁”事
  3. 智联招聘python岗位_智联招聘的python岗位数据词云制作
  4. 自己定义WinXP的时间校正服务器
  5. 打破情感分类准确率 80 分天花板!更加充分的知识图谱结合范式
  6. mac在命令行里获取root权限
  7. 找到指针的奇数位置 c语言,(ppt)【C语言程序设计】上机作业2010.ppt
  8. 18.11 LVS DR模式搭建
  9. 小明上学201812-1
  10. vscode 搭建SSM项目环境
  11. Java使用itext 生成PDF,以生成个人简历为例
  12. 专业思维导图软件 Mindjet MindManager 2021下载
  13. 企业全面移动化实践指南
  14. 福建省漳州市谷歌卫星地图下载
  15. Linux内核配置文件
  16. 关于100层楼,扔两个鸡蛋,求摔碎鸡蛋的临界层的问题
  17. 软件测试-进阶篇:设计测试用例-文本框
  18. 已解决:GET http://localhost:8080/statics/js/jquery-3.4.1.js net::ERR_ABORTED 404
  19. 告别高墙铁窗,AI或将终结传统监狱模式
  20. AirDisk-Q3X作为移动硬盘模式连接电脑拷贝数据

热门文章

  1. leetcode - Linked List Cycle
  2. Linux CPU 信息查看
  3. 聊聊身边的嵌入式,为什么老司机都爱后视镜
  4. NLP实战-中文新闻文本分类
  5. python modbus控制plc_python Modbus基础
  6. python图像下采样_[Python图像处理]十二.图像向下取样和向上取样
  7. 【Pytorch神经网络实战案例】01 CIFAR-10数据集:Pytorch使用GPU训练CNN模版-方法①
  8. 非零返回怎么解决_VLOOKUP如何返回多个值?
  9. 二、SpringMVC 注解式开发学习笔记
  10. LeetCode 1942. 最小未被占据椅子的编号(set)