来源:千锋大数据

一、什么是大数据

  大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。

  中国电子技术标准化研究院2015年12月在《 大数据标准化白皮书V2.0 》 中提及维基百科(Wikipedia)给出的定义是:大数据,或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。

  二、大数据的应用

  大数据技术在近年来一直在飞速地发展,目前大部分人对“大数据”的概念理解得不是很透彻。其实,在我们的日常生活中,很多人已经利用“大数据”做了很多事情,这些都是实实在在的“大数据”实例应用。

  1. 大型网站Web服务器的日志分析

  一个大型网站的Web服务器集群,每5分钟收录的点击日志高达800GB左右,峰值点击每秒达到900万次。每隔5分钟将数据装载到内存中,高速计算网站的热点URL,并将这些信息反馈给前端缓存服务器,以提高缓存命中率。

  2. 运营商流量经营分析

  每天的流量数据在2TB~5TB左右,拷贝到HDFS上,通过交互式分析引擎框架,能运行几百个复杂的数据清洗和报表业务,总时间比类似硬件配置的小型机集群和DB2快2~3倍。

  3. 城市交通卡口视频监控信息的实时分析

  采用基于流式 Stream进行全省范围的交通卡口通过视频监控收录的信息进行实时分析、告警和统计(计算实时路况),对全省范围内未年检车辆或套牌车的分析延时在300毫秒左右,可以做出实时告警,所以开车的朋友最好要按时年检。

  4. 互联网舆情监控系统

  利用先进的云计算搜索平台和倒排索引,舆情监测系统支持对海量信息库的高效搜索以及对于各种新闻博客等网站进行垂直抓取;采用自有算法的网页结构分析,对抓取到的数据进行准确地分析和判断,从而为政府和企业客户提供精准有效的互联网舆情数据服务。

  大数据的应用还有很多,已经真正地应用到了生活的许多场景当中。大数据技术解决了庞大数据量的存储与计算的问题,从数据到信息,从信息到认知,从认知到预测。

  三、数据的来源

  1. 计算机产生的数据

  可能包含着关于因特网和其他使用者行动和行为的有趣信息,从而提供了对他们的愿望和需求潜在的有用认识。

  2.移动通信数据

  能够上网的智能手机等移动设备的使用越来越普遍。移动通信设备记录的数据量和数据的立体完整度,常常优于各家互联网公司掌握的数据。

  3.机器和传感器数据

  来自感应器、量表和其他设施的数据、定位/GPS系统数据等。这包括功能设备会创建或生成的数据,例如智能温度控制器、智能电表、工厂机器和连接互联网的家用电器的数据。几年前,跟踪遥测发动机运行仅限于价值数百万美元的航天飞机。现在,汽车生产商在车辆中配置了监视器,连续提供车辆机械系统整体运行情况。一旦数据可得,公司将千方百计从中渔利。这些机器传感数据属于大数据的范围。

  4.人为数据

  人为数据包括电子邮件、文档、图片、音频、视频,以及通过微信、博客、推特、维基、脸书、Linkedin等社交媒体产生的数据流。这些数据大多数为非结构性数据,需要用文本分析功能进行分析。至今最大的数据是音频、视频和符号数据。这些数据结构松散,数量巨大,很难从中挖掘有意义的结论和有用的信息。

  5.互联网上的“开放数据”来源

  四、数据的处理流程

  一般而言,大数据处理流程,可分为四个步骤:数据采集、数据导入和清洗处理、数据统计和分析、数据挖掘应用。这四个步骤看起来与现在数据处理分析没有太大区别,但实际上大数据数据集更多更大,相互之间的关联也就越多。

  1、收集

  原始数据种类多样,格式、位置、存储、时效性等迥异。数据收集从异构数据源中收集数据并转换成相应的格式方便处理。

  2、数据导入和清洗处理

  采集好数据,肯定有不少是重复或是无用的数据,此时需要通过对数据进行处理,将这些来自前端的数据导入到集中的大型分布式数据库,或者分布式存储集群,并进行简单的清洗和预处理工作。而这个过程当中最大的挑战就是导入的数据量大,经常会达到百兆,甚至千兆级别。

  3、数据统计和分析

  统计与分析很多需要用到工具来处理,比如可视化工具、spss工具、一些结构算法模型,分类汇总,满足企业的数据分析需求。这个过程最大的特点就是目的清晰,按照一定规则去分类汇总,才能得到有效分析,这部分处理起来也很占用系统资源。

  4、数据挖掘应用

  收集数据的最终目的就是透过数据挖掘背后的联系,分析原因找出规律然后应用到实际业务中,经过各种算法,预测结果,调整战略方向。

大数据培训:生活中这些场景都用到了大数据相关推荐

  1. 基因大数据在生活中的应用

    基因大数据在生活中的应用 基因组数据库是分子生物信息数据库的重要组成部分.基因组数据库内容丰富.名目繁多.格式不一,分布在世界各地的信息中心.测序中心.以及和医学.生物学.农业等有关的研究机构和大学. ...

  2. 大数据——解决生活中的小问题

    大数据是一类数据量大.增长速度快.类别多.价值密度低的数据,也是一项对数量巨大.来源分散.格式多样的数据进行采集.存储和关联性分析的新一代信息系统架构和技术. 大数据的形式包括文字.图片.视频等,其多 ...

  3. 大数据在高校的应用场景_制造业人工智能8大应用场景

    随着智能制造热潮的到来,人工智能应用已经贯穿于设计.生产.管理和服务等制造业的各个环节. 人工智能的概念第一次被提出,是在20世纪50年代,距今已六十余年的时间.然而直到近几年,人工智能才迎来爆发式的 ...

  4. 关于私钥加密、公钥加密、签名在生活中的场景

    1.     私钥加密:也就是对称加密. 这种算法采用同一个密钥(Key)对数据进行加密和解密,虽然可以通过设置初始化向量(IV),但因为在加密方和解密方中需要共享这两部分信息,相对而言,它不够安全. ...

  5. Redis学习(一)—生活中实用场景帮助理解redis的五种基本数据类型

    Redis实例目录 (一)String (1)业务场景1--分库分表后获取唯一id (2)业务场景2--数据时效性设置 (3)业务场景3--高频数据访问显示 实现方式一 实现方式二 (二)Hash ( ...

  6. 大数据培训怎么选?16张国际公认的大数据“学历”证书

    如今,由于大数据的兴起与应用,数据科学家和数据分析师,以及具有大数据技术工作能力的工程师和开发人员得到了青睐,并获得良好的回报.那么,行业人士如何获得这样的一份工作?那就是获取大数据认证. 数据和大数 ...

  7. 《都挺好》一剧,除了气愤的苏大强,生活中还有多少苏明哲!

    最近很火一部电视剧,想必好多朋友看了这部剧 这部剧以家庭事件为核心主演 讲述了苏家父母陈旧的教育观念 在这部剧中,苏家老大,苏明哲是一名毕业于清华,斯坦福大学计算机专业的人才 有着这样的强势背景,但还 ...

  8. 除了数据,生活中还有这些......

    在亲密接触Kepler星穿越而来的地球人之后,还有哪些让人深深敬佩的公众号? 与入口即化的娱乐棉花糖不同,这些公号更像是"坚果", 需要你静下心来撬开它的心,仔细品味. 今天我们就 ...

  9. 因为这台“黑科技”,科幻电影中的场景都成为了现实丨钛空舱

    关注"潜在价值",最好的技术商业媒体,了解那些智慧商业 本文由潜在价值旗下 创意产品推荐平台"钛空舱"推出 钛空(ID:TiKong-life) 一个关注于科技 ...

最新文章

  1. 类,封装,this关键字,内存部分(java)
  2. linux 监控多台机器人,在钉钉群中创建机器人并设置安全策略
  3. 神经网络结构设计 不一定是第一层神经元是输入维度数
  4. 循环语句until和while
  5. 音视频技术开发周刊 | 180
  6. java图像处理之图像融合
  7. 值得关注的医疗 AI 公司(待续)
  8. 理解DOM事件流的三个阶段 - Lxxyx的开发笔记 - SegmentFault 思否
  9. 【BZOJ - 3993】星际战争(网络流最大流+二分)
  10. 微信应该砍掉这些功能
  11. 贪心 or 动态规划 求解“最大字段和”问题(洛谷P1115题题解,Java语言描述)
  12. 【破解】Flash Decompiler Trillix.4.1.1.720 破解补丁
  13. 人脸检测(三)--Haar特征原理及实现
  14. 使用Movavi Video Editor如何做局部放大的影片特效
  15. linux centos安装配置prosody
  16. ArcGIS之定义投影
  17. mysql冒号_mysql语句中的冒号是什么意思?
  18. java实现基本的购物车功能案例
  19. 数据结构与算法书籍推荐(7本)
  20. 一个游戏制作的全过程

热门文章

  1. php 公众号验证回调方法_微信公众号运营的技巧和方法?
  2. 如何打造一个抗住千万级流量短信服务(续)
  3. Jetpack系列之Navigation----入门(五)
  4. 举个栗子!Tableau 技巧(121):用 Makepoint 和 Makeline 函数实现连线地图
  5. QUECTEL上海移远4G通讯CAT4模组EC20CEFAG模块串口调试指南之03【EC20模组基础串口指令说明】
  6. 用户盘云存储——百度网盘
  7. 海乐网站查询工具tool.sealee.com上线
  8. centos8 安装oracle 11gR2
  9. 钱颖一:从清华学生身上,我发现了这7个普遍现象……
  10. steps 步骤条中插入自定义描述description