【大数据应用开发】大数据的概念
一. 大数据的概念
维基百科定义:
大数据是指利用常用软件工具捕获,管理和处理数据所耗时间超过可容忍时间的数据集。
二. 大数据4V特征
- Volume:体量巨大
- Velocity:处理速度快
- Variety:类型繁多(结构化,半结构化,非结构化)
- Value:价值密度低
三. 大数据主流技术
- 数据采集预处理
- flume可以进行流式日志数据的收集
- sqoop可以交互关系型数据库,进行导入导出数据
- 使用爬虫技术,可以在网上爬取海量网页数据
- 数据存储与管理
大数据利用分布式文件系统HDFS、HBase、Hive,实现对结构化、半结构化和非结构化数据的存储和管理。 - 数据处理与分析
利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析。
四. 大数据应用
五. 场景化解决方案:
1. 离线批处理
1.1 概念:
离线批处理,是指对海量历史数据进处理和分析,生成结果数据,供下一步数据应用使用的过程。
离线批处理对数据处理的时延要求不高,但是处理的数据量较大,占用的计算存储资源较多,通常通过MR作业、Spark作业或者HQL作业实现。
1.2 特点:
- 处理时间要求不高
- 处理数据量巨大
- 处理数据格式多样
- 占用计算存储资源多
1.3 流程图
2. 实时检索
2.1 概念:
实时检索简而言之就是对系统内的一些信息根据关键词进行即时、快速搜索,实现即搜即得的效果。强调的是实时低延迟。
2.2 核心诉求
- 检索性能要求高
- 高并发查询
- 数据量大
- 支持结构化和非结构化
- 高效的数据加载
- 支持图检索
2.3流程图
3. 实时流处理
3.1 概念:
实时流处理,通常是指对实时数据源进行快速分析,迅速触发下一步动作的场景。实时数据对分析处理速度要求极高,数据处理规模巨大,对CPU和内存要求很高,但是通常数据不落地,对存储量要求不高。实时处理,通常通过Structured Streaming或者Flink任务实现。
3.2 诉求:
- 处理数据快
- 高吞吐量
- 抗震性强
- 可靠性高
- 水平扩展
- 多数据源支持
- 数据权限和资源隔离
- 第三方工具对接
3.3 流程图
4.融合数仓
4.1概念:
在数据慢慢呈现数据处理量大、数据处理时延低、数据处理格式多样的要求下,基于模块化存储的数据仓库重要性日益增加,但同时也带来了新的问题。
随着精准营销、客户画像、互联网平台等业务的上线,需要引入非结构化数据,以及提升对实时数据的计算处理能力,需要建立大数据平台满足上述业务需求。
4.2诉求
- 数据统一存储
- 减少数据孤岛和冗余
- 一集成(旧业务和新业务可以无缝集成)
- 大集群
4.3流程图
【大数据应用开发】大数据的概念相关推荐
- 唐诗宋词元曲等成语大全类APP开发,数据有了
开发一个包含唐诗三百首.宋词.元曲类APP 免费的接口地址:https://api.data5u.com/apiinfo/80004.html 提供诗词大全,包含唐诗.宋词.元曲.近现代诗词等涉及内容 ...
- 大数据平台开发大作业
HA&Federation介绍 Hadoop的介绍 Hadoop是一个能够对大量数据进行分布式处理的软件框架. Hadoop 以一种可靠.高效.可伸缩的方式进行数据处理. Hadoop框架 H ...
- 推荐 :数据科学与大数据技术专业特色课程研究
在我国,数据科学与大数据技术专业的建设已成为新的热点话题.在系统调研世界一流大学数据科学专业建设现状的基础上,从特色课程视角重点分析加州大学伯克利分校.约翰·霍普金斯大学.华盛顿大学.纽约大学.斯坦福 ...
- 什么是数据产品经理?数据产品经理与传统产品经理有什么区别?
数据产品经理与传统产品经理是两个重叠的角色,在职责.技能和入职要求方面有很多相似之处.但是,同时也有几个关键因素可以区分这两个角色. 让我们通过分解每个职位的角色和职责来仔细研究这些差异. 什么是产品 ...
- 【大数据开发】大数据开发的一些基本概念
大数据开发的一些基本概念 了解企业数据分析的步骤 大数据分析的步骤 大数据是什么 <1>数据是什么? 凡是对客观事物的联系以及性质进行描述的符号以及集合都属于我们的数据,数据可以是文字,图 ...
- 大数据应用开发八大基本原则
大数据应用正在从概念走向现实,而企业在大数据应用开发时,软件的弹性(Resilient)正在成为决定大数据应用成败的关键因素.弹性差的应用无法应对大规模的数据集,在测试和运营中也缺乏透明度,而且也不安 ...
- 大数据数据收集数据困难_大数据架构、大数据开发与数据分析的区别
是新朋友吗?记得先点蓝字关注我哦- 今日课程菜单 Java全栈开发 | Web前端+H5 大数据开发 | 数据分析 人工智能+Python | 人工智能+物联网 来源:小职(z_zhizuobiao ...
- 如何选择大数据软件开发公司
大数据,指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资产.大数据相关的创业有其独特性 ...
- 大数据高级开发工程师——Spark学习笔记(9)
文章目录 Spark内存计算框架 Spark Streaming Spark Streaming简介 Spark Streaming架构流程 什么是DStream DStream算子操作 1. Tra ...
最新文章
- [NOIp提高组2017]宝藏
- flex上传图片到java服务器
- python如何创建一个列表_在python中创建列表的最佳和/或最快方法
- python使用的编辑器_我用过的最好的python编辑器PyScripter
- 快克SEO站群搜狗提交工具
- MySQL中事务控制语句_Mysql事务控制语言
- 查找上一级作用域(作用域链)
- Linux下进程信息的深入分析
- java 中文转英文性能最快
- 发邮件+实习+简历+
- Notification基本通知的两种写法
- mbr mysql_主引导记录MBR的结构和作用
- CSS:全屏星星闪烁动画CSS3特效源码
- Java实现 LeetCode 383 赎金信
- java在线文档管理系统_spring-boot-doc
- uniapp 请求接口封装
- 文章总结:ASPLOS 2013 Architecture I
- 网络安全有哪些岗位,如何成为一位优秀的网络安全工程师?
- c语言设计一个学生成绩管理系统,用C语言设计的学生成绩管理系统1.doc
- 毛利率、净利率和成本利润率的区别是什么 ?
热门文章
- python 如何控制鼠标键盘
- 搜狗手机助手联合腾讯御安全 共建APP安全生态环境 1
- Linux中的进程和计划任务
- PR片头模板 超震撼大气蓝色(颜色可自定义)粒子特效开场片头PR模板
- 火柴游戏 这是一个纵横火柴棒游戏。如图[1.jpg],在3x4的格子中,游戏的双方轮流放置火柴棒。
- 多功能仪表 能耗监测系统的设计与应用
- 用计算机弹心做的乐谱,抖音计算器音乐乐谱大全_抖音计算器音乐乐谱汇总_游戏吧...
- 二、网络安全等级保护制度的前世今生
- 【Ubuntu】开启ssh服务/配置ftp内网穿透/自动连接校园网
- linux medea 软件安装,MedeA for Windows 安装