阿里大数据之路 总述
大数据之路
- 一、总述
- 1. 数据采集
- 2. 数据计算
- 3. 数据服务
- 4. 数据应用
一、总述
数据有序、有结构地分类和存储,从而产生价值。
实时:数据量大,要实时、准确
离线:采集、存储、计算
数据模型、数据研发、数据质量和运维保障工作
难点:
- 高效的数据模型和体系,数据易用,避免重复建设和不一致性,数据的规范性
- 高效的数据开发工具,数据质量保障
- 管理和控制存储和计算消耗
- 数据服务的稳定和性能
数据体系:
1. 数据采集
日志采集体系:
- Web端日志采集技术
- APP端日志采集技术
- 各个场景的埋点
数据传输体系:
- 数据传输包括增量数据传输、日志数据传输
- 支持实时流式计算、各种时间窗口的批量计算
- 数据同步装置连异构数据库抽取时间窗口的数据
2. 数据计算
为了构建统一、规范、可共享的数据,建立两大体系:
- 数据存储及计算云平台
- 数据整合及管理体系
数据计算频率来看:
- 离线数据仓库:数据计算频率以天(小时、周、月),如T-1,每天凌晨处理上一天的数据
- 实时数据仓库:实时处理
分层理念:
- 操作数据层 Operation Data Store
- 明细数据层 Data Warehouse Detail
- 汇总数据层 Data Warehouse Summary
- 应用数据层 Application Data Store
元数据模型整合:
- 数据源元数据
- 数据仓库元数据
- 数据链路元数据
- 工具类元数据
- 数据质量元数据
3. 数据服务
接口服务化方式对外提供数据服务。针对不同的需求,构建在多种数据库之上。
可以使应用对底层数据存储透明,把海量数据高效的提供出去
4. 数据应用
数据最大化发挥价值:搜索、推荐、广告等
阿里大数据之路 总述相关推荐
- 数据仓库进阶 《阿里大数据之路》第二篇 数据模型篇 (完整版)
第8章 大数据领域建模综述 此文章为学习笔记,有兴趣的小伙伴可以根据以下指引获取更多,学习内容链接如下: 视频:[一起啃书]阿里大数据之路数据仓库建模基础理论研读(已完结)_哔哩哔哩_bilibili ...
- 数据仓库理论进阶 - 01 《阿里大数据之路》第二篇数据模型篇
第8章 大数据领域建模综述 此文章为学习笔记,有兴趣的小伙伴可以根据以下指引获取更多,学习内容链接如下: 视频:[一起啃书]阿里大数据之路数据仓库建模基础理论研读(已完结)_哔哩哔哩_bilibili ...
- 数据库仓工具箱及阿里大数据之路--阅读总结
一.数据仓库工具箱 1.主要内容 结合业务场景,阐述 1.维度建模以及事实表的基本及相关概念. 2.根据业务主题的总线矩阵图,梳理业务流程.指标以及对应的维度. 3.关于事实表的阐述. 4.企业层面的 ...
- 《大数据之路:阿里巴巴大数据实践》总述-读书笔记
目录 0.前言 1.总述 0.前言 今天花了些时间较为详细的阅读了<大数据之路:阿里巴巴大数据实践>,主要内容如下及后续篇幅. 1.总述 从下至上依次分为数据采集层.数据计算层.数据服务层 ...
- 阿里大数据之路:数据模型篇大总结(收藏)
第1章 大数据领域建模综 1.1 为什么需要数据建模 有结构地分类组织和存储是我们面临的一个挑战. 数据模型强调从业务.数据存取和使用角度合理存储数据. 数据模型方法,以便在性能.成本.效率之间取得最 ...
- 阿里大数据之路:数据管理篇大总结
来源:大数据技术与架构 全文共 13000个字,建议阅读 20 分钟 第1章 元数据 1.1 元数据概述 1.1.1 元数据定义 元数据打通了源数据.数据仓库.数据应用,记录了数据从产生到消费的全过程 ...
- Hadoop 大数据生态框架--总述
1. 前言:什么是大数据?什么是分布式? 官方概念就不在这里赘述了,以笔者的理解,所谓大数据,不是指绝对数据量很大,经常有人说 PB,TB级大数据处理技术等等.试想如果未来的硬件性能有跨越式发展,常规 ...
- 万字总结阿里大数据之路-数据技术篇(建议收藏)
目录 一.日志采集 1.1 浏览器的页面日志采集 1.2 无线客户端的日志采集 1.3 日志采集的挑战案例 二.数据同步 2.1 数据同步基础 2.2 数据同步策略 2.2.1 批量数据同步 2.2. ...
- 大数据之路——阿里巴巴大数据实践:总述
阿里巴巴大数据系统架构图: Aplus.JS是web端日志采集技术 UserTask是APP端日志采集技术 TimeTunel(TT)是一个实时消息处理平台,类似于kafka+storm DataX是 ...
最新文章
- Java,Hello world 欢迎进入Java世界
- MVC模式和文档/视图结构
- excel模糊搜索_Excel进阶篇:星号*用法,学会这些功能的,都按时加班了
- 别小看无人配送,长大了就是自动驾驶的最终实现。
- 【CVTE Web后台开发实习生 线下面试】总结
- 【Web学习笔记】easyui框架
- compute的c语言用法,词汇精选:compute的用法和辨析
- AUBO E系列教育科研型机器人QA--持续更新中
- vue-router同一路由地址同页面切换无效解决
- 2.1 linux 存储结构和硬盘划分
- 监控易携手三大运营商,助推安徽省农行三级网扁平化管理
- 橙单微服务的权限部分之过滤规则
- 加密与解密 、 AIDE入侵检测系统 、 扫描与抓包案例
- ~7 ccf 2021-04-1 灰度直方图
- 英语作文考前必背10大类万能句型
- 金融粉去哪里引流?哪个平台做金融引流好?贴吧精准引流金融粉技巧
- 代理模式(Proxy Design Pattern)及代码实现
- 目标检测算法回顾之传统算法
- VMware虚拟机扩展磁盘空间Ubuntu(超简单)
- 实战 | OpenCV实现纺织物缺陷检测->脏污、油渍、线条破损(详细步骤 + Python/C++源码)