大数据之路

  • 一、总述
    • 1. 数据采集
    • 2. 数据计算
    • 3. 数据服务
    • 4. 数据应用

一、总述

数据有序、有结构地分类和存储,从而产生价值。

​ 实时:数据量大,要实时、准确

​ 离线:采集、存储、计算

数据模型、数据研发、数据质量和运维保障工作

难点

  • 高效的数据模型和体系,数据易用,避免重复建设不一致性,数据的规范性
  • 高效的数据开发工具,数据质量保障
  • 管理和控制存储计算消耗
  • 数据服务的稳定和性能

数据体系

1. 数据采集

日志采集体系:

  • Web端日志采集技术
  • APP端日志采集技术
  • 各个场景的埋点

数据传输体系:

  • 数据传输包括增量数据传输、日志数据传输
  • 支持实时流式计算、各种时间窗口的批量计算
  • 数据同步装置连异构数据库抽取时间窗口的数据

2. 数据计算

为了构建统一、规范、可共享的数据,建立两大体系:

  • 数据存储及计算云平台
  • 数据整合及管理体系

数据计算频率来看:

  • 离线数据仓库:数据计算频率以天(小时、周、月),如T-1,每天凌晨处理上一天的数据
  • 实时数据仓库:实时处理

分层理念

  • 操作数据层 Operation Data Store
  • 明细数据层 Data Warehouse Detail
  • 汇总数据层 Data Warehouse Summary
  • 应用数据层 Application Data Store

元数据模型整合:

  • 数据源元数据
  • 数据仓库元数据
  • 数据链路元数据
  • 工具类元数据
  • 数据质量元数据

3. 数据服务

接口服务化方式对外提供数据服务。针对不同的需求,构建在多种数据库之上。

可以使应用对底层数据存储透明,把海量数据高效的提供出去

4. 数据应用

数据最大化发挥价值:搜索、推荐、广告等

阿里大数据之路 总述相关推荐

  1. 数据仓库进阶 《阿里大数据之路》第二篇 数据模型篇 (完整版)

    第8章 大数据领域建模综述 此文章为学习笔记,有兴趣的小伙伴可以根据以下指引获取更多,学习内容链接如下: 视频:[一起啃书]阿里大数据之路数据仓库建模基础理论研读(已完结)_哔哩哔哩_bilibili ...

  2. 数据仓库理论进阶 - 01 《阿里大数据之路》第二篇数据模型篇

    第8章 大数据领域建模综述 此文章为学习笔记,有兴趣的小伙伴可以根据以下指引获取更多,学习内容链接如下: 视频:[一起啃书]阿里大数据之路数据仓库建模基础理论研读(已完结)_哔哩哔哩_bilibili ...

  3. 数据库仓工具箱及阿里大数据之路--阅读总结

    一.数据仓库工具箱 1.主要内容 结合业务场景,阐述 1.维度建模以及事实表的基本及相关概念. 2.根据业务主题的总线矩阵图,梳理业务流程.指标以及对应的维度. 3.关于事实表的阐述. 4.企业层面的 ...

  4. 《大数据之路:阿里巴巴大数据实践》总述-读书笔记

    目录 0.前言 1.总述 0.前言 今天花了些时间较为详细的阅读了<大数据之路:阿里巴巴大数据实践>,主要内容如下及后续篇幅. 1.总述 从下至上依次分为数据采集层.数据计算层.数据服务层 ...

  5. 阿里大数据之路:数据模型篇大总结(收藏)

    第1章 大数据领域建模综 1.1 为什么需要数据建模 有结构地分类组织和存储是我们面临的一个挑战. 数据模型强调从业务.数据存取和使用角度合理存储数据. 数据模型方法,以便在性能.成本.效率之间取得最 ...

  6. 阿里大数据之路:数据管理篇大总结

    来源:大数据技术与架构 全文共 13000个字,建议阅读 20 分钟 第1章 元数据 1.1 元数据概述 1.1.1 元数据定义 元数据打通了源数据.数据仓库.数据应用,记录了数据从产生到消费的全过程 ...

  7. Hadoop 大数据生态框架--总述

    1. 前言:什么是大数据?什么是分布式? 官方概念就不在这里赘述了,以笔者的理解,所谓大数据,不是指绝对数据量很大,经常有人说 PB,TB级大数据处理技术等等.试想如果未来的硬件性能有跨越式发展,常规 ...

  8. 万字总结阿里大数据之路-数据技术篇(建议收藏)

    目录 一.日志采集 1.1 浏览器的页面日志采集 1.2 无线客户端的日志采集 1.3 日志采集的挑战案例 二.数据同步 2.1 数据同步基础 2.2 数据同步策略 2.2.1 批量数据同步 2.2. ...

  9. 大数据之路——阿里巴巴大数据实践:总述

    阿里巴巴大数据系统架构图: Aplus.JS是web端日志采集技术 UserTask是APP端日志采集技术 TimeTunel(TT)是一个实时消息处理平台,类似于kafka+storm DataX是 ...

最新文章

  1. Java,Hello world 欢迎进入Java世界
  2. MVC模式和文档/视图结构
  3. excel模糊搜索_Excel进阶篇:星号*用法,学会这些功能的,都按时加班了
  4. 别小看无人配送,长大了就是自动驾驶的最终实现。
  5. 【CVTE Web后台开发实习生 线下面试】总结
  6. 【Web学习笔记】easyui框架
  7. compute的c语言用法,词汇精选:compute的用法和辨析
  8. AUBO E系列教育科研型机器人QA--持续更新中
  9. vue-router同一路由地址同页面切换无效解决
  10. 2.1 linux 存储结构和硬盘划分
  11. 监控易携手三大运营商,助推安徽省农行三级网扁平化管理
  12. 橙单微服务的权限部分之过滤规则
  13. 加密与解密 、 AIDE入侵检测系统 、 扫描与抓包案例
  14. ~7 ccf 2021-04-1 灰度直方图
  15. 英语作文考前必背10大类万能句型
  16. 金融粉去哪里引流?哪个平台做金融引流好?贴吧精准引流金融粉技巧
  17. 代理模式(Proxy Design Pattern)及代码实现
  18. 目标检测算法回顾之传统算法
  19. VMware虚拟机扩展磁盘空间Ubuntu(超简单)
  20. 实战 | OpenCV实现纺织物缺陷检测->脏污、油渍、线条破损(详细步骤 + Python/C++源码)

热门文章

  1. VUE酒店日期选择,时间段选择插件vue-mobile-calendar使用
  2. 五行顺口溜_纳音五行口诀
  3. poi获取单元格颜色
  4. 复旦毕业生兼职送外卖,去你的“精神内耗”
  5. Linux使用nvida-smi查看GPU类型
  6. 新版openwrt配置vlan 拨号-局域网-iptv
  7. 便签内容如何从旧手机转到新手机?
  8. 好数对的数目(C++)
  9. 为什么在POS非常火爆的时候代还系统还能抢下市场呢?
  10. 【Axure】Axure RP制作日期控件