Mooc 大数据计算技术

1. 大数据计算体系

  • 数据存储系统:数据采集、清洗抽取与建模(异构转为标准化,键值对)、数据存储
    数据建模:概念模型(基于需求)、逻辑模型(数据实体细节)、物理模型(数据存储实现)
    数据存储结构:数据库->逻辑存储(表达相互关系),分布式文件系统->物理存储(在存储介质上的数据排列方式)
  • 数据处理系统:用计算模型采用计算架针对算法设计计算流程
  • 数据应用系统:各类大数据应用、可视化,针对具体行业和不同的客户需求

2. 大数据存储系统

  1. 分布式文件系统(底层,物理)
    HDFS:主节点、从节点、备份节点
    优点:开源、易开发、设备廉价、扩展性佳
    缺点:时延、不适合处理小文件、不支持读取单个数据
  2. 分布式数据库(NoSQL)
    不用预定义数据结构、扩展性佳、数据划分、不需要数据同步
    4种类型:key-value, column family-oriented, document-oriented, graph-oriented
  3. 统一数据访问接口
    提供数据展示、存储、管理界面
    传统的接口软件:c+±>ODBC Java->JDBC
  4. 统一数据读写接口(实现c++&Java)

3. 数据处理系统

支持不同类型的计算模型,用不同的计算平台和架构实现支持。
计算模型:抽象结构+计算范式+算法
计算架构:系统架构+软件设计+实现方法(明确针对什么样的计算模型)

  1. MapReduce 计算模型
  • 分治法:划分成数据子集(map)->中间结果->调用reduce(数据融合)->汇总成计算结果
  • 为什么处理速度慢?中间数据存储到本地磁盘上,需要读取。
  • 支持并行计算
  • 计算流程:split->map->collect&sort->reduce->store
  1. 其他计算模型
    图并行计算模型(有向图)、流计算模型(动态计算)

4. 数据应用系统

各公司的data solution,数据可视化

【大数据】 大数据计算系统相关推荐

  1. 面向政府治理大数据的高性能计算系统

    面向政府治理大数据的高性能计算系统 吴维刚1, 常亮2, 任江涛1, 古天龙2 1 中山大学数据科学与计算机学院,广东 广州 510006 2 桂林电子科技大学计算机与信息安全学院,广西 桂林 541 ...

  2. 大数据处理系统都有哪些?(数据查询分析计算系统篇)

    大数据的出现使得数据的处理效率提高不少,这得益于大数据的数据处理系统,而大数据的处理系统有很多.就目前而言,主要的大数据处理系统有数据查询分析计算系统.批处理系统.流式计算系统.迭代计算系统.图计算系 ...

  3. 终于有人把AI、BI、大数据、数据科学讲明白了

    导读:本文概述数据.分析.商业智能.报表.大数据.数据科学.边缘分析.信息学以及人工智能和认知计算这些基本概念. 作者:格雷戈里·S. 纳尔逊(Gregory S. Nelson) 来源:大数据DT( ...

  4. 阿里巴巴双11数据大屏背后的实时计算处理

    作者:藏六.黄晓锋.同杰 1.双11数据大屏的实时计算架构 1.1 背景 2016年的双11我们的实时数据直播大屏有三大战场,它们分别是面向媒体的数据大屏.面向商家端的数据大屏.面向阿里巴巴内部业务运 ...

  5. 大数据计算技术-数据计算处理系统-计算模式(计算模型)

    大数据计算技术-数据计算处理系统-计算模式(计算模型) 1计算模式(计算模型) 1.1批处理计算模式:数据计算处理系统例子:MapReduce计算模型 1.2流计算模式 1.2.1定义 1.2.2流计 ...

  6. 【双11背后的技术】双11数据大屏背后的实时计算处理

    选自<不一样的技术创新--阿里巴巴2016双11背后的技术>,全书目录:https://yq.aliyun.com/articles/68637 本文作者:藏六  黄晓锋  同杰 1. 双 ...

  7. 第六章 大数据,6.1 双11数据大屏背后的实时计算处理(作者:藏六 黄晓锋 同杰)...

    6.1 双11数据大屏背后的实时计算处理 1. 双11数据大屏的实时计算架构 1.1 背景 2016年的双11我们的实时数据直播大屏有三大战场,它们分别是面向媒体的数据大屏.面向商家端的数据大屏.面向 ...

  8. 用 Python 制作数据大屏,超简单

    作者 | 俊欣 来源 | 关于数据分析与可视化 今天我们用Streamlit模块来制作一个数据面板,将数据更加直观地呈现给别人观看,整个页面大致如下图所示: 制作工具栏 在页面的左侧是一个工具栏,工具 ...

  9. 3000 字推荐一个可视化神器,50 行 Python 代码制作数据大屏

    作者 | 俊欣 来源 | 关于数据分析与可视化 今天小编给大家分享一个制作数据大屏的工具,非常的好用,100行左右的Python代码就可以制作出来一个完整的数据大屏,并且代码的逻辑非常容易理解. Py ...

  10. 工资8000以下的程序员注意了:《零coding数据大屏实战宝典.pdf》

    马云曾说:"整个世界将变成数据,这还只是数据时代的开始.新浪潮即将来临,很多就业机会将被夺走.有些人会赶上潮流,变得富有和成功.但是对那些落后的人,未来将是痛苦的. 大数据从2013年一路发 ...

最新文章

  1. 想懂量子力学?让你养的猫教你
  2. 洛谷 - P1381 - 单词背诵 - 哈希 - 尺取
  3. Struts2 Convention Plugin ( struts2 零配置 )
  4. Http的持久连接和管线化
  5. 《集体智慧编程》笔记(1 / 12):集体智慧导言
  6. springboot test_精益求精!Spring Boot 知识点全面回顾,带你重新细读源码!
  7. linux Centos下mysql安装
  8. 表情识别(一)--传统方法概述
  9. vim编辑器设置行号、缩进、tab键
  10. SPD中赋值连接字段
  11. 计算机图形学の三种经典画直线算法
  12. python自回归模型_21向量自回归模型
  13. 2018计算机cpu调研,2018最新电脑处理器天梯图,进来了解下
  14. 《IDSSIM:基于改进的疾病语义相似度方法的lncRNA功能相似度计算模型》论文梳理
  15. 选购国外虚拟主机的一些心得体会
  16. OpenCV基础入门【C++及python语言】
  17. 清华博士接亲被要求现场写代码,5 分钟做出一颗爱心樱花3D相册(HTML+CSS+JavaScript)
  18. python中如何使用sin、cos等三角函数
  19. 吃透这JAVA并发十二核心,面试官都得对你刮目相看
  20. 机器学习笔记:卡尔曼滤波

热门文章

  1. Git提交代码到新仓库(--mirror)
  2. 求二维形状渐变的算法
  3. JAVA简单连接数据库(Mysql)
  4. K8S的StorageClass实战(NFS)
  5. angular前后台通讯-笔记(1)
  6. 使用Matlab画出复杂网络博弈中热图(三维图)(学术论文)
  7. 数学之美笔录(1):统计语言模型
  8. Swift - GCD 和延时调用
  9. 美国大学本科计算机本科排名,2017美国大学计算机排名本科
  10. android扫码二维码识别二维码