说明

讲师:首席架构师 李智慧

大数据平台

大数据技术应用的挑战

大数据计算的海量分布式计算方案,必然导致计算速度不是很快,即使在一个规模不太大的数据集上进行一次简单计算,MapReduce 也可能需要几分钟,Spark 快一点,也至少需要数秒的时间。

互联网产品处理用户请求,通常需要毫秒级的响应,也就是说,要在 1 秒内完成计算,大数据计算必然不能实现这样的响应要求。但是互联网应用又需要使用大数据,实现统计分析、数据挖掘、关联推荐、用户画像等一系列功能。

那么如何才能弥补互联网和大数据之间的差异呢?

大数据平台架构


蓝色部分归属于大数据平台范围。

大数据处理流程:

  1. App、浏览器的用户数据、日志、打点采集的数据、爬虫的数据存储到数据库;
  2. 数据同步系统,比如消息队列导入到大数据存储系统 HDFS;
  3. 大数据计算, 通过 MapReduce, Spark, Hive计算,结果还是写到 HDFS 里面;实时流大数据处理 Stomr, Spark Streaming, Flink;
  4. 数据同步系统,导出数据到 数据库。实时流大数据流,可以订阅结果,实时输出分析报表,进行活动方案调整,比如双十一当天活动。
  5. 应用把结果导出报表,看看应用的bug在哪里,通知开发人员去解决;
  6. 数据监控把结果导出报表,看看业务是否有什么异常,如果有就要采取相应的策略;
  7. 运营决策把结果导出报表,看看运营策略效果如何,进行运行活动调整。

纠错: 数据处理层的批量数据同步,的头应该从 大数据存储(HDFS) 指出。

数据采集与导入

将应用程序产生的数据和日志等同步到大数据系统中,由于数据源不同,这里的数据同步系统实际上是多个相关系统的组合。数据库同步通常用 Sqoop,日志同步可以选择 Flume,打点采集的数据经过格式化转换后通过 Kafka 等消息队列进行传递。

不同的数据源产生的数据质量可能差别很大,数据库中的数据也许可以直接导入大数据系统就可以使用了,而日志和爬虫产生的数据就需要进行大量的清洗、转化处理才能有效使用。

用 Sqoop 导入导出数据库数据

批处理用 Sqoop

用 Canal 实时导入 MySQL 数据

处理 MySQL 数据,可以一条一条实时同步数据。

原理: Canal 把自己伪装为 MySQL的 Slave。

用 Flume 从日志导入数据

Flume 级联部署

Flume 分布式部署

前端埋点采集数据

  • 核心数据: 用户增加、流失等,实时上报;
  • 实时数据:用户操作数据,实时上报;
  • 离线数据:非核心数据,存储到手机本地,当连接 WiFi的情况下才上传;

网络爬虫收集外部数据


爬虫一般是爬取竞争对手,或者政府机构的数据。
重点是如何突破竞争对手的反爬虫系统。

数据输出与展示

大数据计算产生的数据还是写入到 HDFS 中,但应用程序不可能到 HDFS 中读取数据,所以必须要将 HDFS 中的数据导出到数据库中。数据同步导出相对比较容易,计算产生的数据都比较规范,稍作处理就可以用 Sqoop 之类的系统导出到数据库。

这时,应用程序就可以直接访问数据库中的数据,实时展示给用户,比如展示给用户关联推荐的产品。淘宝卖家的量子魔方之类的产品,其数据都来自大数据计算产生。

除了给用户访问提供数据,大数据还需要给运营和决策层提供各种统计报告,这些数据也写入数据库,被相应的后台运营和管理人员访问,查看数据报表,看业务是否正常。

大数据平台 Lamda 架构原型

淘宝大数据平台

淘宝大数据平台导入导出数据

美团大数据平台

  • 数据源:Kafka消息队列之前,竞争对手抓取平台;
  • 实时数据处理: Storm 流式计算;
  • 离线数据处理: Camus 日志导出的中间那块;
  • 大数据引擎的结果:DM DB,HBASE;
  • 存储结果:查询中心;
  • 调度系统:上面的流程由调度系统协调。

嘀嘀实时大数据平台

物联网平台

物联网架构

物联网大数据平台

总结

5G 在物联网应用会特别大,因为数据量特别大,可能带来的产值会跟互联网是同一个数量级的。5G 可能会带来未来的产业革命。架构师要关注新技术,能带来的技术革命。

极客大学架构师训练营 大数据平台、Sqoop、Canal、Flume、物联网平台 第27课 听课总结相关推荐

  1. 极客大学架构师训练营大作业

    大作业 背景 产品需求 技术方案建议 练习要求 用例图 泳道图 部署图 时序图 用户下单&支付 快递员位置上报 系统派单 订单状态图 背景 产品需求 技术方案建议 练习要求 用例图 说明: ● ...

  2. 可复制领导力 - 极客大学架构师训练营 架构师老A

    说明 分享人: 架构师老A 分享主题:<可复制领导力> 分享提纲: 个人能力成长阶梯 东西方领导力差异 管理者角色认知 架构师老A自我介绍 老A亲爱的老师们,同学们,大家好晚上,今晚由我给 ...

  3. 20200814极客时间从零学习大数据

    极客时间从零学习大数据: Yarn将MapReduce执行引擎和资源调度分离开来, yarn是大数据平台上最主流的资源调度系统 MapReduce,Spark 这类计算框架处理的业务场景都背称作批处理 ...

  4. Java架构师,大数据架构师,高并发设计模式,机器学习知识点分享

    第一章:java精品课程目录大全 1.亿级流量电商详情页系统的大型高并发与高可用缓存架构实战 1课程介绍以及高并发高可用复杂系统中的缓存架构有哪些东西?32分钟 2基于大型电商网站中的商品详情页系统贯 ...

  5. 极客大学产品经理训练营 极客时间购买课程-大作业

    1. 标题作者修改历史 标题:[极客时间]购买课程 作者 历史 时间 易筋 创建 2021-01-09 易筋 添加购买流程图6 2021-03-02 易筋 添加购买时序图7 2021-03-16 2. ...

  6. 【送书福利-第四期】从程序员到架构师:大数据量、缓存、高并发、微服务、多团队协同等核心场景实战书籍

    大家好,我是洲洲,欢迎关注,一个爱听周杰伦的程序员.关注公众号[程序员洲洲]即可获得10G学习资料.面试笔记.大厂独家学习体系路线等-还可以加入技术交流群欢迎大家在CSDN后台私信我! 送书福利-第四 ...

  7. java 用户日志_2020年阿里巴巴最全Java、架构师、大数据、算法PPT技术栈图册

    我只截图不说话,PPT大全,氛围研发篇.算法篇.大数据.Java后端架构!除了大家熟悉的交易.支付场景外,支撑起阿里双十一交易1682亿元的"超级工程"其实包括以下但不限于客服.搜 ...

  8. java架构师和大数据架构师有哪些不同

    Java是我们熟悉的编程语言,大数据是当今科学技术的明星技术.Java和Java大数据架构的内容是否相同??两者有什么不同呢?今天小编就从Java和大数据架构的以下方面谈谈两者的区别. Java架构方 ...

  9. 极客大学产品经理训练营:数据分析与商业分析,商业分析到业务分析 第18课总结

    讲师:邱岳 1. 产品经理眼中的利润.成本.收入 利润 = 收入 - 成本 奶茶利润率极高,达到60%左右.但是奶茶盈利比较难. 所有买水的产品利润率都极高,比如可口可乐,咖啡,奶茶等. 案例:有个面 ...

  10. 极客时间《从零开始学大数据》学习总结

    2019-05-22 关键字:无 花了一周多的时间学习了李智慧老师在极客时间上开设的<从零开始学习大数据>课程后感触良多,特意花了一天的时间写了一份总结,算是为我的这份课程的学习告个别. ...

最新文章

  1. 在Caffe中调用TensorRT提供的MNIST model
  2. 【MATLAB】符号数学计算(二):符号运算中的运算符和函数
  3. Bash脚本获取自身完整路径的可靠方法
  4. linux who命令实现,linux下 who命令(3)(示例代码)
  5. cent os重置mysql,linux mysql 能登陆不能修改用户(cent os 6.2)解决思路
  6. @font-face
  7. py程序员写代码的习惯养成 防止想到什么写什么
  8. php连接mysql学习过程中遇到的各种问题总结
  9. protobuf for java_ProtoBuf 的java使用
  10. 转:敏捷方式scrum 方案
  11. 吴恩达深度学习笔记 第二章作业1
  12. Nginx 安装与运行
  13. goland设置goroot_goland安装
  14. ios 手游SDK 开发教程
  15. ECharts图表组件与FusionCharts图表组件对比
  16. 中国象棋AI实现01
  17. 一个人不孤单 想一个人才孤单
  18. python学习之路08(正则表达式和网络)
  19. 战地1如何修改服务器,战地1修改服务器地址
  20. 【Java】Java获取昨天日期的正确姿势

热门文章

  1. mysql 雷同数值连续出现次数_MySql中关于某列中相同数值连续出现次数的统计
  2. springCloud Finchley 实战入门(基于springBoot 2.0.3)【五 Hystrix 服务容错保护】
  3. 实力封装:Unity打包AssetBundle(三)
  4. 分布式本质论:高吞吐、高可用、可扩展 (1)
  5. 高德发布十一出行预测:全国高速流量增长7%
  6. HDU 4278 卡特兰,区间DP
  7. 7-8-无向图的关节点-图-第7章-《数据结构》课本源码-严蔚敏吴伟民版
  8. java类Writer和类Reader小结
  9. WebServer Vs ApplicationServer
  10. 基于各系统平台(RedHat Linux、SUSE Linux、CentOS、SUN Solaris10) FTP服务的配