数据中心赵兴申 最后更新于2018/8/7

关键词:数据接入,数据迁移,实时同步,数据库变更订阅中心

提纲:

1.      移山产生背景

2.      技术栈

3.      移山数据处理能力

4.      小结

移山 是数据中心推出的异构数据源之间的数据迁移自动化平台,它旨在解决第三方ISV数据接入、实时数据(单向/双向)同步、大数据集群间的数据迁移等问题

移山 前台部分由刘永飞,后台由赵兴申、谭清勇等同学开发完成。2018年3月9日移山(YiShan)一期上线运行。

0x00 移山产生背景

随着数屏、魔盒、数据开放实验室等大数据组件上线运行,我司数据仓库体系得到了进一步的发展,生产效率进一步提高,但是在数据接入、数据迁移、分析结果输出还存在以下问题:

  • 业务库数据进入仓库流程复杂:

    • 对于数据仓库中不存在的业务表,数据挖掘工程师需要先在 数据库变更订阅中心 配置该表,数据才会流向HBase(数据湖),然后还需要编码开发才能将HBase中的数据同步至数据仓库。这个过程操作复杂,极大制约了数据的开发效率;

  • 计算任务和结果输出未完全分离:

    • 我们的离线计算任务采用 spark 进行计算,任务计算完成后需要将分析结果输出到下游数据使用方(一般输出到 MySQL 数据库),数据计算和结果输出封装在一个 spark 任务中。计算结果数据量大的情况下,经常会导致 spark 任务不能正常结束或假死;

  • 第三方数据接入方案不成熟:

    • 对于第三方数据接入,我们之前有一个简易版的数据采集服务,采用内存队列方式处理接入数据,数据量大的情况下,经常会造成接口访问超时,影响数据的完整性。

为了解决上述问题,我们需要一个完整的数据接入、同步、迁移解决方案,移山项目应运而生。同时我们要求可视化配置,可排查(最好是全链路可排查),可调度,支持下层集群服务(如kafka、hbase等)的扩容或缩容,最重要的一点是自带监控报警。

0x01 技术栈

0x02 移山数据处理能力

2.1 三大数据通道

数据接入、数据迁移、实时同步三大数据通道涵盖所有业务场景。

2.2 完备的监控报警机制

  • 报警设置

系统根据不同数据通道,采用相应的监控报警机制,例如:对数据接入、数据迁移通道采用达到一定的重试阈值,才进行报警;对实时同步这种不能进行重试的任务,立即报警。

  • 运行监控

对数据接入、数据迁移提供详细的任务运行监控,并详细记载任务执行日志、错误日志、成功记录数、失败记录数等信息。

2.3 良好的数据、异常分析能力

移山系统提供了数据分析,帮助了解每日数据同步记录数、执行时长等信息。

0x03 小结

综上所述,移山的三大数据通道已全部涵盖日常数据迁移场景。移山以组件的方式集成到数据仓库体系中,形成如下图所示的大数据技术支撑体系。

-EOF-

转载于:https://www.cnblogs.com/zhengyun_ustc/p/yishan.html

#研发解决方案#数据移山:接入、迁移、同步一站式相关推荐

  1. #研发解决方案#数据开放实验室:再战即席查询和数据开放

    创建于2017/9/7 最后更新于2017/9/16 关键词:大数据,HBase,数据开放,即席查询,数据授权,HDFS,Zeppelin,Kylin, 提纲: 解决什么场景 即席查询的发展历程 五个 ...

  2. hbase集群 数据写入_HBase神器 | BDSHBase集群之间数据迁移同步的利器

    BDS定位 BDS针对开源HBase目前存在的同步迁移痛点,自主研发的一套数据迁移的平台,用于HBase集群的无缝迁移.主备容灾.异地多活.在线离线业务分离.HBase数据归档.对接RDS实时增量数据 ...

  3. 数据迁移同步平台CloudCanal免费社区版正式发布,诸多功能特性等你体验!

    关于CloudCanal 产品介绍 2021年8月1日,经历近2年的准备,CloudCanal社区版正式与大家见面了.CloudCanal是一款由ClouGence公司发行的集结构迁移.数据全量迁移/ ...

  4. 一张图看懂混合云数据同步一站式解决方案

    为什么80%的码农都做不了架构师?>>>    摘要: 针对不同数据库间数据实时同步难的问题,日前,阿里云宣布推出混合云数据同步一站式解决方案,便于广大云产品用户实现实时数据同步的混 ...

  5. 跨越异构鸿沟,Redis 迁移同步过程中的挑战与解决方案

    随着云计算十余年的高速发展,作为目前可见的最新阶段,多云正在快步大踏步前进.而多云趋势所带来得数据云间迁移,也逐步常态化.因此,缓存 Redis 已成为高并发场景下提升数据访问速度的标配. 不仅是数据 ...

  6. #研发解决方案介绍#基于ES的搜索+筛选+排序解决方案

    郑昀 基于胡耀华和王超的设计文档 最后更新于2014/12/3 关键词:ElasticSearch.Lucene.solr.搜索.facet.高可用.可伸缩.mongodb.SearchHub.商品中 ...

  7. 阿里云开源 image-syncer 工具,容器镜像迁移同步的终极利器

    为什么要做这个工具? 由于阿里云上的容器服务 ACK 在使用成本.运维成本.方便性.长期稳定性上大大超过公司自建自维护 Kubernets 集群,有不少公司纷纷想把之前自己维护 Kubernetes ...

  8. 数据湖10:新型大数据解决方案,数据湖如何建设?

    系列专题:数据湖系列文章 随着互联网的加速发展和移动互联网的快速兴起,数据采集更方便.数据种类更丰富,行为轨迹.语音视频等非结构化数据爆发式增长,数据规模进一步扩大.在新形势下,传统的数据库.数据仓库 ...

  9. 【腾讯代码文化】人均3.6万行代码,《腾讯研发大数据报告》正式发布!

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 作为国内科技巨头,腾讯的产品早已覆盖到了每个国人手中,不过这家公司对于自身技术一直 ...

最新文章

  1. 用python 玩微信小程序“跳一跳”
  2. 20155209 林虹宇 Exp9 Web安全基础
  3. 20145227鄢曼君《网络对抗》Web安全基础实践
  4. 利用百度LBS做一个小Demo
  5. 函数式编程很难,这正是你要学习它的原因
  6. 开发类似vs的黑色风格_传闻:2020年《使命召唤》将是《黑色行动》重启作品
  7. eq linux_《Linux设备驱动程序》(十二)——时间操作(一)
  8. vue+webpack5项目中全局引入scss
  9. android社交软件源码,原生仿微信社交社区即时通讯聊天双端APP源码开源 带PC客户端...
  10. c语言程序设计职工信息管理系统,C语言程序设计-职工信息管理系统.doc
  11. 超薄内置DSP数字功放芯片
  12. 各纬度气候分布图_高中地理丨各种气候类型分布图+气候问题全总结,再也不怕搞混了!...
  13. iapp卸载指定软件代码,iapp删除文件夹代码
  14. rdt不同版本(rdt1.0,rdt2.0,rdt2.1,rdt2.2,rdt3.0)协议的特点以及发送端接收端的FSM
  15. 硬件防火墙和软件防火墙的比较
  16. 如何让CDC类USB设备批量接收64字节以上数据
  17. 关于laravel中如何在where中使用in这回事
  18. zabbix 主动监控与被动监控
  19. java搭建安卓服务器_无框架完整搭建安卓app及其服务端(一)
  20. STM32F103单片机驱动TM1637数码管显示模块

热门文章

  1. idea创建文件自定义注释
  2. Linux文件夹含义
  3. sqlserver数据库迁移mysql_在项目中迁移MS SQLServer到Mysql数据库,实现MySQL数据库的快速整合...
  4. c mysql 中文字符_在C#和MySQL中存取中文字符时避免乱码的方法
  5. c语言复制后无法运行,刚学C语言,在Linux下写的代码能正常编译,复制到VC下就无法运行...
  6. 计算机系统通过执行通道程序完成数据,批量数据传送
  7. 徐州事业单位计算机软件类,徐州计算机办公应用软件
  8. 计算机配件制作表格,CAD教程 中望CAD表格功能创建零件明细表
  9. python苹果下载软件助手哪个好_Mac上有什么实用的必备软件?
  10. 内蒙古广播电视大学计算机专修学院电话,内蒙古广播电视大学