from: http://ourmysql.com/archives/1226

通过Map/Reduce进行批处理递送到Apache Hadoop仍然是中枢环节。,但随着要从“超思维速度“分析方面获取竞争优势的压力递增,因此Hadoop(分布式文件系统)自身经历重大的发展。科技的发展允许实时查询,如Apache Drill, Cloudera Impala和Stinger Initiative正脱颖而出,新一代的资源管理Apache YARN 支持这些。

为了支持这种日渐强调实时性操作,我们正发布一个新MySQL Applier for Hadoop(用于Hadoop的MySQL Applier)组件。它能够把MySQL中变化的事务复制到Hadoop / Hive / HDFS。Applier 组件补充现有基于批处理Apache Sqoop的连接性。

这个组件(MySQL Applier for Hadoop)的复制是通过连接MySQL主服务,一旦二进制日志被提交,就读取二进制日志事务,并且把它们写到HDFS.

这个组件使用libhdfs提供的API,一个C库操作HDFS中的文件。这库由Hadoop版本预编译生成的。

它连接MySQL主服务读二进制日志,然后:

提取发生在主服务上的行插入事件

解码事件,提取插入到行的每个字段的数据,并使用满意的处理程序得到被要求的格式数据。

把它追加到HDFS 中一个文本文件。

数据库被映射为单独的目录,它们的表映射为子目录,保存在数据仓库目录。每个表的数据被写到Hive/ HDFS中文本文件(称为datafile1.txt)。数据可以用逗号格式分隔;或其他格式,那可用命令行参数来配置的。

从这个blog可以了解更多有关该组设计信息。

在这个blog已经详细讨论安装,配置,实施信息。与Hive集成也有文档。

你也可以从这个视频教程明白它的作用

MySQL同步到hadoop工具_数据同步工具Applier:MySQL数据库实时同步数据到Hadoop相关推荐

  1. MySQL推出Applier,可实时复制数据到Hadoop

    原文:http://www.iteye.com/news/27625 MySQL复制操作可以将数据从一个MySQL服务器(主)复制到其他的一个或多个MySQL服务器(从).试想一下,如果从服务器不再局 ...

  2. 主流数据库实时同步/实时ETL工具的比较

    主流数据库实时同步/ETL工具的比较

  3. mysql applier_MySQL推出Applier,可实时复制数据到Hadoop-阿里云开发者社区

    http://labs.mysql.com MySQL复制操作可以将数据从一个MySQL服务器(主)复制到其他的一个或多个MySQL服务器(从).试想一下,如果从服务器不再局限为一个MySQL服务器, ...

  4. 性能高1倍,价格低3/4!数据库实时同步新选择!

    2020年双11,云原生实时数仓首次在阿里巴巴双11核心数据场景落地,实现商业全链路实时化,毫秒级海量数据处理能力.搜索推荐业务数据开发效率提升4倍,菜鸟物流包裹数据链路从小时级优化到3分钟,考拉分钟 ...

  5. Oracle RAC+ASM 数据库实时同步

    采用Beedup实现数据库实时同步,主库环境Oracle RAC+ASM,内存64G,历史数据19T,日增归档100G,从库单实例环境,内存192G. 以下是项目实施过程遇到的主要问题: 1 历史数据 ...

  6. mysql 删除创建表分区_创建,增加,删除mysql表分区

    1.测试添加分区和删除分区 ###添加删除range分区 (1)创建一个分区: CREATE TABLE titles ( emp_no      INT NOT NULL, title        ...

  7. 最好用的_古书制作工具_古籍排版工具_古文排版_自动生成古书_多种古书风格_古籍制作工具

    古书制作工具_古籍排版工具使用方法 前言 最好用的古书制作工具, 最好用的古籍排版工具, 最好用的古籍制作工具, 最好用的古文排版, 自动生成古书, 多种古书风格 一.看下源图片见最后面 二.使用步骤 ...

  8. 最好用的_古书制作工具_古籍排版工具_古文排版_自动生成古书_多种古书风格_古籍制作工具_个性化书籍制作工具

    古书制作工具_古籍排版工具使用方法 前言 最好用的古书制作工具, 最好用的古籍排版工具, 最好用的古籍制作工具, 最好用的古文排版, 自动古书排版, 自动书籍排版, 自动生成古书, 多种古书风格 可自 ...

  9. geo数据差异分析_GEO2R:对GEO数据库中的数据进行差异分析

    GEO数据库中的数据是公开的,很多的科研工作者会下载其中的数据自己去分析,其中差异表达分析是最常见的分析策略之一,为了方便大家更好的挖掘GEO中的数据,官网提供了一个工具GEO2R, 可以方便的进行差 ...

  10. 第三方数据库同步工具_数据库实时同步和复制_mysql数据库同步工具

    SyncNavigator v8.6.2 SyncNavigator是一款功能强大的数据库同步软件,适用于SQL SERVER, MySQL,具有自动/定时同步数据.无人值守.故障自动恢复.同构/异构 ...

最新文章

  1. MapReduce原理与设计思想
  2. PostgreSQL 客户端乱码问题
  3. IPv4的核心管理功能/proc/sys/net/ipv4/*
  4. CRM中间件里parent not ok的错误消息如何处理
  5. HTML5 Canvas中绘制文本
  6. Python+socket完美实现TCP长连接保持存活
  7. 常用端口号及对应服务
  8. String和StringBuffer与StringBuilder的区别
  9. 杂七杂八(7): win7无法安装python3
  10. 基于STM32简易计算器
  11. 一个轻量级多功能免费开源web聊天室
  12. UnblockNeteaseMusic解锁网易云灰色歌曲(更新:用咪咕音乐可以免费听)
  13. 企业入职测试题目及答案_[企业入职性格测试题以与答案信息]新员工入职性格测试题...
  14. java毕业设计餐饮类网站Mybatis+系统+数据库+调试部署
  15. 阿里云主机项目根目录指向public目录下
  16. spring-boot-starter-data-elasticsearch 中测试查询语句报错failed to map source
  17. 录音文件的比特率的计算方法
  18. 【毕业设计】深度学习抽烟行为检测算法研究与实现 - python opencv YOLO
  19. 短视频怎么获得高流量?简单小技巧,让你的短视频被更多人看到
  20. QT 实现图片旋转及缩放

热门文章

  1. 2022年起重机械指挥特种作业证考试题库模拟考试平台操作
  2. [转]键盘上的符号用英语怎么读?
  3. 科学摆放鼠标可以预防鼠标手
  4. 五、再次执行hello-world.cc
  5. MIGO 行项目屏幕增强创建实例
  6. pycharm调试时出现十分缓慢,变量数据没法预览的解决方法
  7. idea从git上拉取项目没进入本地git(Filename too long问题)
  8. UIPATH Outlook邮件筛选
  9. Activiti进阶(一)——HelloWorld
  10. 刘铁岩《良师益友》系列