文章目录

  • 第1章 Maxwell简介
    • 1.1 Maxwell概述
    • 1.2 Maxwell输出数据格式
  • 第2章 Maxwell原理
    • 2.1 MySQL二进制日志
    • 2.2 MySQL主从复制
    • 2.3 Maxwell原理
  • 第3章 Maxwell部署
    • 3.1 安装Maxwell
    • 3.2配置MySQL
      • 3.2.1启用MySQLBinlog
      • 3.2.2 创建Maxwell所需数据库和用户
    • 3.3 配置Maxwell
  • 第4章 Maxwell使用
    • 4.1 启动Kafka集群
    • 4.2 Maxwell启停**
    • 4.2 增量数据同步
    • 4.3 历史数据全量同步
      • 4.3.1 Maxwell-bootstrap
      • 4.3.2 boostrap数据格式

第1章 Maxwell简介

1.1 Maxwell概述

​ Maxwell 是由美国Zendesk公司开源,用Java编写的MySQL变更数据抓取软件。它会实时监控Mysql数据库的数据变更操作(包括insert、update、delete),并将变更数据以 JSON 格式发送给 Kafka、Kinesi等流数据处理平台。

​ 官网地址:http://maxwells-daemon.io/

1.2 Maxwell输出数据格式

注:Maxwell输出的json字段说明:

字段 解释
database 变更数据所属的数据库
table 表更数据所属的表
type 数据变更类型
ts 数据变更发生的时间
xid 事务id
commit 事务提交标志,可用于重新组装事务
data 对于insert类型,表示插入的数据;对于update类型,标识修改之后的数据;对于delete类型,表示删除的数据
old 对于update类型,表示修改之前的数据,只包含变更字段

第2章 Maxwell原理

Maxwell的工作原理是实时读取MySQL数据库的二进制日志(Binlog),从中获取变更数据,再将变更数据以JSON格式发送至Kafka等流处理平台。

2.1 MySQL二进制日志

二进制日志(Binlog)是MySQL服务端非常重要的一种日志,它会保存MySQL数据库的所有数据变更记录。Binlog的主要作用包括主从复制和数据恢复。Maxwell的工作原理和主从复制密切相关。

2.2 MySQL主从复制

MySQL的主从复制,就是用来建立一个和主数据库完全一样的数据库环境,这个数据库称为从数据库。

1)主从复制的应用场景如下:

(1)做数据库的热备:主数据库服务器故障后,可切换到从数据库继续工作。

(2)读写分离:主数据库只负责业务数据的写入操作,而多个从数据库只负责业务数据的查询工作,在读多写少场景下,可以提高数据库工作效率。

2)主从复制的工作原理如下:

(1)Master主库将数据变更记录,写到二进制日志(binary log)中

(2)Slave从库向mysql master发送dump协议,将master主库的binary log events拷贝到它的中继日志(relay log)

(3)Slave从库读取并回放中继日志中的事件,将改变的数据同步到自己的数据库。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9HrAAKGU-1647394817600)(file:///C:\Users\LIUMIN~1\AppData\Local\Temp\ksohtml\wps4879.tmp.jpg)]

2.3 Maxwell原理

很简单,就是将自己伪装成slave,并遵循MySQL主从复制的协议,从master同步数据。

第3章 Maxwell部署

3.1 安装Maxwell

1)下载安装包

(1)地址:https://github.com/zendesk/maxwell/releases/download/v1.29.2/maxwell-1.29.2.tar.gz

注:Maxwell-1.30.0及以上版本不再支持JDK1.8

(2)将安装包上传到hadoop102节点的/opt/software目录

注:此处使用教学版安装包,教学版对原版进行了改造,增加了自定义Maxwell输出数据中ts时间戳的参数,生产环境请使用原版。

2)将安装包解压至 /opt/module

[liumingze@hadoop102 maxwell]$ tar -zxvf maxwell-1.29.2.tar.gz -C /opt/module/

3)修改名称

[liumingze@hadoop102 module]$ mv maxwell-1.29.2/ maxwell

3.2配置MySQL

3.2.1启用MySQLBinlog

MySQL服务器的Binlog默认是未开启的,如需进行同步,需要先进行开启。

1)修改MySQL配置文件/etc/my.cnf

[liumingze@hadoop102 ~]$ sudo vim /etc/my.cnf

2)增加如下配置

[mysqld]#数据库id
server-id = 1#启动binlog,该参数的值会作为binlog的文件名
log-bin=mysql-bin#binlog类型,maxwell要求为row类型
binlog_format=row#启用binlog的数据库,需根据实际情况作出修改
binlog-do-db=gmall

注:MySQL Binlog模式

Statement-based:基于语句,Binlog会记录所有写操作的SQL语句,包括insert、update、delete等。

  • 优点: 节省空间

  • 缺点: 有可能造成数据不一致,例如insert语句中包含now()函数。

Row-based:基于行,Binlog会记录每次写操作后被操作行记录的变化。

  • 优点:保持数据的绝对一致性。

  • 缺点:占用较大空间。

mixed:混合模式,默认是Statement-based,如果SQL语句可能导致数据不一致,就自动切换到Row-based。

Maxwell要求Binlog采用Row-based模式。

3)重启MySQL服务

[liumingze@hadoop102 ~]$ sudo systemctl restart mysqld

3.2.2 创建Maxwell所需数据库和用户

Maxwell需要在MySQL中存储其运行过程中的所需的一些数据,包括binlog同步的断点位置(Maxwell支持断点续传)等等,故需要在MySQL为Maxwell创建数据库及用户。

1)创建数据库

msyql> CREATE DATABASE maxwell;

2)调整MySQL数据库密码级别

mysql> set global validate_password_policy=0;mysql> set global validate_password_length=4;

3)创建Maxwell用户并赋予其必要权限

mysql> CREATE USER 'maxwell'@'%' IDENTIFIED BY 'maxwell';mysql> GRANT ALL ON maxwell.* TO 'maxwell'@'%';mysql> GRANT SELECT, REPLICATION CLIENT, REPLICATION SLAVE ON *.* TO 'maxwell'@'%';

3.3 配置Maxwell

1)修改Maxwell配置文件名称

[liumingze@hadoop102 maxwell]$ cd /opt/module/maxwell

[liumingze@hadoop102 maxwell]$ cp config.properties.example config.properties

2)修改Maxwell配置文件

[liumingze@hadoop102 maxwell]$ vim config.properties#Maxwell数据发送目的地,可选配置有stdout|file|kafka|kinesis|pubsub|sqs|rabbitmq|redis
producer=kafka
#目标Kafka集群地址
kafka.bootstrap.servers=hadoop102:9092,hadoop103:9092
#目标Kafka topic,可静态配置,例如:maxwell,也可动态配置,例如:%{database}_%{table}
kafka_topic=maxwell
#MySQL相关配置
host=hadoop102
user=maxwell
password=maxwell
jdbc_options=useSSL=false&serverTimezone=Asia/Shanghai

第4章 Maxwell使用

4.1 启动Kafka集群

若Maxwell发送数据的目的地为Kafka集群,则需要先确保Kafka集群为启动状态。

4.2 Maxwell启停**

1)启动Maxwell

[liumingze@hadoop102 ~]$ /opt/module/maxwell/bin/maxwell --config /opt/module/maxwell/config.properties --daemon

2)停止Maxwell

[liumingze@hadoop102 ~]$ ps -ef | grep maxwell | grep -v grep | grep maxwell | awk '{print $2}' | xargs kill -9

3)Maxwell启停脚本

(1)创建并编辑Maxwell启停脚本

[liumingze@hadoop102 bin]$ vim mxw.sh

(2)脚本内容如下

#!/bin/bashMAXWELL_HOME=/opt/module/maxwellstatus_maxwell(){result=`ps -ef | grep maxwell | grep -v grep | wc -l`return $result
}start_maxwell(){status_maxwellif [[ $? -lt 1 ]]; thenecho "启动Maxwell"$MAXWELL_HOME/bin/maxwell --config $MAXWELL_HOME/config.properties --daemonelseecho "Maxwell正在运行"fi
}stop_maxwell(){status_maxwellif [[ $? -gt 0 ]]; thenecho "停止Maxwell"ps -ef | grep maxwell | grep -v grep | awk '{print $2}' | xargs kill -9elseecho "Maxwell未在运行"fi
}case $1 instart )start_maxwell;;stop )stop_maxwell;;restart )stop_maxwellstart_maxwell;;
esac

4.2 增量数据同步

1)启动Kafka消费者

[liumingze@hadoop102 kafka]$ bin/kafka-console-consumer.sh --bootstrap-server hadoop102:9092 --topic maxwell

2)模拟生成数据

[liumingze@hadoop102 db_log]$ java -jar gmall2020-mock-db-2021-01-22.jar

3)观察Kafka消费者

{"database":"gmall","table":"comment_info","type":"insert","ts":1634023510,"xid":1653373,"xoffset":11998,"data":{"id":1447825655672463369,"user_id":289,"nick_name":null,"head_img":null,"sku_id":11,"spu_id":3,"order_id":18440,"appraise":"1204","comment_txt":"评论内容:12897688728191593794966121429786132276125164551411","create_time":"2020-06-16 15:25:09","operate_time":null}}{"database":"gmall","table":"comment_info","type":"insert","ts":1634023510,"xid":1653373,"xoffset":11999,"data":{"id":1447825655672463370,"user_id":774,"nick_name":null,"head_img":null,"sku_id":25,"spu_id":8,"order_id":18441,"appraise":"1204","comment_txt":"评论内容:67552221621263422568447438734865327666683661982185","create_time":"2020-06-16 15:25:09","operate_time":null}}

4.3 历史数据全量同步

​ 上一节,我们已经实现了使用Maxwell实时增量同步MySQL变更数据的功能。但有时只有增量数据是不够的,我们可能需要使用到MySQL数据库中从历史至今的一个完整的数据集。这就需要我们在进行增量同步之前,先进行一次历史数据的全量同步。这样就能保证得到一个完整的数据集。

4.3.1 Maxwell-bootstrap

​ Maxwell提供了bootstrap功能来进行历史数据的全量同步,命令如下:

[liumingze@hadoop102 maxwell]$ /opt/module/maxwell/bin/maxwell-bootstrap --database gmall --table user_info --config /opt/module/maxwell/config.properties

4.3.2 boostrap数据格式

采用bootstrap方式同步的输出数据格式如下:

{"database": "fooDB","table": "barTable","type": "bootstrap-start","ts": 1450557744,"data": {}}{"database": "fooDB","table": "barTable","type": "bootstrap-insert","ts": 1450557744,"data": {"txt": "hello"}}{"database": "fooDB","table": "barTable","type": "bootstrap-insert","ts": 1450557744,"data": {"txt": "bootstrap!"}}{"database": "fooDB","table": "barTable","type": "bootstrap-complete","ts": 1450557744,"data": {}}

注意事项:

1)第一条type为bootstrap-start和最后一条type为bootstrap-complete的数据,是bootstrap开始和结束的标志,不包含数据,中间的type为bootstrap-insert的数据才包含数据。

2)一次bootstrap输出的所有记录的ts都相同,为bootstrap开始的时间。

大数据之MaxWell相关推荐

  1. 大数据工具Maxwell的使用

    1.Maxwell简介 Maxwell 是由美国Zendesk公司开源,用Java编写的MySQL变更数据抓取软件.它会实时监控Mysql数据库的数据变更操作(包括insert.update.dele ...

  2. Maxwell数据库数据采集-大数据week12-DAY1-Maxwell

    文章目录 前言 Maxwell 数据库数据实时采集 1.Maxwell 简介 2.Mysql Binlog介绍 2.1 Binlog 简介 2.2 Binlog 的日志格式 3.Mysql 实时数据同 ...

  3. 2021年大数据Spark(四十二):SparkStreaming的Kafka快速回顾与整合说明

    目录 Kafka快速回顾 消息队列: 发布/订阅模式: Kafka 重要概念: 常用命令 整合说明 两种方式 两个版本API 在实际项目中,无论使用Storm还是SparkStreaming与Flin ...

  4. 大数据生态圈常用组件(二):概括介绍、功能特性、适用场景

    三更灯火五更鸡,正是男儿读书时. 小编整理了一些常用的大数据组件,使用场景及功能特性,希望对后浪有所帮助. 分类 名称 简介 功能特点 使用场景 大数据存储 HDFS HDFS是一个分布式的文件系统, ...

  5. 大数据周会-本周学习内容总结07

    目录 01[hadoop] 1.1[编写集群分发脚本xsync] 1.2[集群部署规划] 1.3[Hadoop集群启停脚本] 02[HDFS] 2.1[HDFS的API操作] 03[MapReduce ...

  6. 大数据架构选型与设计

    大数据架构选型与设计 1.1 如何构建大数据平台? 1.1.1 数据库与ER建模 1.1.1.1 数据库(DataBase) 数据库是按照数据结构来组织.存储和管理数据的仓库,是一个长期存储在计算机内 ...

  7. 大数据【Java开发转大数据学习路线分解】(不断细化ing)

    技术点: 将基础的数仓搭建沉淀成自己的实践方法论 提高大数据实时处理平台的稳定性和高效性 提升自己分析定位及解决问题的能力 既懂得平台开发又懂得算法原理和应用 注重风控系统,监控大数据平台安全 前后端 ...

  8. 大数据时代,数据实时同步解决方案的思考—最全的数据同步总结

    1. 早期关系型数据库之间的数据同步 1).全量同步 比如从oracle数据库中同步一张表的数据到Mysql中,通常的做法就是 分页查询源端的表,然后通过 jdbc的batch 方式插入到目标表,这个 ...

  9. 大数据技术之Canal入门篇

    大数据技术之Canal入门篇 文章目录 大数据技术之Canal入门篇 写在前面 第 1 章 Canal 入门 1.1 什么是 Canal 1.2 MySQL 的Binlog 1.2.1 什么是 Bin ...

最新文章

  1. 再学 GDI+[81]: TGPImage(1) - 显示图像
  2. 我的 Promtheus 到底啥时候报警?
  3. 实现页面打开后滚动到最底端的效果(转)
  4. 4dda在linux中的意思,Evvail | MaxQuant-蛋白质组DDA数据分析金标准 | Omics - Hunter
  5. Java并发知识总结,超详细!(上)
  6. Transformer、BERT学习笔记
  7. SAP CRM呼叫中心里Case ID的生成逻辑
  8. oracle plsql异常,【Oracle篇】异常处理和PLSQL
  9. ucosii 如何确定定时器的时间_全国中小学寒假时间确定,家长如何安排孩子们假期更合理?...
  10. linux非root用户搭建docker,linux centos7 非root用户安装源码版docker
  11. 一个人能否成为大老板,赚大钱发大财
  12. 【物联网智能网关-16】成功移植SQLite(STM32 .NET MF平台)
  13. cadz轴归零命令_cad 中z轴归0方法
  14. Android开发 匹配软键盘回车键
  15. 猿创征文 | MySQL从基础到高级
  16. SMSS.EXE病毒处理
  17. Android事件分发浅谈
  18. Java操作Word自动生成目录
  19. 全屏滚动fullpage.js
  20. ASP .NET MVC项目研发总结

热门文章

  1. Matpower软件执行方式
  2. Python实现杨辉三角(2种实现方案)
  3. vmware 安装win98报错
  4. 本地计算机 上的 OracleOraDb11g_home1TNSListener 服务启动后停止
  5. PEP8规范的中文版
  6. 大智慧公式系统:条件选股之技术指标选股
  7. What is Machine ID?
  8. 字符串转换成字符数组的一些方法
  9. 渲染预览PDF文档,轻松搞定,这方案真香!
  10. 中兴电信光纤猫F612管理员密码获取方法