前言

在 《从0到1学习Flink》—— Data Source 介绍 文章中,我给大家介绍了 Flink Data Source 以及简短的介绍了一下自定义 Data Source,这篇文章更详细的介绍下,并写一个 demo 出来让大家理解。

Flink Kafka source

准备工作

我们先来看下 Flink 从 Kafka topic 中获取数据的 demo,首先你需要安装好了 FLink 和 Kafka 。

运行启动 Flink、Zookepeer、Kafka,

好了,都启动了!

maven 依赖

<!--flink java-->
<dependency><groupId>org.apache.flink</groupId><artifactId>flink-java</artifactId><version>${flink.version}</version><scope>provided</scope>
</dependency>
<dependency><groupId>org.apache.flink</groupId><artifactId>flink-streaming-java_${scala.binary.version}</artifactId><version>${flink.version}</version><scope>provided</scope>
</dependency>
<!--日志-->
<dependency><groupId>org.slf4j</groupId><artifactId>slf4j-log4j12</artifactId><version>1.7.7</version><scope>runtime</scope>
</dependency>
<dependency><groupId>log4j</groupId><artifactId>log4j</artifactId><version>1.2.17</version><scope>runtime</scope>
</dependency>
<!--flink kafka connector-->
<dependency><groupId>org.apache.flink</groupId><artifactId>flink-connector-kafka-0.11_${scala.binary.version}</artifactId><version>${flink.version}</version>
</dependency>
<!--alibaba fastjson-->
<dependency><groupId>com.alibaba</groupId><artifactId>fastjson</artifactId><version>1.2.51</version>
</dependency>

测试发送数据到 kafka topic

实体类,Metric.java

package com.zhisheng.flink.model;import java.util.Map;/*** Desc:* weixi: zhisheng_tian* blog: http://www.54tianzhisheng.cn/*/
public class Metric {public String name;public long timestamp;public Map<String, Object> fields;public Map<String, String> tags;public Metric() {}public Metric(String name, long timestamp, Map<String, Object> fields, Map<String, String> tags) {this.name = name;this.timestamp = timestamp;this.fields = fields;this.tags = tags;}@Overridepublic String toString() {return "Metric{" +"name='" + name + '\'' +", timestamp='" + timestamp + '\'' +", fields=" + fields +", tags=" + tags +'}';}public String getName() {return name;}public void setName(String name) {this.name = name;}public long getTimestamp() {return timestamp;}public void setTimestamp(long timestamp) {this.timestamp = timestamp;}public Map<String, Object> getFields() {return fields;}public void setFields(Map<String, Object> fields) {this.fields = fields;}public Map<String, String> getTags() {return tags;}public void setTags(Map<String, String> tags) {this.tags = tags;}
}

往 kafka 中写数据工具类:KafkaUtils.java

import com.alibaba.fastjson.JSON;
import com.zhisheng.flink.model.Metric;
import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerRecord;import java.util.HashMap;
import java.util.Map;
import java.util.Properties;/*** 往kafka中写数据* 可以使用这个main函数进行测试一下* weixin: zhisheng_tian * blog: http://www.54tianzhisheng.cn/*/
public class KafkaUtils {public static final String broker_list = "localhost:9092";public static final String topic = "metric";  // kafka topic,Flink 程序中需要和这个统一 public static void writeToKafka() throws InterruptedException {Properties props = new Properties();props.put("bootstrap.servers", broker_list);props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer"); //key 序列化props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer"); //value 序列化KafkaProducer producer = new KafkaProducer<String, String>(props);Metric metric = new Metric();metric.setTimestamp(System.currentTimeMillis());metric.setName("mem");Map<String, String> tags = new HashMap<>();Map<String, Object> fields = new HashMap<>();tags.put("cluster", "zhisheng");tags.put("host_ip", "101.147.022.106");fields.put("used_percent", 90d);fields.put("max", 27244873d);fields.put("used", 17244873d);fields.put("init", 27244873d);metric.setTags(tags);metric.setFields(fields);ProducerRecord record = new ProducerRecord<String, String>(topic, null, null, JSON.toJSONString(metric));producer.send(record);System.out.println("发送数据: " + JSON.toJSONString(metric));producer.flush();}public static void main(String[] args) throws InterruptedException {while (true) {Thread.sleep(300);writeToKafka();}}
}

运行:

如果出现如上图标记的,即代表能够不断的往 kafka 发送数据的。

Flink 程序

Main.java

package com.zhisheng.flink;import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer011;import java.util.Properties;/*** Desc:* weixi: zhisheng_tian* blog: http://www.54tianzhisheng.cn/*/
public class Main {public static void main(String[] args) throws Exception {final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();Properties props = new Properties();props.put("bootstrap.servers", "localhost:9092");props.put("zookeeper.connect", "localhost:2181");props.put("group.id", "metric-group");props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");  //key 反序列化props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");props.put("auto.offset.reset", "latest"); //value 反序列化DataStreamSource<String> dataStreamSource = env.addSource(new FlinkKafkaConsumer011<>("metric",  //kafka topicnew SimpleStringSchema(),  // String 序列化props)).setParallelism(1);dataStreamSource.print(); //把从 kafka 读取到的数据打印在控制台env.execute("Flink add data source");}
}

运行起来:

看到没程序,Flink 程序控制台能够源源不断的打印数据呢。

自定义 Source

上面就是 Flink 自带的 Kafka source,那么接下来就模仿着写一个从 MySQL 中读取数据的 Source。

首先 pom.xml 中添加 MySQL 依赖

<dependency><groupId>mysql</groupId><artifactId>mysql-connector-java</artifactId><version>5.1.34</version>
</dependency>

数据库建表如下:

DROP TABLE IF EXISTS `student`;
CREATE TABLE `student` (`id` int(11) unsigned NOT NULL AUTO_INCREMENT,`name` varchar(25) COLLATE utf8_bin DEFAULT NULL,`password` varchar(25) COLLATE utf8_bin DEFAULT NULL,`age` int(10) DEFAULT NULL,PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=5 DEFAULT CHARSET=utf8 COLLATE=utf8_bin;

插入数据

INSERT INTO `student` VALUES ('1', 'zhisheng01', '123456', '18'), ('2', 'zhisheng02', '123', '17'), ('3', 'zhisheng03', '1234', '18'), ('4', 'zhisheng04', '12345', '16');
COMMIT;

新建实体类:Student.java

package com.zhisheng.flink.model;/*** Desc:* weixi: zhisheng_tian* blog: http://www.54tianzhisheng.cn/*/
public class Student {public int id;public String name;public String password;public int age;public Student() {}public Student(int id, String name, String password, int age) {this.id = id;this.name = name;this.password = password;this.age = age;}@Overridepublic String toString() {return "Student{" +"id=" + id +", name='" + name + '\'' +", password='" + password + '\'' +", age=" + age +'}';}public int getId() {return id;}public void setId(int id) {this.id = id;}public String getName() {return name;}public void setName(String name) {this.name = name;}public String getPassword() {return password;}public void setPassword(String password) {this.password = password;}public int getAge() {return age;}public void setAge(int age) {this.age = age;}
}

新建 Source 类 SourceFromMySQL.java,该类继承 RichSourceFunction ,实现里面的 open、close、run、cancel 方法:

package com.zhisheng.flink.source;import com.zhisheng.flink.model.Student;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.streaming.api.functions.source.RichSourceFunction;import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.ResultSet;/**
* Desc:
* weixi: zhisheng_tian
* blog: http://www.54tianzhisheng.cn/
*/
public class SourceFromMySQL extends RichSourceFunction<Student> {PreparedStatement ps;private Connection connection;/*** open() 方法中建立连接,这样不用每次 invoke 的时候都要建立连接和释放连接。** @param parameters* @throws Exception*/@Overridepublic void open(Configuration parameters) throws Exception {super.open(parameters);connection = getConnection();String sql = "select * from Student;";ps = this.connection.prepareStatement(sql);}/*** 程序执行完毕就可以进行,关闭连接和释放资源的动作了** @throws Exception*/@Overridepublic void close() throws Exception {super.close();if (connection != null) { //关闭连接和释放资源connection.close();}if (ps != null) {ps.close();}}/*** DataStream 调用一次 run() 方法用来获取数据** @param ctx* @throws Exception*/@Overridepublic void run(SourceContext<Student> ctx) throws Exception {ResultSet resultSet = ps.executeQuery();while (resultSet.next()) {Student student = new Student(resultSet.getInt("id"),resultSet.getString("name").trim(),resultSet.getString("password").trim(),resultSet.getInt("age"));ctx.collect(student);}}@Overridepublic void cancel() {}private static Connection getConnection() {Connection con = null;try {Class.forName("com.mysql.jdbc.Driver");con = DriverManager.getConnection("jdbc:mysql://localhost:3306/test?useUnicode=true&characterEncoding=UTF-8", "root", "root123456");} catch (Exception e) {System.out.println("-----------mysql get connection has exception , msg = "+ e.getMessage());}return con;}
}

Flink 程序

package com.zhisheng.flink;import com.zhisheng.flink.source.SourceFromMySQL;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;/*** Desc:* weixi: zhisheng_tian* blog: http://www.54tianzhisheng.cn/*/
public class Main2 {public static void main(String[] args) throws Exception {final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();env.addSource(new SourceFromMySQL()).print();env.execute("Flink add data sourc");}
}

运行 Flink 程序,控制台日志中可以看见打印的 student 信息。

RichSourceFunction

从上面自定义的 Source 可以看到我们继承的就是这个 RichSourceFunction 类,那么来了解一下:

一个抽象类,继承自 AbstractRichFunction。为实现一个 Rich SourceFunction 提供基础能力。该类的子类有三个,两个是抽象类,在此基础上提供了更具体的实现,另一个是 ContinuousFileMonitoringFunction。

  • MessageAcknowledgingSourceBase :它针对的是数据源是消息队列的场景并且提供了基于 ID 的应答机制。
  • MultipleIdsMessageAcknowledgingSourceBase : 在 MessageAcknowledgingSourceBase 的基础上针对 ID 应答机制进行了更为细分的处理,支持两种 ID 应答模型:session id 和 unique message id。
  • ContinuousFileMonitoringFunction:这是单个(非并行)监视任务,它接受 FileInputFormat,并且根据 FileProcessingMode 和 FilePathFilter,它负责监视用户提供的路径;决定应该进一步读取和处理哪些文件;创建与这些文件对应的 FileInputSplit 拆分,将它们分配给下游任务以进行进一步处理。

最后

本文主要讲了下 Flink 使用 Kafka Source 的使用,并提供了一个 demo 教大家如何自定义 Source,从 MySQL 中读取数据,当然你也可以从其他地方读取,实现自己的数据源 source。可能平时工作会比这个更复杂,需要大家灵活应对!

关注我

转载请务必注明原创地址为:http://www.54tianzhisheng.cn/2018/10/30/flink-create-source/

另外我自己整理了些 Flink 的学习资料,目前已经全部放到微信公众号了。你可以加我的微信:zhisheng_tian,然后回复关键字:Flink 即可无条件获取到。

相关文章

1、《从0到1学习Flink》—— Apache Flink 介绍

2、《从0到1学习Flink》—— Mac 上搭建 Flink 1.6.0 环境并构建运行简单程序入门

3、《从0到1学习Flink》—— Flink 配置文件详解

4、《从0到1学习Flink》—— Data Source 介绍

5、《从0到1学习Flink》—— 如何自定义 Data Source ?

6、《从0到1学习Flink》—— Data Sink 介绍

7、《从0到1学习Flink》—— 如何自定义 Data Sink ?

《从0到1学习Flink》—— 如何自定义 Data Source ?相关推荐

  1. flink 自定义 窗口_《从0到1学习Flink》—— Flink Data transformation(转换)

    前言 在第一篇介绍 Flink 的文章 <<从0到1学习Flink>-- Apache Flink 介绍> 中就说过 Flink 程序的结构 Flink 应用程序结构就是如上图 ...

  2. 《从0到1学习Flink》—— Flink Data transformation(转换)

    前言 在第一篇介绍 Flink 的文章 <<从0到1学习Flink>-- Apache Flink 介绍> 中就说过 Flink 程序的结构 Flink 应用程序结构就是如上图 ...

  3. 《从0到1学习Flink》—— Flink 读取 Kafka 数据批量写入到 MySQL

    <!-- more --> 前言 之前其实在 <从0到1学习Flink>-- 如何自定义 Data Sink ? 文章中其实已经写了点将数据写入到 MySQL,但是一些配置化的 ...

  4. kafka学习_《从0到1学习Flink》—— Flink 读取 Kafka 数据写入到 RabbitMQ

    前言 之前有文章 <从0到1学习Flink>-- Flink 写入数据到 Kafka 写过 Flink 将处理后的数据后发到 Kafka 消息队列中去,当然我们常用的消息队列可不止这一种, ...

  5. flink 写入到es_《从0到1学习Flink》—— Flink 写入数据到 Kafka

    前言 之前文章 <从0到1学习Flink>-- Flink 写入数据到 ElasticSearch 写了如何将 Kafka 中的数据存储到 ElasticSearch 中,里面其实就已经用 ...

  6. 《从0到1学习Flink》—— 介绍Flink中的Stream Windows

    前言 目前有许多数据分析的场景从批处理到流处理的演变, 虽然可以将批处理作为流处理的特殊情况来处理,但是分析无穷集的流数据通常需要思维方式的转变并且具有其自己的术语(例如,"windowin ...

  7. 《从0到1学习Flink》—— Apache Flink 介绍

    前言 Flink 是一种流式计算框架,为什么我会接触到 Flink 呢?因为我目前在负责的是监控平台的告警部分,负责采集到的监控数据会直接往 kafka 里塞,然后告警这边需要从 kafka topi ...

  8. 《从0到1学习Flink》—— Flink 写入数据到 ElasticSearch

    前言 前面 FLink 的文章中我们已经介绍了说 Flink 已经有很多自带的 Connector. 1.<从0到1学习Flink>-- Data Source 介绍 2.<从0到1 ...

  9. flink sql设置并行度_《从0到1学习Flink》—— Flink parallelism 和 Slot 介绍

    前言 之所以写这个是因为前段时间自己的项目出现过这样的一个问题: Caused by: akka.pattern.AskTimeoutException: Ask timed out on [Acto ...

最新文章

  1. Linux 下修改hosts文件
  2. php发送post请求方法
  3. 电脑老是弹出vrvedp_m_解答电脑启动项如何设置
  4. 5G(6 )---5G NR 物理层 索引
  5. 非主流图片制作工具_图片制作工具怎么用?有什么功能。
  6. oracle11g设置数据库归档,oracle_Oracle11g RAC开启关闭、设置归档小结,关闭 1.先关数据库: 复制代 - phpStudy...
  7. 宽带ADSL安装过程的18个问答
  8. GBDT与LR融合现状
  9. 计算机防雷安全标语,防雷电安全标语
  10. python echarts接口_GitHub - jllan/pyecharts: Python Echarts Plotting Library
  11. 基于JAVA蔚蓝在线学习平台计算机毕业设计源码+数据库+lw文档+系统+部署
  12. 如何进行英文文献检索
  13. (三)音视频:解析H264 SPS 更进一步理解H264
  14. Ice Lake CPU RESET流程
  15. win10禁用触摸键盘_如何在Windows 8和10中永久禁用触摸键盘
  16. MATLAB面板布局—便捷美观
  17. Til the Cows Come Home(dijkstra)
  18. PowerApps入门——PowerApps的3种打开方式
  19. 如何判断一个网站是WordPress搭建的网站以及网站SEO网络推广
  20. 手把手教你十五分钟搭建个人博客网站

热门文章

  1. Eclipse:构造函数不提示才发现
  2. 取消Eclipse的自动代码格式化
  3. github 中redisPhpAdmin redis 可视化界面
  4. 高通针对LED应用的点阵字库解决方案 — 支持多种字号字体显示
  5. 查找上一级作用域(作用域链)
  6. 区块链相关名词解释(一)
  7. linux 使用 vim 玩python
  8. Docker实践 -- 安装Docker
  9. AStar寻路2-性能优化
  10. 推荐一款非常好用的java反编译工具