Spark分布式计算框架之SparkStreaming+kafka

1、SparkStreaming的介绍

SparkStreaming 是流式处理框架，是 Spark API 的扩展，支持可扩展、高吞吐量、容错的实时数据流处理，实时数据的来源可以是：Kafka, Flume,Twitter, ZeroMQ 或者 TCP sockets，并且可以使用高级功能的复杂算子来处理流数据。

2、MR&Storm&Spark&flink的区别

MR：针对数据进行处理，没封装高级的算子，自己实现逻辑，没有SQL的流式处理。

Storm：针对实时数据进行处理，是一条一条的数据进行处理的，封装了高级算子，自己实现逻辑，不实现SQL处理数据，吞吐量小。延迟小。

Spark：在spark中的sparkCore中支持批量数据处理，sparkSQL支持SQL处理，SparkStreaming支持流式处理，SparkStreaming封装了高级算子吞吐量大，但是数据处理的延迟较大。

flink：flink支持批量数据的处理，支持SQL处理流式数据，但flink更偏向于实时处理，，也可以使用开窗函数进行批量数据处理，也封装了高级算子吞吐量大。

3、SparkStreaming处理数据原理

receiver task 是 7*24 小时一直在执行，一直接受数据，将一段时间内接收来的数据保存到 batch 中。假设 batchInterval 为 5s,那么
会将接收来的数据每隔 5 秒封装到一个 batch 中，batch 没有分布式计算特性，这一个 batch 的数据又被封装到一个 RDD 中，RDD 最终封装到一个 DStream 中。

4、Driver HA

因为SparkStreaming是7*24小时运行的，Driver 只是一个简单的进程，有可能挂掉，所以实现 Driver 的 HA 就有必要（如果使用的 Client 模式就无法实现 Driver HA ，这里针对的是 cluster 模式）。Yarn 平台 cluster 模式提交任务，AM(AplicationMaster)相当于 Driver，如果挂掉会自动启动AM。这里所说的 DriverHA 针对的是 Spark standalone 和 Mesos 资源调度的情况下。实现 Driver 的高可用有两个步骤:
第一：提交任务层面，在提交任务的时候加上选项 --supervise,当 Driver挂掉的时候会自动重启 Driver。
第二：代码层面，使用 JavaStreamingContext.getOrCreate（checkpoint 路径，JavaStreamingContextFactory）
Driver 中元数据包括：

创建应用程序的配置信息。
DStream 的操作逻辑。
job 中没有完成的批次数据，也就是 job 的执行进度。

5、kafka介绍

Kafka 是一个高吞吐的分布式消息队列系统。特点是生产者消费者模式，先进先出（FIFO）保证顺序，自己不丢数据，默认每隔 7 天清理数据。消息列队常见场景：系统之间解耦合、峰值压力缓冲、异步通信。

6、kafka的生产者和消费者模型

kafka生产者数据的特点：
1、topic由多个partition组成，partition内部是有序的，partition多是为了并发生产数据。
2、当数据是kv格式的，则按照hash值和partition个数取模决定去哪个分区。
3、非kv格式则按轮询方式。
4、一个partition对应一个brocker，一个brocker管多个partition，数据写入文件中，而不是存在内存，数据默认一周删除，而不是消费完就删除。
kafka消费者数据的特点：
1、每个consumer都有对应的group
2、一个topic中每个partition，只能一组消费者的一个consumer消费使用
3、不同的消费者组之间消费同一组topic组之间不影响。
4、同一个消费者组内的不同消费者消费相同topic时，数据只能消耗一次。
5、同一个topic中每一个分区只能被一个消费者组内同一个消费者连接消费。

7、kafka特点

1、生产者消费者模型
2、高性能、吞吐大
3、持久性：消息直接持久化在普通磁盘上且性能好。
4、分布式：数据副本余，流量负载均衡可扩展
5、灵活