flume ChannelSelector -- channel 选择器

首先是flume中三个组件的单词的意思，flume：水道；笕槽；引水槽，source：水源，channel：水渠，sink：水槽。见文知意，就是水从源头流出来，经过水渠或者管道，最终流到终点，也就是水槽了。之前总是flume的叫着，也不知道是啥意思，今天查了一下，再看其他几个组件的意思，这个工具的功能不言而喻了，就是针对像水一样的数据流处理的。
flume channel selectors允许给一个source可以配置多个channel的能力。这种模式有两种方式，一种是用来复制（Replication），这也是默认配置，另一种是用来分流（Multiplexing）。
Flume中channel选择器（selector.type配置）必须实现ChannelSelector接口，实现了该接口的类主要作用是告诉Source中接收到的Event应该发送到哪些Channel，在Flume中主要由两个实现方式：
1，复用，实现类：MultiplexingChannelSelector （Multiplexing n. 多路技术多路复用）
2，复制，实现类：ReplicatingChannelSelector (Replicate n. 复制品)
如果没有手动配置，source的默认channel选择器类型是replicating（复制），当然这个选择器只针对source配置了多个channel的时候。
一个souce可以向多个channel同时写数据，所以也就产生了以何种方式向多个channel写的问题（比如自带的复制选择器，会把数据完整地发送到每一个channel，而多路分发选择器就可以通过配置来按照一定的规则进行分发，听起来很像负载均衡），channel选择器也就应运而生。

复制选择器 (默认)

a1.sources = r1
a1.channels = c1 c2 c3a1.sources.r1.selector.type = replicating
a1.sources.r1.channels = c1 c2 c3
#这意味着c3是可选的，向c3写入失败会被忽略。但是向c1，c2写入失败会出错
a1.sources.r1.selector.optional = c3

上面这个例子中没有声明sink，c3配置成了可选的。向c3发送数据如果失败了会被忽略。c1和c2没有配置成可选的，向c1和c2写数据失败会导致事务失败回滚。

多路复用选择器

a1.sources = r1
a1.channels = c1 c2 c3 c4a1.sources.r1.selector.type = multiplexing
#以每个event的header中的state这个属性的值作为选择channel的依据
a1.sources.r1.selector.header = state
#如果state=CZ，则选择c1这个channel
a1.sources.r1.selector.mapping.CZ = c1
#如果state=US，则选择c2 和 c3 这两个channel
a1.sources.r1.selector.mapping.US = c2 c3
#默认使用c4这个channel
a1.sources.r1.selector.default = c4

选择器会对每个event的header里面的state属性值进行匹配，如果state=CZ就把event发给c1，如果state=US就把event发给c2和c3，其余的发给默认的c4。

自定义选择器

自定义选择器就是你可以自己写一个org.apache.flume.ChannelSelector接口的实现类。老规矩，你自己写的实现类以及依赖的jar包在启动时候都必须放入Flume的classpath。

a1.sources = r1
a1.channels = c1a1.sources.r1.selector.type = com.lxk.flume.custom.BalanceChannelSelector

要自定义自己的channel 选择器，比如上面的负载均衡的channel选择器，因为上面系统提供的2个原生的选择器要么全复制，要么选择性的改变数据流向，现在想增加channel数量，缓解压力，数据就需要均衡的发布到声明的n个channel里面去。要自定义，就得了解这个选择器的实现。channel 是在 agent 上暂存 event 的缓冲池。 event由source添加，由sink消费后删除。