kafka系列（五）：createDirectStream

奶啤配炸鸡 2017-05-17

597

先更正一下上一篇文章：kafka系列（四），不是createDStream，而是createStream。

下面介绍createDirectStream，因为在kafkaUtil.createDirectStream进行了创建。所以我们来研究一下这里做了什么事情。

createDirectStream：

创建一个input stream用来直接从kafka broker中pull消息，在这个过程中，没有用到任何receiver。这个input stream可以被保证从kafka中来的数据只将转换操作进行一次。

no receivers:这种类型的stream不需要任何receiver，它直接从kafka中查询offsets进行消费，不需要使用zookeeper进行offsets的存储，offsets由kafka自身存储。
Failure Recovery(故障恢复)：从driver中恢复故障，必须使用checkpoint机制。一些消费的offsets的信息可以从checkpoint的内容中进行恢复。
End-to-end semantics(端到端语义)：每一个消息都被有效的接受和转换一次[exactly once]，但不能保障转换后的数据是否准确的只输出一次

DirectKafkaInputDStream:

kafkaUtil.createDirectStream（ssc,kafkaParams,topic）中，会去调用DirectKafkaInputDStream.该类会和Kafka集群打交道。