Kafka学习笔记（一） - 好文

<>要解决的问题
1 存储数据

2 重复消费

* 将数据的生产和消费分开（异步通信）
* 保证顺序
* 缓冲
<>Kafka 重要的消息组件
<>生产者 <>消费者 <>消费者组 <>Topic
Kafka对消息保存时，根据Topic 归类
<>Broker
一个Kafka实例称为一个Broker
<>partition
一个大的Topic
可以分为多个partition,用来做负载均衡。一个partition中的数据是有序的，不能保证多个partition之间的数据有序。如果数据必须有序，就放到一个partition中
<>offset <>有几个Broker，最多就有几个备份。 <>kafka 消费是以消费者组为单位的（一个消费者，也是放在消费者组中的）。
一个消费者组消费一个topic 的数据，消费者组中不同消费者只能消费不同分区的数据。一个消费者只能消费一个分区的数据。
如果一个topic 有两个分区，三个消费者来消费的话，有一个消费者什么也不做。只能增加分区，才有用。

如果一个topic 有三个分区，两个消费者，后面突然再增加一个消费者，会引发再平衡。

<>一个topic 可以由多个分区组成，一个消费者只能消费一个分区。
<>生产者和 zookeeper 不会产生直接的联系。生产者需要得到分区信息，但是因为kfaka 集群和zookeeper 一直
有连接，生产者直接访问集群的时候，就可以获取到zk中的信息。 <>消费者需要连接zookeeper，因为需要维护offset 并且需要不断更新到
zookeeper中。同时还要把消费者消费的哪个分区的数据这种对应关系提交到zookeeper。 <>Kafka 使用零复制技术提高传输效率
（数据不会读取到应用层，直接通知操作系统，完成相应的操作），另外Kafka 顺序写磁盘效率(PageCache )比随机写内存要高，保证了Kafka的吞吐量。
预读和后写技术也是为了提高吞吐量。 <>分区的原则
（1）指定了patition，则直接使用；

（2）未指定partition但指定key，通过对key的value进行hash算出一个patition；

（3）patition和key都未指定，使用轮询选出一个patition
<>每个partition 可以有多个副本，副本有一个 leader，其他为follower(只负责从leader 中同步数据)。
producter和consumer 只与leader 交互。如果partition 没有副本，当broker 挂掉后，该broker 上
partition 的数据不能被消费，同时生产者也将不能往该borker 上的partition 上面存放数据。
<>kafka 写数据流程

*
生产者连接kafka集群，集群通过连接zookeeper获取到分区信息，把它返回给生产者

*
生产者拿到分区信息后，会启动sender 线程，使用双端队列来向kafka 集群发送数据

*
kafka 集群中是否收到消息，基于ack 应答机制
0: 集群无需应答，即可发送下一条，性能非常好，但是可能会丢失数据，不安全。

1：集群中只需要Leader应答即可发送下一条,性能稍微差一下，而且数据可能会丢失。

-1（all）：集群中所有的备份都需要应答方可发送下一条数据。性能最差，但是数据不会丢失

HW : 高水位,是消费者在当前分区中能够读取的最大偏移量
LEO : Log End Offset，当前broker日志中最后存储的数据偏移量
<>kafka 会保存一定大小的数据和一定时间类的数据，是否删除历史数据不会影响kafka 性能。
<>kafka 消费数据流程

* 消费者从 zookeeper 中获取分区信息，zookeeper 返回分区信息给生产者
* 生产者从分区中拉取数据进行消费。
以上offset 会保存在zookeeper中
消费者也可以不连接zookeeper，直接从集群中获取每个topic 分区信息，这样offset 也会保存到kafka 集群中
<>一个消费者可以读取多个分区的数据，但是一个分区的数据只能属于某一个消费者。
欢迎学习大数据的同学加我微信，一起交流学习。

热门工具换一换