2.3.kafka日志机制 · java核心知识整理

* **日志文件结构**： * Kafka中的每个分区对应一个日志目录，目录下包含多个日志段文件（log segment files）。 * 日志段文件是固定大小的，当一个日志段文件达到预定大小时，Kafka会创建一个新的日志段文件。 * 每个日志段文件包含一系列消息记录，这些记录按顺序追加到文件中。 * **日志索引文件**： * 为了快速查找消息，每个日志段文件有一个对应的索引文件（index file）。 * 索引文件记录了消息偏移量和在日志段文件中的物理位置。 * 通过索引文件，Kafka可以快速定位和读取指定偏移量的消息。 * **数据复制**： * 每个分区有一个Leader副本和多个Follower副本，Leader副本负责处理所有的读写请求。 * Follower副本通过异步复制机制，从Leader副本获取消息副本，确保数据的高可用性和冗余性。 * **日志清理（Log Cleanup）**： * Kafka支持两种日志清理策略：基于时间的日志清理和基于大小的日志清理。 * **日志压缩（Log Compaction）**：对于启用日志压缩的主题，Kafka会定期进行日志压缩，保留每个键的最新值，删除旧的、过时的消息。 * **日志删除（Log Deletion）**：Kafka会定期删除超过保留期限的日志段文件，释放磁盘空间。 * **分区恢复**： * 当一个分区的Leader副本故障时，Kafka会从ISR（同步副本集合）中选举新的Leader，确保数据的高可用性。 * 新的Leader会从其他副本中同步数据，确保日志的一致性和完整性。