🔥码云GVP开源项目 12k star Uniapp+ElementUI 功能强大 支持多语言、二开方便! 广告
# 监控 Kafka 主要从三个纬度 * Kafka 主机 * JVM * Kafka 集群你 ## 主机 主机监控:监控 Broker 所在的节点机器的性能 指标 * 机器负载(load) * CPU 使用率 * 内存使用率,包括空闲内存(Free memory)、已用内存(Used memory) * 磁盘 IO 使用率,包括读使用率、写使用率 * 网络 IO 使用率 * TCP 连接数 * 打开文件数 * inode ## JVM * Broker 进程的堆大小(HeapSize) * GC * Minor GC、Full GC 的频率和时长 * 活跃对象的大小 * JVM 上应用线程的大致总数 * 一定要较空 Broker GC 日志,即以 kafkaServer-gc.log 开头的文件 ## 集群监控 * Broker 进程是否启动,端口是否建立 * Broker 端关键日志 * Broker 端关键线程的运行状态 * 最重要的两类线程 * Log Compaction 线程 * 副本拉取消息的线程 * Broker 端关键 JMX 指标 * BytesIn/BytesOut:Broker 每秒入出的字节数 * NetworkProcessorAvgIdlePercent:网络线程池平均的空闲比例 * 确保 > 30% * UnderReplicatedPartitions:未充分备份的分区数 * ISRShrink / ISRExpand:ISR 收缩、扩容的频次指标 * ActiveControllerCount:当前处于激活状态的控制器的数量 ## 客户端 * 网络往返时延(Round-Trip Time,i.e. RTT) * 客户端机器上 ping Broker IP,查看 RTT 值 * kafka-producer-network-thread 线程:负责实际发送消息 * kafka-coordinator-heartbeat-thread:心跳线程,事关 Rebalance * Producer 角度 * request-latency:消息生产请求的延时,直接表征 Producer TPS * Consumer 角度 * records-lag * records-lead * Consumer Group * join rate * sync rate * 这两个指标均表明了 Rebalance 的频繁程度