[TOC]
# 监控
监控体系需要涉及到这些
端到端全方位监控
![](https://box.kancloud.cn/4a9f578da1eace0ca6c0666acae5e17f_1757x909.png)
涉及以上5个点
Metrics延迟,错误监控
调用链,把问题及时暴露出来,不要人为去查
# 主流监控架构
![](https://box.kancloud.cn/1bfb36ddd14d2375188465288b87b226_1704x866.png)
![](https://box.kancloud.cn/e16020ceca01f0e45f2e1aca414bd788_740x443.png)
agent负责收集日志和信息发送到后台监控系统
发的比较大的话,需要加个队列缓冲下
<br>
log主要用的是ELK
metrics主流会采用时间序列数据库InfluxDB等,时间序列Grafana
健康检查端点Nagios,Kubernetes
他们都有故障告警出来的能力