[TOC]
# 简介
Prometheus 最初是 SoundCloud 构建的开源系统监控和报警工具,是一个独立的开源项目,于2016年加入了 CNCF 基金会,作为继 Kubernetes 之后的第二个托管项目。Prometheus 相比于其他传统监控工具主要有以下几个特点:
* 具有由 metric 名称和键/值对标识的时间序列数据的多维数据模型
* 有一个灵活的查询语言
* 不依赖分布式存储,只和本地磁盘有关
* 通过 HTTP 的服务拉取时间序列数据
* 也支持推送的方式来添加时间序列数据
* 还支持通过服务发现或静态配置发现目标
* 多种图形和仪表板支持
Prometheus 由多个组件组成,但是其中有些组件是可选的:
* `Prometheus Server`:用于抓取指标、存储时间序列数据
* `exporter`:暴露指标让任务来抓
* `pushgateway`:push 的方式将指标数据推送到该网关
* `alertmanager`:处理报警的报警组件 `adhoc`:用于数据查询
大多数 Prometheus 组件都是用 Go 编写的,因此很容易构建和部署为静态的二进制文件。下图是 Prometheus 官方提供的架构及其一些相关的生态系统组件:
![prometheus架构图](https://prometheus.io/assets/architecture.png)
整体流程比较简单,Prometheus 直接接收或者通过中间的 Pushgateway 网关被动获取指标数据,在本地存储所有的获取的指标数据,并对这些数据进行一些规则整理,用来生成一些聚合数据或者报警信息,Grafana 或者其他工具用来可视化这些数据。
# 安装Prometheus
## RABC权限
```yaml
cat <<'EOF' | kubectl apply -f -
# 创建集群权限
---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRole
metadata:
name: prometheus
rules:
- apiGroups:
- ""
resources:
- nodes
- services
- endpoints
- pods
- nodes/proxy
- nodes/metrics
- configmaps
verbs:
- get
- list
- watch
- apiGroups:
- extensions
- networking.k8s.io
resources:
- ingresses
- ingresses/status
verbs:
- get
- list
- watch
- nonResourceURLs:
- /metrics
verbs:
- get
# 创建sa
---
apiVersion: v1
kind: ServiceAccount
metadata:
name: prometheus
namespace: kube-system
# sa与集群权限绑定
---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding
metadata:
name: prometheus
roleRef:
apiGroup: rbac.authorization.k8s.io
kind: ClusterRole
name: prometheus
subjects:
- kind: ServiceAccount
name: prometheus
namespace: kube-system
EOF
```
## 配置文件
```yaml
cat <<'EOF' | kubectl apply -f -
# 主配置文件
---
apiVersion: v1
kind: ConfigMap
metadata:
name: prometheus
namespace: kube-system
data:
prometheus.yml: |
global:
scrape_interval: 15s
scrape_timeout: 15s
rule_files:
- /etc/prometheus/rule/*.rules
scrape_config_files:
- /etc/prometheus/target/*.targets
# target配置文件
---
apiVersion: v1
kind: ConfigMap
metadata:
name: prometheus-target
namespace: kube-system
data:
prometheus.targets: |
scrape_configs:
- job_name: 'prometheus'
# 抓取metrics路径,Prometheus访问路径添加上下文需要添加上
metrics_path: /prometheus/metrics
static_configs:
- targets: ['localhost:9090']
# rule配置文件
---
apiVersion: v1
kind: ConfigMap
metadata:
name: prometheus-rule
namespace: kube-system
data:
EOF
```
## 创建Prometheus
```yaml
cat <<'EOF' | kubectl apply -f -
apiVersion: apps/v1
kind: Deployment
metadata:
name: prometheus
namespace: kube-system
labels:
app: prometheus
spec:
selector:
matchLabels:
app: prometheus
template:
metadata:
labels:
app: prometheus
spec:
# 初始化容器解决启动时 lock DB directory 报错
initContainers:
- name: prom-prefix
image: jiaxzeng/client:v1.1
command:
- "bash"
- "-c"
- "chown -R 65534. /prometheus && rm -f /prometheus/data/lock"
volumeMounts:
- mountPath: "/prometheus/data"
name: data
containers:
- image: prom/prometheus:v2.45.4
name: prometheus
args:
- "--config.file=/etc/prometheus/prometheus.yml"
- "--web.console.libraries=/usr/share/prometheus/console_libraries"
- "--web.console.templates=/usr/share/prometheus/consoles"
# 监控数据保留时间
- "--storage.tsdb.retention.time=24h"
# 控制对admin HTTP API的访问,其中包括删除时间序列等功能
- "--web.enable-admin-api"
# 支持热更新,直接执行localhost:9090/-/reload立即生效
- "--web.enable-lifecycle"
# 添加上下文,健康检查也需要修改;默认 /
# 【注意】这个参数影响 健康检查 以及 配置文件抓取Prometheus数据路径
- "--web.external-url=/prometheus"
ports:
- containerPort: 9090
name: http
startupProbe:
httpGet:
path: /prometheus/-/healthy
port: 9090
initialDelaySeconds: 10
periodSeconds: 5
successThreshold: 1
failureThreshold: 24
livenessProbe:
httpGet:
path: /prometheus/-/healthy
port: 9090
periodSeconds: 5
failureThreshold: 3
successThreshold: 1
readinessProbe:
httpGet:
path: /prometheus/-/ready
port: 9090
periodSeconds: 5
failureThreshold: 3
successThreshold: 1
volumeMounts:
- mountPath: "/prometheus/data"
name: data
- mountPath: "/etc/prometheus"
name: config
- mountPath: "/etc/prometheus/target"
name: target
- mountPath: "/etc/prometheus/rule"
name: rule
resources:
requests:
cpu: 100m
memory: 512Mi
limits:
cpu: 2
memory: 2048Mi
# 访问集群资源需要用到的用户
serviceAccountName: prometheus
nodeSelector:
kubernetes.io/node: monitor
volumes:
- name: data
hostPath:
path: /data/prometheus/
- configMap:
name: prometheus
name: config
- configMap:
name: prometheus-target
name: target
- configMap:
name: prometheus-rule
name: rule
EOF
```
另外为了 prometheus 的性能和数据持久化我们这里是直接将通过 hostPath 的方式来进行数据持久化的,通过 `--storage.tsdb.path=/data` 指定数据目录,然后将该目录声明挂载到 `/data/prometheus` 这个主机目录下面,为了防止 Pod 漂移,所以我们使用 `nodeSelector` 将 Pod 固定到了一个具有 `kubernetes.io/node=monitor` 标签的节点上,如果没有这个标签则需要为你的目标节点打上这个标签
```shell
$ kubectl label node <k8s_name> kubernetes.io/node=monitor
```
## 创建service
```yaml
cat <<'EOF' | kubectl apply -f -
apiVersion: v1
kind: Service
metadata:
name: prometheus
namespace: kube-system
labels:
app: prometheus
spec:
type: ClusterIP
selector:
app: prometheus
ports:
- name: web
port: 9090
targetPort: http
EOF
```
## 设置ingress
```shell
cat <<EOF | sudo tee ingress.yml > /dev/null
apiVersion: extensions/v1beta1
kind: Ingress
metadata:
name: prometheus
namespace: kube-system
spec:
ingressClassName: nginx
rules:
- host: www.ecloud.com
http:
paths:
- path: /prometheus
backend:
serviceName: prometheus
servicePort: 9090
EOF
```
# 验证
![Prometheus界面](https://img.kancloud.cn/b8/d4/b8d49b5f5c72559000b359bd0da09292_1920x584.png)
> 如果出现有告警提示时间不同步的,例如 Warning: Error fetching server time: Detected 32.164000034332275 seconds time difference between your browser and the server. Prometheus relies on accurate time and time drift might cause unexpected query results.
解决方法:
通常是服务器的时间与客户端的时间不同步导致的一个问题。服务器是同步阿里云的,所以修改客户端也是同步阿里云即可。
![Prometheus时间不同步1](https://img.kancloud.cn/bf/8d/bf8db522e4012fb8548fd6efb00a1e18_1280x1000.png)
![Prometheus时间不同步2](https://img.kancloud.cn/1b/37/1b377a921abaeee2f61866d3c7479c9c_1280x1000.png)
![Prometheus时间不同步3](https://img.kancloud.cn/d0/c9/d0c96775ea8458c2e013baa25cf3feef_577x637.png)
- 前言
- 架构
- 部署
- kubeadm部署
- kubeadm扩容节点
- 二进制安装基础组件
- 添加master节点
- 添加工作节点
- 选装插件安装
- Kubernetes使用
- k8s与dockerfile启动参数
- hostPort与hostNetwork异同
- 应用上下线最佳实践
- 进入容器命名空间
- 主机与pod之间拷贝
- events排序问题
- k8s会话保持
- 容器root特权
- CNI插件
- calico
- calicoctl安装
- calico网络通信
- calico更改pod地址范围
- 新增节点网卡名不一致
- 修改calico模式
- calico数据存储迁移
- 启用 kubectl 来管理 Calico
- calico卸载
- cilium
- cilium架构
- cilium/hubble安装
- cilium网络路由
- IP地址管理(IPAM)
- Cilium替换KubeProxy
- NodePort运行DSR模式
- IP地址伪装
- ingress使用
- nginx-ingress
- ingress安装
- ingress高可用
- helm方式安装
- 基本使用
- Rewrite配置
- tls安全路由
- ingress发布管理
- 代理k8s集群外的web应用
- ingress自定义日志
- ingress记录真实IP地址
- 自定义参数
- traefik-ingress
- traefik名词概念
- traefik安装
- traefik初次使用
- traefik路由(IngressRoute)
- traefik中间件(middlewares)
- traefik记录真实IP地址
- cert-manager
- 安装教程
- 颁布者CA
- 创建证书
- 外部存储
- 对接NFS
- 对接ceph-rbd
- 对接cephfs
- 监控平台
- Prometheus
- Prometheus安装
- grafana安装
- Prometheus配置文件
- node_exporter安装
- kube-state-metrics安装
- Prometheus黑盒监控
- Prometheus告警
- grafana仪表盘设置
- 常用监控配置文件
- thanos
- Prometheus
- Sidecar组件
- Store Gateway组件
- Querier组件
- Compactor组件
- Prometheus监控项
- grafana
- Querier对接grafana
- alertmanager
- Prometheus对接alertmanager
- 日志中心
- filebeat安装
- kafka安装
- logstash安装
- elasticsearch安装
- elasticsearch索引生命周期管理
- kibana安装
- event事件收集
- 资源预留
- 节点资源预留
- imagefs与nodefs验证
- 资源预留 vs 驱逐 vs OOM
- scheduler调度原理
- Helm
- Helm安装
- Helm基本使用
- 安全
- apiserver审计日志
- RBAC鉴权
- namespace资源限制
- 加密Secret数据
- 服务网格
- 备份恢复
- Velero安装
- 备份与恢复
- 常用维护操作
- container runtime
- 拉取私有仓库镜像配置
- 拉取公网镜像加速配置
- runtime网络代理
- overlay2目录占用过大
- 更改Docker的数据目录
- Harbor
- 重置Harbor密码
- 问题处理
- 关闭或开启Harbor的认证
- 固定harbor的IP地址范围
- ETCD
- ETCD扩缩容
- ETCD常用命令
- ETCD数据空间压缩清理
- ingress
- ingress-nginx header配置
- kubernetes
- 验证yaml合法性
- 切换KubeProxy模式
- 容器解析域名
- 删除节点
- 修改镜像仓库
- 修改node名称
- 升级k8s集群
- 切换容器运行时
- apiserver接口
- 其他
- 升级内核
- k8s组件性能分析
- ETCD
- calico
- calico健康检查失败
- Harbor
- harbor同步失败
- Kubernetes
- 资源Terminating状态
- 启动容器报错