Prometheus
一、基础简介
1.1.prometheus简介
1.2.数据模型
1.3.指标类型
1.4.Jobs和Instances
二、安装部署
2.1.rpm部署监控组件
2.2.docker部署监控组件
三、PromSQL
3.1.PromQL基本使用
3.2.Prometheus基础查询
3.3.查询操作符
3.4.内置函数
3.5.在HTTPAPI中使用PromQL
3.6.最佳实践
四、告警处理
4.1.告警简介
4.2.自定义Prometheus告警规则
4.3.常见告警规则
4.4.部署Alertmanager
4.5.Alertmanager配置概述
4.6.基于标签的告警处理路由
4.7.使用Receiver接收告警信息
4.8.自定义告警模板
4.9.屏蔽告警通知
4.10.使用RecodingRules优化性能
五、Exporter
5.1.exporter
5.2.NodeExporter
5.3.ProcessExporter
5.4.cAdvisor
5.5.MysqlExporter
5.6.BlackboxExporter
5.7.ProcessExporter
5.8.Ipmiexport
5.9.Pushgateway
PostgresExporter
六、Grafana
6.1.grafana基本概念
6.2.创建dashboard与Panel
6.3.变化趋势:Graph面板
6.4.graph面板常用操作
6.5.分布统计:Heatmap面板
6.6.当前状态:SingleStat面板
6.7.变量
6.8.grafana报警
七、集群高可用
7.1.本地存储
7.2.远程存储
7.3.联邦集群
7.4.prometheus高可用
7.5.Alertmanager高可用
八、服务发现
8.1.Prometheus与服务发现
8.2.基于文件的服务发现
8.3.标签管理
九、Operator
9.1.什么是PrometheusOperator
9.2.PrometheusOperator自定义监控项
9.3.配置PrometheusRule
十、AlterManager
10.1.基础入门
10.2.配置详解
本文档使用 MrDoc 发布
-
+
home page
1.3.指标类型
# 一、Counter 1. counter是一个累积指标,代表一个单调递增的计数器,其值只能增加或在重新启动时重置为零。 例如,您可以使用counter来表示已服务请求,已完成任务或错误的数量。 2. 不要使用计数器来显示会减小的值。例如,请勿对当前正在运行的进程数使用计数器; 而是使用 gauge。 # 二、Gauge 1. Gauge是一种可以表示任意上下浮动的单个数值的度量指标。 2. Gauge通常用于测量值,例如温度或当前内存使用情况,还用于可能上升和下降的“计数”,例如并发请求数。比如磁盘容量、内存使用量就必须使用 gauge来度量 # 三、histogram 1. histogram是柱状图,在Prometheus系统中的查询语言中,有三种作用: - 对每个采样点进行统计(并不是一段时间的统计),打到各个桶(bucket)中 - 对每个采样点值累计和(sum) - 对采样点的次数累计和(count) 2. 基本度量指标名称为<basename>的histogram在抓取期间显示多个时间序列: - 观察桶的累积计数器,显示为 <basename>_bucket{le="<upper inclusive bound>"} - 所有观察值的总和,显示为<basename>_sum - 观察到的事件数,显示为<basename>_count(与 <basename>_bucket{le="+Inf"}相同) 3. 使用histogram_quantile()函数从直方图甚至直方图的聚合中计算分位数。 直方图也适合计算Apdex分数。 在存储桶上操作时,请记住直方图是累积的。 有关直方图用法的详细信息以及与摘要的差异,请参见直方图和摘要。 客户端库使用情况的直方图文档: # 四、summary 1. summary是采样点分位图统计。 它也有三种作用: - 在客户端对于一段时间内(默认是10分钟)的每个采样点进行统计,采样点分位图统计,用于得到数据的分布情况(例如,在要统计的班级中,有90%学生的成绩低于93分,有95%学生的成绩低于96分,则采用Summary能够更好地展示数据的分布情况。) - 统计班上所有同学的总成绩(sum) - 统计班上同学的考试总人数(count) 2. 基本指标名称为<basename>的summary在抓取期间显示多个时间序列: - 流观察到的事件的φ分位数(0≤φ≤1),显示为<basename> {quantile="<φ>" - 所有观察值的total sum,显示为<basename>_sum - 观察到的事件count,显示为<basename>_count
Nathan
Aug. 24, 2024, 3:08 p.m.
转发文档
Collection documents
Last
Next
手机扫码
Copy link
手机扫一扫转发分享
Copy link
Markdown文件
PDF文件
Docx文件
share
link
type
password
Update password