触发器监控项

type

Post

status

Published

date

Nov 12, 2025

slug

summary

tags

Centos7

运维

Zabbix

category

技术分享

icon

password

一、系统资源监控数据

1. CPU相关

CPU使用率过高：如持续5分钟超过90%

CPU负载异常：如load average超过CPU核心数的2-3倍

CPU I/O等待时间过长

2. 内存相关

内存使用率过高：如超过85%

Swap使用率激增：可能预示内存不足

可用内存过低

3. 磁盘相关

磁盘空间不足：如剩余空间低于10%或特定阈值（如5GB）

磁盘I/O性能异常：读写延迟过高、IOPS异常

inode使用率过高

二、服务状态监控数据

1. 服务可用性

端口监听状态：如Web服务端口80/443、数据库端口3306等

进程是否存在：关键服务进程是否运行

服务响应时间：如HTTP请求响应时间超过设定阈值

2. 数据库服务

数据库连接数过多

慢查询数量激增

复制状态异常（主从复制延迟）

三、网络性能数据

1. 网络连通性

网络延迟过高：Ping响应时间异常

网络丢包率：如丢包率超过5%

端口连通性检测

2. 带宽使用

网络带宽使用率过高：如超过80%

网络错误包数量激增

四、应用业务数据

1. 业务指标异常

交易失败率上升

用户登录失败次数过多

API调用错误率超标

2. 日志监控

错误日志中出现特定关键字

日志文件大小异常增长

安全相关日志告警

五、硬件状态数据

1. 服务器硬件

硬件故障告警：RAID状态、电源状态

温度异常：CPU、硬盘温度过高

风扇转速异常

2. 网络设备

交换机端口错误

路由器CPU/内存使用率

六、特殊场景数据

1. 数据一致性检查

文件MD5校验不一致

数据库主从不一致

备份文件完整性检查

2. 安全监控

失败登录尝试次数过多

异常文件修改

可疑进程活动

创建触发器的基本原则

1. 关注业务影响

优先为直接影响业务可用性的指标创建触发器

如：网站不可访问、数据库连接失败等

2. 设置合理阈值

避免过于敏感（频繁误报）

避免过于宽松（漏报真实问题）

考虑业务高峰时段的正常波动

3. 分级告警

警告级别：可自动恢复或影响较小的问题

严重级别：需要立即干预的重大故障

4. 关联依赖关系

避免因底层故障导致的大量重复告警

设置触发器依赖，如：网络故障时，不报告依赖该网络的所有服务问题

总结：需要创建触发器的数据特征

关键性指标：直接影响系统/业务可用性的数据

可设定阈值：有明确的正常/异常边界

持续监控价值：需要长期关注的性能或状态指标

* actionable**：触发后运维人员可以采取具体行动

建议：优先为核心业务链路的关键节点创建触发器，逐步完善监控覆盖范围。

Loading...