触发器监控项
type
status
date
slug
summary
tags
category
icon
password
一、系统资源监控数据
1. CPU相关
- CPU使用率过高:如持续5分钟超过90%
- CPU负载异常:如load average超过CPU核心数的2-3倍
- CPU I/O等待时间过长
2. 内存相关
- 内存使用率过高:如超过85%
- Swap使用率激增:可能预示内存不足
- 可用内存过低
3. 磁盘相关
- 磁盘空间不足:如剩余空间低于10%或特定阈值(如5GB)
- 磁盘I/O性能异常:读写延迟过高、IOPS异常
- inode使用率过高
二、服务状态监控数据
1. 服务可用性
- 端口监听状态:如Web服务端口80/443、数据库端口3306等
- 进程是否存在:关键服务进程是否运行
- 服务响应时间:如HTTP请求响应时间超过设定阈值
2. 数据库服务
- 数据库连接数过多
- 慢查询数量激增
- 复制状态异常(主从复制延迟)
三、网络性能数据
1. 网络连通性
- 网络延迟过高:Ping响应时间异常
- 网络丢包率:如丢包率超过5%
- 端口连通性检测
2. 带宽使用
- 网络带宽使用率过高:如超过80%
- 网络错误包数量激增
四、应用业务数据
1. 业务指标异常
- 交易失败率上升
- 用户登录失败次数过多
- API调用错误率超标
2. 日志监控
- 错误日志中出现特定关键字
- 日志文件大小异常增长
- 安全相关日志告警
五、硬件状态数据
1. 服务器硬件
- 硬件故障告警:RAID状态、电源状态
- 温度异常:CPU、硬盘温度过高
- 风扇转速异常
2. 网络设备
- 交换机端口错误
- 路由器CPU/内存使用率
六、特殊场景数据
1. 数据一致性检查
- 文件MD5校验不一致
- 数据库主从不一致
- 备份文件完整性检查
2. 安全监控
- 失败登录尝试次数过多
- 异常文件修改
- 可疑进程活动
创建触发器的基本原则
1. 关注业务影响
- 优先为直接影响业务可用性的指标创建触发器
- 如:网站不可访问、数据库连接失败等
2. 设置合理阈值
- 避免过于敏感(频繁误报)
- 避免过于宽松(漏报真实问题)
- 考虑业务高峰时段的正常波动
3. 分级告警
- 警告级别:可自动恢复或影响较小的问题
- 严重级别:需要立即干预的重大故障
4. 关联依赖关系
- 避免因底层故障导致的大量重复告警
- 设置触发器依赖,如:网络故障时,不报告依赖该网络的所有服务问题
总结:需要创建触发器的数据特征
- 关键性指标:直接影响系统/业务可用性的数据
- 可设定阈值:有明确的正常/异常边界
- 持续监控价值:需要长期关注的性能或状态指标
- * actionable**:触发后运维人员可以采取具体行动
建议:优先为核心业务链路的关键节点创建触发器,逐步完善监控覆盖范围。
Loading...