触发器监控项

type
status
date
slug
summary
tags
category
icon
password

一、系统资源监控数据

1. CPU相关

  • CPU使用率过高:如持续5分钟超过90%
  • CPU负载异常:如load average超过CPU核心数的2-3倍
  • CPU I/O等待时间过长

2. 内存相关

  • 内存使用率过高:如超过85%
  • Swap使用率激增:可能预示内存不足
  • 可用内存过低

3. 磁盘相关

  • 磁盘空间不足:如剩余空间低于10%或特定阈值(如5GB)
  • 磁盘I/O性能异常:读写延迟过高、IOPS异常
  • inode使用率过高

二、服务状态监控数据

1. 服务可用性

  • 端口监听状态:如Web服务端口80/443、数据库端口3306等
  • 进程是否存在:关键服务进程是否运行
  • 服务响应时间:如HTTP请求响应时间超过设定阈值

2. 数据库服务

  • 数据库连接数过多
  • 慢查询数量激增
  • 复制状态异常(主从复制延迟)

三、网络性能数据

1. 网络连通性

  • 网络延迟过高:Ping响应时间异常
  • 网络丢包率:如丢包率超过5%
  • 端口连通性检测

2. 带宽使用

  • 网络带宽使用率过高:如超过80%
  • 网络错误包数量激增

四、应用业务数据

1. 业务指标异常

  • 交易失败率上升
  • 用户登录失败次数过多
  • API调用错误率超标

2. 日志监控

  • 错误日志中出现特定关键字
  • 日志文件大小异常增长
  • 安全相关日志告警

五、硬件状态数据

1. 服务器硬件

  • 硬件故障告警:RAID状态、电源状态
  • 温度异常:CPU、硬盘温度过高
  • 风扇转速异常

2. 网络设备

  • 交换机端口错误
  • 路由器CPU/内存使用率

六、特殊场景数据

1. 数据一致性检查

  • 文件MD5校验不一致
  • 数据库主从不一致
  • 备份文件完整性检查

2. 安全监控

  • 失败登录尝试次数过多
  • 异常文件修改
  • 可疑进程活动

创建触发器的基本原则

1. 关注业务影响

  • 优先为直接影响业务可用性的指标创建触发器
  • 如:网站不可访问、数据库连接失败等

2. 设置合理阈值

  • 避免过于敏感(频繁误报)
  • 避免过于宽松(漏报真实问题)
  • 考虑业务高峰时段的正常波动

3. 分级告警

  • 警告级别:可自动恢复或影响较小的问题
  • 严重级别:需要立即干预的重大故障

4. 关联依赖关系

  • 避免因底层故障导致的大量重复告警
  • 设置触发器依赖,如:网络故障时,不报告依赖该网络的所有服务问题

总结:需要创建触发器的数据特征

  1. 关键性指标:直接影响系统/业务可用性的数据
  1. 可设定阈值:有明确的正常/异常边界
  1. 持续监控价值:需要长期关注的性能或状态指标
  1. * actionable**:触发后运维人员可以采取具体行动
建议:优先为核心业务链路的关键节点创建触发器,逐步完善监控覆盖范围。
Loading...