服务器性能及业务监控指标,可根据实际情况调整,下表供大家参考。

监控类别 监控子对象 监控维度 监控指标 警告 严重
服务器 CPU 负载 1分钟采集,5分钟告警 >=5 >=10
利用率 1分钟采集,5分钟告警 >=60% >=80%
温度 1分钟采集,5分钟告警 >=70℃ >=80℃
内存 利用率 1分钟采集,5分钟告警 >=80% >=90%
磁盘 分区使用率 1分钟采集,5分钟告警 >=80% >=90%
IO/读写 1分钟采集,5分钟告警    
网络连接 监听端口 5分钟告警    
网络质量 延迟 监控服务器到服务器的连通性 5分钟告警 >=100ms >=300ms
前端服务器到后端服务器连通性 5分钟告警 >=100ms >=300ms
丢包 监控服务器到服务器的连通性 5分钟告警 >=5% >=20%
前端服务器到后端服务器连通性 5分钟告警 >=5% >=20%
网卡

网络带宽in/out

5分钟告警    
网络数据包数量count/s 5分钟告警    
网络数据包大小bytes/s 5分钟告警    
业务监控 端口 端口存在性 1分钟采集,及时告警   端口不存在
进程 进程存在性 1分钟采集,及时告警   进程不存在
网络流量 所有业务流量总合 1分钟采集,5分钟告警    
注册 注册响应时间 2小时采集,5分钟告警 >=20s >=30s
登录 登录响应时间 10分钟采集,5分钟告警 >=20s >=30s
充值 充值响应时间 10分钟采集,5分钟告警 >=20s >=30s
自定义监控 Nginx,Redis等      
内容监控 HTTP状态监控 监控关键页面响应时间 5分钟采集,及时告警 >=5s >=10s
监控关键页面关键字,如数据库连接成功/失败 1分钟采集,及时告警   内容不匹配
数据库监控 数据库连通性 监控数据库是否存活 1分钟采集,及时告警    
数据库连接数 5分钟告警    
主从监控 主从同步状态 1分钟采集,及时告警    
内存使用 内存使用率 10分钟采集,5分钟告警    
索引 索引使用率 10分钟采集,5分钟告警    
缓存 缓存使用率 10分钟采集,5分钟告警    
表锁 表锁状态 10分钟采集,5分钟告警    
DML select,insert,update,delete 10分钟采集,5分钟告警    
TPS TPS/S 10分钟采集,5分钟告警    
流量 in/out 流量 5分钟告警