获取整个系统的运行状态水平,对其变化和状态进行监控和报警,是保障系统监控运行必不可少的措施。

📌 监控指标定义

服务器

主要为 基础监控指标 [1]

  • CPU

    • 使用率过高:连续 300s,80%。一般

  • 内存

    • 剩余可使用空间不足:使用超过85%,剩余可用不足1G。

  • 磁盘

    • IO 过高:连续 300s,队列超10,使用率80%。一般

    • 使用率过高

    • 剩余可使用空间不足:空间占用率超90%,可用不足20G。

  • 网络

  • 半连接数过高:超过3w

  • IO 过高:连续 300s,80%。一般

  • 时间

    • 时钟跳变:超30s。提醒。

    • 时区不一致

    • 夏令时不正确

中间件

基本状态监控:

  • 错误日志监控

  • CPU、内存、网络、磁盘IO 的使用

  • 连接数

  • 在线状态

  • 线程数

  • 句柄数

网关和代理服务

  • 外部请求连接数(实时/累计)

  • 转发连接数

缓存

  • 缓存数量

  • 类型

  • 趋势

消息队列

  • 队列数

  • 消息数

  • 消费速率

  • 消费情况

搜索引擎

  • 索引数量

  • 索引命中率

数据库

  • 会话数

  • 慢SQL

  • 事务数量

  • 事务执行时间

  • 锁数量(按类型)

微服务

  • 整体的磁盘、内存、CPU、网络占用

  • 特殊业务的CPU、内存、网络、磁盘IO、线程数量、失败数、处理速度、的使用

  • 所依赖第三方库的状态

  • 与所依赖中间件连接的使用和状态

  • 错误码出现频次

🚨 通知 & 告警方式

  • 短信

  • 邮件

  • 第三方应用:微信、钉钉

  • 系统广播

⚖️ 故障等级分类

极其严重

现象:

  • 服务器、数据库宕机;数据丢失、系统不断重启

  • 首页或核心功能无法使用

范围:所有业务、用户

严重

现象:

  • 核心功能部分用户无法使用

  • 非核心功能大部分用户无法使用

  • 逻辑错误、内存泄漏、性能低下

  • 文案与法律法规不符、错别字

范围:部分业务用户、内部用户

一般

现象:非核心功能无法正常使用

  • 次要功能逻辑错误

  • 显示格式/内容错误

范围:小部分用户

较小

现象:

  • 部分用户的数据异常,但没有功能性影响

  • 操作步骤复杂,复现过程繁琐,一般不会发生的错误

范围:个别用户