跳到主要内容

2 篇博文 含有标签「告警治理」

查看所有标签

10 条告警背后其实是 1 个问题,如何高效治理

· 阅读需 12 分钟

10 条里真正该接哪 1 条

发布刚结束,告警列表已经刷出一排红色状态。

主机指标在抖,应用错误率在涨,日志平台也在冒异常,群里几分钟就被不同来源的提醒顶满了。平台排障同学老钱盯着列表,没有立刻去逐条认领。不是他反应慢,而是他知道,这种时候最怕的不是没人看到问题,而是所有人都被 10 条看起来同样着急的告警同时拉走注意力

真正困难的地方,很少是“有没有发现异常”。

真正困难的地方是:这 10 条里,到底哪一条才是处理单位。

日志告警总像“狼来了”,问题卡在哪

· 阅读需 16 分钟

复盘会上最扎心的那句:这到底是一件事,还是十几件事

周三例行发布刚结束,发布群里连续刷出十几条 timeout 相关提醒。

订单服务在报错,支付回调也在报错,几个实例日志里都能看到相似关键字。发布负责人老赵打开日志中心,先搜 timeoutExceptionupstream reset,再回头看告警列表。

真正把人卡住的,不是页面上没有信息,而是信息一下子太多了。

复盘会上有人追问了一句很刺耳的话:

这些提醒到底是在说同一个问题,还是已经是十几条不同的处理对象?

页面上不是没有信息,恰恰相反,是信息太多了。同一类错误在不断冒出来,告警一条接一条地刷,群里每个人都知道“出事了”,但没有人能立刻回答更关键的问题:**这到底是一个问题,还是十几个问题?**是某个服务整体退化,还是个别实例异常?该先拉谁,先看哪一层,先不先升级?

很多团队以为自己是被日志量压垮的,真正把人拖慢的,往往不是日志太多,而是告警在一开始就没有把 处理单位拆清楚。关键字告警和聚合告警都能工作,但它们回答的根本不是同一个问题。前者在抓信号,后者在划责任边界。如果这两件事混着做,发布后的排障现场就会越来越像“狼来了”。