2 篇博文含有标签「告警治理」

10 条告警背后其实是 1 个问题，如何高效治理

2026年4月29日 · 阅读需 12 分钟

发布刚结束，告警列表已经刷出一排红色状态。

主机指标在抖，应用错误率在涨，日志平台也在冒异常，群里几分钟就被不同来源的提醒顶满了。平台排障同学老钱盯着列表，没有立刻去逐条认领。不是他反应慢，而是他知道，这种时候最怕的不是没人看到问题，而是所有人都被 10 条看起来同样着急的告警同时拉走注意力。

真正困难的地方，很少是“有没有发现异常”。

真正困难的地方是：这 10 条里，到底哪一条才是处理单位。

2026年4月29日 · 阅读需 16 分钟

周三例行发布刚结束，发布群里连续刷出十几条 timeout 相关提醒。

订单服务在报错，支付回调也在报错，几个实例日志里都能看到相似关键字。发布负责人老赵打开日志中心，先搜 timeout、Exception、upstream reset，再回头看告警列表。

真正把人卡住的，不是页面上没有信息，而是信息一下子太多了。

复盘会上有人追问了一句很刺耳的话：

这些提醒到底是在说同一个问题，还是已经是十几条不同的处理对象？

页面上不是没有信息，恰恰相反，是信息太多了。同一类错误在不断冒出来，告警一条接一条地刷，群里每个人都知道“出事了”，但没有人能立刻回答更关键的问题：**这到底是一个问题，还是十几个问题？**是某个服务整体退化，还是个别实例异常？该先拉谁，先看哪一层，先不先升级？

很多团队以为自己是被日志量压垮的，真正把人拖慢的，往往不是日志太多，而是告警在一开始就没有把 处理单位拆清楚。关键字告警和聚合告警都能工作，但它们回答的根本不是同一个问题。前者在抓信号，后者在划责任边界。如果这两件事混着做，发布后的排障现场就会越来越像“狼来了”。