日志告警总像“狼来了”,问题卡在哪
· 阅读需 16 分钟
复盘会上最扎心的那句:这到底是一件事,还是十几件事
周三例行发布刚结束,发布群里连续刷出十几条 timeout 相关提醒。
订单服务在报错,支付回调也在报错,几个实例日志里都能看到相似关键字。发布负责人老赵打开日志中心,先搜 timeout、Exception、upstream reset,再回头看告警列表。
真正把人卡住的,不是页面上没有信息,而是信息一下子太多了。
复盘会上有人追问了一句很刺耳的话:
这些提醒到底是在说同一个问题,还是已经是十几条不同的处理对象?
页面上不是没有信息,恰恰相反,是信息太多了。同一类错误在不断冒出来,告警一条接一条地刷,群里每个人都知道“出事了”,但没有人能立刻回答更关键的问题:**这到底是一个问题,还是十几个问题?**是某个服务整体退化,还是个别实例异常?该先拉谁,先看哪一层,先不先升级?
很多团队以为自己是被日志量压垮的,真正把人拖慢的,往往不是日志太多,而是告警在一开始就没有把 处理单位拆清楚。关键字告警和聚合告警都能工作,但它们回答的根本不是同一个问题。前者在抓信号,后者在划责任边界。如果这两件事混着做,发布后的排障现场就会越来越像“狼来了”。