跳到主要内容

1 篇博文 含有标签「作业管理」

查看所有标签

生产环境批量跑脚本,风险往往不在脚本里

· 阅读需 9 分钟

月末结算窗口前二十分钟,账务集群里有几台机器的磁盘占用突然往上冲。群里没有人先问脚本怎么写,而是先追着确认另一件事:这次到底只处理几台异常节点,还是会顺手打一整个执行组。

让人发紧的,不是要不要批量执行,而是没人敢保证这一键只会落在该落的地方。脚本内容、目标范围、落地路径、执行后的追溯链,只要有一处没收住,原本用于止血的动作就可能直接扩大故障面。很多生产环境里的“自动化翻车”,问题都不出在自动化本身,而是批量能力先跑了起来,边界却还没讲清楚。