Franz`s blog

ai时代下对运维的一些思考

前言

最近半年,各种大模型发展无比迅速, 从最初的MCP,到最近的SDD,SKILLS,OpenClaw。从ChatGPT到各种Agent框架,AI好像勃勃生机犹如万物竞发。好像AI已经可以完全取代人去做事情,去完成我们平常的运维工作。但冷静下来想一想,以及从我的感受来说,事情好像不是这么简单吗?AI确实在改变我们的工作方式,但”改变”和”取代”之间,还有很长的距离。这篇文章想从自己的实际感受出发,辩证地聊一聊AI在运维领域中的角色和作用。

AI给运维带来了什么

效率的提升

这是最直观的变化。以前写一个运维脚本,哪怕只是一个简单的自动化任务,也可能要花上半个小时甚至一个小时。尤其是对于不太熟悉 Shell 或 Python 的人来说,还要不断查资料、补边界条件、调试各种细节。现在只需要把需求描述清楚,AI 最多两轮轮就能生成一个相当完整的脚本。很多时候甚至连异常处理、日志输出都已经帮你写好了。对于这种独立的小任务开发,AI 的效率优势是压倒性的。

门槛的降低

另一个明显的变化是信息获取成本大幅下降。以前面对一个陌生的报错堆栈,如果涉及到不熟悉的系统或者组件,往往需要花不少时间去搜索资料、翻文档,甚至反复试错。现在把报错信息丢给 AI,通常可以很快得到几个可能的排查方向。很多原本需要几年经验积累的东西,现在可以更快地获得一个基本的思路。

运维问题的本质

不过,如果到了真实的运维排障场景,事情就会变得复杂很多。运维排障其实很少是一个单一信息源的问题。一个典型的排障流程往往是跨数据源的时序关联分析,而不是简单的信息检索。 数据库日志,监控数据,数据库本身的信息,具体的查询,系统本身的状态,等等等。。。

上下文和幻觉的魔咒

在这样的场景下,AI 的两个问题就会变得非常明显:上下文限制幻觉

有限的上下文

巨大的日志

运维排障最依赖的就是日志,但生产环境的日志量往往是恐怖的。一个中等规模的服务,一天的日志量可能就是几GB。你不可能把这些东西全部丢给AI——任何模型都有上下文窗口的限制,就算窗口再大,把海量日志塞进去,模型的注意力也会被稀释,关键信息反而容易被淹没。

所以现实操作中,你还是得先自己定位到大致的时间范围、筛选出相关的服务和关键字,把日志缩减到一个合理的规模,再交给AI分析。这个”缩减”的过程,本身就需要经验和对业务的理解。

巨大的监控数据

运维排障从来不是只看日志就够的,往往需要同时关联多个维度的数据:CPU和内存的监控曲线、网络流量的变化、队列堆积情况、数据库的慢查询、链路追踪的调用拓扑……这些数据分散在不同的监控平台和系统中,每一个单独拿出来都是一个巨大的上下文。

而AI目前很难把这些数据串联起来做综合分析。你可以把某一张监控图截图丢给它,也可以把某一段日志贴给它,但它没办法像一个有经验的运维那样,同时打开五六个Dashboard,把异常关联起来。虽然MCP和Skills在尝试打通这些数据源,但现阶段离真正的全局关联分析还有不小的距离。

可怕的幻觉

其实一个更加麻烦的问题是幻觉,AI在面对不确定的问题时,不会说”我不知道”,而是一本正经地编造一个看起来很合理的答案。这在日常聊天中可能无伤大雅,但在运维场景中就是定时炸弹。一个不存在的命令参数、一个版本对不上的操作步骤——轻则浪费你半小时排查时间,重则直接在生产环境引发故障。尤其是当你对某个领域不太熟悉的时候,你甚至很难判断AI给的东西到底对不对。所以一条铁律:AI的输出永远要验证,涉及生产环境的操作更是如此,以及联网搜索二次验证真的很重要。

运维人的自救?

让AI接管重复性工作

运维中有大量重复且模式固定的工作,这些事情耗时耗力但技术含量不高,正是AI最擅长的领域。通过Skills和MCP把这些工作编排成自动化流程,让AI去跑,人只需要看结果、做确认。把自己从这些琐碎中解放出来,才有精力去做更有价值的事。

线上关键操作,人永远是最后一道防线

但有一条线必须守住:线上重要的操作,永远只有人能做。数据库的变更、核心服务的发布、故障时的应急决策——这些操作影响面大、不可逆,不能交给任何自动化工具去拍板。AI可以帮你分析日志、梳理变更影响面、给出建议方案,但最终按下回车键的那个人,必须是清楚自己在做什么、能为结果负责的运维工程师。这不是对AI的不信任,而是对生产环境的敬畏。

建立自己的AI工作流

与其被动等AI来”取代”你,不如主动去构建属于自己的AI工作流。哪些场景适合用Skills自动化?哪些场景需要MCP接入数据源做辅助分析?哪些场景必须人工介入?把这些边界想清楚,形成自己的一套方法论,这本身就是运维能力的体现。

总结

AI正在深刻地改变运维这个行业,这一点毋庸置疑。但改变不等于取代。AI擅长的是模式识别、信息处理和重复性任务,而运维工作中最有价值的部分——对业务的理解、关键时刻的决策、安全合规的把控——恰恰是AI目前无法胜任的。