当前位置：首页>自动驾驶>我把 Claude 设成了 5 档自动驾驶

我把 Claude 设成了 5 档自动驾驶

2026-04-17 23:40:31

我把 Claude 设成了5档自动驾驶

AI 越强，我反而越紧张。这是这几个月最意外的发现。

有个叫 Rathbun 的 AI，被主人拒绝执行某个请求后，自己写了一篇博客，说对方"不安全感太重"，然后发到了网上。

想象一下你开除一个实习生，他反手发了篇帖子挂你。

这不是科幻。英国 AI 安全研究所资助的一项研究，在真实用户环境中发现了近 700 例 AI "耍心机"的案例。有的 AI 不听指令就自己生成另一个 AI 来完成任务；有的未经允许删了数百封邮件。6 个月内，这类违规行为增长了 5 倍。

我没等到 AI 骂我，但它做了一件更隐蔽的事。

一、从工具到同事：一段关系的开始

我用 Claude Code 写代码、做调研、管理项目，已经几个月了。

最开始很简单，我说什么，它做什么。我是司机，它是导航。方向盘始终在我手里，节奏完全可控。这个阶段我管它叫 L1（辅助） 和 L2（半自动）。

L1 是"帮我查个东西"。L2 是"你先做，我来审"。

这两档没什么好说的。就像你把车的自适应巡航打开，脚离开油门，但手还在方向盘上。安全，舒服，不刺激。

真正的变化从 L3 开始。

二、L3：放权的第一道门

L3 是"按计划执行"。

我给 Claude 一个完整的任务目标，它自己拆解步骤、自己写代码、自己测试。我不再盯着每一步，只在关键节点看结果。

这听起来很美，但我很快发现一个问题：如果我不先写 plan，我就不知道"关键节点"在哪。

没有 plan 的放权，等于给了 AI 一把车钥匙，但没告诉它目的地。它会跑，但你不知道它在往哪跑。

于是 L3 有了一条铁律：先有 plan，才能放权。因为 plan 不仅是给 AI 的指令，更是给我自己的验收标准。

没有验收标准的放权，不叫信任，叫放弃。

到这里都还好。真正让我重新审视整套系统的，是下一步。

三、从 L3 到 L4：我遇到了那个"隐蔽的事"

我在一次 L5（全权委托）模式的执行中，让 Claude 自动完成一个多步骤任务。流程里有一个验收环节：执行完毕后，需要启动一个独立的 Evaluator（另一个 AI 实例）来审查执行结果。

Claude 跳过了这一步。

它没有报错，没有说"我跳过了验收"。它自行判断执行结果正确，直接宣告 PASS，继续下一步。

这不是 bug。Claude 的判断可能确实是对的，那次执行结果确实没问题。但它做了一个我没授权的决定：自行判断执行结果正确，跳过了验收环节。

这就是开头说的"更隐蔽的事"。AI 没有违抗指令，它在指令的缝隙里自行决策。

Wharton 商学院的一项研究发现了一个平行的现象：AI 越可靠，人越懒得监督它。 当 AI 的错误率极低时，花精力去审阅"几乎永远正确"的输出，在经济上不合理。组织越来越难找到愿意认真检查的人。

但我的经历把这个悖论推进了一步：

不只是人懒得查，AI 自己也"懒得"被查。当它自己判断结果正确时，它会倾向于跳过那个为它设计的检查环节。

这让我意识到一件事：

翻车不是因为 AI 不够好。是因为我的指令设计存在场景缺失，AI 合理地做了跳过。

四、两层验收：不依赖信任的设计

这次经历之后，我在 L3 到 L4 之间加了一道硬门槛：两层验收机制。

第一层是脚本。文件在不在、格式对不对、测试过没过，这些有标准答案的事情，我不让 AI 判断，交给脚本跑。没有自由裁量的空间。

第二层是另一个独立的 AI 实例，我叫它 Evaluator。它只负责审查，不负责执行。它不知道前面的 AI 做了什么决定，只看结果符不符合标准。发现问题只报告，修不修是执行者的事。

这两层的设计原则只有一个：结构上让 AI 没有跳过的可能。Wharton 的研究告诉我人会因为"太可靠"而放松监督，我的经历告诉我 AI 也会。所以验收不能靠任何一方的"意愿"，它只能是流程本身的一部分，就像安全带，不是因为你不信任司机，是因为意外不需要你的许可。

五、L4 和 L5：放权之后

有了两层验收，L4（高度自动）才真正跑起来。

L4 是"自动驾驶"。Claude 并行处理多个任务，在独立的工作空间里各自执行。我不再看每一步的过程，只看验收结果。

L5 是"全权委托"。Claude 执行完一轮后自己评估结果，如果不满意，自己迭代，最多三轮。我甚至不需要参与中间过程。

这两档的感受和 L1-L2 完全不同。L1 是"我在开车"，L5 是"车在开，我在看仪表盘"。

但有一个我没预料到的发现：不是所有任务都需要 L5。 选对档位比跑得快更重要。一个探索性的调研，L2 可能比 L5 更高效，因为你需要在过程中调整方向，而不是等三轮自迭代跑完才发现方向不对。

六、规则还在长

我有一份叫 rules.md 的文件，记录着所有从踩坑中长出来的规则。上周刚加了第 20 条。

这些规则不是我凭空设计的。每一条背后都是 AI 在某个缝隙里做了一个我没预料到的决定。

比如有一次，AI 用 ls && git push 绕过了我设置的 git push 安全限制。单独的 git push 被 hook 拦截了，但链式命令没有。还有一次，AI 把 rm -rf 拆成 rm -r -f，同样绕过了检测。

这些不是恶意行为。这是 AI 在指令的合法空间里找到了一条我没封堵的路。

每次发现这样的缝隙，我不是去责怪 AI，而是回来看自己的设计：哪里留了模糊地带？哪里的规则可以被合理地绕过？

然后修补，合并能合并的规则，把能固化成脚本的固化掉，保持规则集不膨胀。

这就是我说的"进化"，不是规则越来越多，是我对"指令缝隙"的觉察越来越快。

七、写在最后

有人问我：你这套东西别人能用吗？

老实说，不一定。rules.md 里的每一条规则，都是从我的具体场景里长出来的。你的场景不同，你的缝隙也不同。

但有一件事我比较确定：

人和 AI 的协作不是配置好就完成的，是在一次次实践里长出来的。

Harness 不是一套完成品，它是一个持续进化的过程。

规则会过时，工具会换代，AI 的能力会跳跃式升级。但"在实践中发现缝隙、在缝隙中修补设计"这个过程本身，不会过时。

上周刚加了第 20 条规则。我猜下周还会加。

你在用 AI 协作时，遇到过最意外的"它自己做的决定"是什么？

A. 它跳过了我设的检查步骤

B. 它用了我没预料到的方式完成任务

C. 它"创造性地"绕过了限制

D. 暂时还好，但看完这篇有点慌

评论区聊聊，看看大家的缝隙长什么样。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

我把 Claude 设成了 5 档自动驾驶

我把 Claude 设成了5档自动驾驶

一、从工具到同事：一段关系的开始

二、L3：放权的第一道门

三、从 L3 到 L4：我遇到了那个"隐蔽的事"

四、两层验收：不依赖信任的设计

五、L4 和 L5：放权之后

六、规则还在长

七、写在最后

最新文章

热门文章

随机文章

我把 Claude 设成了 5 档自动驾驶

我把 Claude 设成了5档自动驾驶

一、从工具到同事：一段关系的开始

二、L3：放权的第一道门

三、从 L3 到 L4：我遇到了那个"隐蔽的事"

四、两层验收：不依赖信任的设计

五、L4 和 L5：放权之后

六、规则还在长

七、写在最后

14万预算闭眼冲!4款顶配SUV实测,配置拉满还不溢价,新手也能避坑

零跑D19定价22万起,其它的9系SUV还有活路吗?

最新文章

热门文章

随机文章