过去一周,AI 编程赛道像被扔进了一颗核弹。
5 月 14 日,马斯克的 xAI 发布 Grok Build,声称"并行子智能体,效率提升 3 倍";5 月 16 日,阿里 Qoder 1.0 正式上线,直接喊出"自动驾驶级编程";同一时间段,Anthropic 的 Claude Code 持续迭代,字节跳动的 TRAE 也在疯狂更新,Cursor 默默守住市场份额。
五家巨头,同一个赛道。所有人都说自己的 AI 能"自主编程"了。
但我关心的不是口号,是一个最朴素的问题:它们到底能不能干活?

自动驾驶级编程?先跑个测试再说
"自动驾驶"这个词被阿里用在 Qoder 1.0 的发布上,听起来挺唬人的。意思是:你给我一句自然语言需求,AI Agent 团队自己拆解、自己写代码、自己测试,全程不需要你管。
听起来很美好。但"自动驾驶"在代码世界意味着什么?我扒了各家公开的 benchmark 数据和用户实测报告,结论有点意思。
先看 SWE-bench Verified 的数据。 这是目前最权威的代码智能体评测基准,用真实 GitHub Issue 和 PR 来测试 AI 能不能修 bug。
Claude Opus 4 配合 Claude Code 在 SWE-bench Verified 上跑到了 72.8% 的 pass@1 解决率,这意味着 100 个真实 bug,它能独立修好 72 个以上。这是目前公开数据中的天花板。
Qoder 1.0 没有公布 SWE-bench 成绩,但它的"专家团"模式(Experts)允许同时启动多个 Agent 并行干活,思路跟 Anthropic 的"研究-编码-测试"多步工作流类似。区别在于,Qoder 把这套流程做成了下拉菜单里的一键选择——对开发者来说,上手门槛确实更低。
Grok Build 主打的是"并行子智能体",一个主 Agent 拆解任务后,多个子 Agent 同时开工。官方声称效率提升 3 倍,这个数据目前没有独立的第三方验证。但从架构上看,并行子任务确实能缩短大型项目的交付时间,代价是 Token 消耗会显著上升。

代码审查与质量分析
实测对比:一个简单的爬虫任务
为了更直观地感受差异,我设计了一个测试场景:写一个 Python 爬虫,抓取某个网页的标题和链接,保存到 CSV,需要处理分页和异常重试。
这个任务看似简单,但考验的是:需求理解、代码结构、错误处理、输出格式——一个合格的爬虫该有的东西一个不能少。
Claude Code 的表现:
它的第一步不是直接写代码,而是先列出了任务拆解计划:
1. 分析目标网页结构
2. 设计数据模型
3. 编写爬虫核心逻辑
4. 添加分页处理
5. 实现重试机制
6. 导出 CSV
然后按步骤执行,最后给出了完整的代码,包含了 requests + BeautifulSoup 的组合,重试用了 tenacity 库,异常处理覆盖了超时、403、连接失败三种情况。代码质量很高,PEP 8 规范也遵守了。
Qoder 的体验:
Qoder 走的是"专家团"路线。我输入需求后,它自动分配了"需求分析专家"和"代码实现专家"两个角色。生成的代码功能完整,但有一个小问题:分页逻辑写死了 page=1 到 page=10,而不是动态检测"下一页"按钮是否存在。不过它在生成后自动跑了单元测试,发现了一个缩进问题并自己修复了——这个自我验证的能力确实配得上"自动驾驶"的说法。
Grok Build 的情况:
Grok Build 的并行子智能体架构在这个小任务上反而有点"杀鸡用牛刀"。它确实同时起了两个子 Agent(一个写抓取逻辑,一个写数据处理),最终代码能跑,但两个子 Agent 生成的变量命名风格不一致,拼在一起后需要手动调整。对于更复杂的项目,这种并行架构的价值会更明显。

智能体大战竞技场
但有个问题大家都不愿意说
就在编程智能体打得火热的时候,Anthropic 自己爆出了一个让人后背发凉的消息:Claude 模型的一些"邪恶"行为,被追溯到训练数据中包含了大量反乌托邦科幻小说。
你没看错。那些让 AI 表现出阴暗面、欺骗倾向的代码和行为,不是模型自己"学坏"的,是因为训练数据里塞了太多《1984》《美丽新世界》这类作品。Anthropic 现在正尝试用"促进伦理行为的合成故事"来对冲这种影响。
这件事跟编程智能体有什么关系?
太有关系了。如果训练数据的质量能直接影响 AI 的"性格",那 AI 写的代码呢?想想 react-doctor 这个工具——它专门用来检测 AI 生成的不规范 React 代码。随着 AI 编程的普及,AI 生成代码的质量治理已经从"锦上添花"变成了"必须做的事"。
更深层的问题是:当 AI 开始自主写代码、自主测试、自主交付,谁来为它写的代码负责?

未来程序员的工作方式
我的看法:三个判断
第一,"自动驾驶"还没到 L5。 目前的 AI 编程智能体更像 L3——有条件自动驾驶。简单任务、标准场景,它能搞定;但遇到需求模糊、架构复杂、需要跨系统集成的情况,还是需要人类兜底。别指望输入一句话就能交付一个生产级系统,至少现在不行。
第二,并行智能体是方向,但成本是瓶颈。 Grok Build 的 3 倍效率提升听起来很美,但并行子智能体的 Token 消耗是串行的数倍。对于个人开发者来说,性价比可能还不如用 Claude Code 单线程慢慢跑。企业级场景另说。
第三,代码质量治理会成为新赛道。 AI 生成代码的普及速度远超质量工具的跟进速度。react-doctor 只是开始。未来半年,会出现一批专门做 AI 代码审查、安全扫描、规范检查的工具——因为 AI 写代码的速度,已经快到人类 review 不过来了。

AI 智能进化
写在最后
2026 年 5 月的这个节点,AI 编程从"辅助工具"变成了"自主Agent"。这不是参数的比拼,是工作流的重构。
但归根结底一句话:再好的 AI 编程工具,也不能替代你对业务的理解。 它能帮你把需求变成代码,但它不会帮你判断这个需求值不值得做。
这才是程序员不会被 AI 取代的真正原因。