你敢让AI智能体完全自主地工作45分钟吗?
很多人都在问:AI智能体到底能不能真正"自主"工作?会不会失控?Anthropic最新发布的研究,给了我们一个基于数百万次真实使用数据的答案。🤔 先问个问题
假如你让AI帮你写代码、改bug,你敢让它完全自主运行多久?Anthropic发现,在实际使用中,Claude Code在最长时间的会话里,平均自主工作时间已经从25分钟增长到45分钟。而且,这还不是因为模型变聪明了——这个增长是渐进式的,不是跳跃式的。说明什么?说明AI的能力其实早就够用了,是我们还不敢完全放手。📊 有意思的数据
Anthropic分析了Claude Code和公共API上的数百万次交互,发现了几个反直觉的模式:新手用户(<50次会话):只有20%的时候会让AI全自动干活老用户(750次会话):超过40%的时候会让AI全自动但有意思的是——老用户中断AI的频率也更高(从5%涨到9%)。2️⃣ AI自己"踩刹车"的次数,比人类让它停下来还多在最复杂的任务上,Claude Code主动停下来问问题的次数,是人类中途中断它的两倍多。这说明什么?训练AI识别自己的不确定性,比给它加各种限制更有效。80%的工具有某种保障措施(权限限制、人工批准等)Anthropic确实看到了一些高风险领域的尝试:目前软件工程占了近50%,但随着AI向其他领域扩展,风险和自主性都会增加。💡 几个核心洞察
Claude Opus 4.5在测试中能完成人类需要5小时的任务就像老司机开车,你不会每10秒提醒一次"注意安全",但你会盯着路,出事了立刻踩刹车。训练AI在不确定时停下来问人,比给它各种硬性限制更重要这是Anthropic特别强调的一点:主动的自我限制,比被动的外部监管更有效。🎯 这对我们意味着什么?
不要一开始就完全放手,也不要一直死盯着。给AI一点自主空间,给自己一点"踩刹车"的准备。与其每个行动都要点确认,不如学会看大局,发现不对劲再介入。它不是在烦你,是在校准自己的不确定性。这比盲目自信好多了。让AI学会说"我不确定",比给它加各种限制更管用。要让用户能清楚地看到AI在干什么,需要时能立刻干预🤔 最后,一个问题
https://www.anthropic.com/research/measuring-agent-autonomy
https://code.claude.com/docs/en/overview
如果觉得有用,欢迎点赞、收藏、转发给需要的朋友 🙌