当前位置：首页>自动驾驶>AI智能体能＂自动驾驶＂多久?Anthropic最新研究颠覆你的认知

AI智能体能＂自动驾驶＂多久?Anthropic最新研究颠覆你的认知

2026-02-26 02:36:28

你敢让AI智能体完全自主地工作45分钟吗？

很多人都在问：AI智能体到底能不能真正"自主"工作？会不会失控？

Anthropic最新发布的研究，给了我们一个基于数百万次真实使用数据的答案。

结果有点让人意外。

🤔 先问个问题

假如你让AI帮你写代码、改bug，你敢让它完全自主运行多久？

5分钟？10分钟？还是……半小时？

Anthropic发现，在实际使用中，Claude Code在最长时间的会话里，平均自主工作时间已经从25分钟增长到45分钟。

而且，这还不是因为模型变聪明了——这个增长是渐进式的，不是跳跃式的。

说明什么？说明AI的能力其实早就够用了，是我们还不敢完全放手。

📊 有意思的数据

Anthropic分析了Claude Code和公共API上的数百万次交互，发现了几个反直觉的模式：

1️⃣ 用得越久，管得越松……但也越"爱管"

新手用户（<50次会话）：只有20%的时候会让AI全自动干活

老用户（750次会话）：超过40%的时候会让AI全自动

信任是一点点建立起来的，这不是一朝一夕的事。

但有意思的是——老用户中断AI的频率也更高（从5%涨到9%）。

这是什么操作？

简单说：从"事前审批"变成了"事中监控"。

新手用户：每个行动都要看一眼，所以很少中途中断

老用户：放手让AI干，发现不对劲立马叫停

所以，信任≠放任，老用户只是换了种监督方式。

2️⃣ AI自己"踩刹车"的次数，比人类让它停下来还多

这个发现挺有意思。

在最复杂的任务上，Claude Code主动停下来问问题的次数，是人类中途中断它的两倍多。

AI不是在盲目跑，它知道自己什么时候该"减速"。

这说明什么？训练AI识别自己的不确定性，比给它加各种限制更有效。

3️⃣ 大部分任务都是低风险的……但并不总是这样

数据显示：

80%的工具有某种保障措施（权限限制、人工批准等）

73%的行动有人类参与

只有0.8%是不可逆操作（比如发邮件给客户）

但是……

Anthropic确实看到了一些高风险领域的尝试：

目前软件工程占了近50%，但随着AI向其他领域扩展，风险和自主性都会增加。

💡 几个核心洞察

洞察1：AI的自主性是被"低估"的

Claude Opus 4.5在测试中能完成人类需要5小时的任务

就像老司机开车，你不会每10秒提醒一次"注意安全"，但你会盯着路，出事了立刻踩刹车。

洞察3：AI也需要学会"认怂"

训练AI在不确定时停下来问人，比给它各种硬性限制更重要

这是Anthropic特别强调的一点：主动的自我限制，比被动的外部监管更有效。

🎯 这对我们意味着什么？

如果你正在用AI（比如Claude Code）

信任是可以慢慢建立的

不要一开始就完全放手，也不要一直死盯着。给AI一点自主空间，给自己一点"踩刹车"的准备。

从"审批模式"转向"监控模式"

与其每个行动都要点确认，不如学会看大局，发现不对劲再介入。

珍惜AI问你的那些"傻问题"

它不是在烦你，是在校准自己的不确定性。这比盲目自信好多了。

如果你在开发AI产品

Anthropic给了几个建议：

投资部署后监控

不是测试完了就完事，要看看用户实际怎么用的。

训练AI识别自己的不确定性

让AI学会说"我不确定"，比给它加各种限制更管用。

设计好的监控和干预工具

不要强制要求用户审批每个行动（会有摩擦）

要让用户能清楚地看到AI在干什么，需要时能立刻干预

🤔 最后，一个问题

这篇文章读完，你对AI智能体的看法有没有变化？

你的"信任阈值"是多少？你敢让AI自主工作多久？

欢迎在评论区聊聊你的看法～

参考资料：

Anthropic原论文:

https://www.anthropic.com/research/measuring-agent-autonomy

Claude Code官方文档:

https://code.claude.com/docs/en/overview

如果觉得有用，欢迎点赞、收藏、转发给需要的朋友 🙌

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

AI智能体能＂自动驾驶＂多久?Anthropic最新研究颠覆你的认知

🤔 先问个问题

📊 有意思的数据

💡 几个核心洞察

🎯 这对我们意味着什么？

🤔 最后，一个问题

最新文章

热门文章

随机文章

AI智能体能＂自动驾驶＂多久?Anthropic最新研究颠覆你的认知

🤔 先问个问题

📊 有意思的数据

💡 几个核心洞察

🎯 这对我们意味着什么？

🤔 最后，一个问题

15万大五座SUV终极对决!启源Q07和海狮06 DM-i,谁才是家用最优解

【回望老包头】车市街的轿车和炭市街的煤

最新文章

热门文章

随机文章