在自动化领域,我们正经历一场从“硬编码脚本”向“智能代理(Agent)”的进化。要理解这场变革,我们需要先拆解那个一直隐藏在幕后的核心通道——CDP。
CDP (Chrome DevTools Protocol) 是所有 Chromium 系浏览器(Chrome, Edge等)的“后门”。
当你按下 F12 打开开发者工具时,你看到的网络请求、DOM 树、性能分析,本质上都是前端界面通过一个 WebSocket 连接向浏览器内核发送 CDP 指令并接收反馈的结果。
{ "id": 1, "method": "Page.captureScreenshot", "params": { "format": "png" } }
启动 Chrome 时,只要加一个参数:
--remote-debugging-port=0浏览器就会:
http://127.0.0.1:端口/json/listws://127.0.0.1:端口/devtools/browser/xxx这个 WebSocket 地址,就是 CDP 通道。
Chrome 启动
↓
--remote-debugging-port=0
↓
Chrome 开启调试 HTTP 服务器
↓
提供 /json/list 返回 WebSocket 地址
↓
Playwright 连接 ws://...
↓
开始发送 CDP 指令控制浏览器任何程序都可以通过这个 WS 发 CDP 指令
这就是 Playwright/Puppeteer 做的事。
在 AI 介入之前,我们常用的 Puppeteer 或 Playwright 相当于在 CDP 之上封装了一层更好用的函数。
例如 Playwright指令
page.click("#btn")操作会翻译成 CDP 指令
Input.click(x=100, y=200)浏览器收到 CDP 指令 → 在页面上进行点击
id、class 或 xpath。当大语言模型(LLM)接入 CDP 通道后,游戏规则变了。AI 不再通过固定的代码去找按钮,而是像人一样“看”网页。
AI 自动化通常遵循 感知 -> 思考 -> 执行 的循环:
下面是一个简单示例,说明这个过程
import asyncio
import json
from playwright.async_api import async_playwright
from openai import OpenAI
client = OpenAI(api_key="YOUR_API_KEY")
async def get_ai_instruction(page_summary, objective):
"""大脑:调用 AI 返回下一步操作的 JSON 指令"""
prompt = f"""
当前网页交互元素摘要: {page_summary}
用户最终目标: {objective}
请根据当前状态,选择下一步操作。只能返回 JSON 格式:
{{"action": "type", "target": "选择器", "value": "内容"}}
或 {{"action": "click", "target": "选择器"}}
或 {{"action": "success", "reason": "描述"}}
"""
response = client.chat.completions.create(
model="gpt-4o",
messages=[{"role": "user", "content": prompt}],
response_format={ "type": "json_object" }
)
return json.loads(response.choices[0].message.content)
async def run_real_ai_agent():
async with async_playwright() as p:
# 1. 环境准备 (CDP 启动)
browser = await p.chromium.launch(headless=False)
page = await browser.new_page()
await page.goto("https://example.com/login")
objective = "使用账号 admin 和密码 123 登录系统"
for _ in range(10): # 最大尝试10步
# 2. 感知 (Perception) - 提取精简的交互树
# 这里简化处理,实际会提取 role, name, id 等属性
snapshot = await page.evaluate("""() => {
return Array.from(document.querySelectorAll('input, button')).map(el => {
return { tag: el.tagName, id: el.id, type: el.type, text: el.innerText };
});
}""")
# 3. 思考 (Reasoning) - 调用真 AI
instruction = await get_ai_instruction(snapshot, objective)
print(f"[AI 决策]: {instruction}")
# 4. 执行 (Execution) - 通过 CDP 操作浏览器
action = instruction["action"]
if action == "type":
await page.fill(instruction["target"], instruction["value"])
elif action == "click":
await page.click(instruction["target"])
elif action == "success":
print("任务圆满完成!")
break
await asyncio.sleep(1)
await browser.close()
# asyncio.run(run_real_ai_agent())可以看到,整个过程就是根据用户的任务和当前的页面状态让AI返回结构化的JSON指令,接着我们在解析整个指令并翻译为Playwright指令并通过CDP发送给浏览器执行。当然实际过程中我们要考虑很多东西,包括DOM树的压缩,上下文的记忆,任务的重试等等。现在有几个非常成熟的库专门干这件事:
从底层的 CDP 通道(修路),到 Playwright 框架(造车),再到如今的 AI Agent(自动驾驶仪),浏览器自动化已经从单纯的“抓取数据”变成了真正的“模拟人类操作”。
.btn-submit 变成了 .submit-v2,AI 依然能通过语义识别找到它。click('#login-001'),你只需要告诉 AI “登录”,它自己会去找那个长得像登录的地方。未来,我们可能不再需要学习复杂的爬虫技术或自动化语法。只要 CDP 这个底层通道还在,AI 就能化身为你的数字分身,在复杂的互联网海洋中替你完成那些重复、枯燥的任务。