数据集成、建模、写 SQL、调度、上线、发布……一套组合拳打下来,再硬核的数据工程师也得喊一声“救命”。
更别提自动驾驶、AIGC 这种新业务——视频要切帧、图片要打标、向量要入库、检索还得混合搜。
过去,这需要数据工程师、算法工程师、调度运维三人团队加班加点至少干一周;
现在,阿里云 AI 实训营教你用 DataWorks Data Agent 一个人单扛全链路。
2026 年,大模型应用已从“尝鲜期”进入“工程化深水区”。企业面临的不再是“要不要用 AI”,而是“如何让 AI 真正融入数据流水线”。
在 6 月 3 日阿里云 AI 实训营的实训直播中,DataWorks Data Agent 成为焦点:大数据开发平台,不再只是开发工具,而是能够独立完成从需求理解、任务构建、到管理运维的智能体。这背后是阿里云大数据 AI 平台对 Agent-Native 架构的深度布局——数据平台必须从为“人”设计,升级为为“Agent”设计。
DataWorks Data Agent 作为阿里云一站式智能大数据开发治理平台 DataWorks 内置的 AI 智能体,正是这一战略在数据开发领域的落地实践。
让我们看一个典型的新业务场景:自动驾驶数据标注。
传统做法需要多个角色协作:数据工程师搭建 ETL 流程,算法工程师调用视觉模型打标,运维工程师配置调度和监控。整个流程涉及 OSS 视频读取、MaxFrame 切帧、Qwen3.6-plus 多模态大模型打标、vl-embedding 向量化、Hologres 混合检索等多个技术环节。
使用 DataWorks Data Agent,整个过程被简化为五个步骤:
第一步:需求分析|把活儿交给它
进入 DataWorks 控制台,左侧导航栏点一下「Data Agent」,对话框就唤起来了。接下来什么都不用做,就一件事:把需求像和同事聊天一样讲清楚。
示例 Prompt:
"请帮我在 DataWorks 'new_IDE_test_baige' 空间中创建一个自动驾驶打标工作流'vehicle_demo_v2'。原始输入为存储在华东1(杭州)OSS 的视频文件,使用 PyODPS3 节点进行 MaxFrame 作业切帧,调用百炼 Qwen3.6-plus 模型对图片进行智能打标,最终将结果同步到 Hologres 并建立向量索引。代码需要遵循自动驾驶 skill 的规范。"
DataWorks Data Agent 会自动进行需求拆解与确认、数据源识别、业务口径澄清。
📷DataWorks Data Agent正在分析需求
第二步:工作流生成
规划完成后,DataWorks Data Agent 会自动在工作空间内生成工作流与任务,并配置好调度依赖关系。自动生成的代码遵循企业级编码规范(命名约定、注释、分区策略),内置增量/全量处理逻辑,包含异常数据处理(NULL 值、数据类型转换),并自动添加数据质量断言。
📷DataWorks Data Agent 创建工作流
📷DataWorks Data Studio 界面里生成对应的工作流
DataWorks Data Agent 自动构建完整的自动驾驶打标向量化流程:
通过 MaxFrame 任务读取视频路径,对视频进行切帧并将图片存储在 OSS 中
调用百炼多模态大模型 Qwen3.6-plus 对图片进行智能打标,打标结果写入 MaxCompute 内表
调用 MaxCompute AI Function vl-embedding 模型对图片进行向量化,将向量传入 Hologres
构建数据挖掘脚本,基于 Hologres 中的标量和向量数据进行混合检索
全链路通过 DataWorks 工作流统一编排调度,实现端到端自动化运行

第三步:运行调试
在 DataWorks 中创建自定义镜像,安装必要的依赖包(maxframe、pyodps、pyarrow、pandas)。在生成的 PYODPS3 代码右侧选择“运行配置”,选择创建好的自定义镜像作为资源组。试运行每个节点,观察输出是否符合预期。
📷DataWorks 创建自定义镜像界面

📷DataWorks 节点“运行配置”界面

第四步:发布上线
可以通过 Data Agent 或者手动完成工作流发布上线:代码提交至生产环境、调度任务上线、发布记录归档。
📷DataWorks 发布界面,展示发布包内容和状态
任务运行后,即可获得打标切帧的图片及向量表。
过去你要做这件事,得是一个数据工程师 + 一个算法工程师 + 一个运维工程师,仨人加班加点至少干一周。
现在DataWorks Data Agent一个人扛了:理解你的话、做需求拆解、生成代码、配好调度、跑通验证、发布上线——全链路全自动。
更重要的是,它产出的不是“玩具 demo”,而是符合企业级规范、能直接进生产的工程交付物。
数据开发这件事,过去的护城河是“我能写很复杂的 SQL/Python”;从今天起,护城河是“我能用一句话,让 AI 帮我把整个数据开发与处理链路干起来”。
这正是 Agent-Native 数据平台的核心价值:它将数据开发的门槛从“技术能力”降低到“业务能力”。业务人员可以用自然语言描述需求,AI 智能体负责将其转化为可执行的技术方案。这不仅提升了效率,更释放了数据团队的创新潜力——让他们从重复的“体力活”中解放出来,专注于更有价值的业务洞察和架构设计。
🚀立即体验:
https://dataworks.data.aliyun.com/product/agent?source=aitraining05
📚课程学习:
https://www.aliyun.com/benefit/aihands-on/mainpage
想用 AI 解决真实问题,但不知从哪下手?阿里云 AI 实训营就是为你准备的。
每期聚焦一款阿里云 AI 产品,由官方团队手把手教学——直播讲解原理、实操演示用法、现场答疑互动。你只需要带上好奇心和一台电脑,从 0 到 1 搭建属于自己的 AI 应用。来一起动手,把“学 AI”变成“用 AI”。
☞ AI 实训营学习阵地:
https://www.aliyun.com/benefit/aihands-on/mainpage