Ace 回到杭州 Day30。离开前司前,写了一首小诗“Once Upon a Clip”,作别上一段旅程。
把一路上拾掇的点滴,用 clip 串起来,放进行囊,已踏上新的征程。
(一)
从前 有个clip
它来自某一次trigger的触发
或红绿灯前的驻足
或城市道路的变道
或向量空间的corner case
它带着自己目的
或定采的一个request
或用户车的一个event
为了问题的剖解
为了算法的迭代
它带来世界的讯息
某个城市
某个场景
某辆车
北国的一场雪
南方的一片秋
喧闹的早高峰
空旷的高速路
它采来新鲜的数据
前后左右摄像头
可能带着激光点云
百十个topic
在车端打包压缩
趁着锁车的间隙
从街头巷尾
遍春花秋月
自星星点点的vin
汇集成raw data的洪流
穿空间裂缝
跨时间河流
直抵云端
暂栖于对象存储的bucket上
(二)
不是所有的clip都会到达
尽管我们期盼
或是祈福
总会有些 消散在风里
或因车端资源紧张
采而不全
或因网络波动
达而不整
风里雨里 N 天等你
过期不候 定期清理
别让生命的碎片 成为存储的垃圾
请别哭泣
也别讶异
拥抱不确定性
才是真理
(三)
到达的clip
没有喘息
循着Kafka队列
开启pipeline的旅程
从一个节点奔向另一个节点
从一个topic转场另一个topic
在不同的容器里
将自己切成固定的时长
数十秒 是我们共同的容量
在Python的程序里
变换各自的模样
H.265的原始帧 用mp4做包装
二进制的topic 换成JSON/Parquet的衣裳
不同的stream 对齐成slice 共振在十数赫兹上
(四)
在workflow框架里
节点被串联
逻辑被编排
视频帧后是点云
topic 解析接对齐
数据被处理
从一个bucket眺望另一个bucket
clip解为stream
frame串成slice
资源被调度
脱敏要靠GPU
洗数据磁盘要充足
消息被转发
从一个queue 奔涌另一个queue
生产者流向消费者
tagging等待pipeline的讯息
你来到我的城市
状态被观测
给每次旅行一个trace_id
留下log的印记
所有的心事都藏在metric里
规则被校验
pipeline长路漫漫
每个节点都是一座雄关
卡住stream参差不全
拦住帧率突破下限
有可能你缺了字段
有可能我越过了应有的边界
(五)
翻过pipeline的高山
越过数据变换的平原
最后来到一片澄明的湖边
Datalake翘首以盼
用Lance和Parquet给clip崭新的容颜
file与meta交织
向量和标量混搭
多模态的文件格式
让clip成为紧致的整体
(六)
Datalake是新的起点
来吧 给我打上各式标签
用规则代码
用Embedding模型
用VLM
穿过我的皮
深入我的心
一层一层
来自DA的剖析
来自标注员的凝视
让世人知道我的内涵
让模型循着我的导引
在BBox的轮廓里
在BEV的拼接中
在CoT的循诱下
(七)
把我选进数据集
把我卷入仿真里
把我喂到Transformer
走向使命
达成夙愿
改变网络的一个参数
或者
旅程本身就是生命的体验
(八)
从前 有个clip
它已消散