“那双在你眼眶里转动了亿万年的眼睛,与此刻正在改变世界的人工智能,在视觉这条伟大的探索之路上,使用的是同一套底层语言。”
这段话,是《看见》一书最核心的发现,也是两位作者希望传递给读者的关键认知。全书通过对“何以‘看’(感知),怎样‘见’(理解)”的双重解码,让生物视觉的进化智慧与计算机视觉的技术创新形成了奇妙的互文关系。
倪冰冰教授详细拆解了这种底层逻辑的相通之处。在高效资源利用上,生物视觉与机器视觉都遵循着“够用就好”的优化原则:人类视网膜的感光细胞在中心黄斑区域高密度分布,周边区域则低密度排列,这种设计以最小的能耗实现了关键信息的精准捕捉,而现代视频编码技术正是采用了同样的策略;在三维感知上,无论是人类的双眼视觉,还是自动驾驶汽车的双摄像头系统,都通过两个略有差异的视角获取信息,再通过大脑或算法匹配特征点,从而实现深度判断,这是物理光学与计算几何共同约束下的最优解;在信息处理架构上,大脑视觉通路从V1到V4区域的层级化特征提取,与深度学习卷积神经网络的层级结构高度一致,两者都采用“分而治之,逐层抽象”的高效法则。
更令人惊叹的是生成式AI与人类视觉“脑补”机制的契合。
“当我们视线模糊或在黑暗中,大脑会主动‘填充’缺失的细节,形成完整感知。这正是当前引爆热点的生成式AI的核心逻辑:它们并非简单复制,而是基于学到的海量模式,对不完整信息进行合理脑补和创造。”倪冰冰的这一发现,揭示了自然进化与人类技术在解决信息缺失问题上的共通智慧。作为最早开展AIGC研究的学者之一,他特别提到,当前“文生图”等热门应用,其底层逻辑与人类视觉的“脑补”机制异曲同工,这正是技术对生物视觉的成功借鉴。