如何成为大师系列:32岁获得7个艾美奖的男孩,Jacob Collier
那个拒绝“一知半解”的男人
安德烈·卡帕西(Andrej Karpathy)如何通过不断追问“为什么”,直到宇宙不得不给出答案,从而精通深度学习
一篇深度研究散文 · 秉承亚当·格兰特与马尔科姆·格拉德威尔的传统
> “不要将事物过度抽象化,这一点至关重要。你需要对整个技术栈有全面的理解。”
> —— 安德烈·卡帕西
>
那个跨越国界、不断向内探索的男孩
大约在2001年,一个十五岁的男孩走下了抵达多伦多的飞机。他从小在布拉迪斯拉发(Bratislava)长大,那里是当时刚刚脱离共产主义的斯洛伐克,而现在他要从头开始——面对新的语言、新的文化和新的学校。他的名字叫安德烈·卡帕西,用他自己的话来说,当时的他还没有展现出任何注定的非凡命运。他充满好奇心,喜欢物理,喜欢计算机,喜欢那些奖励痴迷而非小聪明的谜题。
从心理学家安德斯·埃里克森(Anders Ericsson)的研究和马尔科姆·格拉德威尔(Malcolm Gladwell)的叙述中,我们对神童的了解是:天赋其实说明不了什么大问题。将伟大与平庸区分开来的,不是他们大脑的质量,而是他们提出问题的质量。大多数人看到一个系统会问:“我该怎么用它?” 极少数人会问:“它为什么能起作用?” 而更少的一部分人会不断追问这个问题,直到没有更多的表层可以剥开。
卡帕西就属于最后这一类人。但环境的影响是巨大的——2001年的多伦多,即将成为地球上对人工智能产生最重大影响的城市,尽管当时几乎无人知晓。在多伦多大学,卡帕西同时攻读了计算机科学和物理学——这个双学位与其说是出于职业策略的考量,不如说是出于一种世界观的塑造。物理学教会你相信,无论宇宙表面上看起来多么令人眼花缭乱地复杂,它最终都可以用一组简单的基本方程来解释。计算机科学则教会你用你完全理解的逻辑组件来构建事物。这两者结合在一起,塑造了一种特定的心智:一种对神秘事物过敏的心智。一种将“我不知道”视为冒犯,而非终点的心智。
正是在多伦多,他第一次走进了杰弗里·辛顿(Geoffrey Hinton)的课堂。在2025年读到这句话,听起来就像是说莫扎特教课时你恰好身在维也纳一样。当时的辛顿很大程度上被认为是一个古怪的天才——在整个计算机科学界几乎都放弃了神经网络的时候,他花了二十年时间坚持认为人工神经网络最终会起作用,认为大脑是机器智能的正确隐喻。
卡帕西坐在那个教室里,某种东西被触发了。
> “大多数人看到一个系统会问如何使用它。卡帕西属于极少数不断追问为什么,直到没有表层可剥的人。”
>
那种触发不是像按动电灯开关那样的“咔哒”声,而更像是地壳板块的碰撞——一种缓慢的、摩擦的、不可逆转的认知重组,彻底改变了他对“何为可能”的看法。
第一性原理的自律
哲学中有一个术语——埃隆·马斯克(Elon Musk)让它在创业界流行了起来——叫做“第一性原理思维(first-principles reasoning)”。这个想法很简单:你不是通过类比来推理(“我们这样做是因为一直都是这样做的”),而是将问题分解为最基本的事实,从头开始重建理解。听起来显而易见,但几乎无人践行;大多数人学习一门学科,只学到最表层就自认为理解了。他们学到梯度下降是“神经网络学习的方式”,学到反向传播是“计算梯度的方式”。他们学到Transformer是“驱动ChatGPT的核心”,然后他们就心满意足地停下来,转向下一个概念。
这在智力上无异于学会了国际象棋的规则,就相信自己懂得了这门博弈。
卡帕西的整个学术生涯,从他最早的博客文章到最近的YouTube讲座,都围绕着一种系统性的拒绝:拒绝停留在表层。他需要知道为什么梯度下降会起作用;他需要理解在计算图的语境下,导数究竟是什么。他需要亲手去触摸数学的质感,而不是仅仅隔着符号的距离去观望它。
他发表于2019年的著名博文《训练神经网络的秘方》(A Recipe for Training Neural Networks),读起来就像是一个亲身经历过所有可能失败,并执迷地记录下每一次失败的人的作品。他写道:“‘多快好省(fast and furious)’的神经网络训练方法是行不通的,只会带来痛苦。” 他认为,与成功最密切相关的品质是“耐心和对细节的关注”。他是字面意义上表达这个观点的。他说,在训练任何模型之前,先看看你的数据;手动去看,用你的眼睛去看,了解每一个奇怪的边缘情况。在让网络开始学习之前,先弄清楚你究竟要求它学习什么。
这不是一个通过看文档学习深度学习的人能给出的建议。这是一个以慢动作打碎事物,并注视着每一个碎片飘落的人的智慧。
在斯坦福大学攻读博士学位期间,在李飞飞(Fei-Fei Li,ImageNet的架构师,也是该领域伟大的人文主义者之一)的指导下,卡帕西的第一性原理本能得到了最著名的体现。他决定亲自去体会,要求机器做的事情在人类感受中究竟是什么样的。于是,他创建了一个自定义工具,亲自手动标注ImageNet图像——标注了所有的1000个类别。狗、猫、乐器和飞机;他实实在在地与他正在协助构建的卷积神经网络展开了竞争。
世人称他为“ImageNet的人类基准”,并将其视为一件奇闻异事,一个有趣的八卦。但看看这究竟揭示了他怎样的思维方式。他认为,如果不亲自做这项任务,就不可能完全理解这项任务有多难。在信任数据的真实性(ground truth)之前,他需要经验的真实性。
这不是古怪。这是认识论。
无处不在的实验室
组织心理学家、《重新思考》(Think Again)一书的畅销书作者亚当·格兰特(Adam Grant)认为,最成功的学习者不是那些获取知识的人,而是那些不断修正知识的人。他们并不固执己见,而是将他们自认为知道的一切都视为一种假设,而非结论。格兰特称之为“科学家的思维模式”,与传教士(捍卫自己的信仰)或检察官(攻击他人)形成鲜明对比。
在格兰特的分类中,卡帕西是最纯粹的科学家。他不仅在证据要求时修正自己的信念,他还主动设计体验来检验它们。
在他的博士期间,当他致力于计算机视觉和自然语言处理的交叉领域时——那还是在它流行之前,在“多模态”成为一个流行词之前——他提出了一个在当时看来几乎异想天开的问题:机器能用语言描述它看到的东西吗? 不是对图像进行分类,不是标记对象,而是叙述一个场景。这个问题后来被证明超前了整整十年;它预见到了DALL-E,预见到了GPT-4V。这不是幸运的猜测——这是一个长期凝视事物本质的人,在目标对所有人可见之前,就能看清它们指向何方的结果。
他的实习经历也印证了同样的故事。2011年的Google Brain;2013年的Google Research;2015年的DeepMind。在四年的时间里,他踏足了世界上排名前四的AI研究环境中的三个,每一个都是一个全新的实验室,让他在其中打破常规、提出不可能的问题、从零开始重建。
他不是在为简历收集大厂的Logo,而是在收集心智模型。
> “他不是在为简历收集大厂的Logo。他是在收集心智模型——每一个模型都成为了他追问‘为什么’的又一个工具。”
>
格拉德威尔在《异类》(Outliers)中提出了著名的“一万小时定律”——这个借鉴自埃里克森研究的观点认为,精通一项技能大约需要一万小时的刻意练习。卡帕西很早就达到了这个门槛,但他的练习与泛泛地积累时间的不同之处在于,其刻意性的质量。他不是在重复同一个操作一万次。他是具体而有意识地走向他尚不理解的事物,去填补那些空白。他打破了抽象层;他构建那些他没有直接需求的东西,因为构建本身就是理解。
他的ConvNetJS库——一个用JavaScript编写的完整深度学习框架——并不是为任何特定应用而构建的。构建它只是为了让神经网络能在浏览器窗口中运行,因为卡帕西相信,让某种东西变得普遍可及,这本身就是一种理解的形式。如果你能在世界上最普及、最容易获得的编程环境JavaScript中实现一个神经网络,你就真正理解了你在做什么。
选择JavaScript并不是出于实用性,而是出于哲学思考。
物理学家的本能反射
在讨论卡帕西时,有一点几乎无人提及:他本科的物理学双学位对他天才的形成并非偶然。它是其天赋的架构基石。
物理学与复杂性有着一种特殊的关系。与生物学等领域不同——生物学可以坦然面对难以用简洁数学描述的现象——物理学的运作建立在一个假设之上:如果你不能用一个简单到可以写在餐巾纸上的方程来解释某件事,你就还没有真正理解它。爱因斯坦的场方程虽然复杂,但极其纯粹;牛顿定律对于它们所描述的事物而言,简单得不可思议。物理学的整个事业就是在寻找不可简化的最小元素。
卡帕西将这种本能带入了深度学习领域,而那时的深度学习还没有属于自己的“物理学”。当他抵达斯坦福时,这个领域在很大程度上仍是经验主义的——人们训练网络,记录下什么有效,然后继续前行,往往并不理解其中的缘由。数学虽然存在,但直觉却滞后了。卡帕西着手建立这种直觉。
他发表于2015年的传奇博文《循环神经网络的不合理有效性》(The Unreasonable Effectiveness of Recurrent Neural Networks),是一篇物理学家探讨工程现象的散文。他不仅向你展示RNN可以生成莎士比亚的诗句、Linux内核代码以及LaTeX数学公式。他还追问为什么。他观察隐藏状态,他将单个神经元实际在追踪的内容可视化——然后发现,在一个没有接收过此类指令的网络深处,竟然有一个神经元自发地学会了追踪文本流中引号的位置。
只有当你对仅仅输出结果不满意,并坚持要理解其内在机制时,才会产生这样的发现。他发现了一个自发学会追踪引号的神经元——这并非偶然,而是因为他拒绝停止观察。这就是卡帕西方法的缩影:接受有效的东西,拒绝接受它“仅仅是有效”,深入其内部直到理解它为什么有效,然后——这是将科学家与工程师区分开来的一步——追问这能告诉你还有什么是可能有效的。
2022年,他发表了一篇博文,使用现代工具重现了杨立昆(Yann LeCun)1989年最初的反向传播论文——那篇常被视为实用神经网络开端的论文。表面上看,这种练习毫无意义。每个人都知道反向传播有效,没有人需要去验证一个33年前的结果。但卡帕西这样做,是因为它回答了一个他想知道答案的问题:最初的根本洞见是什么?在我们的进步中,有多少是源于对这种洞见更深刻的理解,又有多少仅仅是因为投入了更多的算力?
答案证明两者皆有——如果你想清晰地思考未来33年的发展,知道哪个是哪个,正是那种至关重要的事情。
教学相长,师愈得
2015年,卡帕西设计并教授了CS231n——“用于视觉识别的卷积神经网络”——这是斯坦福大学的第一门深度学习课程。他当时还是一名博士生。这很不寻常,通常研究生只负责带辅导课,而不是主讲课程。但他创建的这门课程成为了斯坦福大学选修人数最多的课程之一,短短两年内学生人数从150人激增到750人;其在线版本也可以说成为了现代AI历史上最具影响力的免费教育资源。
卡帕西曾表示(这一见解深深植根于认知心理学),教学的主要目的并不是为了传递知识。它是一种重构自身知识的方式。解释某件事的过程,会迫使你发现自己理解中的盲点。如果不在你的直觉中发现每一个细微的错误,你就不可能成功地教授反向传播。
从这个意义上解读,CS231n并非一种慷慨的施舍。这是一种“自私”的行为——最富有成效的那种自私。格兰特关于“给予与索取”的研究表明,最成功的专业人士既不是那些只顾自己利益的人,也不是那些过度付出以至于耗尽自我的人——他们是所谓的“利他主义的利己者(otherish givers)”:他们的付出既能促进他人的成长,也能反哺自身的进步。
卡帕西的教学完美地契合了这一侧写。他解释得越多,理解得就越深。他的学生们用问题反诘得越多,他就越被逼迫着走向更深处。
2022年,离开特斯拉后,他回到了这种模式。他开设了一个YouTube频道。他面对一个空白的Python文件坐下来,在镜头前花了几个小时从零开始构建了一个GPT,并逐行解释了每一句代码。你可以实时看到他犯错,你可以看着他调试这些错误;这在教学上是刻意为之的。他展示的是过程,而不是最终产品。他向世人证明:精通并不是没有困惑——而是系统性地驾驭困惑的能力。
> “他展示的是过程,而不是产品。他证明了,精通并非没有困惑——而是系统性驾驭困惑的能力。”
>
由此诞生的《神经网络:从零到英雄》(Neural Networks: Zero to Hero)系列,在许多学过它的人看来,是有史以来最好的免费技术教育材料。这并不是因为它涵盖的内容最广,而是因为它从未有哪怕一次含糊其辞地说“事情就是这样运作的”。它总是会告诉你“为什么”。它从单个神经元开始,一直构建到注意力机制;在每一步中,它都将观众视为有能力理解其真正原因(而不仅仅是近似概念)的聪明人来对待。
特斯拉与规模化的教育
2017年,卡帕西出任特斯拉的AI和Autopilot视觉总监。当时他三十岁。用最字面的意思来说,他肩负的责任将决定世界上最有价值的公司之一所制造的汽车是否会致命。这种责任要么会压垮一个人,要么会成就并展现一个人。
它在卡帕西身上展现出的,正是驱动他走过此前每一个篇章的同一种本能——但这一次,它被应用在了一个任何学术实验室都无法提供的巨大规模上。
问题不再是“这个模型在基准测试中表现好吗?” 而是“这个系统在无限多变、充满意外且毫不留情的真实世界中,能否可靠地运行?” 卡帕西对这个问题的回答,成为了他在特斯拉岁月中决定性的智力工程:他坚持所谓“纯视觉”路线——认为只要处理得当,摄像头包含了系统安全驾驶所需的一切信息。
这一观点备受争议。它意味着淘汰激光雷达(lidar)。它意味着押注:只要有足够的数据和算力,神经网络就能学会像人类一样去看,而且仅仅使用与人类视觉原理相同的传感器。这是一个基于第一性原理的论点:人类大脑在驾驶时,仅仅依赖光子进入头骨前部的两个小孔(眼睛)。为什么机器需要更多?
这场押注最终是否正确,至今仍在争论中。但这种论证的形式颇具启发性。它并非始于行业里其他人在做什么。它始于问题本身的实际要求,抛开了所有继承而来的假设。当你把成长的岁月都花在追问“为什么”而不是接受“怎么做”上时,这就是必然发生的结果。
在特斯拉,卡帕西主导开发了他称之为“数据引擎”的系统——这是一个获取训练数据、重新训练模型、部署模型,然后利用由此产生的失败案例来生成更多训练数据的闭环系统。这个循环是深思熟虑且迭代的,建立在这样一个洞见之上:在现实世界中,最有价值的数据是你尚未拥有的数据。这也是一个第一性原理的结论:如果你理解了模型为什么会失败,你就能确切地知道下一步该教它什么。
问题不是“这个模型在基准测试中表现如何?” 而是“这个系统在无限多变、充满意外的现实世界中能起作用吗?” ——而回答这个问题,需要回归第一性原理。
永不止步的“为什么”
2025年2月,卡帕西创造了“vibe coding(直觉编程)”这个词——它的理念是,大语言模型现在允许非程序员通过自然语言描述他们想要的东西来构建功能性软件,本质上是在驾驭模型的直觉。这个词迅速传播开来。它抓住了编程实践正在发生变化的一些真实本质。
但请注意,这个词暗示了卡帕西不断演变的世界观。他并没有被一种可能会使他自身技能的差异化优势降低的技术所威胁。相反,他对此十分着迷。他问道:这改变了“编程”的什么意义? 这改变了软件应该如何构建的方式吗? 在一个编写代码不再是瓶颈的世界里,第一性原理是什么?
这是一个从不拘泥于任何特定答案的人的姿态——他只专注于寻找答案的过程。他的整个职业生涯都证明了一点:你所掌握知识的具体内容,远不如你获取知识的架构方式重要。他从计算机视觉转向自然语言处理,转向自动驾驶汽车,转向大语言模型,再到教育技术;在每一个领域,他都提出了那些在其中深耕了一辈子的人也未必能看透的洞见。
贯穿其中的主线并不是在任何单一领域的专业知识。而是一种方法:找到真实的根基,从那里开始构建,并且永远不要将抽象视为现实本身。
2024年,他创立了Eureka Labs,其公开的使命是在AI时代重新想象教育。这个愿景具有典型的卡帕西风格:如果获得最好教育的瓶颈在于最优秀教师的稀缺,而AI现在能够以近乎零的边际成本近似取代最优秀的教师,那么问题就变成了——你如何围绕这种能力设计一个学习系统? 如果剥离掉历史上塑造我们建立学校方式的种种限制,卓越教学的第一性原理是什么?
换句话说,他依然在问为什么。他已经问了整整三十年。每一个答案都引出了一个更好的问题。
> “每一个答案都引出了一个更好的问题。这不是一种你可以习得的特质。但它是一种你可以培养的习惯——如果你开始得足够早,并且永不停息。”
>
我们究竟能从中学到什么
格拉德威尔在结尾他的大多数故事时,往往会含蓄地探讨运气的成分——在正确的时间、正确的地点,置身于正确的文化背景中。不可否认,运气在这里也发挥了作用:当辛顿在多伦多时,卡帕西恰好也在那里。他在深度学习革命的浪潮中身处斯坦福;他在OpenAI和特斯拉最具可塑性的几年里加入了它们。
但运气并不是这个故事的教益所在。教益在于他如何利用了赐予他的运气。
他并没有仅仅是来到杰弗里·辛顿的教室里做做笔记。他是带着理解其内在机制——而不仅仅是结果——的坚定意图出现的。他并没有去斯坦福被动地吸收时代精神。他去那里构建了一门课程,这门课程迫使他去解释他自认为理解的东西;并且他发现——正如每一位优秀的老师都会发现的那样——解释,是检验理解力的终极试金石。
格兰特可能会说,他的成功源于他是一个学习者,而不是一个全知者:对他而言,“我还不理解这个”的状态足够令人不适,从而促使他采取行动,但又不足以构成一种威胁,以至于让他选择逃避。格拉德威尔则会去寻找那些特定的文化和环境条件,正是这些条件使卡帕西这种特殊形式的好奇心变得清晰可读并得到奖赏。
这两种框架都是真实的。但对于任何从外部观察的人来说,卡帕西故事中最有用的一点,比这两种解释都要简单得多。
他触及了每一个他接触到的概念的谷底。他拒绝活在表层。他不断地问“为什么”,直到追问为什么变成一种本能反射;这种反射变成了一种方法;这种方法变成了一种世界观;而这种世界观——在一个接一个痛苦、美丽而又令人痴迷的问题中——最终变成了精通。
安德烈·卡帕西身上最非凡的特质,不是他的智商。而是他对“不理解”的零容忍。这两者之间的差距,就是整个故事的奥秘所在。