视觉空间智能和语言一样基础。我们已经拥有计算和数据的深入理解,并在算法方面取得了一些进展。现在是集中精力并解锁这些要素的正确时机。
在过去的两年里,我们见证了消费者人工智能公司和技术的大规模涌现,这令人惊叹。但您已经在这一领域工作了几十年,能否简单介绍一下我们是如何走到这一步的,并分享一下您的主要贡献和见解?
人工智能正处于一个非常激动人心的时刻。
回顾过去二十多年,我们已经走出了上一次人工智能的寒冬,见证了现代人工智能的诞生。深度学习的腾飞让我们看到了下棋等可能性,随后我们目睹了技术的深化和行业对一些早期可能性的采用,例如语言模型。现在,我们正经历几乎字面意义上的寒武纪大爆发,除了文本之外,像素、视频、音频等都可能成为人工智能的应用和模型。这是一个非常激动人心的时刻。
虽然很多人对您非常熟悉,但并不是每个人都在人工智能领域成长起来的。能否简单介绍一下您的背景,让观众大致了解您的经历?
我第一次接触人工智能是在本科毕业后。当时,我在加州理工学院学习数学和计算机科学,这段经历非常精彩。毕业前不久,我读到一篇非常著名的论文,猫论文,作者包括当时在谷歌大脑工作的Polnack Lee、Andrew Ng和其他人。这是我首次接触深度学习这个概念,令我感到这是一项令人惊奇的技术。
在2011年或2012年左右,我第一次接触到深度学习这个想法,当时我认为这就是我未来生活的方向。为了从事这一领域的研究,我决定继续读研究生。后来我发现Fei-Fei在斯坦福大学工作,她是当时为数不多的跟上这一潮流的人之一。
那段时间是深度学习和计算机视觉领域最美妙的时代,深度学习技术从初期发挥作用逐渐发展并传播到大量不同的应用中。在那段时间里,我们见证了语言建模的初露端倪,以及判别式计算机视觉的开端。你可以拍摄照片并通过多种不同的方式了解照片中的内容。
我们还见证了一些现今称为GenAI(生成式人工智能)的早期发展,如生成建模、生成图像和生成文本。在我攻读博士学位期间,学术界实际上已经解决了许多核心算法。有一段时间,我每天早晨醒来都会查看Archive上的新论文,做好准备。这种感受就像圣诞节拆礼物一样,每天你都知道世界上某个地方有新的惊人发现、新的应用或者算法。
过去两年里,全球其他人也开始意识到这一点,每天都在利用人工智能获得新的“圣诞礼物”。然而,对于我们这些在这个领域工作了十年或更长时间的人来说,这种经历已经持续了很久。
显然,我比贾斯汀年长很多。我从一个不同的角度研究人工智能,即从物理学开始,因为我的本科背景是物理学。物理学是一门教你思考大胆问题、思考世界未解之谜的学科。在物理学中,这些未解之谜包括原子世界和宇宙等问题。不知为何,这种训练使我进入了一些真正激发我想象力的大胆问题领域,其中之一就是智能。
因此,我在加州理工学院攻读了人工智能和计算神经科学的博士学位。尽管我和贾斯汀没有直接重叠,但我们都来自加州理工学院,拥有同一位顾问——Pietro Parona。是的,同一个导师,你的本科导师也是我的博士导师。
我读博士的时候,和你读博士的时候差不多,那时人工智能在公众视野中还处于寒冬期。但在我看来,人工智能并不是寒冬,而是春前冬眠,充满了生机。机器学习和统计建模正在真正获得力量。我认为我是机器学习和人工智能的原生代,而贾斯汀那一代是深度学习的原生代。机器学习是深度学习的前身。我们试验了各种模型。
在我攻读博士学位和担任助理教授期间,人工智能中的一个被忽视但在数学上对推动泛化极为重要的元素逐渐显现,那就是数据。当时,我们在探讨贝叶斯模型的复杂性和核方法等问题时,整个领域都未认识到数据的重要性。然而,我的学生和实验室可能比大多数人更早意识到,如果让数据驱动模型,就能释放出前所未有的力量。这就是我们在ImageNet上押下重注的真正原因。忘掉我们现在看到的规模,当时的数据点是成千上万的。当时,NLP(自然语言处理)社区有自己的数据集。我记得加州大学欧文分校的一些数据集非常小。此外,计算机视觉社区也有自己的数据集,但仅有数千或数万个。这些数据集需要扩展到互联网规模。
幸运的是,那也是互联网成熟的时期。所以我们顺应了这股潮流。我来到了斯坦福。当时,我们经常谈论的时代,比如 ImageNet,显然是让计算机视觉流行和可行的时代。
在生成式人工智能(Gen AI)浪潮中,我们谈论两种核心的技术突破。一种是像《Transformers》论文提出的注意力机制,另一种是稳定扩散(Stable Diffusion)。我们在思考这个问题时,是否只考虑这两种从学术界或谷歌来的技术突破是所有发展的来源,还是有其他重大突破,但我们没有多加谈论的呢?
我认为主要的突破是计算能力的提升。我知道人们经常谈论这个问题,但我认为它被低估了。过去十年中,我们看到了计算能力增长的惊人速度。
第一篇真正被誉为深度学习在计算机视觉领域取得突破的论文是 2012 年的 AlexNet。在 ImageNet 挑战赛中,深度神经网络表现非常出色,完全击败了 Fei-Fei Li 一直在研究的其他算法。这些算法类型是你在研究生院时所学习的。
AlexNet 是一个拥有 6000 万参数的深度神经网络,它在两台 GTX 580 显卡上训练了六天。GTX 580 是当时最顶级的消费级显卡,于 2010 年推出。我昨晚查了一些数据,只是为了把它们放到一个角度来比较。NVIDIA 最新、最强大的产品是 GB200。你们想猜一下 GTX 580 和 GB200 之间的计算能力差距是多少吗?
天哪,猜不到,数以千计的差距吧。
昨晚我计算了一下,如果在两块 GTX 580 上训练六天的任务,在一块 GB200 上只需要不到五分钟。Justin 说得有道理。2012 年 ImageNet 挑战赛上的 AlexNet 论文实际上是一个非常经典的模型。这是一个卷积神经网络模型,最早的论文发表于 1980 年代。我记得读研究生的时候学过这个。实际上,AlexNet 和 ConvNet 之间的唯一区别在于 GPU 的使用、两个 GPU 的配备以及海量的数据。
这个惨痛的教训是,如果你制作一个算法,不要过分自信。只要确保你可以充分利用现有的计算能力,这种计算能力是随时可以使用的。另一方面,还存在另一种说法,在我看来同样可信,那就是这种算法实际上解锁了深度学习的新数据来源。
ImageNet 是一个很好的例子。Transformer 自注意力非常出色,但有人会说这是利用人类标记数据的一种方式,因为人类在句子中引入了结构。看看 Clip,我们使用互联网让人类通过 alt 标签来标记图像。因此,这更像是数据的问题,而不是计算能力的问题。
那么,究竟是两者兼而有之,还是其中一个比另一个更重要?我认为两者都是重要的,但你也提出了另一个非常好的观点。
我认为实际上存在两个时代,算法在这两个时代中显得非常不同。ImageNet 时代实际上是监督学习的时代。在监督学习时代,你拥有大量的数据,但你不知道如何使用这些数据。ImageNet 和当时其他数据集的预期是,我们会获得大量图像,但我们需要人工标记每张图像。所有的训练数据由人工标记员查看并对图像进行评论。
算法的重大突破在于,我们知道如何训练不需要人工标记的数据。作为非人工智能背景的旁观者,我认为,如果你在人类数据上进行训练,这些数据已经被人类标记过了,只是标记不明确。
从哲学上讲,这是一个非常重要的问题,但在语言上的表现比在像素上的表现更为真实。尽管如此,我认为这是一个重要的区别,因为 Clip 确实是人工标记的。人类已经弄清了事物之间的关系,然后算法学习它们。
因此,虽然标记是隐性的多于显性的,但它仍然是人工标记的。在监督学习时代,我们的学习任务受到更多限制。你必须确定要发现的概念本体。如果你在做 ImageNet,当时 Feifei 和她的学生花了很多时间思考应该在 ImageNet 挑战赛中包括哪些类别。其他数据集,比如用于物体检测的 Cocoa 数据集,也同样认真思考了应该包含哪些类别。让我们走向生成式人工智能(Gen AI)。
在你来之前,我在攻读博士学位时,从Andrew Ng那里学习了机器学习,并从Daphne Koller那里学习了贝叶斯方法。这些内容对我来说非常复杂,其中许多只是预测模型。我记得你解锁了整个视觉内容领域。但后来,生成式方法出现了,在过去的四年里,这对我来说产生了极大的影响。你不仅是在识别或预测某些东西,而是在生成某些内容。
我们可以回顾一下让我们达成这一点的关键因素,并探讨为什么它不同,我们是否应该以不同的方式思考它,它是否是连续体的一部分。即使在我读研究生的时候,生成模型已经存在。我们想做生成,没有人忘记,即使是字母和数字,我们也在尝试。杰夫·辛顿写了一些关于生成的论文。我们在思考如何生成。从概率分布的角度考虑,你可以用数学方法生成。然而,我们生成的东西从未给人留下深刻印象。生成的概念在数学上、理论上是存在的,但并没有起作用。
我想提一下贾斯汀的博士学位。贾斯汀他迷上了深度学习,所以他来到了我的实验室。他的整个博士学位几乎是该领域发展轨迹的一个缩影。他开始了他的第一个数据项目,我强迫他这么做,虽然他不喜欢,但回想起来,我学到了很多非常有用的东西。现在,他也承认这些经历是有价值的。
我们让贾斯汀转向深度学习,核心问题是拍摄图像并生成单词。我认为这一过程中经历了三个独立的阶段。第一个阶段是匹配图像和单词,尝试通过图像和文字的比对来衡量它们的匹配程度。我的第一篇学术论文和博士论文都是关于用场景图进行图像检索的。然后,我们开始从像素生成单词,贾斯汀和安德烈在这一方面做了大量工作。然而,这仍然是一种非常有损的生成方式和从像素世界中获取信息的方式。
后来,贾斯汀离开了,并完成了一项非常著名的工作。这是第一次有人实现了实时生成。2015年,一篇由Leon Gaddis领导的关于艺术风格神经算法的论文问世。他们展示了这些现实世界的照片,并将其转换为梵高风格。在2024年看到这样的事情已经习以为常,但回到2015年,这显然不同寻常。
这篇论文有一天突然出现在我的档案中,让我大吃一惊,就好像在2015年我的脑子里出现了这种人工智能算法的“脑虫”。它确实对我产生了影响,我觉得有必要去理解这个算法,去试一试,把自己的图像变成梵高风格。
于是,我读了那篇论文,并在一个长周末里重新实现了它,使其工作起来。实际上,这是一个非常简单的算法,所以我的实现大概只有300行Lua代码。当时我们使用的是LuaTorch,因为那是PyTorch之前的版本。这是基于优化的算法,对于每一幅你想要生成的图像,都需要运行一次优化循环,即梯度下降循环。尽管这些图像非常漂亮,但速度却很慢,我希望能更快一些。而Justin做到了。
在那一刻,我第一次深刻感受到了学术工作对于行业的巨大影响。许多人都注意到了这种艺术风格迁移的技术,我和其他几个人也提出了不同的方法来加快速度。最终,我的方法得到了广泛关注。
对,这也是为什么我为Justin感到非常自豪。还有另一个让我自豪的事情,那就是在世界了解生成式人工智能(GenAI)之前,Justin在博士期间的最后一项工作,我知道它,因为我强迫他这样做。那段经历非常有趣,他实际上是通过输入语言生成整个画面。这是GenAI的最早成果之一,它使用了生成对抗网络(GAN),而GAN的使用难度非常高。
但问题是,当时我们还没有准备好直接使用自然语言,所以Justin研究了场景图。我们必须输入场景图的语言结构,具体的数据如羊、草、天空等都以图形的方式呈现。这其实就是我们手中的一张照片,然后他和另一位非常优秀的硕士生格里姆一起让GAN开始工作。
通过从数据到匹配再到风格迁移,到生成图像的整个过程,我们开始看到变化。对于像我们这样的人,这实际上是一个连续的过程;而对世界来说,结果似乎更加突然。
我还读了你的书,对那些在听的人来说,这确实是一本非同凡响的书。我真的建议你读一读。
长时间以来,FeiFei,就像你们中的很多人,我在和你交谈,你的很多研究方向一直是空间、像素和智能。目前,你正在进行的“世界实验室”项目,主要围绕空间智能展开。那么,也许你可以谈谈,这是否是漫长旅程的一部分?你为什么现在决定进行这项工作?是因为技术上的突破还是个人的启示?就像我们从人工智能研究的困境转移到了“世界实验室”。
对我来说,这是个人和智力上的双重探索。关于我的智力旅程,实际上是一种寻找北极星的热情,我坚信这些北极星对我们领域的进步至关重要。
一开始,我记得在研究生毕业后,我以为我的北极星是讲述图像的故事,因为对我来说,那是视觉智能的重要组成部分,也是人工智能或 AGI 的一部分。但当贾斯汀和安德烈展开这项研究时,我惊讶地发现,这是我的直播。我下一步该怎么做?这来得比我预想的快得多,我以为需要一百年的时间才能完成。
视觉智能是我的激情所在,因为我相信每一个智能生物,如人类、机器人或其他形式, 都必须具备看待世界、推理世界和与世界互动的能力,不论是导航、操纵还是制造事物,甚至可以基于此建立文明。视觉空间智能是如此基础,它和语言一样基础,甚至在某些方面可能更古老、更基础。因此,对我来说,“世界实验室”是我们的北极星,解锁空间智能,这是一种自然的选择。现在是进行这项工作的最佳时机。
正如贾斯汀所说,计算能力已经具备。我们对数据的理解比 ImageNet 时代更深刻,与那些日子相比,我们更加成熟。我们在算法方面也取得了一些进展,包括“世界实验室”的联合创始人如 Ben Mildenhall 和 Christoph Lassner 也非常清楚,现在正是集中精力、解决问题的最佳时机。
我要向听众澄清一下,你创办的公司“World Labs”致力于解决的核心问题就是空间智能。你能否更清晰地描述一下这意味着什么?
空间智能是指机器在三维空间和时间中感知、推理和行动的能力。它涉及到了解物体和事件在三维空间和时间中的位置,世界上的互动如何影响时空中的 4D 位置,以及两者的感知、推理、生成和交互。真正地将机器从主机或数据中心中取出,放入世界中,理解 3D、4D 世界及其丰富内容。在讨论问题时,我们首先要明确所指的究竟是物理世界,还是只是一个抽象的世界概念呢?
对于这一问题,我认为两者兼而有之,这也涵盖了我们的长期愿景。即使您是在生成世界或者生成内容,使用3D定位在三维空间中也有很多好处。同样地,如果您是在识别现实世界,那么能够将3D理解应用到现实世界中也是非常重要的。
对于听众来说,我要介绍一下另外两位联合创始人,Ben Nothenhall和Christoph Flassner,他们在该领域都是绝对的传奇人物。这四个人决定现在共同创办这家公司。那么,为什么现在是最合适的时机呢?
对于我个人而言,这是一个长期进化的过程。在获得博士学位后,当我真正想发展成为独立研究员时,无论是为了我未来的职业生涯,我都在思考人工智能和计算机视觉中最大的挑战是什么?当时我的结论是,前十年主要是关于理解已经存在的数据,但未来十年我们将致力于理解新数据。
如果我们回顾一下,已经存在的数据包括互联网上所有现有的图像和视频。而未来十年的重点将是理解新数据,比如智能手机收集的带有新传感器的摄像头数据,这些摄像头位于3D世界中。这不仅仅是从互联网上得到一袋像素,不知道它们是什么,然后试图判断它是猫还是狗。我们希望将这些图像视为物理世界的通用传感器,探讨如何利用它来理解世界的3D和4D结构,无论是在物理空间还是生成空间。
因此,我在博士后期间转向了3D计算机视觉研究,当时与FAIR的一些同事一起预测物体的3D形状。后来,我对通过2D学习3D结构的想法产生了浓厚的兴趣。因为尽管3D数据本身很难获取,但由于存在非常强的数学联系,我们的2D图像实际上是3D世界的投影。这里有大量我们可以利用的数学结构。因此,即使我们拥有大量的2D数据,也有许多研究人员做了出色的工作,通过大量的2D观察数据推导出世界的3D结构。
在2020年,我们迎来了一个突破性时刻。当时,我们的联合创始人Ben Mildenhall发表了一篇名为《神经辐射场》的论文,这是一个非常重要的突破。这是一种非常简单且清晰的从二维观察中推导出三维结构的方法。这点燃了整个三维计算机视觉领域的热情。我认为还有另一个方面,也许该领域以外的人还不太理解,那也是大型语言模型开始腾飞的时期。因此,语言建模的很多内容实际上已经在学术界得到了开发。
在我攻读博士学位期间,2014年我曾与Andrej Karpathy一起在语言建模方面做了一些早期工作,当时使用的是LSTM、RNN、BRU等技术,这是在Transformer之前。但在某个时候,大约在GPT-2时代,学术界已经无法继续开发这些模型了,因为它们需要更多资源。
然而,有一件非常有趣的事情是,Ben提出的NERF方法,你可以在单个GPU上花几个小时训练它们。所以我认为当时发生了一种动态变化,很多学术研究人员最终专注于这些问题,因为有核心算法需要解决,并且你可以在没有大量计算资源的情况下取得很好的成果。
由于这些动态变化,学术界有很多研究集中在推动这一领域发展的核心算法上。我最终和Fei-Fei Moore聊了聊,我意识到她非常有说服力。你谈到从导师那里找到你自己的独立研究轨迹,结果我们最终集中在类似的事情上。
从我的角度来看,我想和我称之为最聪明的人、毫无疑问的贾斯汀谈谈。我确实想谈一个非常有趣的技术问题,或者说像素的技术故事。大多数从事语言工作的人都没有意识到,然后,就是在生成人工智能时代之前,在计算机视觉领域,我们这些从事像素工作的人,在一个叫做重建、三维重建的研究领域有着悠久的历史,甚至可以追溯到70年代。
这包括拍摄照片,因为人类有两只眼睛,所以一般来说,从立体照片开始,然后尝试对几何体进行三角测量,由此创建三维形状。这是一个非常非常困难的问题,直到今天还没有从根本上解决,因为存在对应关系等各种问题。
然后,整个领域,即对三维的旧思维方式一直在发展,并且取得了非常好的进展。但当NERF出现时,尤其在生成方法和扩散模型的背景下,突然间,重建和生成开始真正融合。目前,在计算机视觉领域,重建与生成的讨论已经变得非常复杂。当我们看到或想象某样东西时,这两者都可以汇聚并生成它。对我而言,这是计算机视觉中的一个重要时刻,但大多数人都没有注意到这一点,因为我们没有像对待大规模语言模型(LLM)那样去讨论它。
在像素空间中,可以通过重建技术重现一个真实的场景;如果无法看到该场景,则使用生成技术。这两种技术非常相似。在整个对话过程中,我们既在讨论语言,也在讨论像素。因此,或许现在是时候谈谈空间智能及其与语言方法的对比了,毕竟语言方法现在非常流行。它们是互补还是正交的呢?
我认为它们是互补的。尽管我并不想在这里过于超前,但可以稍微对比一下它们。每个人都在谈论OpenAI、GPT和多模态模型,认为它们有像素和语言。这是否正是我们希望通过空间推理实现的呢?
为了实现这一目标,我们需要打开黑匣子,看看这些系统在幕后是如何运作的。当前的语言模型和多模态语言模型的底层表示是一维的。我们讨论上下文长度、变换器和序列,关注点在于环境的表示是一维的。这些模型对世界的表示也是一维的,当谈论语言时,这种表示方式是非常自然的,因为书面文本本身就是离散字母的一维序列。这种一维的底层表示就是LLM的核心。
然而,现在的多模态LLM试图将其他模态强行塞入这种一维标记序列的底层表示中,而转向空间智能则是朝着另一个方向发展,认为世界的三维性质应该成为表示的核心。这为我们提供了以不同方式处理数据、获得不同类型输出以及解决不同问题的机会。
即使从外部观察,多模态LLM也能够查看图像。然而,我认为它们的方法核心并未建立在三维表示的基础上。贾斯汀的观点我完全同意,1D与3D表示的区别是最核心的差异之一。
另一个看法有点哲学性,但对我非常重要:语言从根本上来说是一种生成的信号。自然界中不存在语言,你不会走进大自然,天空中也不会为你书写文字。无论输入什么数据,你几乎都可以以足够的普遍性重新生成相同的数据,这就是语言与语言之间的转换。但3D世界不是这样的。外面的3D世界遵循物理定律,有其自身的结构,这是由于材料和许多其他因素造成的。要从根本上提取这些信息并生成这些信息是一个完全不同的问题。
虽然我们可以从语言模型和LLM中借鉴一些类似或有用的想法,但在哲学上,这是一个根本不同的问题。语言是一维的,可能对物理世界是一种糟糕的表示,因为它是由人类生成的,而且可能是有损的。另一种生成式人工智能模型是像素,这些是二维