新闻详情

AI能否从网络走进现实?李飞飞想用空间智能告诉我们答案|Landing AI

Landing AI 本期观点:空间智能,是 AI 走向通用化过程中的下一个要害前沿。

言语模型让咱们对话国际,图画模型让咱们感知国际,而空间模型将决议咱们能否在国际中举动。李飞飞与 World Labs 的新冒险,或许将决议下一个 AI 渠道级革新的起点。

当大言语模型风行全球、生成式 AI 深度嵌入日常日子,从查找、写作到编程,无一不在改动人类的思想与表达办法。但是,在 AI 社区的一场炉边对谈中,李飞飞却抛出了一个更具应战性的问题:“咱们有没有忘了,AI其实日子在国际里?”

近期,在 YC 举行的一场线下活动,作为参与嘉宾,斯坦福大学教授、前 Google Cloud 首席科学家李飞飞

共享了

她的最新判别:实在的通用人工智能(AGI),不只要能处理言语和图画,还必须具有了解和模仿物理国际的才能。她将这个才能称为“空间智能”(spatial intelligence),并将其界说为未来 AI 最要害、也是最困难的一道关卡。

注:本文由ChatGPT 4o收拾

从 ImageNet 到 World Labs:她一直走在数据前面

李飞飞的技能抱负从未脱离实际国际的结构。早在 2007 年,她便在普林斯顿大学主张 ImageNet 项目,简直“下载了整座互联网”的图画,用于构建一个千万级规划的图画识别数据库。她在对谈中回想:“那时候一切人都在研讨算法,我挑选去研讨数据,由于咱们需求国际的样本。”

ImageNet 成功激活了深度学习的潜力,也让“数据即燃料”的范式成为干流。AlexNet 在 2012 年 ILSVRC 竞赛中的冷艳体现,证明了大规划有标签数据与神经网络结合的威力。

现在,十五年曩昔,李飞飞再次投身“数据建模”的一线,但这次瞄准的是一个维度更高、结构更杂乱的方针——三维国际。她创建的创业公司 World Labs,正致力于构建新一代“国际模型”(world models),方针是在虚拟空间中重建、模仿乃至生成一个可供 AI 感知、了解与操作的三维环境。“我称它为第三代根底模型:言语是第一代,图画是第二代,国际才是终极场景。”她说。

空间智能为何如此困难?

在对谈中,李飞飞以极简的办法解说了空间智能的底子难题:“言语是一维的序列,图画是二维的像素网格,而国际,是 3D + 时刻的接连体。”

她将应战总结为三个层级。首先是“维度爆破”,言语模型处理的是 token 序列,而空间建模需求了解三维结构及其随时刻改变的动态特点,数据维度与核算杂乱度指数上升。

第二个应战是“感知病态性”。咱们的视觉体系只能获取二维投影,例如摄像头拍下的是一幅图画,但 AI 却要根据这个图画复原出完好场景的三维结构,包含被遮挡的部分、物体之间的相对方位与巨细。这在数学上便是一个“病态问题”——小差错会被无限扩大。

第三个层级是“生成与重建的一致”。李飞飞指出,空间智能模型既要能重建已知场景,也要像生成模型那样“梦想”不知道结构,从扫描实际到虚拟组成,两头之间是一个接连谱。言语模型能够靠大规划爬虫数据做练习,但国际数据“藏在人类大脑里”,难以抓取、安排与标示。

因而,World Labs 挑选选用“混合式数据战略”——人工收集实际场景数据、组成练习数据,并引进物理与语义先验,用小而精、结构性强的数据代替朴实的规划驱动。

World Labs 要处理什么问题?

在对谈中,李飞飞着重,World Labs 的方针是构建一种“既能看见国际、又能幻想国际”的 AI 才能。她将这种才能称为“生成-感知一体化”(generative-perceptual symmetry),差异于曩昔那种将核算机视觉与生成模型别离对待的做法。

她举例说,在一个实在的厨房里,AI 不只要识别出“锅”“勺子”“灶台”,还要了解空间结构,比方“锅在灶台上,勺子在锅里”,并推理“假如移动锅的方位,勺子也会被带动”。这些空间逻辑不只依靠图画识别,更需求物理模仿才能和空间推理才能。

World Labs 因而不是在做“图画模型的升级版”,而是在打造一个实在用于智能体(agents)运转的国际模型底座——无论是机器人、自动驾驶体系,仍是沉溺式 XR 环境,统统需求它。

她也清晰说到,World Labs 的第一代产品可能会聚集“场景级 3D 模型生成”与“使命导向式国际模仿渠道”,服务方向包含家庭机器人、工业制作、空间教育与虚拟实际等多个笔直范畴。

为什么 AGI 离不开空间智能?

在当时 AI 技能热门仍然会集在言语模型的布景下,李飞飞的判别显得尤为清醒:“LLM 只处理了智能的一部分,那是笼统层。实在的智能,还要落地。”她指出,简直一切的通用智能使用——无论是自动驾驶、送餐机器人,仍是未来的 AI 助理——都触及对空间环境的了解与应对。

她剖析称,通用言语模型处理的是常识表达问题,而空间智能处理的是生计与举动问题。后者才是构建 Agent 的要害基底。假如没有空间建模,一切的“举动主张”都只是坐而论道。

她进一步征引当时几项趋势作为佐证:OpenAI 与 Jony Ive 合作开发的新一代 AI Agent 产品,正在探究具有感知才能的硬件形状;DeepMind 推出的 DreamerV3 模型着重从感知到幻想到举动的闭环学习;而 GNN(图神经网络)与 RLHF(人类反应强化学习)正在强化 AI 对“物理国际中联系”的了解力。

“AGI 的下一步,不在于更聪明的言语模型,而在于更牢靠的国际模型。”她总结道。

从科研到创业:她为何总走“最难的那条路”?

对李飞飞来说,World Labs 并非她第一次站在不知道前沿。她在共享中坦言,从读博时期在简直没有导师支撑的环境中坚持核算机视觉,到 ImageNet 建造初期简直没人信任数据驱动办法,她早已习惯了“没有人铺路的当地自己开一条路”。

“我尊重常识,也尊重勇气。”她说。在 World Labs,她坚持的唯一标准是:“找那种不怕困难、不怕没人认同的人。”她称之为“intellectual fearlessness”,一种在没有路线图的情况下也能长时间投身于构建工作中的精力。

返回资讯列表