赋予AI虚拟与现实场景的认知力
Freepik

赋予AI虚拟与现实场景的认知力
Kyle Wiggers
/
leeron

2024-10-29
#技术
世界模型将为AI带来跟我们接近的环境认知,可用于生成3D虚拟世界、增强机器人交互与决策能力。

“世界模型”——这个词最近开始频繁出现在 AI 圈子里,有人甚至称它为 AI 的下一个重大突破。例如,AI 先锋李飞飞的 World Labs 就筹集了 2.3 亿美元,专注于打造“大型世界模型”;而 DeepMind 则招聘了 OpenAI 视频生成器 Sora 的创始人,加入其“世界模拟器”项目。

那么,这些“世界模型”到底是什么呢?

简单来说,世界模型的灵感来自人类天生形成的“心理模型”。人类通过五感收集信息,形成对周围环境的抽象认知,再将这种认知内化为更具体的理解。这些模型帮助我们预测世界的运作方式,对我们的感知和决策产生深刻影响。

举个例子,AI 研究员 David Ha 和 Jürgen Schmidhuber 提到棒球击球手的例子:棒球击球手仅有毫秒时间决定挥棒方向和时机,这比视觉信号传递到大脑的时间还要短。击球手之所以能在短暂瞬间内挥棒,是因为他们在潜意识里已然预测出球的轨迹,借助内心的世界模型来进行动作调整。

“对于专业运动员来说,这一切都是潜意识的反应,”Ha 和 Schmidhuber 写道,“他们的肌肉会在恰当时机、恰当位置反射性地挥棒,与内部模型的预测完美契合,甚至无需花时间去考虑和推演未来的场景。”可以说,这种潜意识的预测能力让我们实现了超越常规思维的快速反应。

为世界建模

构建“世界模型”这个概念由来已久,但随着生成式视频应用的发展,这个领域最近再次火了起来。

绝大多数AI生成的视频都会给人一种“诡异谷”的感觉:你看得越久,越容易看到奇怪的现象,比如手脚扭曲、融为一体等。

假设有个生成模型用海量视频训练过,它可能会预测出篮球会反弹,但它其实并不懂为什么篮球会反弹——就像语言模型并不真正理解文字背后的概念一样。而如果一个世界模型能对篮球为什么会反弹有基本的理解,那么它在展示这一场景时会更加自然、真实。

为了达到这种效果,世界模型的训练数据非常丰富,包括照片、音频、视频和文本。其目的在于让模型对现实世界的运作方式形成内部表征,甚至能推测出某些行为的后果。

Mashrabov表示:“观众期望看到的世界与他们的现实一致。如果羽毛像铁砧般坠地,或者保龄球能飞上百米高空,这会让观众瞬间跳戏。有了强大的世界模型,创作者就不必一一定义每个物体的运动方式——这既繁琐又低效。模型本身就能‘懂’这些常识。”

不过,生成视频只是世界模型潜力的一小部分。包括Meta首席AI科学家Yann LeCun在内的研究人员认为,这类模型未来可能用于数字和物理领域的高级预测和规划。

LeCun今年早些时候在一场演讲中提到,世界模型可以通过“推理”来实现目标。假设模型拥有一个基础的“世界”表征(比如一段脏乱房间的视频),并给出一个目标(房间整洁),它就能推演出一系列清洁步骤(启动吸尘器、洗碗、倒垃圾),不是因为观察到类似模式,而是因为它在更深层次上“理解”如何从脏乱变整洁。

LeCun说:“我们需要的是理解世界的机器——能记忆、具备直觉和常识,能够像人类一样推理和规划的机器。尽管有些人对当前AI系统非常乐观,但事实上它们离这个目标还很远。”

虽然LeCun估计我们离他所设想的世界模型至少还有十年,但目前的世界模型已初露端倪,尤其是在基础物理模拟方面。

OpenAI在一篇博客中提到,Sora作为一个“世界模型”,可以模拟画家在画布上留下笔触的过程。Sora这样的模型不仅能模拟这些细节,还能高效地模拟电子游戏场景,例如生成类似《我的世界》的用户界面和游戏世界。

World Labs联合创始人Justin Johnson在a16z播客中提到,未来的世界模型可能会支持按需生成3D虚拟世界,用于游戏、虚拟摄影等领域。他说:“虽然我们现在也能创建虚拟交互世界,但这要耗费上亿资金和大量开发时间。未来有了世界模型,你将不仅仅得到一张图片或一段视频,而是一个全方位的、充满活且交互性强的3D世界。”

高难度挑战

尽管前景诱人,但实现这一目标还面临诸多技术挑战。

训练和运行世界模型所需的算力非常庞大,甚至超过了当前生成模型的需求。如今,部分最新的语言模型已经可以在现代智能手机上运行,而Sora(可算是早期的世界模型)则需要数千个GPU支持其训练和运行,尤其当其应用普及时,对算力的需求会更为巨大。

和其他AI模型一样,世界模型也会产生幻觉现象,并继承训练数据中的偏见。比如,一个主要在欧洲晴天城市视频上训练的世界模型,可能会难以理解或正确描绘韩国城市的雪景。

Mashrabov指出,训练数据的不足会进一步加剧这些问题。

他说:“我们已经看到模型在生成特定人种或外貌的内容时表现受限。世界模型的训练数据既需要涵盖多样化的场景,又要足够细致,以便AI能深入理解这些场景的细微之处。”

AI初创公司Runway的CEO Cristóbal Valenzuela在最近的一篇文章中指出,数据和工程问题阻碍了当今模型准确捕捉世界中角色的行为(例如人类和动物)。他表示:“模型需要生成一致的环境地图,并具备在这些环境中导航和交互的能力。”

由Sora生成的视频
由Sora生成的视频

不过,如果能够克服所有这些主要难关,Mashrabov认为世界模型将有可能“更稳健地”实现AI与现实世界的桥接,从而在虚拟世界生成、机器人技术和AI决策等方面带来突破。

这还可能催生出更智能的机器人。

现今的机器人能力有限,是因为它们缺乏对周围世界或自身的认知。Mashrabov指出,世界模型可以赋予机器人一定程度的这种认知——至少在某些程度上。

他补充道:“拥有一个先进的世界模型,AI就能在被置于任何场景中时,发展出对该场景的‘个人理解’,并开始推理可能的解决方案。”