一文搞懂世界模型:AI如何“脑补”真实世界?

谷歌的Genie 3世界模型可以生成各种可控制动作、可玩的3D环境,还可以用于训练和评估具身agent。它能快速为AI agent创建丰富多样的环境,从而生成agent在训练期间未见过的评估任务。比如,Google DeepMind与游戏开发商合作开发的SIMA agent,被设计成通过遵循自然语言指令来完成一系列3D游戏世界中的任务,就可以在Genie 2合成的、未见过的环境执行指令,通过在虚拟环境中的训练,提升在真实世界中的行动能力。

(四)影视与元宇宙:提升内容创作效率

在影视制作和元宇宙场景搭建中,世界模型可以快速生成大规模动态场景,节省大量的人力和时间成本。比如,制作一部科幻电影,导演可以用世界模型快速生成外星世界的场景,包括地形、气候、生物等,而且这些场景可以根据剧情和角色的行动实时变化。在元宇宙中,用户也可以通过世界模型创建属于自己的个性化虚拟空间,实现更丰富的交互体验。

三、深入剖析:世界模型的技术原理是怎样的?

(一)多模态数据融合:让AI“全方位”感知世界

世界模型的核心之一是多模态数据融合,也就是把视觉、语言、音频、动作等多种数据整合在一起。比如,当我们看到一个人在说话,我们不仅能看到他的动作和表情(视觉信息),还能听到他说的话(音频信息),然后理解他的意图(语言信息)。世界模型也需要具备这样的能力,将不同模态的数据转化为统一的表示形式,让AI能够从多个角度理解世界。

以腾讯的混元3D世界模型为例,它引入了“世界一致视频扩散”与“长距离世界探索”两大核心机制,从一段文字、一张图生成一个初始场景,再根据用户设定的相机轨迹拓展新视角内容。这里就融合了文本和图像两种模态的数据,通过对这些数据的处理和融合,生成更加真实、连贯的虚拟场景。

(二)模拟与预测:在“脑海”中推演未来

世界模型还能够模拟世界的动态变化,并预测未来可能发生的事情。它通过学习大量的历史数据,掌握世界的运行规律,然后在面对新的情况时,能够在虚拟环境中模拟不同的行动方案,并预测每种方案可能产生的结果。

比如,在自动驾驶场景中,世界模型可以根据当前车辆的速度、位置、周围车辆的状态等信息,模拟未来几秒钟内可能出现的情况,如前方车辆突然刹车、行人突然横穿马路等,并提前规划出应对策略。谷歌的Genie 3就可以生成长达数分钟的一致世界,能够模拟各种物体的相互作用、角色动画、物理规律等,实现实时互动和高度一致化的生成,让用户在其中的行动能够得到合理的反馈和预测。

(三)强化学习:在“试错”中不断优化

强化学习是世界模型训练过程中的重要方法。简单来说,强化学习就是让AI在虚拟环境中不断尝试不同的行动,根据行动产生的结果获得奖励或惩罚,从而逐渐学会最优的行动策略。

比如,一个机器人要学会在复杂环境中行走,它可以在世界模型构建的虚拟环境中不断尝试不同的步伐和方向。如果它成功避开了障碍物并到达了目标地点,就会得到奖励;如果它撞到了障碍物,就会受到惩罚。通过不断地试错和学习,机器人就能逐渐掌握在该环境中行走的最佳策略,然后将这些策略应用到真实环境中。

四、行业现状:大厂纷纷布局,竞争激烈

(一)谷歌:Genie系列引领世界模型发展

谷歌在世界模型领域一直处于领先地位,其发布的Genie系列世界模型备受关注。Genie 2能生成各种可控制动作、可玩的3D环境,还可以用于训练和评估具身agent,只要给一张提示图像,它就能按照文本提示生成对应的交互式虚拟世界,无论是人类还是AI agent都可以在其中探索和互动。

而Genie 3更是实现了实时互动、高度一致化的生成,直接从“游戏画面”迈入“真实世界”的程度。它能维持数分钟的生成一致性,还能做到实时响应,用户可以以每秒24帧的速度实时浏览生成的动态世界,并在720p的分辨率下保持几分钟的一致性。Genie 3支持可提示事件,用户可以在生成的世界中添加新的事件,比如另一个人或交通工具,甚至是完全意想不到的东西,为世界模型的应用拓展了更多可能性。

这章没有结束,请点击下一页继续阅读!

(二)昆仑万维:开源Matrix-Game系列,推动行业发展

昆仑万维在世界模型领域也有重要成果,其开源的Matrix-Game系列模型为行业发展做出了贡献。Matrix-Game 2.0是业内首个在通用场景上实现实时长序列、交互式生成的世界模型开源方案,参数量仅有1.8B,能跑在单块GPU上,生成的虚拟环境帧率能达到25FPS,用户可以用键盘WASD按键进行实时的自由移动和视角控制,实现持续时长达分钟级的互动。

它彻底摆脱了此前依赖语言提示的生成模式,专注于通过视觉理解和物理规律学习来构建虚拟世界。通过少步骤自回归扩散算法实时生成长视频,引入了一个专为实时模拟和交互设计的高效框架,同时应对解决了效率和可控性的挑战,为游戏开发者和玩家提供了全新的可能性,也让更多人能够基于其开源代码进行研究和创新。