昆仑万维开源Matrix-Game 2.0:全球首个通用场景实时交互世界模型开源方案亮相

前沿资讯 1754995691更新

1

昆仑万维宣布推出自研世界模型Matrix-Game 2.0,在通用场景下实现交互式实时长序列生成,并全面开源,成为业内首个在该领域提供开放实现的方案。该项目是“SkyWork AI技术发布周”的第二日成果,活动自8月11日启动,连续五天每天发布一款多模态AI前沿模型。

一周前,Google DeepMind发布的Genie 3以闭源形式展示了交互式世界模型的潜力,引发行业高度关注。昆仑万维此次以完全开源的方式回应社区期待,技术报告、权重、代码与推理脚本一并公开,以期推动交互式世界模型的发展。

与上一版本相比,Matrix-Game 2.0在低延迟、高帧率长序列交互性能方面实现了重大突破:

● 25 FPS实时生成:在多种复杂场景中稳定输出分钟级连续视频,连贯性与实用性大幅提升。

● 高物理一致性:精准理解物理规律与场景语义,支持用户通过简单指令自由探索并构建细节丰富的虚拟环境。

● 跨场景泛化:适用于城市、野外等多类型空间及多种视觉风格。

实测中,用户仅需通过W/A/S/D与鼠标即可在Matrix-Game 2.0生成的场景中自由行走、转向、跳跃,系统实时输出连贯画面。无论是GTA中的高速追车、Minecraft的方块世界,还是Temple Run的惊险跑酷,模型均能保持物理规律、物体一致性与视觉风格统一。

Matrix-Game 2.0采用视觉驱动交互建模方案,摆脱语言提示依赖,重点学习图像的空间结构与动态模式,包括:

● 3D Causal VAE压缩结构:高效建模空间与时间维度。

● 多模态扩散Transformer:结合视觉编码与动作指令逐帧生成动态序列。

● KV缓存机制:实现无限时长视频的高效生成。

三大核心创新突破了行业瓶颈:

● 大规模高质量交互数据管线:基于Unreal Engine与GTA5,生成约1350小时交互式视频数据。

● 动作条件控制模块:支持帧级键盘与鼠标交互输入。

● 实时长序列视频生成:少步长自回归扩散模型在单GPU上即可实现25 FPS。

Matrix-Game 2.0已推出多个版本:

● Matrix-Game Uni:静态真实场景自由探索。

● Matrix-Game TempleRun:拟真“神庙逃亡”世界互动。

● Matrix-Game GTA:动态场景中模拟车辆运作与复杂物体运动。

昆仑万维表示,Matrix-Game 2.0将首先在虚拟人、游戏引擎、具身智能训练等场景落地,帮助开发者以极低成本构建可交互的虚拟环境。未来,该模型将与天工系列大模型协同,持续迭代空间智能底座,助力中国在全球下一代AI基础设施竞争中占据先机。