昆仑万维开源Matrix-Game 2.0：全球首个通用场景实时交互世界模型开源方案亮相-AI前沿快讯-AI工具导航

昆仑万维开源Matrix-Game 2.0：全球首个通用场景实时交互世界模型开源方案亮相

昆仑万维宣布推出自研世界模型Matrix-Game 2.0，在通用场景下实现交互式实时长序列生成，并全面开源，成为业内首个在该领域提供开放实现的方案。该项目是“SkyWork AI技术发布周”的第二日成果，活动自8月11日启动，连续五天每天发布一款多模态AI前沿模型。

一周前，Google DeepMind发布的Genie 3以闭源形式展示了交互式世界模型的潜力，引发行业高度关注。昆仑万维此次以完全开源的方式回应社区期待，技术报告、权重、代码与推理脚本一并公开，以期推动交互式世界模型的发展。

与上一版本相比，Matrix-Game 2.0在低延迟、高帧率长序列交互性能方面实现了重大突破：

● 25 FPS实时生成：在多种复杂场景中稳定输出分钟级连续视频，连贯性与实用性大幅提升。

● 高物理一致性：精准理解物理规律与场景语义，支持用户通过简单指令自由探索并构建细节丰富的虚拟环境。

● 跨场景泛化：适用于城市、野外等多类型空间及多种视觉风格。

实测中，用户仅需通过W/A/S/D与鼠标即可在Matrix-Game 2.0生成的场景中自由行走、转向、跳跃，系统实时输出连贯画面。无论是GTA中的高速追车、Minecraft的方块世界，还是Temple Run的惊险跑酷，模型均能保持物理规律、物体一致性与视觉风格统一。

Matrix-Game 2.0采用视觉驱动交互建模方案，摆脱语言提示依赖，重点学习图像的空间结构与动态模式，包括：

● 3D Causal VAE压缩结构：高效建模空间与时间维度。

● 多模态扩散Transformer：结合视觉编码与动作指令逐帧生成动态序列。

● KV缓存机制：实现无限时长视频的高效生成。

三大核心创新突破了行业瓶颈：

● 大规模高质量交互数据管线：基于Unreal Engine与GTA5，生成约1350小时交互式视频数据。

● 动作条件控制模块：支持帧级键盘与鼠标交互输入。

● 实时长序列视频生成：少步长自回归扩散模型在单GPU上即可实现25 FPS。

Matrix-Game 2.0已推出多个版本：

● Matrix-Game Uni：静态真实场景自由探索。

● Matrix-Game TempleRun：拟真“神庙逃亡”世界互动。

● Matrix-Game GTA：动态场景中模拟车辆运作与复杂物体运动。

昆仑万维表示，Matrix-Game 2.0将首先在虚拟人、游戏引擎、具身智能训练等场景落地，帮助开发者以极低成本构建可交互的虚拟环境。未来，该模型将与天工系列大模型协同，持续迭代空间智能底座，助力中国在全球下一代AI基础设施竞争中占据先机。