
前沿资讯
1754995691更新
1
昆仑万维宣布推出自研世界模型Matrix-Game 2.0,在通用场景下实现交互式实时长序列生成,并全面开源,成为业内首个在该领域提供开放实现的方案。该项目是“SkyWork AI技术发布周”的第二日成果,活动自8月11日启动,连续五天每天发布一款多模态AI前沿模型。
一周前,Google DeepMind发布的Genie 3以闭源形式展示了交互式世界模型的潜力,引发行业高度关注。昆仑万维此次以完全开源的方式回应社区期待,技术报告、权重、代码与推理脚本一并公开,以期推动交互式世界模型的发展。
与上一版本相比,Matrix-Game 2.0在低延迟、高帧率长序列交互性能方面实现了重大突破:
● 25 FPS实时生成:在多种复杂场景中稳定输出分钟级连续视频,连贯性与实用性大幅提升。
● 高物理一致性:精准理解物理规律与场景语义,支持用户通过简单指令自由探索并构建细节丰富的虚拟环境。
● 跨场景泛化:适用于城市、野外等多类型空间及多种视觉风格。
实测中,用户仅需通过W/A/S/D与鼠标即可在Matrix-Game 2.0生成的场景中自由行走、转向、跳跃,系统实时输出连贯画面。无论是GTA中的高速追车、Minecraft的方块世界,还是Temple Run的惊险跑酷,模型均能保持物理规律、物体一致性与视觉风格统一。
Matrix-Game 2.0采用视觉驱动交互建模方案,摆脱语言提示依赖,重点学习图像的空间结构与动态模式,包括:
● 3D Causal VAE压缩结构:高效建模空间与时间维度。
● 多模态扩散Transformer:结合视觉编码与动作指令逐帧生成动态序列。
● KV缓存机制:实现无限时长视频的高效生成。
三大核心创新突破了行业瓶颈:
● 大规模高质量交互数据管线:基于Unreal Engine与GTA5,生成约1350小时交互式视频数据。
● 动作条件控制模块:支持帧级键盘与鼠标交互输入。
● 实时长序列视频生成:少步长自回归扩散模型在单GPU上即可实现25 FPS。
Matrix-Game 2.0已推出多个版本:
● Matrix-Game Uni:静态真实场景自由探索。
● Matrix-Game TempleRun:拟真“神庙逃亡”世界互动。
● Matrix-Game GTA:动态场景中模拟车辆运作与复杂物体运动。
昆仑万维表示,Matrix-Game 2.0将首先在虚拟人、游戏引擎、具身智能训练等场景落地,帮助开发者以极低成本构建可交互的虚拟环境。未来,该模型将与天工系列大模型协同,持续迭代空间智能底座,助力中国在全球下一代AI基础设施竞争中占据先机。