昆仑万维开源Matrix-3D:单张图片即可生成可自由探索的3D世界

前沿资讯 1754994227更新

0

8月12日,昆仑万维宣布正式开源Matrix-3D。该模型可从单张图片或一句文字指令出发,快速生成360°可漫游、几何一致、细节丰富的3D场景,在生成范围与可控性上均对标国际前沿水平。

现有3D生成方法多依赖多视图或局部渲染,难以从单图生成结构完整的3D世界。Matrix-3D通过引入全景表示、条件视频生成与3D重建三大模块,实现从单图或文本到360°可探索空间的端到端生成:

轨迹引导的全景视频生成:利用场景Mesh渲染图作为条件输入,训练视频扩散模型生成符合相机轨迹的全景视频,提升空间一致性并减少伪影。

双路径全景3D重建:既可通过3DGS优化获得高精度结构,也可通过Transformer前馈网络实现10秒快速重建。

为破解3D训练数据稀缺难题,团队基于Unreal Engine构建了Matrix-Pano数据集,该数据集包含116759条高质量全景视频、2200万帧画面,覆盖504个室内外场景及多样光照、天气条件。每条视频均附带精确相机轨迹、深度图与文本描述,可直接用于训练与研究。

四大核心优势,重新定义3D内容创作

范围更大:支持远超现有方案的可探索区域,满足VR/AR大空间需求。

控制更准:文本、图片双模态输入,支持自定义轨迹、无限续写场景。

速度更快:前馈网络实现秒级3D场景生成,创作流程大幅提速。

质量更高:360°环视无断裂,纹理与几何一致性达到行业新标杆。

应用前景广阔,加速多行业落地

游戏与影视:快速原型设计、虚拟拍摄,显著降低美术与场景搭建成本。

具身智能:为机器人与自动驾驶提供高真实度训练环境,提升安全与泛化能力。

虚拟现实:一键生成沉浸式体验空间,推动下一代VR社交与内容消费。

即刻体验:

Matrix-3D已在GitHub与Hugging Face全面开源,开发者可一键下载模型权重、数据集与完整训练代码:

GitHub 仓库:https://github.com/SkyworkAI/Matrix-3D

Hugging Face:https://huggingface.co/Skywork/Matrix-3D

项目主页:https://matrix-3d.github.io

昆仑万维表示,Matrix-3D的开源是公司空间智能战略的关键一步,未来将持续迭代模型能力,携手全球开发者共建3D内容生态,为迈向AGI贡献中国方案。