
前沿资讯
1755075212更新
0
8月13日消息,在“SkyWork AI技术发布周”进入第三天之际,昆仑万维宣布正式开源新一代统一多模态生成模型Skywork UniPic 2.0。该模型围绕生成与编辑模块轻量化设计,并通过与多模态理解模型的联合训练,实现了理解、生成与编辑一体化的能力,旨在为开发者和研究者提供高效、高质、统一的多模态生成解决方案。
据介绍,Skywork UniPic 2.0由生图编辑、统一模型构建以及生图编辑后训练三部分组成。
在生图编辑方面,团队基于SD3.5-Medium架构,将原本仅支持文本输入的模型扩展为可同时接受文本与图像输入,并通过高质量生成与编辑数据训练,使其同时具备文生图与图像编辑能力。
统一模型的构建则通过冻结生图编辑模块、接入Qwen2.5-VL-7B多模态模型和预训练连接器,再进行联合微调,从而形成理解、生成与编辑的整体能力。
后续的性能优化阶段,昆仑万维首次在该类任务中引入Flow-GRPO渐进式双任务强化策略,实现了生成与编辑的协同优化,避免了传统多任务训练中相互干扰的问题。
在性能评测中,Skywork UniPic 2.0展现出超越同类大规模模型的表现。其2B参数量的UniPic2-SD3.5M-Kontext,在生图指标上超过了12B参数的Flux.dev,在编辑任务中亦优于同等规模的Flux-Kontext,并在统一模型形态下进一步提升了理解、生成和编辑的综合能力。团队表示,这种轻量高效的设计不仅降低了算力需求,也为多模态应用的落地提供了更多可能性。
Skywork UniPic 2.0的全部资源,包括模型权重、推理代码、强化策略等,已在GitHub及HuggingFace平台全面开源,方便开发者快速上手并进行二次开发。
昆仑万维方面指出,该项目延续了公司在统一多模态模型领域的深耕,此前已相继推出并开源了多款在行业内取得SOTA(State-of-the-Art)成果的模型,包括面向AI短剧创作的SkyReels-V1、无限时长电影生成的SkyReels-V2、音频驱动人像视频生成的SkyReels-A3,以及多模态推理模型Skywork-R1V系列、交互世界模型Matrix-Game 2.0、3D世界生成模型Matrix-3D等。
项目主页:https://unipic-v2.github.io/
技术报告:https://github.com/SkyworkAI/UniPic/blob/main/UniPic-2/assets/pdf/UNIPIC2.pdf
GitHub:https://github.com/SkyworkAI/UniPic/tree/main/UniPic-2
HuggingFace:https://huggingface.co/Skywork