混元DiT模型开源训练代码，发布LoRA与ControlNet插件-AI工具推荐-AI工具导航

混元DiT模型开源训练代码，发布LoRA与ControlNet插件

工具推荐 1719133749更新

腾讯混元文生图大模型（简称混元DiT模型）近日宣布全面开源其训练代码。全球的企业和个人开发者、创作者现在可以基于混元DiT的训练代码进行个性化模型的精调，实现更高自由度的创作。此外，腾讯还开源了LoRA小规模数据集训练方案和ControlNet插件，为混元DiT模型的开源生态增添了更多可能性。

混元DiT模型作为中文原生模型，其训练代码支持直接使用中文数据和标签，省去了将数据翻译成英文的步骤。这一特性对于中文用户来说无疑是一大便利。自腾讯宣布混元文生图大模型全面升级并开源以来，其在Hugging Face平台及Github上受到了广泛关注，成为开源社区中热门的DiT模型之一，仅一个月内Github Star数就达到了2.4k。

LoRA模型，全称为Low-Rank Adaptation of Large Language Models，是一种微调大型语言模型的技术。在文生图模型中，LoRA被用作插件，允许用户在不改变原有模型结构和大小的情况下，通过少量数据训练出具有特定画风、IP或人物特征的模型。这种技术在文生图开源领域非常受欢迎，许多创作者利用LoRA技术创造出了多样化的模型。腾讯混元发布的LoRA插件支持开发者使用极少的图片和提示词来创作出专属的模型。例如，通过导入四张青花瓷图片和相应的提示词，就可以训练出一个“青花瓷”生成模型。用户只需输入简单的提示词，即可生成所需的青花瓷图像。

训练后模型的推理结果示例：

ControlNet插件则是一种可控化生成算法，它允许用户通过添加额外条件来控制图像的生成。腾讯混元提供了三个首发ControlNet模型，分别用于提取和应用图像的边缘、深度和人体姿势等条件。这些插件能够实现通过线稿生成全彩图、生成具有相同深度结构的图、生成具有相同姿态的人等能力。同时，混元DiT也开源了ControlNet的训练方案，使得开发者和创作者可以训练自定义的ControlNet模型。

自混元DiT模型开源以来，腾讯混元团队一直在持续完善和优化基于混元DiT的开源组件。本月初，混元DiT发布了专属加速库，将推理效率提升了75%，同时大幅提高了模型的易用性。用户现在可以通过ComfyUI的图形化界面使用混元DiT，或者通过Hugging Face Diffusers通用模型库，仅用三行代码即可调用混元DiT模型，无需下载原始代码库。

腾讯混元文生图的能力已经被广泛应用于素材创作、商品合成、游戏出图等多个业务和场景中。今年初，腾讯广告基于腾讯混元大模型发布了一站式AI广告创意平台腾讯广告妙思。此外，《央视新闻》《新华日报》等20余家媒体也已经将腾讯混元文生图用于新闻内容生产。