腾讯推出HunyuanVideo 1.5:轻量化视频生成进入新阶段

工具推荐 1763718201更新

0

导读: 腾讯宣布开源 HunyuanVideo 1.5,这是一套主打轻量化与高画质的视频生成方案。其亮点主要在三个方面:①:仅 8.3B 参数即可完成高清视频生成,普通消费级显卡即可运行。②:原生支持 5–10 秒 480p/720p 视频,并可升级到 1080p。③:完整开源,包括代码、权重、工具链与生态支持。


腾讯宣布开源 HunyuanVideo 1.5,并同步发布推理代码和模型权重。官方称其为“当前开源体系里性能最强、同时门槛最低的视频生成方案之一”。

这次版本的亮点,是在仅 8.3B 参数的体量下,仍能维持较高的清晰度和动作一致性,显著降低了视频生成的使用难度。开发者只需一块约 14GB 显存的消费级 GPU,就能完成推理,让视频生成不再是专业设备的专属。

更易上手的高清视频生成HunyuanVideo 1.5 能直接生成 5–10 秒的 480p/720p 视频,同时还提供了高效的超分模块,可将画面提升至 1080p。清晰度、细节和稳定性相比上一代方案都有明显提升。

轻量化架构带来的速度优势 相比常见的视频生成技术,这次采用了更高效的 DiT 架构,以及 selective & sliding tile attention(SSTA)等机制,减少了长序列视频的计算开销。官方的测试数据显示,在 720p 的 10 秒视频生成中,相比 FlashAttention-3 有明显加速。

▲ 大幅度运动生成效果

同时,模型的压缩方式与 3D VAE 的设计,让推理速度和画面细节得以平衡,使其在轻量化与高质量之间找到了新平衡。

从 Text-to-Video 到 Image-to-Video 的统一流程HunyuanVideo 1.5 支持文本生成视频(T2V)与图像生成视频(I2V)两类任务。通过进阶的双语理解、渐进式训练策略,以及高效的推理链路,它能在不同时长与分辨率的场景中保持稳定表现。

在开源计划中,腾讯同步放出了推理代码、模型权重、ComfyUI 支持、LightX2V 加速方案、Diffusers 兼容支持等,覆盖了社区常用的视频生成工作流。

模型已经抢先在元宝上线,可通过两种方体验:一是输入文字描述(Prompt),直接实现“文生视频”;二是上传图片配合Prompt,轻松将静态图片转化为动态视频。

整体来看,HunyuanVideo 1.5 的出现,让轻量化视频生成进入了一个新的阶段。性能、画质与硬件要求之间的平衡,使其在开源社区中具有较强的吸引力,而完整的代码与工具链,也让这一能力真正落到每位开发者手中。


参考资料:https://github.com/Tencent-Hunyuan/HunyuanVideo-1.5