Lightricks高规格音视频生成模型LTX-2开源发布,4K画质带同步声音

工具推荐 1767782301更新

2

【导读】以色列公司Lightricks发布了一款名为LTX-2的音频视频生成模型。这是首个支持4K分辨率、50帧、20秒规格的DiT架构开源音视频生成模型,更重要的是,普通游戏显卡即可运行。


传统AI视频生成工具中,画面和声音往往是分离的两个系统,经常出现音画不同步的问题。LTX-2最大的亮点在于,它从底层就把音视频同步功能整合进去了,输入一段文字描述,输出的视频自带匹配的音效和配乐,口型、动作、音乐节奏都能精准对应。

官方介绍,这是一款基于DiT架构的开源音视频生成模型。参数方面,LTX-2最高支持4K分辨率、50帧每秒、单个视频最长20秒

为满足不同用户需求,Lightricks一口气发布了五个版本:

基础版(Base):最通用的版本,支持文生视频和图生视频,且可训练,用户可根据特定需求进行微调。

8步蒸馏版(8-step): 加速版本,适合快速验证想法,迭代效率高。

相机控制LoRA: 允许用户精确控制镜头运动轨迹,推拉摇移跟甩等各种运镜方式均可实现。

潜在空间上采样器: 用于提升画质,用更短时间获得更高质量的画面。

IC-LoRA系列: 提供深度图、边缘检测、姿态识别三种控制方式,精确指导AI生成理想画面。

普通显卡能跑?官方配置建议如下:24GB以上显存显卡(如RTX 4090、RTX 5090)可生成720p、24帧、4秒视频,约25秒出一段,生成8秒视频需3分钟左右。8至16GB显存显卡(如RTX 3070、RTX 4060)建议将分辨率降至540p,同样4秒时长即可获得可用效果。

刚上手时,可以先用低分辨率、短时长测试效果,确定画面符合预期后再逐步提高参数追求画质,这样既省时间又省显存。

LTX-2支持两种运行方式。命令行方式适合技术用户,需具备编程基础,官方提供完整GitHub仓库,按文档操作即可安装。ComfyUI方式对普通用户更友好,无需写代码,通过拖拽节点即可搭建工作流。

Lightricks为LTX-2开发了专用插件,在ComfyUI中下载官方模板,填入描述文字、调整参数、点击运行,即可生成视频。

LTX-2的核心权重完全公开,所有人可免费下载、使用、修改。Lightricks在移动端图像处理领域深耕多年,Facetune、VideoLeap等修图修视频应用广受认可,此次开源举措格局值得肯定。

项目地址:https://github.com/Lightricks/LTX-2


参考资料:https://www.nvidia.com/en-us/geforce/news/rtx-ai-video-generation-guide/