昆仑万维发布SkyReels-A3模型：声画合一，让数字人“开口说话”-AI前沿快讯-AI工具导航

昆仑万维发布SkyReels-A3模型：声画合一，让数字人“开口说话”

8月11日消息，昆仑万维SkyWork AI技术发布周正式启动。据介绍，8月11日至15日，连续五天，每天都会发布一款覆盖多模态AI核心场景的新模型。11日当天，昆仑万维正式发布全新一代音频驱动人像视频生成模型SkyReels-A3。该模型融合DiT（Diffusion Transformer）视频扩散模型、插帧延展技术、基于强化学习的动作优化算法及可控运镜模块，可实现任意时长的全模态音频驱动数字人创作，让静态人物因声音而“活”起来。

作为一款面向大众与专业创作者的Audio-driven Avatar技术，SkyReels-A3支持三大核心应用场景：

1. 照片开口说话/唱歌：上传任意人像照片并配上语音，即可生成自然口型和表情的视频。

2. 定制情境表演：结合图片、语音与文本提示（Text Prompt），驱动数字人进行指定情绪、姿态与场景表演。

3. 视频改台词：替换原视频的音频，人物口型、表情及肢体动作将与新语音同步，而画面衔接自然流畅。

SkyReels-A3在唇形同步与动作自然度上进一步提升，支持分钟级单镜头视频和无限时长多镜头生成，且在广告、直播带货等高互动场景中实现特定动作优化，让数字交互更逼真。

为了突破传统数字人单一、呆板的固定镜头，SkyReels-A3内置基于ControlNet架构的专业运镜模块，支持八种常见镜头运动（静态、推拉镜、摇镜、抬升、下降、手持）及0–100%强度调节。通过帧级运镜控制与场景深度信息提取，创作者能够生成如电影或音乐MV般的高艺术感视频。

SkyReels-A3基于DiT视频扩散架构与3D变分自编码器（3D-VAE），实现视频在空间与时间维度的高效压缩与生成，大幅降低计算成本的同时保留细节。

对比开源模型OmniAvatar和闭源模型OmniHuman，SkyReels-A3在唇形同步（sync-c、sync-d）、动作稳定性及视频质量方面均取得领先。在推理速度上，SkyReels-A3通过引入Step蒸馏技术，将生成步数从40步降至4步，生成效率提升近十倍。

昆仑万维表示，从胶片到数码、从二维到三维，每一次影像技术的飞跃都在改变内容生产方式。SkyReels-A3的目标，是让“声音即影像”成为人人可触的创意工具，而无需摄影棚与高端设备，一段声音、一张照片，就能生成高保真、长时长、可控创意的视频内容。

访问体验：

* SkyReels-A3项目主页：https://skyworkai.github.io/skyreels-a3.github.io/

* SkyReels官网（登录后选择Talking Avatar工具）：https://www.skyreels.ai/home

* 开源模型地址：https://huggingface.co/Skywork

参考资料：Day1/5：SkyReels-A3——形随声动，让数字人“说话”的魔法