Qwen3-TTS系上新：声音设计模型VD-Flash和声音克隆模型VC-Flash-AI前沿快讯-AI工具导航

Qwen3-TTS系上新：声音设计模型VD-Flash和声音克隆模型VC-Flash

导读：Qwen3-TTS 系列模型加入两项新能力：“声音可设计”与“3秒级声音克隆”。用户可以直接“用文字定义声音”，并在多语言场景下稳定复现。

通义千问团队宣布 Qwen3-TTS 语音合成家族迎来两位新成员：声音设计模型 Qwen3-TTS-VD-Flash 和 声音克隆模型 Qwen3-TTS-VC-Flash，两款模型均已通过 Qwen API 对外开放。

在 Qwen3-TTS-VD-Flash 中，用户不需要再从有限的音色列表里做选择，只要用自然语言描述，就能定义一个全新的声音形象。比如声音的厚度、语速、情绪、角色气质，甚至“更像纪录片旁白，还是新闻主播”，都可以直接说明。

在 InstructTTS-Eval 测试中，Qwen3-TTS-VD-Flash 的整体表现明显优于 GPT-4o-mini-tts 和 Mimo-audio-7b-instruct，在角色扮演相关测试中，也超过了 Gemini-2.5-pro-preview-tts。

Qwen3-TTS-VC-Flash，只需要 3 秒语音样本，就可以完成声音克隆，并支持在 中文、英文、日语、韩语、法语、德语、西班牙语、意大利语、葡萄牙语、俄语 等 10 种主流语言中进行语音生成。

在 MiniMax TTS 多语言测试集上，Qwen3-TTS 的平均词错误率（WER）表现优于 MiniMax、ElevenLabs 以及 GPT-4o-Audio-Preview，尤其在跨语言场景中，内容稳定性优势明显。

无论是声音设计还是声音克隆，Qwen3-TTS 的一个共同特点是表达自然度更高。模型会根据语义自动调整语气、停顿和节奏，而是更接近真实说话的感觉。

同时，两款模型在复杂文本处理上也更稳：面对非标准格式、长句或结构复杂的内容，依然能准确抓住重点并顺畅输出。

Qwen3-TTS 这次更新更像一次“能力补齐”：既解决了“能不能快速复刻”，也解决了“能不能自由创造”。接下来，语音应用的想象空间，显然会更大一些。

参考资料：https://qwen.ai/blog?id=qwen3-tts-vc-voicedesign