谷歌发布Lyria 3音乐生成模型:支持多模态输入与SynthID水印验证

工具推荐 1771489293更新

0

谷歌宣布在其 AI 助手 Gemini 中正式推出最新高保真音乐生成模型 Lyria 3(Beta版)。该模型支持用户通过文字、图片或视频输入,快速生成带原创歌词的 30 秒高品质音轨。

区别于传统的单一文本触发模式,Lyria 3 强化了多模态理解能力。

用户不仅可以描述音乐流派(如“90年代滑板朋克”),还可以直接上传照片或视频。系统将分析视觉内容的氛围(Vibe),自动创作与之匹配的旋律与歌词。

目前,Lyria 3 提供三种主要使用方式:

  • 文本转音轨(Text to Tracks): 根据特定的情绪、主题或特定场景描述生成音乐。
  • 图文转音轨(Image or Video to Tracks): 提取上传素材的视觉特征进行音乐创作。
  • 模板与动态建议: 提供即时创作灵感,支持用户快速调整音乐风格。

此外,Gemini 生成的每段音轨都将配备由 Nano Banana 模型定制生成的封面艺术图,并支持通过链接直接分享。

针对 AI 生成内容的合规性,谷歌在 Lyria 3 中全面接入了 SynthID 技术。这是一种由 Google DeepMind 开发的不可见数字水印,嵌入在音频采样中,不影响听感。

除了在输出端打上标记,Gemini 现已具备音频验证能力。用户可以上传音频文件,由 Gemini 检索是否存在 SynthID 水印并给出推理判断。

谷歌表示,Lyria 3 的训练遵循版权与合作伙伴协议,旨在支持原创表达。当用户提示词涉及具体歌手名时,系统将仅提取其风格或氛围作为创作灵感。同时,平台设置了内容过滤机制,并允许用户对侵权内容进行举报。

Lyria 3 Beta 版即日起在桌面端向全球 18 岁以上用户开放,支持包括中文、英文、德文在内的多种语言。移动端 App 将在未来几天内完成推送。

根据官方说明,所有用户均可体验该功能,而 Google AI Plus、Pro 及 Ultra 订阅用户将获得更高的生成配额。


参考资料:https://x.com/GeminiApp/status/2024152863967240529