谷歌实验室推出新一代视频生成模型Veo 2，并更新了图像生成模型Imagen 3-AI工具推荐-AI工具导航

谷歌实验室推出新一代视频生成模型Veo 2，并更新了图像生成模型Imagen 3

谷歌在2024年5月份的I/O开发者大会上首次宣布了Veo视频生成模型。该模型被称为谷歌当时“最佳性能”的视频生成模型，能够根据文本、图像和视频提示生成超过一分钟长度的1080p视频。今天，谷歌实验室推出新一代视频生成模型Veo 2。

据介绍，Veo 2能够制作出涵盖多种主题和风格的高质量视频内容，在人工评审的对比测试中，Veo 2相较于其他顶尖模型展现出了显著的优势，该模型对现实世界的物理规律和人类动作表情的微妙差异有着深刻的诠释，使得它在细节表现和真实感方面有了显著提升。

Veo 2掌握了电影拍摄的语言，能够根据用户的指令生成特定类型、镜头和电影特效的视频，分辨率可达4K，视频时长可延长至数分钟。用户可以指定具体的镜头类型，如“18毫米镜头”来获得广角效果，或者“浅景深”来实现背景模糊、主体聚焦的效果。Veo 2在多余细节添加方面表现出了较低的错误率，使得输出的视频更加逼真。

在安全性和负责任的开发方面，Veo 2的输出内容包含了隐形的SynthID水印，有助于识别人工智能生成的内容，减少错误信息和归属问题。Veo 2的发展遵循了严格的指导原则，以确保在通过VideoFX、YouTube和Vertex AI逐步推出模型的过程中，能够识别、理解和改进模型的质量与安全性。Veo 2的新功能已经被集成到谷歌实验室的视频生成工具VideoFX中，并计划在未来扩大用户群体。此外，谷歌还计划在明年将Veo 2推广到YouTube短视频和其他产品中。

与此同时，Imagen 3图像生成模型也得到了显著改进，现在能够生成更明亮、构图更佳的图像。它能够精确呈现多样化的艺术风格，从写实主义到印象主义，再到抽象风格和动漫风格。Imagen 3的升级使其在忠实于提示语的同时，能够渲染出更丰富的细节和纹理。在人工评审的对比测试中，Imagen 3的输出结果与其他领先的图像生成模型相比，也取得了顶尖的成绩。Imagen 3的最新模型已经在全球范围内通过谷歌实验室的图像生成工具ImageFX向100多个国家推出，用户可以直接访问ImageFX开始使用。

Whisk是谷歌实验室最新推出的实验项目，它可以让用户输入或创建图像，这些图像能够传达他们心中的主题、场景和风格。用户可以将这些图像整合并重新组合，创造出具有个人特色的新内容，例如数字毛绒玩具、珐琅别针或是贴纸。在技术层面，Whisk结合了最新的Imagen 3模型和Gemini的视觉理解及描述能力。Gemini模型能够自动为用户的图像撰写详细的文字说明，然后将这些描述作为输入传递给Imagen 3。这一过程使得用户能够以一种新奇有趣的方式重新组合他们的主题、场景和风格，创造出独特的视觉效果。