前沿资讯
1769853671更新
0
导读:Project Genie,简单来说,你输入一段文字描述或上传一张图片,它分分钟就能生成一个可探索的虚拟世界,而且还能在里面走动、开车、飞行。这个实验性原型由 Genie 3、Nano Banana Pro 和 Gemini 共同驱动,核心功能包括「世界素描」「世界探索」和「世界混搭」三种玩法。
Google DeepMind 宣布向美国地区的 Google AI Ultra 订阅用户开放 Project Genie 的访问权限。这是一个实验性研究原型,旨在让用户能够创建、探索和混搭自己的交互式 3D 世界。

要理解 Project Genie 的意义,首先得搞清楚「世界模型」这个概念。简单来说,世界模型是一种能够模拟环境动态变化的 AI 系统,它可以预测环境如何演变,以及智能体的行为会如何影响环境。
Google DeepMind 在棋类游戏(如国际象棋、围棋)等特定领域已经积累了丰富的经验,但这些成就都局限于封闭、规则明确的环境。而 AGI(通用人工智能)的终极目标是让 AI 能够理解和适应真实世界的多样性和复杂性。
Genie 3 的突破在于:它不再依赖于预制的 3D 快照,而是能够在运行时动态生成整个世界的物理特性和交互逻辑。它将可以用来模拟任何现实场景,从机器人训练、动画制作,到影视特效、历史场景重建,应用潜力巨大。
Project Genie 是一个基于网页的应用程序,底层由 Genie 3、Nano Banana Pro 和 Gemini 三项技术共同驱动。用户可以通过它亲身体验世界模型的沉浸式能力,主要功能分为三大模块:
1. 世界素描(World Sketching)
这是项目的核心入口。用户可以通过文字提示词或上传图片来创建一个活生生的、可扩展的环境。你可以定义自己的角色、设定世界的基调,甚至选择探索方式:步行、骑行、飞行、驾驶,或任何你能想到的移动方式。
为了让生成结果更精准,Project Genie 还集成了 Nano Banana Pro 的「World Sketching」功能。用户可以先预览世界的样子,对图像进行微调,确保符合预期后再进入探索。此外,系统还支持视角切换(第一人称或第三人称),让用户自由决定体验方式。
2. 世界探索(World Exploration)
世界创建完成后,它就变成了一个可实时导航的开放环境。当你移动时,Project Genie 会根据你的动作即时生成前方的路径,你还可以随时调整相机角度,在探索过程中获得最佳的视觉体验。
3. 世界混搭(World Remixing)
如果你对现有的世界不满意,可以基于它们的提示词进行二次创作,生成全新的版本。系统还内置了世界画廊和随机生成器,提供灵感参考。创作完成后,用户可以下载自己创建的世界和探索过程的视频,分享给他人。
虽然愿景宏大,但 Google 明确表示,Project Genie 仍然是早期研究模型,存在不少已知问题,比如生成的世界,在视觉上有时会与原始提示词或上传图片存在偏差,物理规律也可能不够准确。角色的可控性有时会打折扣,操作延迟也相对较高。更重要的是,单次生成时长限制在 60 秒,无法创建大规模的开放世界。
Google 强调,Project Genie 是其 AGI 研究路线图中的重要一环。通过向真实用户开放这一原型,Google 希望能够更好地理解人们将如何在研究和创意媒体领域使用世界模型。
目前,访问权限仅对美国地区的 Google AI Ultra 订阅用户开放,未来几个月将逐步扩展到更多地区。Google 表示:「我们期待看到用户创造出的无限多样的世界,我们的最终目标是将这些体验和技术带给更广泛的用户群体。」
参考资料:https://blog.google/innovation-and-ai/models-and-research/google-deepmind/project-genie/
豫公网安备41010702003375号