OpenAI最先进图像生成能力上线ChatGPT 4o，100多名人工训练师耗时一年多调教！-AI前沿快讯-AI工具导航

OpenAI最先进图像生成能力上线ChatGPT 4o，100多名人工训练师耗时一年多调教！

OpenAI正式推出GPT-4o图像生成技术，并表示：“图像生成应该是语言模型的主要功能，这就是为什么我们最先进的图像生成器构建到GPT‑4o中”。此前，ChatGPT模型只能生成和编辑文本，而不能生成和编辑图像，自此，ChatGPT用户借助GPT-4o在聊天窗口内就能轻松生成图像。

GPT-4o作为多模态模型，于去年首次亮相，具备处理文本、视频、音频和图像的能力，且被定位为当时最先进AI模型的低成本替代方案。此次升级后，它将取代DALL-E 3，成为ChatGPT聊天机器人默认的图像生成模型。

OpenAI研究负责人加布里埃尔·吴指出，GPT-4o驱动的图像生成功能堪称一次重大飞跃。团队基于GPT-4o“全模态”基础进行开发，让模型具备处理多种数据类型的强大能力，升级后的版本无论是生成更准确、更详细的图像，还是设计公司标志、制作幻灯片，GPT-4o都表现出色。以往，多数图像模型在处理多个物体指令时，常出现属性混淆的状况，像颜色、形状等元素错乱，但ChatGPT的图像生成功能大幅改善了这一问题，能够准确为15到20个物体绑定属性，有效避免混淆，显著增强了图像生成的准确性与可靠性。

文本渲染效果同样进步明显。过去，在图像上生成清晰、无错字的文本颇具挑战，现有工具生成的文本极易出现乱码，而ChatGPT图像生成功能经过数月迭代优化，在文本质量上达到了较高水准，虽然小字号文本偶尔还会出错，但整体可用性大大提高。

据透露，该成果背后的“功臣”是一群“人类训练员”。他们通过标记训练数据，指出AI生成图像中存在的错别字、错误的手部和面部描绘等问题，运用“基于人类反馈的强化学习”（RLHF）技术，让模型更精准地遵循人类指令，从而生成质量更高、实用性更强的图像。在强化学习过程中，约有100多名工作人员参与其中。

技术原理方面，该功能采用自回归方法，与DALL-E等常用的扩散模型技术不同，它如同人们书写文本一样，从左到右、从上到下依次生成图像。吴推测，这一技术差异正是其在文本渲染和“绑定”能力上表现卓越的关键因素。

ChatGPT多模态产品负责人杰基·香农形象地解释道，模型如同拥有丰富知识储备的“画师”，用户无需详细解释专业内容，就能获得精准的图像反馈，大大降低了创作门槛。不过，新功能也并非十全十美，生成图像所需的时间比以往有所延长，但图像质量、知识承载以及功能的显著提升，足以弥补这一不足。

面对AI技术应用中备受关注的安全问题，OpenAI团队强调，新系统配备了严密的安全防护机制，能够有效阻止水印去除、深度伪造内容生成等。虽然图像未添加明显的视觉水印，但所有生成图像都嵌入了标准的C2PA元数据，便于溯源，同时公司内部也有配套查询工具，为图像使用安全保驾护航。

版权方面，OpenAI在另一份声明中表示：“在创作方面，我们尊重艺术家的权利，并且我们制定了政策，防止我们生成直接模仿任何在世艺术家作品的图像。”OpenAI还提供了一份表格，可以让创作者要求将其作品从其训练数据集中删除。

GPT-4o原生图像生成现已在ChatGPT和OpenAI的AI视频生成产品Sora中上线，目前仅供每月200美元的Pro计划订阅者使用，但后续将向ChatGPT的Plus和免费用户以及使用该公司API服务的开发人员推出。

参考资料：https://openai.com/index/introducing-4o-image-generation/