OpenAI最先进图像生成能力上线ChatGPT 4o,100多名人工训练师耗时一年多调教!

前沿资讯 1742986446更新

0

OpenAI正式推出GPT-4o图像生成技术,并表示:“图像生成应该是语言模型的主要功能,这就是为什么我们最先进的图像生成器构建到GPT‑4o中”。此前,ChatGPT模型只能生成和编辑文本,而不能生成和编辑图像,自此,ChatGPT用户借助GPT-4o在聊天窗口内就能轻松生成图像。

GPT-4o作为多模态模型,于去年首次亮相,具备处理文本、视频、音频和图像的能力,且被定位为当时最先进AI模型的低成本替代方案。此次升级后,它将取代DALL-E 3,成为ChatGPT聊天机器人默认的图像生成模型。

OpenAI研究负责人加布里埃尔·吴指出,GPT-4o驱动的图像生成功能堪称一次重大飞跃。团队基于GPT-4o“全模态”基础进行开发,让模型具备处理多种数据类型的强大能力,升级后的版本无论是生成更准确、更详细的图像,还是设计公司标志、制作幻灯片,GPT-4o都表现出色。以往,多数图像模型在处理多个物体指令时,常出现属性混淆的状况,像颜色、形状等元素错乱,但ChatGPT的图像生成功能大幅改善了这一问题,能够准确为15到20个物体绑定属性,有效避免混淆,显著增强了图像生成的准确性与可靠性。

文本渲染效果同样进步明显。过去,在图像上生成清晰、无错字的文本颇具挑战,现有工具生成的文本极易出现乱码,而ChatGPT图像生成功能经过数月迭代优化,在文本质量上达到了较高水准,虽然小字号文本偶尔还会出错,但整体可用性大大提高。

据透露,该成果背后的“功臣”是一群“人类训练员”。他们通过标记训练数据,指出AI生成图像中存在的错别字、错误的手部和面部描绘等问题,运用“基于人类反馈的强化学习”(RLHF)技术,让模型更精准地遵循人类指令,从而生成质量更高、实用性更强的图像。在强化学习过程中,约有100多名工作人员参与其中。

技术原理方面,该功能采用自回归方法,与DALL-E等常用的扩散模型技术不同,它如同人们书写文本一样,从左到右、从上到下依次生成图像。吴推测,这一技术差异正是其在文本渲染和“绑定”能力上表现卓越的关键因素。

ChatGPT多模态产品负责人杰基·香农形象地解释道,模型如同拥有丰富知识储备的“画师”,用户无需详细解释专业内容,就能获得精准的图像反馈,大大降低了创作门槛。不过,新功能也并非十全十美,生成图像所需的时间比以往有所延长,但图像质量、知识承载以及功能的显著提升,足以弥补这一不足。

面对AI技术应用中备受关注的安全问题,OpenAI团队强调,新系统配备了严密的安全防护机制,能够有效阻止水印去除、深度伪造内容生成等。虽然图像未添加明显的视觉水印,但所有生成图像都嵌入了标准的C2PA元数据,便于溯源,同时公司内部也有配套查询工具,为图像使用安全保驾护航。

版权方面,OpenAI在另一份声明中表示:“在创作方面,我们尊重艺术家的权利,并且我们制定了政策,防止我们生成直接模仿任何在世艺术家作品的图像。”OpenAI还提供了一份表格,可以让创作者要求将其作品从其训练数据集中删除。

GPT-4o原生图像生成现已在ChatGPT和OpenAI的AI视频生成产品Sora中上线,目前仅供每月200美元的Pro计划订阅者使用,但后续将向ChatGPT的Plus和免费用户以及使用该公司API服务的开发人员推出。

参考资料:https://openai.com/index/introducing-4o-image-generation/