OpenAI 推出 CriticGPT :用 GPT-4 找 GPT-4 的错误

前沿资讯 1719563140更新

0

      OpenAI在 GPT-4 的基础上训练了一个名为 CriticGPT 的模型,以捕捉 ChatGPT 代码输出中的错误。OpenAI发现,当人们在 CriticGPT 的帮助下审查 ChatGPT 代码时,60% 的情况下他们的表现会优于没有 CriticGPT 帮助的人。OpenAI正在着手将类似 CriticGPT 的模型集成到OpenAI的 RLHF 标签线程中,为OpenAI的训练人员提供明确的人工智能帮助。这是朝着能够评估高级人工智能系统输出结果迈出的一步,如果没有更好的工具,人们很难对这些结果进行评分。

      为 ChatGPT 提供支持的 GPT-4 系列模型通过 "从人类反馈中强化学习"(RLHF)实现了帮助和互动。RLHF 的一个关键部分是收集比较信息,由人工智能训练人员对不同的 ChatGPT 响应进行评分。

      随着OpenAI在推理和行为建模方面的进步,ChatGPT 会变得越来越准确,错误也会变得越来越微妙。这样一来,人工智能训练人员就很难发现错误,从而使 RLHF 的比较任务变得更加困难。这是 RLHF 的一个局限,随着模型逐渐变得比任何可以提供反馈的人都更博学,这可能会使模型的一致性变得越来越困难。

      为了帮助应对这一挑战,OpenAI训练了 CriticGPT 来撰写评论,以强调 ChatGPT 答案中的不准确之处。CriticGPT 的建议并不总是正确的,但OpenAI发现,与没有人工智能的帮助相比,这些建议可以帮助训练人员发现更多的问题。人工智能会增强他们的技能,从而产生更全面的评价,以及比模型单独工作时更少的幻觉错误。

      CriticGPT 也使用 RLHF 进行训练,与 ChatGPT 类似。但与 ChatGPT 不同的是,CriticGPT 会看到大量包含错误的输入,然后对这些错误进行批判。OpenAI要求人工智能训练人员在 ChatGPT 编写的代码中手动插入这些错误,然后写出反馈示例,就好像他们抓住了刚刚插入的错误一样。然后,同一个人对修改后的代码进行多次批判比较,这样他们就能很容易地分辨出批判何时抓住了他们插入的错误。OpenAI发现,CriticGPT 提出的无益的小问题更少,产生幻觉的问题也更少。OpenAI还发现,通过对批评奖励模型进行额外的测试时间搜索,OpenAI可以生成更长、更全面的批评。通过这种搜索程序,OpenAI可以平衡在代码中查找问题的积极程度,并在幻觉和检测到的错误数量之间进行精确度和召回权衡。

      OpenAI只是在非常简短的 ChatGPT 答案上训练了 CriticGPT。为了监督未来的人工智能代理,OpenAI需要开发能帮助训练者理解冗长复杂任务的方法。模型仍然会产生幻觉,有时训练人员在看到这些幻觉后会犯下标记错误的问题。有时,真实世界中的错误会分散在答案的多个部分。OpenAI目前的工作重点是可以在一个地方指出的错误,但将来OpenAI也需要解决分散的错误。

      为了调整日益复杂的人工智能系统,OpenAI需要更好的工具。在对 CriticGPT 的研究中,OpenAI发现将 RLHF 应用于 GPT-4 有希望帮助人类为 GPT-4 生成更好的 RLHF 数据。OpenAI正计划进一步扩大这项工作的规模,并将其付诸实践。