OpenAI 推出 CriticGPT ：用 GPT-4 找 GPT-4 的错误-AI前沿快讯-AI工具导航

OpenAI 推出 CriticGPT ：用 GPT-4 找 GPT-4 的错误

前沿资讯 1719563140更新

OpenAI在 GPT-4 的基础上训练了一个名为 CriticGPT 的模型，以捕捉 ChatGPT 代码输出中的错误。OpenAI发现，当人们在 CriticGPT 的帮助下审查 ChatGPT 代码时，60% 的情况下他们的表现会优于没有 CriticGPT 帮助的人。OpenAI正在着手将类似 CriticGPT 的模型集成到OpenAI的 RLHF 标签线程中，为OpenAI的训练人员提供明确的人工智能帮助。这是朝着能够评估高级人工智能系统输出结果迈出的一步，如果没有更好的工具，人们很难对这些结果进行评分。

为 ChatGPT 提供支持的 GPT-4 系列模型通过 "从人类反馈中强化学习"（RLHF）实现了帮助和互动。RLHF 的一个关键部分是收集比较信息，由人工智能训练人员对不同的 ChatGPT 响应进行评分。

随着OpenAI在推理和行为建模方面的进步，ChatGPT 会变得越来越准确，错误也会变得越来越微妙。这样一来，人工智能训练人员就很难发现错误，从而使 RLHF 的比较任务变得更加困难。这是 RLHF 的一个局限，随着模型逐渐变得比任何可以提供反馈的人都更博学，这可能会使模型的一致性变得越来越困难。

为了帮助应对这一挑战，OpenAI训练了 CriticGPT 来撰写评论，以强调 ChatGPT 答案中的不准确之处。CriticGPT 的建议并不总是正确的，但OpenAI发现，与没有人工智能的帮助相比，这些建议可以帮助训练人员发现更多的问题。人工智能会增强他们的技能，从而产生更全面的评价，以及比模型单独工作时更少的幻觉错误。

CriticGPT 也使用 RLHF 进行训练，与 ChatGPT 类似。但与 ChatGPT 不同的是，CriticGPT 会看到大量包含错误的输入，然后对这些错误进行批判。OpenAI要求人工智能训练人员在 ChatGPT 编写的代码中手动插入这些错误，然后写出反馈示例，就好像他们抓住了刚刚插入的错误一样。然后，同一个人对修改后的代码进行多次批判比较，这样他们就能很容易地分辨出批判何时抓住了他们插入的错误。OpenAI发现，CriticGPT 提出的无益的小问题更少，产生幻觉的问题也更少。OpenAI还发现，通过对批评奖励模型进行额外的测试时间搜索，OpenAI可以生成更长、更全面的批评。通过这种搜索程序，OpenAI可以平衡在代码中查找问题的积极程度，并在幻觉和检测到的错误数量之间进行精确度和召回权衡。

OpenAI只是在非常简短的 ChatGPT 答案上训练了 CriticGPT。为了监督未来的人工智能代理，OpenAI需要开发能帮助训练者理解冗长复杂任务的方法。模型仍然会产生幻觉，有时训练人员在看到这些幻觉后会犯下标记错误的问题。有时，真实世界中的错误会分散在答案的多个部分。OpenAI目前的工作重点是可以在一个地方指出的错误，但将来OpenAI也需要解决分散的错误。

为了调整日益复杂的人工智能系统，OpenAI需要更好的工具。在对 CriticGPT 的研究中，OpenAI发现将 RLHF 应用于 GPT-4 有希望帮助人类为 GPT-4 生成更好的 RLHF 数据。OpenAI正计划进一步扩大这项工作的规模，并将其付诸实践。