OpenAI推出GDPval评估:AI在真实职业任务上的表现首次可量化

前沿资讯 1758954230更新

0

导读:OpenAI发布了一项全新的评估工具GDPval,用于衡量AI在经济价值较高的真实工作任务中的表现。该评估覆盖44种职业、9大行业,囊括1320项真实任务,首次让公众看到AI在日常知识工作中能达到怎样的水平。


OpenAI推出了一个名为GDPval的新型评估体系,旨在衡量AI在经济价值高、真实职业任务中的表现。与以往侧重学术测试或编程挑战的评估不同,GDPval直接来源于各行业专业人士的日常工作产出,包括法律文件、工程图纸、客服对话、护理计划等。

OpenAI表示,他们的目标是让人工智能在现实中真正助力人类工作,因此需要一个“落地”的评估工具。GDPval正是以美国GDP贡献最大的9大行业为基础,从中筛选出44个以知识工作为主的职业,包括软件开发、注册护士、机械工程师、律师等,每个职业涵盖30个真实工作任务(公开金集5个任务),任务由平均拥有14年经验的专业人士设计和审校。

评估特色

  • 真实多样:任务涵盖文件、演示文稿、图表、电子表格和多媒体等形式,而非简单文本题。
  • 经济导向:关注的是能够直接产生经济价值的工作,而非学术或模拟问题。
  • 专家评分:每项任务均由行业专家盲审AI产出与人类产出,并提供“优于”“等同”“不如”的评价,保证评分真实可信。

通过GDPval,OpenAI对现有前沿AI模型进行了测试,包括GPT‑4o、o4-mini、OpenAI o3、GPT‑5、Claude Opus 4.1、Gemini 2.5 Pro和Grok 4。结果显示,Claude Opus 4.1在美观度上表现突出,GPT‑5在专业知识准确性上领先,整体来看,部分任务中AI产出已接近或超越行业专家的水平。同时,AI完成任务的速度和成本比人工可快约100倍,但仍需注意实际工作中人工监督和多轮迭代的重要性。

从历代模型来看,GDPval上的表现呈现明显进步趋势:从GPT‑4o到GPT‑5,任务完成质量在一年内提升了三倍以上。OpenAI也尝试通过增加模型规模、引导更多推理步骤和提供更丰富的任务上下文来进一步提升性能,取得了积极效果。

OpenAI强调,GDPval只是第一步。当前版本是一次性评估,未覆盖需要多轮迭代或在不确定情境下做判断的复杂任务。未来版本将扩展更多职业、行业和交互式任务类型,以更真实地反映知识工作复杂性。


参考资料:https://openai.com/index/gdpval/