OpenAI推出GDPval评估：AI在真实职业任务上的表现首次可量化-AI前沿快讯-AI工具导航

OpenAI推出GDPval评估：AI在真实职业任务上的表现首次可量化

导读：OpenAI发布了一项全新的评估工具GDPval，用于衡量AI在经济价值较高的真实工作任务中的表现。该评估覆盖44种职业、9大行业，囊括1320项真实任务，首次让公众看到AI在日常知识工作中能达到怎样的水平。

OpenAI推出了一个名为GDPval的新型评估体系，旨在衡量AI在经济价值高、真实职业任务中的表现。与以往侧重学术测试或编程挑战的评估不同，GDPval直接来源于各行业专业人士的日常工作产出，包括法律文件、工程图纸、客服对话、护理计划等。

OpenAI表示，他们的目标是让人工智能在现实中真正助力人类工作，因此需要一个“落地”的评估工具。GDPval正是以美国GDP贡献最大的9大行业为基础，从中筛选出44个以知识工作为主的职业，包括软件开发、注册护士、机械工程师、律师等，每个职业涵盖30个真实工作任务（公开金集5个任务），任务由平均拥有14年经验的专业人士设计和审校。

评估特色：

真实多样：任务涵盖文件、演示文稿、图表、电子表格和多媒体等形式，而非简单文本题。
经济导向：关注的是能够直接产生经济价值的工作，而非学术或模拟问题。
专家评分：每项任务均由行业专家盲审AI产出与人类产出，并提供“优于”“等同”“不如”的评价，保证评分真实可信。

通过GDPval，OpenAI对现有前沿AI模型进行了测试，包括GPT‑4o、o4-mini、OpenAI o3、GPT‑5、Claude Opus 4.1、Gemini 2.5 Pro和Grok 4。结果显示，Claude Opus 4.1在美观度上表现突出，GPT‑5在专业知识准确性上领先，整体来看，部分任务中AI产出已接近或超越行业专家的水平。同时，AI完成任务的速度和成本比人工可快约100倍，但仍需注意实际工作中人工监督和多轮迭代的重要性。

从历代模型来看，GDPval上的表现呈现明显进步趋势：从GPT‑4o到GPT‑5，任务完成质量在一年内提升了三倍以上。OpenAI也尝试通过增加模型规模、引导更多推理步骤和提供更丰富的任务上下文来进一步提升性能，取得了积极效果。

OpenAI强调，GDPval只是第一步。当前版本是一次性评估，未覆盖需要多轮迭代或在不确定情境下做判断的复杂任务。未来版本将扩展更多职业、行业和交互式任务类型，以更真实地反映知识工作复杂性。

参考资料:https://openai.com/index/gdpval/