谷歌发布DeepSearchQA:用900道真实难题,专测AI的“深度搜索能力”

前沿资讯 1766658306更新

0

导读:Google DeepMind推出DeepSearchQA,这是一个覆盖17个领域、包含900道高难度问题的新基准,专门用来评估AI在多步骤、真实网络环境下的信息搜索与整合能力。


谷歌深度思维在 Hugging Face 上低调上线了DeepSearchQA项目。乍一看它只是一个问答数据集,但真正目标是:测试AI到底能不能完成真正“像人一样”的深度网络检索任务

DeepSearchQA一共包含900个精心设计的问题,横跨17个不同领域。这些问题需要连续多步搜索、不断补全线索,最终才能整理出完整答案。官方把这种结构称为“因果链式任务”:前一步没找对,后面的搜索就走不下去

与常见的事实问答基准不同,DeepSearchQA并不追求单一标准答案。相反,约65%的题目要求给出“完整答案集合”,比如列出所有符合条件的对象,而不是只答一个名字。这种设计,直接把重点放在了搜索规划能力、上下文保持能力,以及信息覆盖是否全面上。

在数据结构上,每一道题目都包含清晰的领域分类、标准答案和答案类型说明。但需要注意的是,答案类型信息在实际评测时不会提供给被测试系统,以避免“投机取巧”。所有问题都基于公开网络内容,可客观核验,确保评测结果有据可查。

当然,官方也明确指出了这个基准的边界。DeepSearchQA采用的是“只看结果、不看过程”的评测方式,无法区分“真正推理正确”还是“误打误撞凑对答案”。同时,为了保证可复现性,数据集假设网络内容是相对静态的,这也意味着它不适合评测突发新闻或强时效性信息。如果网页内容发生变化,答案也可能需要人工更新,这是所有依赖真实网络的基准都会遇到的问题。

项目地址:https://huggingface.co/datasets/google/deepsearchqa#deepsearchqa