突破科研瓶颈,AMD推出代理实验室(Agent Laboratory)框架,加速科学发现进程

工具推荐 1736502552更新

0

在高成本与长周期的科研环境下,科学家时常面对资源、时间等的多重限制,使得大批高质量的构思被搁置。而随着人工智能技术的发展,来自AMD和约翰斯·霍普金斯大学的研究团队推出了一种新型协作式科研框架:代理实验室(Agent Laboratory),通过结合大语言模型与多代理协作,为研究人员提供了一条智能化、自动化的科研工作流程,从而让科学家可以将精力集中在创造性构思和实验设计上。

以往的一部分研究如Research Agent和AI Scientist寻求通过模型独立生成研究构想并全程执行,但受限于可靠性和细节可行性问题,这些代理尚难独立承担科学发现的重任。“代理实验室”的设计理念与以往完全不同,这一框架以辅助科研人员执行想法为目标,强调人机协作,以智能化管道自动完成核心任务,形成贯穿整个研究流程的闭环。

“代理实验室”的工作流程涵盖了科研全过程,其多代理协作模式堪称“一支虚拟科研团队”。整个框架分为三个主要阶段:文献综述、实验阶段和报告撰写阶段。

在文献综述阶段,PhD代理通过借助arXiv最新API接口,从现有学术资源中检索相关文献,并完成自动摘要提取、全文筛选与信息整理。经过多轮迭代后,最终建立一个完善的文献综述,为接下来的研究提供理论依据。

进入实验阶段,PhD和Postdoc代理会共同制定研究计划,明确实验涉及的机器学习模型、数据集与实验步骤等关键要素。在此基础上,由ML Engineer代理编写用于数据准备的代码,在热点资源平台如HuggingFace数据集上调试运行,确保实验数据无误。随后,实验核心模块mle-solver依托前述研究内容生成初始实验代码,通过迭代命令执行、代码优化与性能稳定化等方法持续改进实验成果,同时解读结果并为后续分析提供支撑。

最后,在研究报告撰写阶段,由paper-solver模块协助PhD和教授代理整合研究发现,生成完整的学术报告。从摘要、引言到实验分析、结论等学术文章标准章节,所有内容均经过预测、优化和自动评审的多轮打磨,确保学术质量无懈可击。报告形成后,还会基于内嵌的自动评审系统进行评分,反向指导修订,以实现更高的科学标准。

“代理实验室”在运行模式上采取了灵活机制,以适应日常科研需求。它提供两种模式:自主模式和辅助模式。

在自主模式下,研究人员仅需输入初始研究构思,代理便会按既定工作流程依次完成各项任务,最终自动生成研究报告和代码库,几乎无需人工干预。而辅助模式更突出人机协同特点,研究人员能够在每个任务的关键点对代理输出进行评审,并提出调整意见,从而以高层次指导提升研究成果的个性化和精确性。在实验中,辅助模式下的研究成果质量远高于自主模式,展示了人类与智能系统合作的强大潜力。

为了全面考察“代理实验室”的实际表现,研究团队对其进行了多维度的性能评估,涵盖生成论文质量、运行成本、时间效率、子任务成功率等核心指标。

在后端性能方面,不同大语言模型展现了显著的差异。o1-preview模型在实用性上表现优秀,成为推荐首选;o1-mini模型在实际实验质量上表现最佳,但时间成本偏高;gpt-4o虽质量表现逊色,但以约2.33美元的最低成本和1165.4秒的最快运行时间,成为性价比之选。此外,在完成实验任务的成功率上,o1-preview表现最为可靠,成功率达到了95.7%,超越了gpt-4o的94.3%以及o1-mini的92.8%。但是,文献综述阶段的成功率相对较低,数据处理环节在个别情况下也存在薄弱之处,表明了当前框架在复杂任务上仍需进一步优化。

核心模块mle-solver的表现尤为亮眼。在MLE-Bench机器学习基准任务评估中,“代理实验室”不仅获得了四枚奖牌(两金、一银、一铜),更在10项测试中有6项超过了人类中位数的表现,力压OpenHands(gpt-4o)与AIDE(o1-preview)等其他技术方案。

“代理实验室”的潜力远不止于当前框架,它或将深刻变革学术研究的生态:通过与科研工具平台结合,更广泛地支持多学科协作;通过领域专用模型开发,提高垂直领域科研效率;通过增强创意可行性评审,助力未来科学家实现更多可能。在AI赋能科研的大浪潮中,“代理实验室”框架有望成为推动科研创新的重要引擎。