
前沿资讯
1742725242更新
0
Claude研发团队宣布推出“思考”工具,该工具为Claude处理复杂任务时提供了专门的结构化思考空间,有效增强了其智能使用工具的能力,在多领域应用中展现出了显著优势。
“思考”工具表面上看与Claude现有的“深度思考”功能类似,实则有着不同的应用逻辑。“深度思考”主要在Claude生成回复前发挥作用,帮助其深度规划和迭代方案,而“思考”工具则是在Claude生成回复过程中,使其能够停下来思考是否掌握了足够信息以推进任务,尤其适用于长链工具调用、需处理外部信息以及多步骤对话等复杂场景。
为验证“思考”工具的效果,研发团队采用了τ-bench和SWE-bench两项专业基准测试。τ-bench模拟真实客户服务场景,评估Claude与用户对话、遵循复杂政策指南以及操作数据库的能力,其核心指标pass^k着重考察任务执行的一致性和可靠性。
测试结果显示:在航空领域,使用优化提示的“思考”工具后,Claude的pass^1指标从基线的0.370跃升至0.570,相对提升达54%。零售领域中,即便未使用额外提示,“思考”工具也使Claude的pass^1分数达到0.812,高于基线的0.783。在SWE-bench针对软件开发场景的测试中,添加“思考”工具的Claude 3.7 Sonnet同样表现出色,平均性能提升1.6%,最终取得了0.623的行业领先成绩。
深入分析测试数据后,研发团队发现:在难度较高的领域,如航空政策复杂的场景,“思考”工具搭配优化提示能极大提升效果,为模型提供推理示例可帮助其更好地理解和处理任务。而在相对简单的领域,如零售场景,Claude仅依靠“思考”工具提供的思考空间就能实现性能提升。此外,“思考”工具还显著增强了Claude在不同任务尝试中的一致性,有效应对边缘情况和特殊场景。
基于测试结果,研发团队明确了“思考”工具的最佳适用场景,包括工具输出分析、规则复杂的环境以及顺序性决策场景。在这些场景中,Claude能够借助“思考”工具更高效地处理信息、遵循规则并做出准确决策。
为帮助开发者更好地应用这一工具,Claude研发团队分享了实施最佳实践。一方面,提供特定领域的示例和清晰的使用指南,能显著提升模型对“思考”工具的运用效率,如详细说明推理过程的要求、任务分解方法以及信息检查要点等。另一方面,将复杂的使用说明置于系统提示中,能为模型提供更全面的上下文,使其更好地融入整体思考过程。
不过,“思考”工具并非适用于所有场景。在非顺序性工具调用和简单指令执行场景中,添加“思考”工具可能无法带来明显的性能提升。Claude研发团队表示,“思考”工具的加入为开发者提供了强大助力,能显著优化Claude在复杂任务中的表现,其简单的集成方式和较低的实施成本,也使其易于应用到各类实际场景中。
参考资料:https://www.anthropic.com/engineering/claude-think-tool