
前沿资讯
1754898593更新
1
大数据统一分析平台Databricks宣布,其最新研究成果“智能体从人类反馈中学习”(ALHF,Agent Learning from Human Feedback)已正式集成至Agent Bricks产品,并在“知识助手”模块率先落地。经Databricks DocsQA公开基准测试验证,ALHF仅用4条专家反馈即可显著提升回答准确率,32条反馈即可将整体质量提升至传统静态基线的4倍以上,为企业级生成式AI的“最后一公里”调优提供了低成本、高效率的新途径。
传统强化学习依赖数值奖励或固定标签,难以捕捉企业独有的业务规则与隐性期望。ALHF让AI智能体能够直接“听懂”专家的自然语言意见,并将其泛化到后续相关对话中。Databricks研究员Kartik Sreenivasan指出:“ALHF把反馈门槛降到了一句话,却能让系统持续进化。”
在面向Databricks官方文档的DocsQA数据集中,研究团队模拟了企业专家点评回答的场景:
• 零反馈时,Knowledge Assistant的回答准确率已与行业领先模型持平;
• 加入32条精简反馈后,“答案完整性”提升12个百分点,“反馈符合度”从11.7%飙升至近80%。
两项指标均显著优于所有静态基线,验证了ALHF的小样本高效学习能力。
两大技术突破:1、智能记忆与检索。系统会自动记录全部历史反馈,并在后续提问中动态匹配最相关的意见,避免“答非所问”。2、精准路由更新。Knowledge Assistant由检索、排序、生成等多模块组成。ALHF能够判断反馈应作用于哪一环节,并针对性调整,而非“一刀切”地重训整个模型。
Analytics8首席技术官Patrick Vinton透露:“借助Agent Bricks,我们在HR助理、技术白皮书问答等复杂场景中,答案准确率提升40%,部署速度提高8倍,且上线后质量仍在持续攀升。”
ALHF目前已内置于Databricks Agent Bricks全线产品。企业客户可联系Databricks客户团队,立即试用Knowledge Assistant及其他用例,体验“可教学”的AI如何重塑生成式AI工作流。
参考资料:https://www.databricks.com/blog/agent-learning-human-feedback-alhf-databricks-knowledge-assistant-case-study