斯坦福大学公布榜单：通义千问开源模型Qwen2-72B排名最高-AI前沿快讯-AI工具导航

斯坦福大学公布榜单：通义千问开源模型Qwen2-72B排名最高

前沿资讯 1719132349更新

近日，斯坦福大学展示了大模型测评榜单HELM MMLU的最新结果，阿里巴巴的通义千问开源模型Qwen2-72B成绩卓越，超越了Llama3-70B，成为排名最高的开源大模型。

MMLU（Massive Multitask Language Understanding，大规模多任务语言理解）作为业界公认的大模型测评基准，覆盖了从基础数学到法律、历史等57个领域，意在全面评估模型在世界知识和问题解决方面的能力。然而，由于不同模型在测评中使用的技术标准不一，导致结果的一致性和可比性受到影响。为解决这一问题，斯坦福大学基础模型研究中心提出了HELM评估框架，创建了一种透明、可复现的评估方法。该方法基于HELM框架，对不同模型在MMLU上的评估结果进行标准化和透明化处理，比如，对所有参评模型都采用相同的提示词；对每项测试主题都给模型提供同样的5个示例进行情境学习等等。

在HELM MMLU的最新榜单中，斯坦福大学基础模型研究中心主任Percy Liang宣布，阿里巴巴的Qwen2-72B模型排名第五，仅次于Claude 3 Opus、GPT-4o、Gemini 1.5 pro、GPT-4，是排名第一的开源大模型，也是排名最高的中国大模型。

通义千问Qwen2模型于6月初开源，提供了5个不同尺寸的预训练和指令微调模型，以满足不同场景的需求。自开源以来，Qwen系列模型的下载量已超过1600万次。