微软发布新一代微型语言模型Mu，端侧运行，赋能Windows AI助手-AI前沿快讯-AI工具导航

微软发布新一代微型语言模型Mu，端侧运行，赋能Windows AI助手

微软正式发布其最新本地微型语言模型Mu，该模型已部署于Copilot+设备的Windows设置应用中，助力实现自然语言与系统功能之间的高效映射。据微软Windows应用科学副总裁Vivek Pradeep（维韦克·普拉迪普）介绍，Mu是一款专为边缘设备与神经处理单元（NPU）设计的微型语言模型，具备高效性能和低延迟响应能力。

Mu模型完全在设备端运行，依托NPU实现超过每秒100个token的推理速度，满足系统设置场景对响应速度的严苛要求。在结构上，Mu采用330M参数规模的Transformer编码器-解码器架构，该架构优于传统的仅使用解码器的模型设计，极大减少了计算与内存开销，尤其在Qualcomm Hexagon NPU等移动AI加速器上的表现尤为突出，首token延迟降低47%，整体解码速度提升近5倍。

Mu初期借鉴了微软Phi模型的训练技术路线，以数千亿高质量教育语料进行预训练，学习语言结构与语义知识。随后通过模型蒸馏技术继承Phi模型的知识，再结合任务特定的数据，通过LoRA（低秩适配）方式进行精调。

为充分发挥NPU的并行处理与向量化能力，Mu的模型结构在多个方面进行了硬件感知优化。模型采用了双层归一化（Dual LayerNorm）、旋转位置编码（RoPE）与分组查询注意力机制（GQA），进一步压缩模型体积同时保持准确性。此外，Mu还共享输入与输出词嵌入权重，有效降低参数数量并提高一致性。在SQUAD、CodeXGlue及Windows设置助手等任务中，Mu虽然小巧，但表现接近甚至优于更大模型。在CodeXGlue编程任务上，Mu微调后的得分达到0.934，略高于同类Phi模型。

为了让Mu高效运行于Copilot+ PC上，微软对模型进行了量化优化，采用后训练量化（PTQ）将浮点权重转换为整数格式（以int8和int16为主），既提升推理速度又大幅降低内存使用。此外，微软还与AMD、Intel与Qualcomm紧密合作，对量化算子进行平台定制，确保各类芯片上Mu都能发挥最佳性能。在Surface Laptop 7上，Mu可实现超过200 tokens/s的输出速度。

Mu模型目前已应用于Windows设置中的AI助手，以简化系统功能的查找与修改流程。用户可通过自然语言输入如“开启夜间模式”或“调整屏幕亮度”，AI助手即能精准匹配至对应设置项。为了提升对简短模糊输入的理解能力，微软还设计了复合式查询处理机制。对于简单词组，仍保留传统关键词匹配方式。而完整语义表达的多词查询，则通过Mu助手返回高精度可操作建议。

在开发过程中，微软团队对Mu进行了任务定向的深度调优。通过扩展至360万条训练样本、覆盖上百种系统设置，并引入多样化语言表达、自动标注、提示词优化等方法，显著提升了模型精度与鲁棒性。最终，优化后的Mu模型将响应时间控制在500毫秒以内，满足了设置助手对流畅性与准确率的双重需求。

目前，Mu模型驱动的设置助手已在Windows Insider Dev渠道上线，微软鼓励用户积极试用并提供反馈，以助其持续优化模型表现与用户体验。

参考资料：https://blogs.windows.com/windowsexperience/2025/06/23/introducing-mu-language-model-and-how-it-enabled-the-agent-in-windows-settings/