Meta开源全球语音识别系统,支持1600多种语言,覆盖最广
前沿资讯
1762848185更新
0
导读: Meta发布了全新的多语言语音识别系统Omnilingual ASR(全语语音识别),一次性覆盖超过1600种语言,其中包含500种从未被任何语音识别系统支持的少数语言。重点:支持1600+语言、覆盖少数语种、全面开源、提升全球可访问性。
Meta宣布推出Omnilingual Automatic Speech Recognition(全语自动语音识别,简称Omnilingual ASR),这是一套覆盖超过1600种语言的语音识别系统。其中有500种语言此前从未出现在任何ASR(自动语音识别)系统中。

此次发布包含三大核心内容:
- Omnilingual ASR模型套件:参数规模从3亿到70亿不等,可识别1600多种语言。
- Omnilingual w2v 2.0:一款拥有70亿参数的多语言语音表示模型,可扩展用于其他语音相关任务。
- Omnilingual ASR语料库:覆盖350种支持不足的语言。
Meta表示,所有模型和数据集均已在GitHub上完全开源,研究者与开发者可自由下载、试用或继续训练。
性能方面,Omnilingual ASR 7B系统在1600多种语言中,有78%的语言实现了字符错误率(CER)低于10的成绩,效果达到业界领先水准。同时,该系统支持通过少量配对样本快速新增语言,无需大量数据或专业训练经验,大幅提升了可扩展性。
Omnilingual ASR基于Meta自家的fairseq2框架构建,支持跨平台推理。目前版本可处理40秒以内的音频,未来将陆续开放更长音频的转录功能。
用户可通过简单的安装命令(pip install omnilingual-asr)快速上手,并利用提供的推理接口进行语音转文字任务。
Meta在官方说明中强调,这一项目的核心目标是打破语言壁垒,让更多社区和文化在数字世界中被听见。“无论是非洲的方言,还是濒危语种,我们希望每一种语言都能在互联网中找到自己的声音。”
GitHub 链接:https://github.com/facebookresearch/omnilingual-asr
参考资料:https://x.com/AIatMeta/status/1987946571439444361
豫公网安备41010702003375号