ElevenLabs推出Scribe v2 Realtime:实时语音转文字快至150毫秒,支持90种语言

前沿资讯 1763026638更新

1

导读: ElevenLabs推出全新Scribe v2 Realtime语音转文字系统,延迟低至150毫秒,准确率高达93.5%,可实时处理90种语言。这款产品专为语音助手、会议记录、实时字幕等场景打造,成为低延迟语音识别领域的新标杆。


ElevenLabs正式发布了新一代实时语音转文字系统Scribe v2 Realtime。该系统主打“低延迟 + 高准确率”,在全球范围内的多语言场景中,都能以极快的速度完成转录。

官方数据显示,Scribe v2 Realtime的转录延迟低于150毫秒,可实现几乎无感知的实时反馈。目前已支持包括英语、法语、德语、意大利语、西班牙语、葡萄牙语在内的六种主要语言,以及多达90种语言的识别。在复杂环境下(如背景噪声或信息密集语音),其表现仍显著优于同类产品。

核心功能

  • “负延迟”预测:可提前预测下一个词和标点,实现更流畅的实时转写。
  • 自动语言检测:支持多语言无缝切换,用户可在对话中自由变换语言。
  • 文本延续功能:当连接中断时,系统可基于上下文继续转录。
  • 语音活动检测(VAD):智能识别说话状态,提升精度与效率。
  • 手动提交机制:让开发者能完全掌控何时确认转写内容。
  • 多音频格式兼容:支持PCM(48kHz)与μ-law编码。
  • 企业级安全标准:通过SOC 2、ISO 27001、PCI DSS L1、HIPAA及GDPR认证,提供欧盟与印度数据驻留选项及零保留模式,适用于敏感场景。

在多语言准确率测试中,Scribe v2 Realtime在30种常用的欧洲与亚洲语言上达到了93.5%识别率,几乎接近人类水平。

开发者可以通过ElevenLabs API直接调用Scribe v2 Realtime功能,也可在ElevenLabs Agents中部署基于语音交互的智能客服、销售或产品助手,实现自然、流畅的实时语音交流。

目前,Scribe v2 Realtime已全面开放注册,开发者可立即上手体验。 了解更多:https://elevenlabs.io/docs/cookbooks/speech-to-text/streaming


参考资料:https://elevenlabs.io/blog/introducing-scribe-v2-realtime