本期播客概述了一项名为 Omnilingual ASR 的大型多语言自动语音识别(ASR)系统的开发及其功能,该系统旨在为全球 1,600 多种 语言提供支持,其中包括 500 多种 以前未得到任何 ASR 系统支持的语言。该系统采用了一种新型 编码器-解码器架构,通过将 自监督预训练扩展到 70 亿个参数,实现了对训练中未见语言的 零样本泛化 能力。通过结合现有公共资源和 社区合作采集 的新录音,该项目旨在解决资源匮乏语言的 ASR 覆盖问题,并以一系列开源模型的形式发布,以促进更具 包容性和社区驱动 的语音技术发展。此外,文章还详细介绍了 数据收集、质量保证 流程,并提供了针对 Whisper 和 USM 等现有模型的 性能比较 评估结果。
المعلومات
- البرنامج
- معدل البثيتم التحديث شهريًا
- تاريخ النشر١٢ نوفمبر ٢٠٢٥ في ١:٠٥ ص UTC
- مدة الحلقة٢١ من الدقائق
- التقييمملائم
