قبل ١٩ ساعة
٢١ من الدقائق

Omnilingual ASR：支持 1600 多种语言的开源多语言语音识别系统

本期播客概述了一项名为 Omnilingual ASR 的大型多语言自动语音识别（ASR）系统的开发及其功能，该系统旨在为全球 1,600 多种 语言提供支持，其中包括 500 多种 以前未得到任何 ASR 系统支持的语言。该系统采用了一种新型 编码器-解码器架构，通过将 自监督预训练扩展到 70 亿个参数，实现了对训练中未见语言的 零样本泛化 能力。通过结合现有公共资源和 社区合作采集 的新录音，该项目旨在解决资源匮乏语言的 ASR 覆盖问题，并以一系列开源模型的形式发布，以促进更具 包容性和社区驱动 的语音技术发展。此外，文章还详细介绍了 数据收集、质量保证 流程，并提供了针对 Whisper 和 USM 等现有模型的 性能比较 评估结果。

صفحة الويب الخاصة بالحلقة

البرنامج

猿来如此
معدل البث

يتم التحديث شهريًا
تاريخ النشر

١٢ نوفمبر ٢٠٢٥ في ١:٠٥ ص UTC
مدة الحلقة

٢١ من الدقائق
التقييم

ملائم

Omnilingual ASR：支持 1600 多种语言的开源多语言语音识别系统

المعلومات