11月10日、MetaのFAIRが「Omnilingual ASR」を発表しました。1,600を超える言語の音声認識を単一スイートでカバーし、これまで対応の難しかった“超・低資源”言語まで射程に入れたのが最大の特徴です。モデルは300M〜7Bの複数サイズを用意し、ゼロショットや言語条件付けにより、わずかな対訳音声からでも新言語の取り込みを狙えるとしています。コードとモデルはApache 2.0で公開され、pip install omnilingual-asrで試せる手軽さも押し出しました。
性能の目安として、7BクラスのLLM-ASRは「1,600+言語の78%でCER<10(README表記)」とされ、長尾の言語群に対しても実用域をうかがわせます。もっとも現時点の推論パイプラインは“40秒以下の音声”に制限があり、今後の拡張を予告する段階です。研究用途に向けてはW2V(自己教師)、CTC、LLM-ASRという三系統を揃え、基盤は最新のfairseq2に統一。旧fairseqから刷新されたモジュラー設計で、大規模多言語の学習・配布を回しやすくしています。
データ面でも踏み込みました。FAIRは348の“アンダーサーブド言語”で自然発話を収集した新コーパスをHugging Face上で公開。転記ルールやノイズタグを含む詳細なデータカードを備え、ライセンスはCC-BY 4.0です。既存のMMS(1,100言語対応の研究モデル)など過去の系譜に、新たな実録コーパスを重ねることで、低資源言語の精度底上げと再現性の担保を図っています。
そして持続的な拡大に向け、Metaは今年2月に立ち上げた「Language Technology Partner Program」をテコに、地域コミュニティや研究者からの協力を継続的に募っています。オープン実装(fairseq2)×オープンモデル(Apache 2.0)×オープンデータ(CC-BY)の“三点セット”で、研究から現場導入までの距離を縮める狙いです。外部メディアも“1,600言語対応の包括ASR”としてこの発表を伝え、低資源領域のアクセシビリティ改善に期待が集まっています。
実務目線では、まず“どの系統で始めるか”の設計がポイントです。リアルタイム寄りならCTC系、難語彙やコードスイッチが多い現場ならLLM-ASR系を試し、短尺クリップで評価してから前処理や言語条件付けを詰める──そんな導入の道筋をオープンなレシピで再現できます。企業の多言語サポートや公共機関のアクセシビリティ、さらには宇宙・防災の現場の音声ログ解析まで、“長尾の言語”を含む現実世界にモデルを持ち込むための基盤が、一段と整ってきたと言えるでしょう。
Information
- Show
- FrequencyUpdated Weekly
- PublishedNovember 12, 2025 at 10:00 PM UTC
- Length4 min
- RatingClean
