Лингвоподкаст

Машинный перевод: история, перспективы и зачем он малым языкам | Александр Антонов, Яндекс

Гость этого выпуска – Александр Антонов, аналитик в Яндекс.Переводчике и создатель корпусов для чувашского языка [https://huggingface.co/alexantonov].

С Александром мы обсудили механизмы автоматического перевода и специфику работы с малоресурсными языками. А еще поговорили:

📍 Об истории развития моделей машинного перевода: от словарей и статистических моделей до нейронок и LLM

📍  Об автоматической обработке малоресурсных языков: где берутся данные для обучения моделей и как создаются параллельные корпуса

📍 Как разработчики учат модели учитывать контекст, интерпретировать метафоры и идиомы 

Ведущая, продюсер: Мария Бочарова

Монтажер: Андрей Чиркин

🎧 Подписывайтесь на нас в соц. сетях: 

t.me/lingvo_podcast

vk.com/lingvopodcast

📩 Вопросы и предложения отправляйте на почту: lingvopodcast.hse@gmail.com

Таймкоды:

01:20 Как все начиналось: Манхэттанский проект и правиловые переводчики

04:05 Первые модели статистического перевода

07:50 Как нейросети поменяли правила игры

10:50 Как работает перевод для разных грамматических систем

12:40 Перспективы использования больших языковых моделей

15:50 Как собираются параллельные корпуса

20:10 Как оценивать модели перевода: бенчмарки, эталонные корпуса, нейросетевые метрики, люди

25:25 Путь Александра в Яндекс и автоматический перевод

27:40 Чувашско-русский переводчик, над которым работал Александр

33:25 Зачем большому бизнесу перевод для малых языков

35:00 Какие были сложности при сборе данных для чувашского языка

36:40 Лайфхаки по обучению моделей для малых языков

40:10 Перспективы корпуса чувашского языка: распознавание и генерация речи

43:05 Достигли ли своего предела технологии перевода? Технологии speech-to-speech, мультимодальные GPT, перевод по фото, локализация.