Лингвоподкаст

Мария Бочарова

Подкаст о языковых технологиях и лингвистические исследованиях. Обсуждаем с гостями из академии и индустрии исследования, работу в IT и академическую карьеру.  📍 Мы в telegram: https://t.me/lingvo_podcast 📍 Мы в Vk: https://vk.com/lingvopodcast 📩 Вопросы и предложения отправляйте на почту: lingvopodcast.hse@gmail.com Проект реализуется совместно с НИУ ВШЭ. 

  1. 20/09/2024

    Машинный перевод: история, перспективы и зачем он малым языкам | Александр Антонов, Яндекс

    Гость этого выпуска – Александр Антонов, аналитик в Яндекс.Переводчике и создатель корпусов для чувашского языка [https://huggingface.co/alexantonov].  С Александром мы обсудили механизмы автоматического перевода и специфику работы с малоресурсными языками. А еще поговорили: 📍 Об истории развития моделей машинного перевода: от словарей и статистических моделей до нейронок и LLM 📍  Об автоматической обработке малоресурсных языков: где берутся данные для обучения моделей и как создаются параллельные корпуса 📍 Как разработчики учат модели учитывать контекст, интерпретировать метафоры и идиомы  Ведущая, продюсер: Мария Бочарова Монтажер: Андрей Чиркин 🎧 Подписывайтесь на нас в соц. сетях:  t.me/lingvo_podcast vk.com/lingvopodcast 📩 Вопросы и предложения отправляйте на почту: lingvopodcast.hse@gmail.com Таймкоды: 01:20 Как все начиналось: Манхэттанский проект и правиловые переводчики 04:05 Первые модели статистического перевода 07:50 Как нейросети поменяли правила игры 10:50 Как работает перевод для разных грамматических систем 12:40 Перспективы использования больших языковых моделей 15:50 Как собираются параллельные корпуса 20:10 Как оценивать модели перевода: бенчмарки, эталонные корпуса, нейросетевые метрики, люди 25:25 Путь Александра в Яндекс и автоматический перевод 27:40 Чувашско-русский переводчик, над которым работал Александр 33:25 Зачем большому бизнесу перевод для малых языков 35:00 Какие были сложности при сборе данных для чувашского языка 36:40 Лайфхаки по обучению моделей для малых языков 40:10 Перспективы корпуса чувашского языка: распознавание и генерация речи 43:05 Достигли ли своего предела технологии перевода? Технологии speech-to-speech, мультимодальные GPT, перевод по фото, локализация.

    49 min
  2. 21/07/2024

    Технологии перевода жестовых языков | Лиза Петрова, SberDevices

    Как современные технологии делают доступнее мир для слабослышащих людей? 🫰🏻 В новом выпуске подкаста мы встретились с Лизой Петровой — Computer Vision инженером из SberDevices. Лиза и ее команда занимаются задачами, связанными с компьютерным зрением и автоматической обработкой жестовых языков.   Выпуск получился очень интересным! Мы обсудили: 📍Как собирались и готовились данные для самого большого датасета для распознавания РЖЯ 📍Важно ли разработчикам знать жестовый язык, чтобы делать state-of-the-art модели 📍Как команде удалось создать лучшую в мире модель по распознаванию американского жестового языка Ведущая, продюсер: Мария Бочарова Монтажер: Андрей Чиркин 🎧 Подписывайтесь на нас в соц. сетях:  t.me/lingvo_podcast vk.com/lingvopodcast 📩 Вопросы и предложения отправляйте на почту: lingvopodcast.hse@gmail.com Таймкоды: 0:42 Путь Лизы в Data Science и карьера в SberDevice 4:14 Проекты R&D команды SberDevices: HaGRID, Slovo, EasyPortrait. Что такое face parsing, матирование, гармонизация 9:05 Инклюзия. Потребность в распознавании РЖЯ 11:30 Корректные обращения к слабослыщащим 12:46 Датасет Slovo – как он создавался и какие были проблемы 22:12 Изучение РЖЯ раКак современные технологии делают доступнее мир для слабослышащих людей? 🫰🏻 24:45 Лучшая в мире модель по распознаванию американского жестокого языка SignFlow 27:12 Как ML-модели работают с видео 30:48 План развития: непрерывная речь, перевод, контекст 33:43 Первый в мире открытый датасет РЖЯ и аналоги в других стран 35:56 Результаты обучения модели 37:29 Потенциал продукта 39:29 Будущее сурдопереводчиков 40:00 Мотивация работать в индустрии

    43 min
  3. 19/06/2024

    Работа в Amazon и PhD в Америке | Марина Жукова, Amazon

    Гостья этого выпуска – Марина Жукова – выпускница ФиКЛ ВШЭ, PhD-студентка в University of California, Santa Barbara и стажер в Amazon в команде разговорного бота Alexa. В этом эпизоде подкаста мы обсуждаем учебу на PhD, работу в большой корпорации и как это вообще можно совмещать.А еще: 📍Как сразу после бакалавриата поступить на PhD в Америку 📍Как пройти на стажировку в Amazon 📍Чем работа в академии отличается от карьеры в индустрии 📍Кто такой Knowledge-engineer и как он помогает улучшать работу голосовых помощников Ведущая, продюсер: Мария Бочарова Монтажер: Андрей Чиркин 🎧 Подписывайтесь на нас в соц. сетях:  t.me/lingvo_podcast vk.com/lingvopodcast 📩 Вопросы и предложения отправляйте на почту: lingvopodcast.hse@gmail.com Таймкоды: 01:10 Путь Марины в лингвистике и учеба в Вышке 04:00 Поездка во Францию по обмену и первые публикации 04:30 Учеба в летних школах в Европе: Нидерланды, Чехия, Англия и Франция 05:40 PhD сразу после бакалавриата и оффер в Университет Калифорнии в Санта-Барбаре 07:30 Магистратура vs. PhD с точки зрения финансов 08:35 "Стипендия на PhD в течение 5 лет на уровне прожиточного минимума" 09:45 Процесс подачи заявки на PhD и особенность учебы 22:03 Какие исследования Марина проводит в рамках PhD 27:25 Собеседование в Amazon 31:00 Чем занимается knowledge-engineer в команде голосового помощника Amazon 37:00 Победа в соревновании Alexa Prize (Amazon) по созданию чат-бота 43:35 Research в академии vs. research в индустрии vs. продуктовая команда 50:05 Карьерные планы Марины 50:30 Менторская программа от Google

    55 min
  4. 25/04/2024

    Большие языковые модели и тренды в NLP | Мария Тихонова, Sber Devices

    Вместе с Марией Тихоновой – Senior Data Scientist'ом из SberDevices – обсудили, как работают большие языковые модели и как поменялись тренды в NLP с выходом ChatGPT, а еще: • В чем особенность R&D команд и над какими интересными проектами работают в SberDevices; • Как обучаются и оцениваются большие языковые модели (LLM)? • В чем особенность ChatGPT и как после его выхода изменились тренды в Natural Language Processing? Ведущая: Мария Бочарова Монтажер: Андрей Чиркин Редактор: Вероника Артибякина 🎧 Подписывайтесь на нас в соц. сетях:  t.me/lingvo_podcast vk.com/lingvopodcast 📩 Вопросы и предложения отправляйте на почту: lingvopodcast.hse@gmail.com Таймкоды: 0:40 Путь Маши в Data Science: мехмат МГУ, ШАД, Сбер 4:20 В чем особенность R&D команд? 7:28 Что драйвит Машу в ее работе? 9:38 Как параллельно работать, преподавать и писать диссертацию? 13:43 Что такое языковая модель? 17:33 Как обучаются мультиязычные модели? 18:40 В чем особенность ChatGPT? 21:00 Как оценивать результаты работы языковой модели? 24:44 Что такое бенчмарк 25:44 Почему языковые модели могут проваливаться на дошкольных заданиях? 28:22 Что такое AGI? 34:31 Интересные проекты от SberDevices 37:55 Про NLP конференции  41:38 Тренды NLP в 2024

    44 min
  5. 24/07/2023

    10. ВШЭ, МГУ, РГГУ: выбираем лучший вуз для будущих лингвистов

    Сначала вы долго думаете, что вам будет интересно изучать в бакалавриате, а потом нужно делать еще более сложный выбор: определяться, в какой университет подавать документы. Мы вам сегодня поможем и расскажем о лингвистических программах в трех топовых университетах: Вышке, МГУ и РГГУ. Многие преподаватели Вышки выпустились из МГУ — значит ли это, что программы ничем не отличаются? А, может быть, наоборот? Мы пригласили Диану Врубель (из МГУ) и Настю Российскую (из РГГУ), чтобы узнать, как живется лингвистам из других университетах. В этом выпуске: • какие у Вышки, МГУ и РГГУ фундаментальные различия: курсы по выбору, треки обучения, проекты, экспедиции и лаборатории; • правда ли, что в МГУ учатся одни олимпиадники, а в Вышке сложнее сдавать сессии; • где лучше преподают программирование и NLP; • куда лучше поступить тем, кто хочет заниматься нейролингвистикой; • в каких вузах больше возможностей для развития студентов в академической среде и поиска работы в индустрии; Ведущие подкаста: Маша Бочарова и Ксюша Данилова Монтажер: Дана Оспанова Редактор: Саша Кибатова 🎧 Подписывайтесь на наш Вконтакте: vk.com/lingvopodcast 📩 Вопросы и предложения отправляйте на почту: lingvopodcast.hse@gmail.com

    53 min
  6. 07/07/2023

    9. Компьютерная лингвистика: на стыке естественного языка и технологий

    Компьютерная лингвистика – инновационное научное направление, а технологии Natural language processing (NLP) вносят революционные изменения в наши жизни. Удобные чат-боты и голосовые помощники, быстрая обработка документов и генерация текстов (ChatGPT) – эти и многие другие важные задачи решают компьютерные лингвисты. Специалистов в этой области обучают в Вышке. В этом выпуске вы узнаете: • какие задачи решают компьютерные лингвисты: чат-боты, обработка речи и многое другое; • куда лучше идти, если хочешь заниматься NLP: на ФКН или ФиКЛ; • как построен курс по компьютерной лингвистике в Вышке; • какие крутые проекты можно создавать уже в бакалавриате; • какие перспективы ждут выпускника компьютерного трека. Ведущие подкаста: Маша Бочарова и Ксюша ДаниловаМонтажер: Андрей Чиркин Редактор: Саша Кибатова 🎧 Подписывайтесь на наш Вконтакте: vk.com/lingvopodcast 📩 Вопросы и предложения отправляйте на почту: lingvopodcast.hse@gmail.com

    42 min

Acerca de

Подкаст о языковых технологиях и лингвистические исследованиях. Обсуждаем с гостями из академии и индустрии исследования, работу в IT и академическую карьеру.  📍 Мы в telegram: https://t.me/lingvo_podcast 📍 Мы в Vk: https://vk.com/lingvopodcast 📩 Вопросы и предложения отправляйте на почту: lingvopodcast.hse@gmail.com Проект реализуется совместно с НИУ ВШЭ.