24 min

Дмитрий Монахов — Как кластеры Яндекса оказались в топе суперкомпьютеро‪в‬ YaTalks 2021: ReRun

    • Technology

Из доклада вы узнаете краткую историю кластеров для обучения нейронных сетей в Яндексе:

— Зачем они нам понадобились?

— Что такое современный HPC и почему это не просто объединение нескольких сотен серверов?

— Способы создания HPC, и почему Яндекс выбрал наиболее трудный.

Поговорим о борьбе за производительность:

— Почему такие кластеры, как у нас, не работают «из коробки»?

— Как мы оптимизировали производительность одного узла от 30 до 110 терафлопс.

— Как масштабировали производительность на 200 узлов, получив в сумме 21,6 петафлопс.

Также мы подробно расскажем о том, что представляет из себя распределённое обучение и почему это сложно; и поделимся 10 правилами, без которых GPU-кластеры никогда не окупятся и будут просто дорогой игрушкой.

О спикере:

Дмитрий Монахов занимается в Яндексе поддержкой и разработкой ядра Linux для нужд инфраструктуры внутреннего облака. Отвечает за файловые системы, распределённые системы и алгоритмы, RDMA, Infiniband, HPC и GPU.

С 2008-го по 2018-й занимался разработкой ядра Linux, локальных и распределённых файловых систем в компаниях SwSoft, Parallels и Virtuozzo.

Из доклада вы узнаете краткую историю кластеров для обучения нейронных сетей в Яндексе:

— Зачем они нам понадобились?

— Что такое современный HPC и почему это не просто объединение нескольких сотен серверов?

— Способы создания HPC, и почему Яндекс выбрал наиболее трудный.

Поговорим о борьбе за производительность:

— Почему такие кластеры, как у нас, не работают «из коробки»?

— Как мы оптимизировали производительность одного узла от 30 до 110 терафлопс.

— Как масштабировали производительность на 200 узлов, получив в сумме 21,6 петафлопс.

Также мы подробно расскажем о том, что представляет из себя распределённое обучение и почему это сложно; и поделимся 10 правилами, без которых GPU-кластеры никогда не окупятся и будут просто дорогой игрушкой.

О спикере:

Дмитрий Монахов занимается в Яндексе поддержкой и разработкой ядра Linux для нужд инфраструктуры внутреннего облака. Отвечает за файловые системы, распределённые системы и алгоритмы, RDMA, Infiniband, HPC и GPU.

С 2008-го по 2018-й занимался разработкой ядра Linux, локальных и распределённых файловых систем в компаниях SwSoft, Parallels и Virtuozzo.

24 min

Top Podcasts In Technology

Lenny's Podcast: Product | Growth | Career
Lenny Rachitsky
GEMBA PODCAST
Маргулан Сейсембаев
Podlodka Podcast
Егор Толстой, Стас Цыганов, Екатерина Петрова и Евгений Кателла
Радио-Т
Umputun, Bobuk, Gray, Ksenks, Alek.sys
"The Cognitive Revolution" | AI Builders, Researchers, and Live Player Analysis
Erik Torenberg, Nathan Labenz
Запуск завтра
libo/libo