Бенчмарк тренировки MLPerf v4.0: результаты H200 и TPUv5p - Hardwareluxx Russia

Последний раунд результатов MLPerf дает представление о производительности современного оборудования для центров обработки данных с точки зрения эффективности обучения. Очень часто приходится верить результатам бенчмарков, предоставляемым AMD, NVIDIA, Intel и другими. Поэтому верификация результатов со третьей стороной очень важна.

Сразу стоит сказать, что AMD официально не принимала участия в этом раунде, то есть ускорители Instinct MI300X и Instinct MI300A снова не включены – так что у нас по-прежнему нет легко сравнимых с конкурентами показателей. Gaudi 3 от Intel также пока не играет роли в этом раунде. Впрочем, ускорители появятся на рынке только в третьем квартале. Зато впервые мы получили результаты обновленного ускорителя Hopper H200 от NVIDIA с 141 ГБ HBM3e вместо прежних 80 ГБ HBM3. Но полученные значения были получены на системе DGX с восемью ускорителями H200. Более крупные кластеры пока не фигурируют.

Бенчмарк тренировки MLPerf v4.0: результаты H200 и TPUv5p – Hardwareluxx Russia

TPU-v5p от Google также представлен впервые, и здесь мы получаем хорошие результаты по масштабированию TPU. Мы взяли следующие значения из официальных результатов для MLPerf Training v4.0.

Масштабирование ускорителей Google TPU-v5p
Ускоритель	Количество ускорителей	GPT3 (минуты)
Google TPU-v5p	512	144,791
Google TPU-v5p	1.024	56,948
Google TPU-v5p	1.536	39,745
Google TPU-v5p	6.144	12,477
Intel Gaudi 2	1.024	66,906
NVIDIA H100	512	50,728
NVIDIA H100	11.606	3,444

Размер кластеров сильно варьируется, здесь следует учитывать инфраструктуру и хост-системы, необходимые для работы кластера, например, с 512 ускорителями. Однако есть как минимум два способа оценить результаты.

Начнем с прямого сравнения результатов с одинаковым количеством ускорителей. А именно 512 Google TPU v5p против 512 NVIDIA H100, и здесь видно, что NVIDIA имеет преимущество и может завершить тренировку GPT3 в три раза быстрее. Это даже быстрее, чем обеспечивают 1024 ускорителя Gaudi 2, в то время как они не так уж плохи против Google TPU v5p. Intel также может сказать, что система с восемью Gaudi 2 стоит всего около $80.000, в то время как система NVIDIA может легко обойтись в €300.000 и более.

Поражает и то, насколько далеко NVIDIA может масштабировать свои системы. Об этом свидетельствуют результаты ее собственного суперкомпьютера EOS, который находится на 10 месте в Top500 и может задействовать 11.606 ускорителей H100. С такой вычислительной производительностью GPT3 можно обучить за 3,444 минуты. Не так давно этот процесс занимал недели, а то и месяцы.

Сравнение H100 и H200
Бенчмарк (в минутах)	8x NVIDIA H100	8x NVIDIA H200	Улучшение
Bert (поиск, перевод, чатбот)	5,469	5,212	+4,9 %
DLRM DCNV2 (поиск, перевод, чатбот)	3,871	3,522	+9,9 %
ResNet (классификация изображений)	13,326	12,078	+10,3 %
SSD (распознавание объектов)	35,476	34,259	+3,6 %
Unet3D (медицинский анализ)	12,144	11,506	+5,5 %
Stable Diffusion (формирование изображений)	42,233	41,348	+2,1 %
LLama2 70b Lora (тонкая настройка LLM)	28,163	24,689	+14,1 %
GNN (обнаружение мошенничества, поиск лекарств)	11,340	7,734	+46,6 %

Во многих бенчмарках ускорители H200 не дают существенного преимущества, которое в любом случае обусловлено только большим объемом памяти (141 против 80 ГБ). Однако есть и такие приложения, в которых заметен серьезный прирост. Для них поставщики решений наверняка будут искать ускорители H200.

Здесь мы привели несколько наиболее важных результатов. Все остальные вы можете найти в официальных результатах MLPerf Training v4.0.

Time-to-Train (TTT) и Energy- to-Train (ETT)

Впервые MLCommons интегрировала данные об энергопотреблении, а также новые метрики эффективности. Они были предоставлены Sustainable Metal Cloud (SMC). Время на тренировку (TTT) и энергия на тренировку (ETT) – важные показатели для многих пользователей, поскольку чистая производительность не всегда является решающим фактором. Помимо собственно аппаратного обеспечения ускорителя, учитывается также энергопотребление инфраструктуры, например межсоединений.

Масштабирование по времени и энергии для LLama2 70b Lora
Ускоритель	Количество ускорителей	Время (минуты)	Энергия (джоули)
NVIDIA H100	8	29,101	12.127.904,43
NVIDIA H100	64	5,488	46.574.812,84
NVIDIA H100	512	2,015	20.644.274,64

Для тонкой настройки LLM (Llama2 с 70 миллиардами параметров) на восьми ускорителях H200 требуется около 30 минут; на 64 ускорителях это время можно сократить до одной шестой, при этом потребление энергии увеличивается в четыре раза. Однако на 512 ускорителях H100 тонкая настройка может быть выполнена и за две минуты, при этом затраты энергии существенно меньше, чем при использовании 64 ускорителей.

Как и везде в вычислительной технике, здесь приходится идти на компромисс: для некоторых пользователей очень важно максимально быстрое обучение, но поставщики таких вычислительных решений также уделяют особое внимание эффективности, и здесь тоже есть «золотая середина», которая может удовлетворить обе стороны. Много ускорителей, работающих одновременно, могут быть более эффективными, чем несколько, которые к тому же требуют значительно больше времени для выполнения задачи. Однако провайдеры также должны следить за тем, чтобы ресурсы использовались как можно лучше. Вычислительный кластер, который будет простаивать, наименее эффективен.

В любом случае, результаты MLPerf Training v4.0 дают интересное представление об энергопотреблении и позволяют сделать выводы об энергоэффективности.

Подписывайтесь на группу Hardwareluxx ВКонтакте и на наш канал в Telegram (@hardwareluxxrussia).

Бенчмарк тренировки MLPerf v4.0: результаты H200 и TPUv5p – Hardwareluxx Russia

Time-to-Train (TTT) и Energy- to-Train (ETT)

Путин поддержит соседа Приморья: Россия окажет КНДР военную помощь при необходимости

Чудо природы нашли рядом с пляжем на острове Русский — видео

Россия в Курской области несет «ошеломляющие потери», стараясь отвоевать как можно больше территории — вот зачем

NBA – последние новости НБА на сегодня| Tengrinews.kz

Путин поддержит соседа Приморья: Россия окажет КНДР военную помощь при необходимости

Чудо природы нашли рядом с пляжем на острове Русский — видео

Россия в Курской области несет «ошеломляющие потери», стараясь отвоевать как можно больше территории — вот зачем

NBA – последние новости НБА на сегодня| Tengrinews.kz

Editor Picks

Чудо природы нашли рядом с пляжем на острове Русский — видео

Россия в Курской области несет «ошеломляющие потери», стараясь отвоевать как можно больше территории — вот зачем

NBA – последние новости НБА на сегодня| Tengrinews.kz

Must read

Чудо природы нашли рядом с пляжем на острове Русский — видео

Россия в Курской области несет «ошеломляющие потери», стараясь отвоевать как можно больше территории — вот зачем

NBA – последние новости НБА на сегодня| Tengrinews.kz

Popular categories