Бенчмарк тренировки MLPerf v4.0: результаты H200 и TPUv5p – Hardwareluxx Russia

Последний раунд результатов MLPerf дает представление о производительности современного оборудования для центров обработки данных с точки зрения эффективности обучения. Очень часто приходится верить результатам бенчмарков, предоставляемым AMD, NVIDIA, Intel и другими. Поэтому верификация результатов со третьей стороной очень важна.

Сразу стоит сказать, что AMD официально не принимала участия в этом раунде, то есть ускорители Instinct MI300X и Instinct MI300A снова не включены – так что у нас по-прежнему нет легко сравнимых с конкурентами показателей. Gaudi 3 от Intel также пока не играет роли в этом раунде. Впрочем, ускорители появятся на рынке только в третьем квартале. Зато впервые мы получили результаты обновленного ускорителя Hopper H200 от NVIDIA с 141 ГБ HBM3e вместо прежних 80 ГБ HBM3. Но полученные значения были получены на системе DGX с восемью ускорителями H200. Более крупные кластеры пока не фигурируют.

TPU-v5p от Google также представлен впервые, и здесь мы получаем хорошие результаты по масштабированию TPU. Мы взяли следующие значения из официальных результатов для MLPerf Training v4.0.

Масштабирование ускорителей Google TPU-v5p
Ускоритель Количество ускорителей GPT3 (минуты)
Google TPU-v5p 512 144,791
Google TPU-v5p 1.024 56,948
Google TPU-v5p 1.536 39,745
Google TPU-v5p 6.144 12,477
Intel Gaudi 2 1.024 66,906
NVIDIA H100 512 50,728
NVIDIA H100 11.606 3,444

Размер кластеров сильно варьируется, здесь следует учитывать инфраструктуру и хост-системы, необходимые для работы кластера, например, с 512 ускорителями. Однако есть как минимум два способа оценить результаты.

Начнем с прямого сравнения результатов с одинаковым количеством ускорителей. А именно 512 Google TPU v5p против 512 NVIDIA H100, и здесь видно, что NVIDIA имеет преимущество и может завершить тренировку GPT3 в три раза быстрее. Это даже быстрее, чем обеспечивают 1024 ускорителя Gaudi 2, в то время как они не так уж плохи против Google TPU v5p. Intel также может сказать, что система с восемью Gaudi 2 стоит всего около $80.000, в то время как система NVIDIA может легко обойтись в €300.000 и более.

Поражает и то, насколько далеко NVIDIA может масштабировать свои системы. Об этом свидетельствуют результаты ее собственного суперкомпьютера EOS, который находится на 10 месте в Top500 и может задействовать 11.606 ускорителей H100. С такой вычислительной производительностью GPT3 можно обучить за 3,444 минуты. Не так давно этот процесс занимал недели, а то и месяцы.

Сравнение H100 и H200
Бенчмарк (в минутах) 8x NVIDIA H100 8x NVIDIA H200 Улучшение
Bert (поиск, перевод, чатбот) 5,469 5,212 +4,9 %
DLRM DCNV2 (поиск, перевод, чатбот) 3,871 3,522 +9,9 %
ResNet (классификация изображений) 13,326 12,078 +10,3 %
SSD (распознавание объектов) 35,476 34,259 +3,6 %
Unet3D (медицинский анализ) 12,144 11,506 +5,5 %
Stable Diffusion (формирование изображений) 42,233 41,348 +2,1 %
LLama2 70b Lora (тонкая настройка LLM) 28,163 24,689 +14,1 %
GNN (обнаружение мошенничества, поиск лекарств) 11,340 7,734 +46,6 %

Во многих бенчмарках ускорители H200 не дают существенного преимущества, которое в любом случае обусловлено только большим объемом памяти (141 против 80 ГБ). Однако есть и такие приложения, в которых заметен серьезный прирост. Для них поставщики решений наверняка будут искать ускорители H200.

Здесь мы привели несколько наиболее важных результатов. Все остальные вы можете найти в официальных результатах MLPerf Training v4.0.

Time-to-Train (TTT) и Energy- to-Train (ETT)

Впервые MLCommons интегрировала данные об энергопотреблении, а также новые метрики эффективности. Они были предоставлены Sustainable Metal Cloud (SMC). Время на тренировку (TTT) и энергия на тренировку (ETT) – важные показатели для многих пользователей, поскольку чистая производительность не всегда является решающим фактором. Помимо собственно аппаратного обеспечения ускорителя, учитывается также энергопотребление инфраструктуры, например межсоединений.

Масштабирование по времени и энергии для LLama2 70b Lora
Ускоритель Количество ускорителей Время (минуты) Энергия (джоули)
NVIDIA H100 8 29,101 12.127.904,43
NVIDIA H100 64 5,488 46.574.812,84
NVIDIA H100 512 2,015 20.644.274,64

Для тонкой настройки LLM (Llama2 с 70 миллиардами параметров) на восьми ускорителях H200 требуется около 30 минут; на 64 ускорителях это время можно сократить до одной шестой, при этом потребление энергии увеличивается в четыре раза. Однако на 512 ускорителях H100 тонкая настройка может быть выполнена и за две минуты, при этом затраты энергии существенно меньше, чем при использовании 64 ускорителей.

Как и везде в вычислительной технике, здесь приходится идти на компромисс: для некоторых пользователей очень важно максимально быстрое обучение, но поставщики таких вычислительных решений также уделяют особое внимание эффективности, и здесь тоже есть «золотая середина», которая может удовлетворить обе стороны. Много ускорителей, работающих одновременно, могут быть более эффективными, чем несколько, которые к тому же требуют значительно больше времени для выполнения задачи. Однако провайдеры также должны следить за тем, чтобы ресурсы использовались как можно лучше. Вычислительный кластер, который будет простаивать, наименее эффективен.

В любом случае, результаты MLPerf Training v4.0 дают интересное представление об энергопотреблении и позволяют сделать выводы об энергоэффективности.

Подписывайтесь на группу Hardwareluxx ВКонтакте и на наш канал в Telegram (@hardwareluxxrussia).

Latest news
Related news