Последний раунд результатов MLPerf дает представление о производительности современного оборудования для центров обработки данных с точки зрения эффективности обучения. Очень часто приходится верить результатам бенчмарков, предоставляемым AMD, NVIDIA, Intel и другими. Поэтому верификация результатов со третьей стороной очень важна.
Сразу стоит сказать, что AMD официально не принимала участия в этом раунде, то есть ускорители Instinct MI300X и Instinct MI300A снова не включены – так что у нас по-прежнему нет легко сравнимых с конкурентами показателей. Gaudi 3 от Intel также пока не играет роли в этом раунде. Впрочем, ускорители появятся на рынке только в третьем квартале. Зато впервые мы получили результаты обновленного ускорителя Hopper H200 от NVIDIA с 141 ГБ HBM3e вместо прежних 80 ГБ HBM3. Но полученные значения были получены на системе DGX с восемью ускорителями H200. Более крупные кластеры пока не фигурируют.
TPU-v5p от Google также представлен впервые, и здесь мы получаем хорошие результаты по масштабированию TPU. Мы взяли следующие значения из официальных результатов для MLPerf Training v4.0.
Ускоритель | Количество ускорителей | GPT3 (минуты) |
Google TPU-v5p | 512 | 144,791 |
Google TPU-v5p | 1.024 | 56,948 |
Google TPU-v5p | 1.536 | 39,745 |
Google TPU-v5p | 6.144 | 12,477 |
Intel Gaudi 2 | 1.024 | 66,906 |
NVIDIA H100 | 512 | 50,728 |
NVIDIA H100 | 11.606 | 3,444 |
Размер кластеров сильно варьируется, здесь следует учитывать инфраструктуру и хост-системы, необходимые для работы кластера, например, с 512 ускорителями. Однако есть как минимум два способа оценить результаты.
Начнем с прямого сравнения результатов с одинаковым количеством ускорителей. А именно 512 Google TPU v5p против 512 NVIDIA H100, и здесь видно, что NVIDIA имеет преимущество и может завершить тренировку GPT3 в три раза быстрее. Это даже быстрее, чем обеспечивают 1024 ускорителя Gaudi 2, в то время как они не так уж плохи против Google TPU v5p. Intel также может сказать, что система с восемью Gaudi 2 стоит всего около $80.000, в то время как система NVIDIA может легко обойтись в €300.000 и более.
Поражает и то, насколько далеко NVIDIA может масштабировать свои системы. Об этом свидетельствуют результаты ее собственного суперкомпьютера EOS, который находится на 10 месте в Top500 и может задействовать 11.606 ускорителей H100. С такой вычислительной производительностью GPT3 можно обучить за 3,444 минуты. Не так давно этот процесс занимал недели, а то и месяцы.
Бенчмарк (в минутах) | 8x NVIDIA H100 | 8x NVIDIA H200 | Улучшение |
Bert (поиск, перевод, чатбот) | 5,469 | 5,212 | +4,9 % |
DLRM DCNV2 (поиск, перевод, чатбот) | 3,871 | 3,522 | +9,9 % |
ResNet (классификация изображений) | 13,326 | 12,078 | +10,3 % |
SSD (распознавание объектов) | 35,476 | 34,259 | +3,6 % |
Unet3D (медицинский анализ) | 12,144 | 11,506 | +5,5 % |
Stable Diffusion (формирование изображений) | 42,233 | 41,348 | +2,1 % |
LLama2 70b Lora (тонкая настройка LLM) | 28,163 | 24,689 | +14,1 % |
GNN (обнаружение мошенничества, поиск лекарств) | 11,340 | 7,734 | +46,6 % |
Во многих бенчмарках ускорители H200 не дают существенного преимущества, которое в любом случае обусловлено только большим объемом памяти (141 против 80 ГБ). Однако есть и такие приложения, в которых заметен серьезный прирост. Для них поставщики решений наверняка будут искать ускорители H200.
Здесь мы привели несколько наиболее важных результатов. Все остальные вы можете найти в официальных результатах MLPerf Training v4.0.
Time-to-Train (TTT) и Energy- to-Train (ETT)
Впервые MLCommons интегрировала данные об энергопотреблении, а также новые метрики эффективности. Они были предоставлены Sustainable Metal Cloud (SMC). Время на тренировку (TTT) и энергия на тренировку (ETT) – важные показатели для многих пользователей, поскольку чистая производительность не всегда является решающим фактором. Помимо собственно аппаратного обеспечения ускорителя, учитывается также энергопотребление инфраструктуры, например межсоединений.
Ускоритель | Количество ускорителей | Время (минуты) | Энергия (джоули) |
NVIDIA H100 | 8 | 29,101 | 12.127.904,43 |
NVIDIA H100 | 64 | 5,488 | 46.574.812,84 |
NVIDIA H100 | 512 | 2,015 | 20.644.274,64 |
Для тонкой настройки LLM (Llama2 с 70 миллиардами параметров) на восьми ускорителях H200 требуется около 30 минут; на 64 ускорителях это время можно сократить до одной шестой, при этом потребление энергии увеличивается в четыре раза. Однако на 512 ускорителях H100 тонкая настройка может быть выполнена и за две минуты, при этом затраты энергии существенно меньше, чем при использовании 64 ускорителей.
Как и везде в вычислительной технике, здесь приходится идти на компромисс: для некоторых пользователей очень важно максимально быстрое обучение, но поставщики таких вычислительных решений также уделяют особое внимание эффективности, и здесь тоже есть «золотая середина», которая может удовлетворить обе стороны. Много ускорителей, работающих одновременно, могут быть более эффективными, чем несколько, которые к тому же требуют значительно больше времени для выполнения задачи. Однако провайдеры также должны следить за тем, чтобы ресурсы использовались как можно лучше. Вычислительный кластер, который будет простаивать, наименее эффективен.
В любом случае, результаты MLPerf Training v4.0 дают интересное представление об энергопотреблении и позволяют сделать выводы об энергоэффективности.
Подписывайтесь на группу Hardwareluxx ВКонтакте и на наш канал в Telegram (@hardwareluxxrussia).