AMD Instinct Mi350x и Instinct Mi355x официально представлены — ускорители на основе архитектуры CDNA 4

В 2023 году AMD представила инстинкт MI300A Accelerator, который был первым APU для рынка HPC / AI. В прошлом году была введена инстинктная система MI325X с 256 ГБ памяти HBM3E. В прошлом году была также объявлена предстоящая премьера CDNA 4 Generation. Сегодня, во время пресс -конференции, были объявлены подробности об инстинкте MI350X и инстинкте MI355X ускорителей. Как они падают на фоне инстинкта MI325X и NVIDIA B200?
AMD официально объявляет о наличии Instinct MI350X и Instinct MI355X, основанной на архитектуре CDNA 4. Их производительность должна быть сопоставимой или выше, чем уже доступные системы NVIDIA от генерации Blackwell — B200 и GB200.
AMD CDNA 4 — Описание архитектуры для ускорителей для искусственного интеллекта на примере систем из серии Instinct MI350
И AMD Instinct Mi350x, и Instinct Mi355x имеют на борт 288 ГБ памяти HBM3E (8192-бит, 8 стеков) с емкостью до 8 ТБ/с. Разница в том, что инстинкт MI350x менее проживает, что требует меньшей мощности, но также обеспечивает немного более низкую производительность. Обе конструкции будут доступны в виде OAM, а фактор TBP составляет 1000 Вт для инстинкта Mi350x (так же, как в случае инстинкта Mi325x) и 1400 Вт для инстинкта Mi355x. Когда дело доходит до спецификации, AMD дает здесь, прежде всего, пиковую мощность для различных типов расчетов. Производитель также подтверждает использование 3 нм технологического процесса TSMC (N3P) и количество транзисторов, которое составляет 185 миллиардов. По сравнению с предыдущими акселераторами компании, новые продукты также предлагают поддержку расчетов FP6 и FP4. Когда дело доходит до строительства, как Instinct Mi350x, так и Instinct Mi355x оснащены 8 основными плитками, называемыми ускоренными комплексными умираниями (XCD) — они производятся в литографии TSMC N3P. В общей сложности ускорители имеют 256 блоков вычислений и 16 384 вычислительных процессоров. Интересно, что количество единиц уменьшилось по отношению к инстинкту Mi325x, в то же время благодаря гораздо более эффективным матричным ядрам (что также меньше), во всех типах расчетов, основанных на номерах плавающей запятой, системы кДНК 4 гораздо более эффективны, что предполагает их значительную реконструкцию и оптимизацию по сравнению с архитектурой кДНК 3.
AMD Instinct Mi355x | AMD Instinct Mi350x | NVIDIA B200 | AMD Instinct Mi325x | |
Архитектура | КДНК 4 | КДНК 4 | Блэквелл | КДНК 3 |
Литография | TSMC N3P (3 нм) | TSMC N3P (3 нм) | TSMC 4NP (4 нм) | TSMC N5 + N6 (5 нм + 6 нм) |
Транзисторы | 185 миллиардов | 185 миллиардов | 208 миллиардов | 153 миллиарда |
Расчеты блоки | 256 куб | 256 куб | 160 см | 304 куб |
Процессоры | 16 384 | 16 384 | 20 480 | 19 456 |
Матрица / Тенсорные ядра | 1024 | 1024 | 528 | 1216 |
Память | 288 ГБ HBM3E | 288 ГБ HBM3E | 192 ГБ HBM3E | 256 ГБ HBM3E |
Емкость | 8 ТБ/с | 8 ТБ/с | 8 ТБ/с | 6 ТБ/с |
Клоки (пик) | 2200 МГц | 2200 МГц | 1837 МГц | 2100 МГц |
Мощность FP64 (пик) | 79 TFLOPS | 72 TFLOPS | ~ 40 TFTS | 81,7 TFLOPS |
Мощность FP16 (пик) | 5 PFLTS | 4.6 ПФЛОП | 4.5 ПФЛОП | 1.3 PFLTS |
Мощность FP8 (пик) | 10 PFLTS | 9.2 PFLOPS | 9 PFLTS | 2.61 PFLTS |
Мощность FP6 (пик) | 20 PFLTS | 18.4 Pflts | 9 PFLTS | Нет услуг |
FP4 мощность (пик) | 20 PFLTS | 18.4 Pflts | 18 PFLTS | Нет услуг |
Тбп | 1400 Вт | 1000 Вт | 1000 Вт | 1000 Вт |
AMD Instinct MI325X — Официальная презентация ускорителя для искусственного интеллекта. AMD также объявляет систему Instinct MI355X
То, что AMD инстинкт MI350X и инстинкт MI355X усилитель по сравнению с его предшественником (Instinct MI325X),-это способность обрабатывать 4-битные расчеты и 6-битные скорости плавающей запятой (FP4 и FP6 соответственно). Это, в свою очередь, позволяет вам поддерживать несколько раз более крупные типы расчетов и гораздо более крупные языковые модели для потребностей вывода ИИ. Для расчетов FP6 и FP4 пиковая вычислительная мощность AMD Instinct Mi355x составляет 20 Petaflts, в то время как для инстинкта Mi350x это 18,4 petaflts. Для сравнения, в Nvidia B200 Blackwell Accelerator это 18 Petaflts для FP4 и 9 Petaflts для FP6. AMD также намного лучше в расчетах двойной точности (FP64), где мощность достигает 79 TFLOP для инстинкта MI355X и 72 TFLOP для инстинкта MI350X. По общему признанию, Instinct MI325X все еще лучше (81,7 TFLOPS вверху), решения AMD все еще выглядят лучше, чем NVIDIA (~ 40 TFLOPS для NVIDIA B200).
AMD Instinct Mi355x и Instinct Mi350x будут предлагаться в двух вариантах, которые отличаются используемой системой охлаждения. Первый — это классический корпус OAM с системой воздушного охлаждения. Второе — это охлаждение воды, расположенное непосредственно на ускоритель. Когда дело доходит до сравнения производительности, AMD может похвастаться, среди прочего, более чем в 3 раза более эффективного AI в Instinct Mi355x по сравнению с инстинктом Mi300x. Самые большие различия будут видны при использовании чат -ботов (более 4 раза более эффективно), немного меньшие различия, в свою очередь, связаны с генерацией контента с помощью ИИ. Эти данные основаны на использовании LLAM 3.1 с 405 миллиардами параметров.
Когда дело доходит до использования других языковых моделей, в следующем сравнении AMD представляет примеры DeepSeek R1, Llama 3.3 70b и Llama 4 Maverick. В случае DeepSeek R1 Instinct MI355X падает в среднем в 3 раза лучше в применении, в то время как в двух других случаях он более в 3 раза эффективнее. Конечно, мы все еще говорим о сравнении с инстинктом MI300X. Производитель также заявляет, что последнее решение, основанное на архитектуре CDNA 4, является полностью конкурентоспособным для акселераторов NVIDIA B200 и GB200 (Grace-Blackwell), которые используют модели Tensorrt-LLM. AMD Instinct MI355X должен быть здесь от 20 до 30 процентов более эффективными, когда используются языковые модели DeepSeek R1 и LLAM 3.1 405B, где в обоих случаях ускорители обрабатывают расчеты с использованием 4-битных переменных. Далее по сравнению с NVIDIA B200, ускоритель AMD Instinct MI355X должен иметь лучший коэффициент доступа к токенам для каждого потраченного доллара. Этот параметр должен быть на 40% лучше в системе кДНК 4. Во время конференции было подтверждено, что AMD Instinct MI350X и Instinct MI355X ускорители теперь доступны для клиентов для заказа. Дальнейшие планы по разработке сегмента центра обработки данных сосредоточены на инстинкте серии Mi400 и Epyc Venice (Zen 6) и Epyc Verano (Zen 7?).
Источник: AMD, PurePC