AMD CDNA 4 - Описание архитектуры для ускорителей для искусственного интеллекта на примере систем из серии Instinct MI350

AMD на пресс -конференции представила системы из серии Instinct MI350 на основе архитектуры CDNA 4, которая была разработана для максимального использования искусственного интеллекта и повышения энергоэффективности. Мы узнали подробности изменений в построении этих ускорителей и их прямое влияние на производительность. Поэтому я приглашаю вас к обширному описанию архитектуры кДНК 4 и ее широких возможностей.

AMD представила акселераторы из серии Instinct MI350, а вместе с ними архитектура кДНК 4, на которой мы сосредоточимся здесь. Мы узнали подробности об изменениях в построении этих систем и их влиянии на производительность.

AMD RADEON RX 9060 XT против NVIDIA GEFORCE RTX 5060 TI GRAPHICS

Чтобы понять работу систем из серии Instinct MI350 и архитектуры CDNA 4, стоит проанализировать, как они построены в технологии Cowos, то есть многослойной упаковке. Верхний слой состоит из двух чипов расчета, в которых есть два блока и/o вместе с межконтактом AMD Infinity Fabric, соединяющими эти блоки и предлагая емкость 5,5 ТБ/с. Восемь костей памяти HBM3E с общей емкостью 8 ТБ/SI расположены 288 ГБ расположены вокруг них. Каждый расчет чип делится на четыре блока XCD (комплекс -ускоритель -комплекс), каждый из которых содержит 32 единицы Cu (вычисления), а каждый блок Cu состоит из 4 матричных ядер. Встроенная память кэша L2 имеет емкость 4 МБ на блок XCD. В общей сложности вся система акселераторов ИИ включает в себя 8 блоков XCD, которые дают 256 единиц Cu и 1024 ядра матрицы (эквивалентно ядрам Nvidia Tensor).

Amd Ryzen Z2 A и Ryzen Ai Z2 Extreme — Компания подтверждает спецификацию процессоров для консолей Rog Xbox Ally

Каждый блок XCD имеет прямой доступ к соединению Infinity Fabric, который предоставляет 16 линий PCIe 5.0 и семь соединений x16 Infinity Fabric Link 4. Generation с полосой пропускной способности 1075 ГБ/с каждая. Память HBM3E также подключена к взаимосвязи через кэш бесконечности с общей емкостью 256 МБ. Чисы были сделаны в технологическом процессе TSMC N3P, в то время как блоки ввода/вывода были созданы в литографии TSMC N6. Эта конструкция позволяет разделить программу системы, позволяя вам использовать различные режимы вычислений (CPX, DPX, QPX, SPX) в комбинации с конфигурациями памяти NUMA (NPS1 и NPS2). Режим CPX рассматривает GPU как один, DPX делит его на две части, QPX на четыре, а SPX представляет самые маленькие логические фрагменты, то есть отдельные блоки XCD. Режимы NPS определяют, как разделить память HBM3E: NPS1 является одним из распространенных доменов NUMA и NPS2 — два.

PlayStation Handheld с новыми деталями спецификации. Спецификация консоли состоит в том, чтобы иметь сходство с AMD Strix Halo

Например, CPX+NPS2 использует полный потенциал GPU с делением памяти на две части, DPX+NPS2 предлагает два независимых экземпляра с выделенной памятью (деление между двумя чипсами), а QPX+NPS2 позволяет четыре экземпляра, делящих два домена памяти. SPX+NPS1 означает использование отдельных блоков XCD для обработки отдельных задач, но с одним доменом NUMA. На практике это позволяет вам запустить полную модель LLM с 520 миллиардами параметров по всей системе или восьми моделей LLAM 3.1, 70 миллиардов параметров независимо, каждый из которых на отдельном блоке XCD.

AMD FSR Redstone — Компания раскрывает технологический пакет на основе машинного обучения. Доступность только для карт RDNA 4

AMD подчеркивает, что архитектура CDNA 4 также вводит расширенные возможности в размере страниц памяти UTC1 и UTC2, которые отвечают за организацию и разделение внутренней памяти системы. Кроме того, использовались оптимизации в декодировании данных и были расширены потоки памяти, что позволяет вам поддерживать полную емкость при более низком уровне и напряжении, что снижает потребление энергии — благодаря которой система инстинкта MI350x потребляет на 30% меньше энергии при чтении данных из памяти HBM3E. Что касается вычислительных единиц (Cu), наиболее важными изменениями являются парные разряды числа матричных операций в смешанной точке, выполненных на тактовой такте, что значительно ускоряет умножение матрицы (GEMM) и двойное увеличение способности к трансцендентальной функции, что приводит к улучшению эффективности механизмов обращения.

Amd Ryzen Threadripper (Pro) 9000 — Официальная презентация процессоров и систем Hedt Zen 5 для рабочих станций

Служба низкого порка численных форматов FP4 и FP6 в соответствии со спецификацией OCP MX, обеспечивая точное масштабирование расчетов на уровне аппаратного обеспечения, и новые инструкции DOT2 DOT2, которые выполняют также введены операции по эффективности FP32, и накапливались для FP32, обеспечивающие компромисс между эффективностью и точными. Локальная память LDS была увеличена до 160 кб и получила большую мощность, что снижает нагрузку на память HBM3E, и была улучшена прямая загрузка данных от глобальной памяти в LDS. В результате гибельная емкость показания данных из памяти HBM3E была увеличена на единицу Cu на 50% по сравнению с предыдущим поколением. В области квантования появились новые механизмы: аппаратное стохастическое округление при преобразовании FP16/BF16 в FP32, который ограничивает ошибки квантования, руководство LOP3, которое позволяет пользователю определять неэндирдирующие логические операции и новые инструкции MIN/MAX, позволяющие более гибкому обработке значения NAN (Not Not Extrails Supports Supports Supports Supplysing и контролируют поля и контролирующие поля и контролирующие поля и контролирующие поля и контролирующие поля.

2 нм процесс TSMC с технологией GAA. AMD фокусируется на эффективности и энергоэффективности на серверах будущего

Наибольшее увеличение емкости архитектуры кДНК 4 на примере системы инстинкта MI355X применяется к матричным операциям в форматах FP16/BF16, FP8 и Int8/Int4, где было сообщено о почти двойном улучшении (x1,9) против Instinct Mi300x. Подводя итог крупнейшей новизны является поддержкой форматов FP6 и FP4, чье более раннее поколение вообще не поддерживало и улучшение в разделении графических процессоров на одиночные, независимые экземпляры. В то же время, в классических форматах плавающей запятой (FP32, FP64) не было зарегистрировано никакого прогресса, что предполагает, что новые графические процессоры четко оптимизированы для расчетов ИИ и обработки с низким уровнем питания, а не традиционного рынка HPC. Кроме того, заметно ослабить эффективность FP64 в матричных операциях — только 128 флопов/Cu в Instinct MI355X — что указывает на сознательную отставку в результате развития двойной точности для энергоэффективности и сосредоточенности на задачах, связанных с искусственным интеллектом.

Источник: AMD, PurePC

Игровая индустрия

Игровая

Игровая

Игровая

Игровая

Игровая

Игровая

Игровая

Игровая

Игровая

Игровая

AMD CDNA 4 — Описание архитектуры для ускорителей для искусственного интеллекта на примере систем из серии Instinct MI350

AMD RADEON RX 9060 XT против NVIDIA GEFORCE RTX 5060 TI GRAPHICS

Amd Ryzen Z2 A и Ryzen Ai Z2 Extreme — Компания подтверждает спецификацию процессоров для консолей Rog Xbox Ally

PlayStation Handheld с новыми деталями спецификации. Спецификация консоли состоит в том, чтобы иметь сходство с AMD Strix Halo

AMD FSR Redstone — Компания раскрывает технологический пакет на основе машинного обучения. Доступность только для карт RDNA 4

Amd Ryzen Threadripper (Pro) 9000 — Официальная презентация процессоров и систем Hedt Zen 5 для рабочих станций

2 нм процесс TSMC с технологией GAA. AMD фокусируется на эффективности и энергоэффективности на серверах будущего

Новости

Новости

Новости

Новости

Новости

Новости

Новости

Новости

Новости

Новости

Новости

Новости

Игровая индустрия

AMD RADEON RX 9060 XT против NVIDIA GEFORCE RTX 5060 TI GRAPHICS

Amd Ryzen Z2 A и Ryzen Ai Z2 Extreme — Компания подтверждает спецификацию процессоров для консолей Rog Xbox Ally

PlayStation Handheld с новыми деталями спецификации. Спецификация консоли состоит в том, чтобы иметь сходство с AMD Strix Halo

AMD FSR Redstone — Компания раскрывает технологический пакет на основе машинного обучения. Доступность только для карт RDNA 4

Amd Ryzen Threadripper (Pro) 9000 — Официальная презентация процессоров и систем Hedt Zen 5 для рабочих станций

2 нм процесс TSMC с технологией GAA. AMD фокусируется на эффективности и энергоэффективности на серверах будущего

Похожие новости