AMD ROCM 7 — Премьера вычислительной платформы для искусственного интеллекта и рынка HPC, что повышает производительность

AMD ROCM 7 - Премьера вычислительной платформы для искусственного интеллекта и рынка HPC, что повышает производительность

AMD ROCM (Radeon Open Compute) представляет собой открытое время неоднородных расчетов, что является ответом AMD на чудеса от NVIDIA. Это набор инструментов, библиотек и контроллеров, позволяющих запускать код ИИ, поддержать популярную структуру машинного обучения (например, Pythorch, Tensorflow или ONNX), компиляция и оптимизация кода расчета, а также доступ к оборудованию для низкоуровневых аппаратных библиотек.

AMD представляет новую итерацию платформы ROCM 7, предназначенная для обучения искусственному интеллекту и приложениям в области HPC. Новая версия программного обеспечения обеспечивает значительное повышение производительности в применении популярных моделей искусственного интеллекта.

AMD Instinct MI350X и Instinct MI355X официально представлены — ускорители на основе архитектуры CDNA 4

AMD, создавая ROCM 7, сосредоточился на первом месте на расширении поддержки популярных моделей и рамок, с особым акцентом на европейские модели. Совместимость с такими инструментами, как Pytorch, Jax, MaxText, Torchtune или Torch-Titan, была улучшена, а также была сосредоточена на упрощении процесса конфигурации, предлагая «из коробки». Важной частью изменений также являются улучшения в параллелизации (параллелизм) — ключ при обучении моделей крупных языков, которые нельзя помнить одной графической картой. Среди поддерживаемых методов есть параллелл данных (DP), где каждый графический процессор обучает копию модели на другом наборе данных, Pipelin Parallell (PP), состоящий в разделении слоев модели между различным графическим процессором и тензором параллелизмом (TP), который разделяет математические операции в одном слое.

AMD Instinct MI400 с 432 ГБ памяти HBM4 дебютирует в 2026 году. AMD Epyc Verano с премьерой в 2027 году.

Кроме того, была улучшена поддержка метода полностью оскорбленного параллелизма данных (FSDP), которая позволяет сохранить память, делясь параметрами между графическим процессором и контрольной точкой (CP), которая уменьшает потребление памяти, восстанавливая вам модель в обратном распространении модели, а также экспертные параллелизм (EP), который позволяет вам активировать только выбранные фрагменты модели. Стоит добавить, что на практике эти методы часто объединяются — например, TP и DP или FSDP и CP, чтобы максимально оптимизировать производительность и использование аппаратных ресурсов. В области обучения моделей процесс умножения больших вопросов, то есть операции GEMM, механизм внимания и эффективность с точностью BF16 и FP8 были улучшены.

AMD CDNA 4 — Описание архитектуры для ускорителей для искусственного интеллекта на примере систем из серии Instinct MI350

В сфере запуска моделей, то есть вывод, поддержка таких фреймворков, как VLLM V1, LLM-D и SG LANG, была расширена. Распределенные процессы вывода также были оптимизированы на многих узлах GPU и сервера, включая поддержку фазы предварительного труда и механизмы несоответствия (дезагрегация), то есть распределение задач между различными ресурсами оборудования. Ауто -обработка также была введена для операций GEMM, что позволило автоматическому выбору оптимальных вычислительных параметров. Поддержка моделей, основанных на архитектуре MOE (смеси экспертов), была улучшена, и действие механизмов внимания на его вывод было оптимизировано. Кроме того, было разрешено создавать нестандартные вычислительные яички (ядра) в Python, что облегчает регулировку производительности. Однако наиболее важным изменением являются улучшения и оптимизации для расчетов в FP8, FP6, FP4 и их смешанных вариантах, которые полностью используют потенциал ускорителей AMD Instinct MI350, о которых здесь больше.

AMD RADEON RX 9060 XT против NVIDIA GEFORCE RTX 5060 TI GRAPHICS

В контексте реальных приложений AMD объявляет об увеличении средней производительности в трех временном увеличении производительности по сравнению с предыдущей версией ROCM. Это относится к, среди прочего, такими моделями, как LLAM 2 (70 миллиардов параметров), LLAM 3.1 (8 миллиардов) и QWEN 1,5 (7 миллиардов), что достигло увеличения на уровне X3.1. Еще большее ускорение было отмечено в приложении, где средняя высота составляет x3,5. Например: Llama 3.1 (70 миллиардов) работает x3.2 быстрее, QWEN 2 (72 миллиарда) x3.4, а DeepSeek R1 до x3.8 по сравнению с ROCM 6. AMD также объявил, что ROCM 7 выходит за рамки сервера и облачных сред, платформа также предназначена для Laptops с Ryzen Rocdes и Work Stations, но эта функция будет реализована. Во второй половине 2025 года. Подводя итог, мы говорим здесь о действительно большом обновлении и повышении производительности в службе и обучении искусственного интеллекта, что значительно приближает AMD к полной конкуренции с платформой чудеса от Nvidia.

Источник: AMD, PurePC

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии