ZAYA1 — первая модель, созданная экспертами и полностью обученная на графическом процессоре AMD Instinct MI300X, лучше, чем Llama-3.

ZAYA1 — первая модель, созданная экспертами и полностью обученная на графическом процессоре AMD Instinct MI300X, лучше, чем Llama-3.

AMD преодолела порог, который мы не ожидали увидеть так быстро. Стартап Zyphra в сотрудничестве с «красными» и IBM Cloud обучил ZAYA1 — первую большую языковую модель Mixture-of-Experts, созданную полностью на платформе AMD, без использования систем NVIDIA. Это не только техническое достижение, но и потенциально поворотный момент в борьбе за сотни миллиардов долларов рынка обучения искусственному интеллекту. Является ли AMD с Instinct MI300X надежной альтернативой?

Языковая модель ZAYA1 — первое свидетельство того, что платформа AMD полностью готова к обучению самых передовых моделей искусственного интеллекта в промышленных масштабах без ущерба для производительности.

Модель ZAYA1 — это больше, чем просто еще одна большая языковая модель. Его обучение от начала до конца проходило на 128 вычислительных узлах, оснащенных ускорителями AMD Instinct MI300X, соединенных сетью AMD Pensando Pollara 400 в инфраструктуре IBM Cloud. Все это работало с использованием открытого программного стека ROCm. Это исторический момент для AMD, поскольку впервые кто-то доказал, что можно обучать продвинутую модель ИИ в промышленных масштабах без использования карт NVIDIA.

Технология ZAYA1 Mixture-of-Experts действует как команда специалистов, а не как один универсальный эксперт. Модель состоит из 8,3 миллиардов параметров, но в любой момент времени активны только 760 миллионов. Давайте представим это как медицинскую консультацию, где вместо того, чтобы спрашивать всех сразу, маршрутизатор направляет запрос только тем специалистам, которые знают конкретную проблему. Это похоже на восемь специализированных моделей, где интеллектуальная система выбирает правильную комбинацию в зависимости от типа задачи.

Результаты тестов показывают, что база ZAYA1 соответствует или превосходит такие модели, как Llama-3-8B (Meta), OLMoE, и даже приближается к производительности Qwen3-4B (Alibaba) и Gemma3-12B (Google) при выполнении задач по рассуждению, математике и программированию. Это впечатляет, учитывая значительно меньшее количество активных параметров. Здесь важную роль сыграли 192 ГБ памяти HBM3 в каждом Instinct MI300X. Это позволило избежать дорогостоящего разделения экспертов между графическими процессорами, упростив архитектуру и увеличив пропускную способность. AMD и Zyphra также сообщают о 10-кратном сокращении времени сохранения контрольных точек модели благодаря оптимизированному вводу-выводу в ROCm. На практике, когда сбои узлов могут стоить дней работы, именно в этом заключается разница между успехом и катастрофой. Производительность обучения кластера превысила 750 петафлопс, а пропускная способность сети на каждом узле составляла 3,2 Тбит/с благодаря восьми картам Pensando Pollara 400 в топологии «только рельсы».

Для AMD это также доказательство зрелости всей экосистемы. В предыдущие годы ROCm критиковали за нестабильность и проблемы совместимости. Теперь Zyphra подтверждает, что платформа достаточно развита для производственных внедрений. Это прямой ответ на доминирование CUDA и NVIDIA H100. MI300X имеет преимущество в пропускной способности памяти (5,3 ТБ/с против 4,8 ТБ/с у H200), что дает явное преимущество в задачах, требующих поддержки моделей с большим количеством параметров. Остается вопрос о масштабах. IBM и AMD объявляют о расширении кластера в 2026 году. Если ZAYA1 — это только начало, а последующие поколения Instinct (теперь доступны MI325X, анонсировано MI350) продолжат эту траекторию, NVIDIA может впервые за многие годы столкнуться с реальной конкуренцией в сегменте обучения. Это может заставить Дженсена Хуанга проводить более агрессивную ценовую политику, что в конечном итоге принесет пользу всей индустрии искусственного интеллекта.

Источник: AMD, Технический отчет Zyphra (arXiv).

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии