AMD наконец-то добралась до NVIDIA? MI355X преодолел один миллион токенов в секунду, и все стало действительно интересно

Рынок ускорителей искусственного интеллекта уже давно перестал полагаться исключительно на сырые цифры из таблицы. Сегодня важно то, сможет ли система уместить в памяти большую модель, поддерживать разумные задержки и не потерять ритм при распределении по множеству узлов. Именно поэтому последний результат чипа AMD Instinct MI355X в MLPerf 6.0 заслуживает внимания, даже если на первый взгляд он выглядит как очередной рекорд, вброшенный на презентацию для инвесторов.

AMD пока не выиграла войну за ускорители искусственного интеллекта, но тест MLPerf 6.0 показал, что это уже не просто статистика.

Micron, возможно, разрабатывает новый тип памяти GDDR, который будет располагаться между GDDR7 и HBM4.

«Миллион токенов в секунду» звучит как слоган из рекламной брошюры, но на этот раз за слоганом стоит официальный результат MLPerf. AMD Instinct MI355X достигла 100 282 токенов/с в серверном сценарии для Llama 2 70B на одном узле, а в конфигурации с 11 узлами она достигла 1 016 380 токенов/с. Кроме того, добавлены новые рабочие нагрузки, такие как GPT-OSS 120B и Wan2.2-T2V, поэтому об одном сглаженном дисплее речь уже не идет. Ранее читатели видели премьеру Instinct MI350X и MI355X, а также описание архитектуры CDNA 4. Теперь вы можете видеть, что 288 ГБ памяти HBM3E, пропускная способность 8 ТБ/с и поддержка FP4 и FP6 начинают работать на реальные результаты, а не просто маркетинговые слайды.

AMD тестирует еще две интегрированные графические системы на базе архитектуры RDNA 4m. Новости для ВСУ Медуза Пойнт

По сравнению с NVIDIA B200 и B300 картинка менее впечатляющая, чем предполагает риторика производителя, но именно поэтому она более интересна. В некоторых сценариях Llama 2 70B MI355X достигает паритета, а кое-где опережает конкурентов, но MLPerf все равно измеряет конкретные модели, пределы задержки и очень жестко настроенные программные стеки. Настоящие перемены заключаются в другом. AMD больше не является выбором только для тех, кто хочет экспериментировать. ROCm достаточно повзрослел, чтобы больше не связывать успехи только со спецификациями, а больший объем памяти дает клиентам центров обработки данных больше свободы при использовании больших моделей и агрессивного квантования.

NVIDIA Роза Фейнман — на GTC 2026 было объявлено, что графические процессоры будут использовать 3D Die-Stacking и специальную память HBM.

Для обычного пользователя это не означает новую игрушку для ПК, а просто больший шанс получить более дешевые и быстрые услуги искусственного интеллекта в облаке. MLCommons не случайно обращает внимание на рост количества крупных многоузловых отчетов. Рынок движется к масштабированию, и там доминирование одного поставщика начинает вредить с точки зрения цен и операций. Если AMD сохранит темп в разработке программного обеспечения, MI355X может помочь NVIDIA ослабить контроль над логическими выводами. В противном случае пластинка так и останется всего лишь ярким заголовком. Оборудование уже выглядит серьёзно. Теперь вся экосистема также должна выглядеть столь же серьезно.

Источник: блог AMD, блог AMD ROCm, MLCommons, AMD