NVIDIA Vera Rubin Superchip — обзор платформы искусственного интеллекта, производительность которой в пять раз превышает производительность Грейс Блэквелл
Некоторое время назад на конференции GTC в Вашингтоне генеральный директор NVIDIA Дженсен Хуанг представил тестовый прототип платформы NVIDIA Vera Rubin Superchip. Теперь, на выставке CES 2026, к удивлению многих, эта передовая платформа искусственного интеллекта широко освещается, чипы которой уже полностью производятся на предприятиях TSMC. Давайте проверим, какие возможности предлагает AI-ускоритель, размеры которого сопоставимы с материнской платой формата ATX.
Официальная премьера суперчипа NVIDIA Vera Rubin состоялась на выставке CES 2026 вместе с презентацией дизайна этой передовой ИИ-платформы. Ожидается, что он будет предлагать в 5 раз более высокую производительность, чем Grace Blackwell, и будет использовать два графических процессора Rubin с общей вычислительной мощностью 100 PFLOP.
NVIDIA Vera Rubin Superchip — презентация прототипа размером с материнскую плату, который поступит в производство в следующем году
NVIDIA Vera Rubin Superchip — это полноценная AI-платформа, представляющая собой готовый и унифицированный узел в сервере (стойке) NVL72. Он состоит из двух графических процессоров Rubin, одного процессора ARM Vera, коммутатора NVLink 6 и чипа BlueField-4, интегрированного с SuperNIC ConnectX-9, отвечающего за высокопроизводительную связь и связь в системе. Графические процессоры Rubin представляют собой двухчиплетные системы с общим количеством 336 миллиардов транзисторов, обеспечивающие производительность вывода (запросов к модели искусственного интеллекта) 50 PFLOPS с точностью FP4 и производительность обучения 35 PFLOPS, что является увеличением в 5 и 3,5 раза соответственно по сравнению с графическим процессором B200 (Blackwell). Однокристальная пропускная способность составляет 22 ТБ/с (в 2,8 раза больше, чем у Blackwell), при этом объем оперативной памяти HBM4 составляет 288 ГБ на каждый графический процессор.
AMD Instinct MI400 с 432 ГБ памяти HBM4 дебютирует в 2026 году. AMD EPYC Verano выйдет в 2027 году
Процессор Vera имеет 88 ядер ARM, использующих фирменную архитектуру Olympus, 176 логических потоков (NVIDIA Spatial Multi-Threading) и 227 миллиардов транзисторов. Чип обеспечивает пропускную способность памяти 1,2 ТБ/с с памятью SOCAMM LPDDR5X емкостью 1,5 ТБ. В сервере NVL72 память процессора действует как когерентная матрица, и каждый процессор может использовать указанную емкость при использовании функции конфиденциальных вычислений. Это означает, что данные, обрабатываемые в режиме реального времени, защищены даже от операционной системы, гипервизора или администратора — создается отдельная доверенная среда исполнения (TEE). На практике операции с данными безопасны и не могут быть прочитаны или изменены неавторизованными лицами. В сочетании с другими компонентами платформы процессор Vera обеспечивает в 2 раза большую производительность при обработке данных, сжатии и автоматизации CI/CD по сравнению с процессором NVIDIA Grace.
NVIDIA GeForce RTX 5000 — ожидается, что производство графических чипов Blackwell значительно сократится в 2026 году
Следующий чип — коммутатор NVLink 6, отвечающий за соединение между двумя графическими процессорами на плате платформы на скорости 3,6 ТБ/с в двустороннем порядке, а также обеспечивающий связь «все-все» между всеми графическими процессорами сервера NVL72 — 400G SerDes (400 Гбит/с). Кроме того, он позволяет центральному процессору эффективно взаимодействовать с двумя графическими процессорами через интерфейс NVLink C2C на скорости 1,8 ТБ/с в двустороннем порядке, что устраняет ограничения медленного (с этой точки зрения) PCIe. Кроме того, чип способен выполнять 14,4 терафлопс вычислений с точностью FP8 «в сети», что означает, что некоторые вычислительные операции могут выполняться непосредственно на сетевом чипе (внутрисетевые вычисления), что повышает эффективность коллективных вычислений и сокращение данных, типичное для моделей ИИ. Один только коммутатор NVLink 6 имеет 108 миллиардов транзисторов.
NVIDIA RTX PRO 5000 Blackwell — профессиональная видеокарта теперь с вдвое меньшим объемом памяти GDDR7
Чип NVIDIA BlueField-4 и его чип ConnectX-9 образуют сетевое сердце платформы NVIDIA Vera Rubin Superchip, обеспечивая внешние соединения по сравнению с NVLink 6, который работает внутри узлов и серверов. BlueField‑4 DPU (модуль обработки данных) — это специализированный «инфраструктурный процессор», оснащенный 64-ядерным процессором ARM Grace, который берет на себя задачи, традиционно выполняемые операционной системой хоста, такие как управление сетевым трафиком, безопасность, логика потока данных и ускорение обслуживания, тем самым разгружая ЦП. Кроме того, BlueField‑4 поддерживает соединения со скоростью до 800 Гбит/с для сетей центров обработки данных. Чип ConnectX-9 представляет собой очень продвинутую сетевую карту, обеспечивающую пропускную способность 1,6 Тбит/с (200G PAM4 SerDes), ускорение RDMA, ускорение передачи данных и расширенные функции безопасности, включая аппаратное шифрование сетевого трафика. Обе системы, помимо прочего, обеспечивают связь между серверами NVL72 и интеграцию с инфраструктурой центра обработки данных. Стоит добавить, что чип BlueField-4 содержит 126 миллиардов транзисторов, а чип ConnectX-9 состоит из 23 миллиардов транзисторов.
NVIDIA потратила в три раза больше, чем Groq! Это крупнейшая сделка в истории компании. Что они покупают на 20 миллиардов долларов?
Стоит подчеркнуть, что описанный узел не функционирует самостоятельно, а является частью сервера NVL72, который состоит из 36 таких узлов (36 CPU и 72 GPU). Они подключаются бескабельно с помощью прямых разъемов и полностью охлаждаются жидкостью. Весь сервер NVL72 обеспечивает в 5 раз более высокую производительность прецизионного вывода FP4 (до 3,6 EFLOPS), а также в 3,5 раза более высокую производительность обучения модели искусственного интеллекта (2,5 EFLOPS) по сравнению с серверами GB200 NVL72 (Грейс Блэквелл). При этом ресурсы памяти были значительно увеличены — емкость памяти LPDDR5X выросла в 2,5 раза до 54 ТБ, а емкость HBM4 увеличена на 50% до 20,7 ТБ, а ее пропускная способность выросла почти в три раза до 1,6 ПБ/с. Все это дополняется вдвое большей пропускной способностью масштабируемой связи, достигающей 260 ТБ/с, что существенно повышает эффективность взаимодействия всех компонентов системы. Благодаря этим нововведениям обсуждаемая платформа позволяет в 10 раз снизить стоимость токенов вывода и в 4 раза сократить количество графических процессоров, необходимых для обучения моделей MoE, по сравнению с GB200 (Grace Blackwell).
NVIDIA возобновляет производство системы GeForce RTX 3060. Легендарная модель Ampere предназначена для геймеров с ограниченным бюджетом.
NVIDIA также представила усовершенствованный сетевой коммутатор Spectrum-X Ethernet с объединенной оптикой, обеспечивающий пропускную способность до 102,4 Тбит/с и встроенную кремниевую фотонику (неотъемлемую часть интегральных схем) до 200 Гбит/с. Spectrum-X является отдельным продуктом и не является физической частью серверов NVL72 с узлами NVIDIA Vera Rubin Superchip, но с точки зрения архитектуры системы является их неотъемлемым элементом. Вместе с системами NVIDIA BlueField-4 и ConnectX-9 он создает когерентный сетевой уровень, который соединяет серверы NVL72 и обеспечивает масштабирование инфраструктуры до больших конфигураций DGX SuperPOD (несколько серверов (стоек), соединенных в одну когерентную вычислительную систему).
NVIDIA DLSS 4.5 представлена официально. Новая модель Transformer 2 и генерация Multi Frame в версии x6.
NVIDIA также планирует представить Vera Rubin Ultra NVL576, выпуск которого запланирован на вторую половину 2027 года. В этой более крупной конфигурации один узел будет оснащен четырьмя графическими процессорами Rubin Ultra с 1 ТБ памяти HBM4E, распределенной по 16 модулям. Кроме того, NVIDIA готовит CPX-серверы Vera Rubin NVL144, которые будут оснащены дополнительными графическими процессорами CPX на печатных платах узлов (один чиплет с графическим процессором Rubin), предназначенными для поддержки моделей искусственного интеллекта с очень длинными контекстами. Подробнее об этом пишем здесь. Возвращаясь к Vera Rubin Superchip, системы, входящие в платформу, уже находятся в массовом производстве в TSMC и поступают в лаборатории NVIDIA. Подводя итог, обсуждаемая платформа будет использоваться как в конфигурациях DGX SuperPOD с 8 серверами Vera Rubin NVL72, так и в небольших дата-центрах благодаря серверам DGX Rubin NVL8. Ожидается, что обе конфигурации будут доставлены клиентам во второй половине 2026 года.
Источник: NVIDIA