Google Cloud включила серверы с графикой Blackwell и процессорами Grace в свою инфраструктуру

Хотя реализация Blackwell Accelerators (включая Superchips GB200) может быть не такой плавной, как хотелось бы NVIDIA и ее клиентов, кажется, что на них будет основана значительная часть инфраструктуры сервера крупных компаний. Google Cloud сделал следующий шаг в этом направлении, который объявил о реализации серверов NVL72 с использованием последних суперчипов. Они будут доступны для клиентов в виртуальных машинах.

Google Cloud объявила о включении серверов NVL72 в Superchips NVIDIA GB200 в ее инфраструктуру. Их вычислительная мощность теперь доступна для клиентов в рамках виртуальных машин A4X.

NVIDIA GB200 NVL4 — был объявлен еще один вариант Superchips для обслуживания искусственного интеллекта

В ноябре прошлого года мы сообщили о проблемах с перегревом NVL72 серверов Superchips NVIDIA GB200. Это принудительные изменения в проекте стойки и привели к временному снижению заказов на этот тип решения. Проблема была, по крайней мере, частично решена, и крупные технологические компании все чаще включают серверы NVL72 в свою облачную инфраструктуру. Google сообщил об этом шаге. Речь идет о виртуальных машинах A4X, которые находятся на основе которых находятся Superchips GB200. Одна стойка NVL72 состоит из 36 таких суперчипов, что на практике означает 72 ускорителя B200 и 36 процессоров Grace. Отдельные устройства оборудования связаны с пятым поколением NVIDIA NVLINK.

Nvidia B200 Tensor Core — графический ускоритель на основе архитектуры Blackwell. На борту, среди прочего 192 ГБ памяти HBM3E

Серверы NVL72, которые реализовали Google Cloud, позволяют рассматривать всех 72 акселераторов Blackwell как единой вычислительной единицы, которая имеет общую память и очень высокую пропускную способность данных. Это, в свою очередь, эффективно уменьшает задержки в общении с большими языковыми моделями, которые являются основой искусственного интеллекта. Производительность одного сервера NVL72 при поддержке AI -задач составляет более 1 EFLOP, что является тем, что виртуальные машины A4X предлагают в четыре раза выше производительность, чем машины A3, которые основаны на ускорителях NVIDIA H100. Серверы используют жидкое охлаждение, которое предназначено для предотвращения случаев дросселей во время высокой нагрузки. Предложение Google Cloud также включает в себя виртуальные машины A4, которые основаны не на Superchips GB200, а на самих ускорителях B200. Они направлены на немного менее требовательных клиентов, которым не нужна максимально возможная производительность.

Источник: Google