NVIDIA готовит ускорители GB300: больше памяти, выше производительность
NVIDIA представила свои новые ускорители GB300 и B300, которые появятся всего через шесть месяцев после GB200 и B200. По мнению отраслевых аналитиков, это не рядовое обновление, а важное событие, которое окажет серьезное влияние на рынок. Многие участники цепочки поставок столкнутся с реорганизацией производственных и логистических процессов, что приведет к дополнительным выгодам для одних и возможным потерям для других.
Компания выпустила вычислительный чип Б300 (ранее назывался Блэквелл Ультра), основанный на специальной технологии TSMC 4NP. Он обеспечивает примерно на 50% больше FLOPS, чем его предшественник B200, при этом общий TDP увеличивается до 1,4 кВт для GB300 и 1,2 кВт для B300 HGX. Эксперты полагают, что часть прироста производительности связана с более высокой вычислительной мощностью, а остальная часть прироста связана с архитектурными изменениями и новыми способами динамического распределения мощности между CPU и GPU.
Ускорители B300 оснащены памятью HBM3E в конфигурации 12-Hi вместо предыдущей 8-Hi, в результате чего общая емкость достигает 288 ГБ. Пропускная способность памяти по-прежнему остается на уровне 8 Тбайт/сек, поскольку скорость вывода не изменилась. В то же время инженеры считают, что дополнительный объем памяти дает заметное преимущество при обучении и выводе больших языковых моделей, где размер обрабатываемых последовательностей и размер кэша KVCache напрямую влияют на скорость генерации ответов.
Опыт перехода с H100 на H200 показывает, насколько сильно память влияет на результирующую производительность. Возросшая пропускная способность, которая ранее была увеличена с 3,35 Тбайт/с до 4,8 Тбайт/с, ускорила интерактивный рендеринг почти на 43%. Дополнительное пространство памяти помогло сократить объем передаваемых данных и увеличить допустимый размер KVCache за счет утроения количества токенов, генерируемых в секунду.. Эксперты сообщают, что такая оптимизация особенно полезна для более «продвинутых» моделей, которые могут генерировать более высокий доход на акселератор.
Однако одних улучшений в скорости и памяти недостаточно, что подтвердили испытания AMD с Instinct MI300X, MI325X и MI355X (от 192 до 288 ГБ). Аналитики отмечают, что их возможности ограничены не столько программным обеспечением, сколько спецификой подключения ускорителей друг к другу. NVIDIA предлагает комплексное переключение через NVLink, что позволяет 72 ускорителям GB200 или GB300 выполнять одну и ту же задачу, уменьшать задержку для больших языковых моделей и при этом оставаться экономически эффективными.
Исследователи предполагают, что даже один NVL72 позволяет расширить длину вывода до более чем 100 000 токенов без критического увеличения стоимости.. По данным SemiAnaанализа, это означает, что NVIDIA по-прежнему остается единственным поставщиком комплексного решения, способного удовлетворить требования реализации больших языковых моделей, сохраняя при этом высокую скорость, масштабируемость и экономическую эффективность.