Alibaba нашла способ сократить количество используемых ускорителей Nvidia на 82%

Нехватка вычислительных мощностей, присущая быстро развивающемуся китайскому рынку искусственного интеллекта, усугубляется ограничениями на импорт специализированных ускорителей. Разработчики вынуждены оптимизироваться, и Alibaba нашла способ сократить на 82% количество ускорителей Nvidia, необходимых для запуска ее языковых моделей.
Как поясняет South China Morning Post, уже более трёх месяцев в одном из подразделений Alibaba Cloud идёт бета-тестирование специализированной системы Aegaeon. Согласно информации, представленной Alibaba на мероприятии SOSP в южнокорейской столице, эта система позволила сократить количество ускорителей Nvidia H20, обслуживающих десятки языковых моделей, — с 1192 до 213. Кроме того, соответствующие языковые модели используют до 72 миллионов параметров, пояснил источник.
Представители Alibaba сотрудничали с исследователями из Пекинского университета для создания этой системы, назвав ее «первая попытка снизить накладные расходы, связанные с одновременным обслуживанием рабочих нагрузок с помощью больших языковых моделейПоставщики облачных услуг, такие как Alibaba, сталкиваются с необходимостью одновременно обслуживать тысячи AI-моделей, но в области логического вывода чаще всего используются лишь несколько моделей, таких как Qwen или DeepSeek, а другие включаются довольно редко. Это приводит к растрате ресурсов. В экосистеме Alibaba Cloud, например, на обработку 1,35% выделяется до 17,7% ускорителей. запросов.
Исследователи по всему миру начали предлагать способы повышения эффективности вычислительных ресурсов за счет объединения в пулы, когда один графический процессор обслуживает несколько моделей. Система Aegaeon использует автоматическое масштабирование на уровне токена, что позволяет графическим процессорам переключаться между различными моделями непосредственно во время генерации токена. В результате один графический процессор может обрабатывать до семи моделей, тогда как альтернативные системы обычно обрабатывают только две или три. Задержка, необходимая для переключения между моделями в Aegaeon, уменьшена на 97%.
Alibaba тестирует эту систему на рынке моделей Bailian, который предлагает модели Qwen корпоративным пользователям. Ускорители Nvidia H20, созданные одноименной американской компанией, производятся специально для китайского рынка. В апреле на них действовал временный запрет на поставки в Китай, но к лету он был снят. Однако китайские власти начали настоятельно рекомендовать местным разработчикам отдавать приоритет компонентам местного производства. В результате, по словам руководителя компании, позиции Nvidia на китайском рынке передовых ИИ-чипов буквально сократились до нуля.
Напомним, что Alibaba разработала AI-чип T-Head PPU, который по производительности сравним с Nvidia H20.