Сотни тысяч графических процессоров в одной сети. Microsoft запускает Fairwater, «суперфабрику по обучению искусственного интеллекта» планетарного масштаба

Сотни тысяч графических процессоров в одной сети. Microsoft запускает Fairwater, «суперфабрику по обучению искусственного интеллекта» планетарного масштаба

140 кВт на стойку, 800 Гбит/с между графическими процессорами и 190 000 миль оптики. Там, где проходят обычные дата-центры, этот только начинается.

Индустрия искусственного интеллекта требует все больше вычислительных ресурсов, а большие модели уже не помещаются в привычные облачные платформы. Вот почему Microsoft разрабатывает инфраструктуру Fairwater — центр обработки данных нового типа, предназначенный для обучения нейронных сетей в масштабах, ранее недостижимых для коммерческих систем.. Компания запустила еще один узел этого комплекса в Атланте, подключив его к первому объекту Fairwater в Висконсине, первым суперкомпьютерам искусственного интеллекта и глобальной сети Azure. Вместе эти элементы образуют распределенную инфраструктуру, которую компания описывает как суперфабрику искусственного интеллекта планетарного масштаба.

Идея Фэйруотера основана на максимизации плотности аппаратного обеспечения, участвующего в обучении моделей. Обычные облачные структуры строятся вокруг множества отдельных кластеров с разными функциями, которые соединены сложной многоуровневой сетью. Fairwater придерживается другого подхода. Здесь сотни тысяч ускорителей NVIDIA соединены в плоскую архитектуру, образуя единый вычислительный цикл. Такая конструкция стала возможной благодаря опыту, полученному при создании инфраструктур искусственного интеллекта предыдущих поколений и поддержке крупномасштабных задач обучения, выполнение которых постоянно затруднялось сетевыми и аппаратными ограничениями.

Современные модели больше не обучаются в рамках монолитного процесса. Работа разделена на этапы: предварительное обучение, предварительное обучение конкретной задаче, методы обучения с подкреплением и генерация искусственных данных. Чтобы гибко распределять эти рабочие нагрузки, Microsoft создала искусственный интеллект. Магистральная сеть WAN – выделенная оптоволоконная сеть, которая соединяет объекты Fairwater и позволяет перемещать различные компоненты обучения туда, где они работают более эффективно. Это повышает удобство использования оборудования и ускоряет выполнение задач.

Одним из основных ограничений кластеров ИИ являются физические расстояния. Чем дальше друг от друга расположены ускорители, тем выше задержка. На масштабах, измеряемых триллионами параметров, даже самые маленькие значения становятся значимыми. Вот почему все, что делает Fairwater, — это сокращает расстояния между элементами. Охлаждение необходимо начать в первую очередь: плотная посадка невозможна без стабильного отвода тепла.

Для этого используется жидкостная система, в которой теплоноситель циркулирует по замкнутому контуру. Зарядка производится один раз, после чего состав обновляется только при изменении химических параметров. Ожидаемый срок службы жидкости составит более шести лет.. Объем первоначальной заливки сопоставим с годовой стоимостью около двадцати домов, но дальнейших потерь практически нет, так как испарение не используется. Это решение делает инфраструктуру значительно более экологически чистой, чем традиционные системы водоснабжения.

Высокая эффективность рассеивания тепла позволяет увеличить плотность стоек. В Fairwater одна стойка рассчитана примерно на 140 кВт, а один ряд стоек — на 1360 кВт. Нагретая жидкость, прошедшая через холодные пластины ускорителей, направляется в большой охлаждающий комплекс, поддерживающий стабильную работу даже при постоянной нагрузке АИ.

Не менее важной особенностью является двухэтажная конструкция здания. Большинство задач ИИ чувствительны к длине кабеля, и здесь каждый ускоритель подключен к любому другому ускорителю. Размещаем стойки в трехмерный объем значительно сокращает общую длину линий, что снижает задержку, повышает стабильность сети и снижает затраты на обслуживание связи.

Источник питания это отдельная инженерная задача. Площадка в Атланте была выбрана из-за стабильности местной электросети: она может обеспечить доступность около 99,99% при типичных затратах около 99,9%. Этот баланс позволяет отказаться от некоторых традиционных средств резервирования, таких как локальные генераторы, большие ИБП и двойное питание. Это ускоряет ввод в эксплуатацию и снижает затраты на инфраструктуру без ущерба для надежности.

НагрузкиОднако, генерируемые нейронными сетями, возникают новые проблемы: внезапные изменения в потреблении могут вызвать колебания в энергосистеме региона. Чтобы компенсировать такие эффекты, Microsoft использует несколько механизмов. На программном уровне в периоды пониженной активности запускаются вспомогательные процессы, сглаживающие профиль потребления. С аппаратной точки зрения ускорители могут самостоятельно ограничивать свой энергетический профиль. Эту схему дополняет локальное хранилище, сглаживающее пики без использования внешних источников.

Вычислительная часть Fairwater основан на ускорителях и выделенных серверах NVIDIA Blackwell. Комплекс объединяет эти графические процессоры в кластер, который масштабируется за пределы стандартных сетевых архитектур за счет нетривиальных подходов к пропускной способности и взаимосвязи. В одном шкафу по NVLink подключается до 72 ускорителей для минимальной задержки и высокой скорости обмена данными. Такой шкаф поддерживает трафик между графическими процессорами со скоростью до 1,8 ТБ/с и предоставляет каждому ускорителю доступ к более чем 14 ТБ общей памяти.

Затем стойки объединяются в более крупные модули – капсулы – а затем в единую схему уровня суперкомпьютера. Он использует двухуровневую магистральную сеть на базе Ethernet, которая обеспечивает скорость до 800 Гбит/с между ускорителями. Использование открытой экосистемы Ethernet и операционной системы SONiC позволяет использовать аппаратное обеспечение массового производства без привязки к специализированным решениям.

Чтобы справиться с перегрузкиMicrosoft оптимизировала механизмы обработки пакетов, добавила маршрутизацию с разделением трафика и внедрила высокочастотную телеметрию. Эти инструменты предотвращают перегрузку, ускоряют обнаружение потерь и повторную передачу, а также обеспечивают гибкую балансировку нагрузки. Все это обеспечивает низкую задержку и стабильную производительность при выполнении задач с интенсивным использованием искусственного интеллекта.

Даже с этими нововведениями сайт не может обрабатывать модели с триллионами параметров, поэтому он и создан. оптическая магистраль AI WANкоторый объединяет сайты в общую систему. За год Microsoft проложила более 120 000 миль оптоволоконных линий по всей территории США. Эти линии соединяют несколько поколений суперкомпьютеров и позволяют распределенной сети работать как единой логической машине.

Основное отличие нового подхода состоит в том, что трафик больше не должен следовать по одному и тому же маршрутунезависимо от характера задачи. Появилась возможность выбирать разные режимы обмена: локальный внутри одного сайта, расширенный между сайтами или смешанный. Это делает инфраструктуру более гибкой и улучшает использование ресурсов.

Новый узел Fairwater в Атланте показывает, как Microsoft перестраивает инфраструктуру в соответствии с требованиями современных моделей. Он сочетает в себе вычислительную мощность высокой плотности, энергоэффективные технологии, интеллектуальное охлаждение и масштабируемые сетевые схемы, рассчитанные на экстремальные рабочие нагрузки. Все это создает основу для обучения крупных нейронных сетей, которые до недавнего времени были доступны только исследовательским центрам.

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии