Группа муравей выяснила, как эффективно обучать ИИ с китайскими чипсами вместо NVIDIA

Ant Group представила новый метод обучения и моделей с использованием китайских полупроводников, включая чипы Huawei и Alibaba. Компания внедрила смесь архитектуры экспертов и уже достигла результатов, сопоставимых с использованием графического процессора NVIDIA H800, который повышает позиции Китая на фоне ограничений США.
Достижение знаменует собой важную стадию в технологической оппозиции между китайскими и американскими компаниями, которая резко возрождается после DeepSeek, доказало, что можно создать современные крупные языковые модели (LLM) без вливания миллиардов долларов, аналогичных тем, которые были сделаны OpenAI и Google. Хотя Ant Group все еще использует Nvidia Solutions в ряде проектов, компания предпочитает альтернативных поставщиков, включая AMD, а также местных китайских производителей полупроводников в своих новых разработках, особенно в растущем давлении с ограничениями экспорта в США. Это позволяет китайским компаниям поддерживать темпы технологического прогресса и снижать их зависимость от иностранных поставщиков, в основном от NVIDIA.
Согласно исследовательскому документу, опубликованному в марте, Ant Group утверждает, что ее модели искусственного интеллекта превосходят разработку Meta в определенных тестах. Однако эти утверждения еще не подтверждены. В то же время важно отметить, что H800, хотя он не принадлежит к продвинутому классу ускорителей NVIDIA, остается мощным инструментом, способным справиться с ресурсными задачами для обучения ИИ. Благодаря своей оптимизированной стратегии Ant Group смогла снизить стоимость обучения модели II на 1 триллион долларов с 6,3 млн. Долл. США (880 000 долл. США) до 5,1 млн юаней (707 000 долл. США). В этом контексте токены являются минимальными единицами текста, по которым LLM обучен генерировать значимые ответы на запросы пользователей.