Отказ с Huawei был прорывом. DeepSeek v3.1 строит новые мосты — в будущем без nvidia

Отказ с Huawei был прорывом. DeepSeek v3.1 строит новые мосты - в будущем без nvidia

Контекстное окно удвоилось, но главная битва только начинается.

DeepSeek представила обновленную версию своей ведущей языковой модели — v3.1, которая, по словам разработчиков, адаптирована для использования с предстоящими китайскими чипсами. Новая версия основана на обновленном формате плавающей запятой UE8M0, который является вариантом FP8. Он предназначен для обеспечения лучшей совместимости с будущими ускорителями ИИ, изготовленными в Китае.

Компания заявила, что ранее использовала стандартный формат FP8 E4M3 и NДорога UE8M0 не столько связана с оптимизацией производительности, сколько с обеспечением полной совместимости с новой архитектурой процессораS DeepSeek не назвал конкретных производителей чипов, но ранее сообщалось о тесном сотрудничестве с Huawei, в частности, о попытках модели следующего поколения (условно обозначенной как R2) на основе ускорителя восхождения. Эти попытки оказались безуспешными: модель должна была вернуться в чипы Nvidia H20. Тем не менее, Huawei продолжает рассматриваться как возможная платформа вывода.

Любопытно, что, несмотря на представление V3.1 в качестве значительного обновления, фактически модель обучена индексу управления предыдущей версией V3. Инновации — это не архитектурные изменения, а скорее реконфигурирование и интеграция новых механизмов обработки данных. Среди них — объединить подходы к созданию «вдумчивых» и «бездумных» ответов. Ранее DepePeek предлагал два варианта моделей для разных задач, но теперь два режима объединяются в одну систему, а переключатель между ними с использованием шаблонов чата.

Этот подход уже был протестирован другими компаниями, включая Alibaba, которая пыталась реализовать такую ​​концепцию в своих моделях QWEN 3 в первой половине года. Но затем идея была заброшена, так как такая гибридизация привела к худшим результатам.

В случае с DeepSeek ситуация, по крайней мере, в тестах, отличается: модель показывает значительное повышение точности при получении простых (безрассудных) ответов, и когда режим рассуждения активируется, токены, необходимые для получения соответствующего результата. Это особенно важно для снижения стоимости поддержания модели в производственной среде.

Контекстное окно V3.1 также было увеличено: теперь он содержит до 131072 токенов — вдвое больше, чем предыдущая версия. Тем не менее, Depepeek все еще отстает даже от своих китайских конкурентов в этом параметре, такого как QWEN3, который может обрабатывать контексты для одного миллиона токенов.

Особое внимание в обновлении уделяется параметрам для вызова инструментов и взаимодействия с внешними функциями-ключевым компонентом для сценариев ИИ на основе сельского хозяйства. Согласно тестам BrowseComp, эталон, который оценивает автономные навигационные навыки браузера, новая модель достигла результата 30 баллов, в то время как предыдущее обновление (версия R1 мая) получила всего 8,9 баллов. Это показывает резкий прогресс в сложных задачах, которые требуют взаимодействия с внешними источниками информации реальной времени.

Как весовые параметры базовой модели, так и ее специализированная версия с инструкциями доступны для разработчиков — они опубликованы в обнимании лица и Modescope. Модель также интегрирована в свой чат -бот и доступна через API.

Таким образом, Deepseek полагается на предварительно построенную архитектуру, готовую для будущих китайских чипсов. Это подчеркивает стратегическую цель снижения зависимости от иностранных технологий и обеспечения технологической автономии, особенно на фоне ограничений на поставку западных акселераторов.

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии