Новая модель Google Gemini 3 Pro превосходит GPT-5.1 в тестах обработки внешнего кода и генерации кода.

Новая модель Google Gemini 3 Pro превосходит GPT-5.1 в тестах обработки внешнего кода и генерации кода.

Пыль еще не улеглась после премьер конкурирующих моделей, а Google выложил на стол свое самое мощное оружие. Речь идет о модели Gemini 3. Эта премьера — больше, чем просто очередное повышение производительности. Google делает ставку на революцию в том, как мы взаимодействуем с искусственным интеллектом, превращая его из роли пассивного помощника в активного, автономного агента. Действительно ли это тот «огромный шаг к AGI», о котором мечтает вся индустрия? Что эти новые вычислительные мощности и уникальная стратегия интеграции означают для рынка?

Google Gemini 3 и агентская платформа Антигравитация меняют роль ИИ с пассивного советника на активного автономного агента, способного самостоятельно планировать, кодировать и тестировать сложные задачи.

Google отправляет искусственный интеллект в космос. Project Suncatcher — самый безумный план технологического гиганта

Google Gemini 3 Pro дебютирует с результатом 1501 балла Эло на LMArena, став первой общедоступной моделью, преодолевшей барьер в 1500 баллов. Это на 50 пунктов больше, чем у его предшественника Gemini 2.5 Pro, который оставался на вершине рейтинга более полугода. На практике это означает заметный скачок качества ответа. Модель лучше понимает контекст запроса и требует менее точных подсказок для получения ожидаемых результатов. Google также может похвастаться результатом в 91,9%. в тесте GPQA Diamond, который проверяет рассуждения на докторском уровне, и 23,4 процента в MathArena Apex, новом стандарте математических задач.

Исследование будущего жизни. Большинство американцев хотят, чтобы разработка суперИИ была остановлена ​​до тех пор, пока не будут предоставлены доказательства безопасности.

Однако настоящей звездой является режим Deep Think. Это расширенная версия базовой модели, в которой больше времени «думается» о проблеме, прежде чем ответить. Результаты? В тесте ARC-AGI-2, который измеряет способность ИИ решать совершенно новые, невиданные ранее логические головоломки, Deep Think набирает 45,1 процента. эффективность. Для сравнения, стандартный Gemini 3 Pro показывает в том же тесте 31,1%, а конкурирующие модели редко превышают 20%. Тест ARC-AGI — это что-то вроде выпускного экзамена в средней школе по абстрактному интеллекту для искусственного интеллекта, как компас, указывающий направление в сторону AGI, то есть общего искусственного интеллекта.

Искусственный интеллект Google AI Mode Shopping будет делать покупки за вас и звонить в магазины. Это не научная фантастика, это уже работает

Что это значит для обычного пользователя? Теоретически можно поручить ИИ более сложные задачи, требующие многоэтапного планирования. Gemini 3 лучше справляется с долгосрочным управлением инструментами, как показал тест Vending-Bench 2, где модель имитировала управление компанией в течение года без потери контекста задачи. Практические приложения включают в себя организацию почтового ящика электронной почты, бронирование местных услуг и анализ длинных видеозаписей, например, анализ техники в матче по пиклболу и составление плана тренировок.

Польская команда SoftServe выиграла хакатон Google Cloud Agentic Era Hackathon 2025 с решением Team Buddy

Самой большой новинкой является платформа Google Antigradity, бесплатная среда разработки, построенная на основе философии «агент прежде всего». В отличие от традиционных IDE, где ИИ выступает в роли помощника, подсказывающего код, Antigradity предоставляет агентам прямой доступ к редактору, терминалу и браузеру. Это означает, что ИИ не только пишет код, но и самостоятельно тестирует его, проверяет в браузере и выполняет итерацию решения, не спрашивая постоянно программиста. Платформа использует Gemini 3 Pro для задач кодирования, Gemini 2.5 Computer Use для управления браузером и Nano Banana для редактирования изображений — все в одной экосистеме. Оценка Эло 1487 на WebDev Arena и 76,2 процента. в SWE-bench Verified подтверждает, что это не просто маркетинговый ход, а реальная альтернатива таким решениям, как Cursor или GitHub Copilot.

Генерация музыки из текста и аудио. OpenAI входит в экосистему звука AI после успеха Sora и будет конкурировать с Suno и Lyria

Однако стоит помнить, что тесты — это одно, а реальное удобство использования — другое. Как мы заметили при тестировании Gemini 2.5 Pro, конкурентный Claude 3.5 Sonnet по-прежнему сохранял преимущество в аналитических рассуждениях, несмотря на аналогичные результаты в синтетических тестах. Ранние отзывы пользователей о Gemini 3 указывают на проблему с галлюцинациями. Модель может быть излишне самоуверенной, предоставляя ложную информацию с непоколебимой уверенностью. Google заявляет, что результат составляет 72,1%. в SimpleQA Verified показывает прогресс в фактической точности, но все еще далек от совершенства.

Обзор Google AI и Gemini ссылаются на другие домены, чем традиционная поисковая система. Ученые открыли скрытые механизмы

Gemini 3 Pro теперь доступен в приложении Gemini для всех пользователей, в Google AI Studio и Vertex AI для разработчиков, а также в режиме AI в Google Search. Это первый раз, когда новая модель дебютирует в Поиске с первого дня. Режим Deep Think будет доступен подписчикам Google AI Ultra в ближайшие недели после тестов безопасности. Платформа Antigradity доступна бесплатно, а также поддерживает модели Claude Sonnet и GPT-OSS, что делает ее экосистемой, открытой для различных решений искусственного интеллекта.

Источник: Блог Google.

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии