Новая модель Google Gemini 3 Pro превосходит GPT-5.1 в тестах обработки внешнего кода и генерации кода.
Пыль еще не улеглась после премьер конкурирующих моделей, а Google выложил на стол свое самое мощное оружие. Речь идет о модели Gemini 3. Эта премьера — больше, чем просто очередное повышение производительности. Google делает ставку на революцию в том, как мы взаимодействуем с искусственным интеллектом, превращая его из роли пассивного помощника в активного, автономного агента. Действительно ли это тот «огромный шаг к AGI», о котором мечтает вся индустрия? Что эти новые вычислительные мощности и уникальная стратегия интеграции означают для рынка?
Google Gemini 3 и агентская платформа Антигравитация меняют роль ИИ с пассивного советника на активного автономного агента, способного самостоятельно планировать, кодировать и тестировать сложные задачи.
Google отправляет искусственный интеллект в космос. Project Suncatcher — самый безумный план технологического гиганта
Google Gemini 3 Pro дебютирует с результатом 1501 балла Эло на LMArena, став первой общедоступной моделью, преодолевшей барьер в 1500 баллов. Это на 50 пунктов больше, чем у его предшественника Gemini 2.5 Pro, который оставался на вершине рейтинга более полугода. На практике это означает заметный скачок качества ответа. Модель лучше понимает контекст запроса и требует менее точных подсказок для получения ожидаемых результатов. Google также может похвастаться результатом в 91,9%. в тесте GPQA Diamond, который проверяет рассуждения на докторском уровне, и 23,4 процента в MathArena Apex, новом стандарте математических задач.
Исследование будущего жизни. Большинство американцев хотят, чтобы разработка суперИИ была остановлена до тех пор, пока не будут предоставлены доказательства безопасности.
Однако настоящей звездой является режим Deep Think. Это расширенная версия базовой модели, в которой больше времени «думается» о проблеме, прежде чем ответить. Результаты? В тесте ARC-AGI-2, который измеряет способность ИИ решать совершенно новые, невиданные ранее логические головоломки, Deep Think набирает 45,1 процента. эффективность. Для сравнения, стандартный Gemini 3 Pro показывает в том же тесте 31,1%, а конкурирующие модели редко превышают 20%. Тест ARC-AGI — это что-то вроде выпускного экзамена в средней школе по абстрактному интеллекту для искусственного интеллекта, как компас, указывающий направление в сторону AGI, то есть общего искусственного интеллекта.
Искусственный интеллект Google AI Mode Shopping будет делать покупки за вас и звонить в магазины. Это не научная фантастика, это уже работает
Что это значит для обычного пользователя? Теоретически можно поручить ИИ более сложные задачи, требующие многоэтапного планирования. Gemini 3 лучше справляется с долгосрочным управлением инструментами, как показал тест Vending-Bench 2, где модель имитировала управление компанией в течение года без потери контекста задачи. Практические приложения включают в себя организацию почтового ящика электронной почты, бронирование местных услуг и анализ длинных видеозаписей, например, анализ техники в матче по пиклболу и составление плана тренировок.
Польская команда SoftServe выиграла хакатон Google Cloud Agentic Era Hackathon 2025 с решением Team Buddy
Самой большой новинкой является платформа Google Antigradity, бесплатная среда разработки, построенная на основе философии «агент прежде всего». В отличие от традиционных IDE, где ИИ выступает в роли помощника, подсказывающего код, Antigradity предоставляет агентам прямой доступ к редактору, терминалу и браузеру. Это означает, что ИИ не только пишет код, но и самостоятельно тестирует его, проверяет в браузере и выполняет итерацию решения, не спрашивая постоянно программиста. Платформа использует Gemini 3 Pro для задач кодирования, Gemini 2.5 Computer Use для управления браузером и Nano Banana для редактирования изображений — все в одной экосистеме. Оценка Эло 1487 на WebDev Arena и 76,2 процента. в SWE-bench Verified подтверждает, что это не просто маркетинговый ход, а реальная альтернатива таким решениям, как Cursor или GitHub Copilot.
Генерация музыки из текста и аудио. OpenAI входит в экосистему звука AI после успеха Sora и будет конкурировать с Suno и Lyria
Однако стоит помнить, что тесты — это одно, а реальное удобство использования — другое. Как мы заметили при тестировании Gemini 2.5 Pro, конкурентный Claude 3.5 Sonnet по-прежнему сохранял преимущество в аналитических рассуждениях, несмотря на аналогичные результаты в синтетических тестах. Ранние отзывы пользователей о Gemini 3 указывают на проблему с галлюцинациями. Модель может быть излишне самоуверенной, предоставляя ложную информацию с непоколебимой уверенностью. Google заявляет, что результат составляет 72,1%. в SimpleQA Verified показывает прогресс в фактической точности, но все еще далек от совершенства.
Обзор Google AI и Gemini ссылаются на другие домены, чем традиционная поисковая система. Ученые открыли скрытые механизмы
Gemini 3 Pro теперь доступен в приложении Gemini для всех пользователей, в Google AI Studio и Vertex AI для разработчиков, а также в режиме AI в Google Search. Это первый раз, когда новая модель дебютирует в Поиске с первого дня. Режим Deep Think будет доступен подписчикам Google AI Ultra в ближайшие недели после тестов безопасности. Платформа Antigradity доступна бесплатно, а также поддерживает модели Claude Sonnet и GPT-OSS, что делает ее экосистемой, открытой для различных решений искусственного интеллекта.
Источник: Блог Google.