Элон Маск утверждает, что Грок-4-самый умный и мир. Независимые тесты показывают совершенно другую правду о ее возможностях

Последняя модель искусственного интеллекта Xai от Xai Elona Muska вызывает много споров. Хотя официальные показатели указывают на преимущество перед конкуренцией во многих областях, независимые тесты показывают недостатки этой системы. Модель, стоимость которой стоит до 300 долларов в месяц, может быть явно слабее, чем конкуренция, в зависимости от типа задачи. Действительно ли это заслуживает того, чтобы его называли самым продвинутым ИИ в мире?

Чатбот Xai Grok 4 показывает, что ИИ может вести переговоры, но под давлением он легко теряет свое преимущество. Даже Flash Gemini 2.5 достигла лучших результатов, чем он в динамических стратегических проблемах.

Грок 4 дебютирует в тени скандала. Действительно ли новая модель XAI превышает CHATGPT и Gemini в каждой области?

Модель Xai Grok-4 достигает многообещающих результатов в тестах искусственного интеллекта. В то время как официальные тесты показывают его доминирование в отношении конкуренции, независимые тесты показывают серьезные слабости в областях, требующих динамической стратегии и сотрудничества. Последний продукт Elon Musk занял только пятое место в эталоне многоагентного шага, достигнув результата 7,9 точек TrueSkill, в то время как модель Openai O3 сохраняет первую позицию с результатом 9,4 очка. Многоагентный тест Stage Race Benchmark оценивает способность моделей искусственного интеллекта для сотрудничества и стратегического мышления при времени, используя головоломки от New York Times Connections. Результаты показывают, что GROK-4 может быть оптимизирован для стандартных академических показателей, но в ситуациях не удается, требуя адаптации и сложных рассуждений в режиме реального времени. Это может означать, что модель изучила учебные данные «наизусть» вместо развития реальных аналитических навыков.

Компания XAI рекламирует GROK-4 как систему, которая достигает результатов на докторском уровне во всех академических областях. Модель на самом деле впечатляет в тестах Arc-Agi-2, где она получила 15,9 процента, что является результатом, значительно превышающим предыдущие достижения в этой категории. Тем не менее, плохие результаты в стратегических тестах указывают на ограничения в практическом бизнесе и креативных приложениях, где требуется гибкость мышления. Прайс -лист новых моделей является спорным. Стандартный GROK-4 стоит 30 долларов в месяц, в то время как тяжелая версия Supergrok требует платы в размере 300 долларов в месяц. Это самая дорогая модель искусственного интеллекта, доступную в продаже. Тем не менее, пользователи сообщают о смешанном опыте с системой, особенно в контексте недавних противоречий, связанных с созданием ненадлежащего контента предыдущими версиями Chatbot.

Источник: Lechmazur (x), Vraserx (x), Wccftech