Высшие уровни математики представляют собой слишком сложную задачу для ИИ. Как себя показали Gemini 1.5 Pro, Claude 3.5 Sonnet и GPT-4o?

Сегодня искусственный интеллект представлен как практически универсальное решение, которое будет работать не только для генерации изображений и видео, но и для помощи в решении сложных задач или выполнении домашних заданий по различным предметам. Текущие тесты показывают, что модели ИИ достаточно хорошо работают в различных областях, таких как математика. Однако новый тест, проверяющий навыки более высокого уровня, показывает, что ИИ в этой области посредственный.

Согласно многочисленным тестам, возможности искусственного интеллекта находятся на высоком уровне. Однако новый тест, в котором есть более сложные математические задачи, показал, что моделям ИИ предстоит еще много работы.

Искусственный интеллект учится пользоваться компьютером. Anthropic расширяет возможности модели Claude 3.5 Sonnet

Исследовательский институт Epoch AI решил создать тест под названием FrontierMath, чтобы проверить возможности моделей ИИ в области математики экспертного уровня. Важно отметить, что искусственному интеллекту приходилось решать задачи, которых нет в открытом доступе, поэтому он не мог заранее на них потренироваться. Задачи настолько сложны, что на их решение у специалистов уходит от многих часов до даже нескольких дней. Предыдущие тесты, такие как MMLU или GSM-8k, показали, что модели ИИ способны решать подавляющее большинство задач. Однако FrontierMath демонстрирует совершенно иное видение — ни одна версия искусственного интеллекта в виде больших языковых моделей не решила более 2%.

Исследователи Google DeepMind и биохимик получили Нобелевскую премию. Искусственный интеллект оказался революционным

Было протестировано несколько моделей ИИ, лучшими из которых стали Gemini 1.5 Pro и Claude 3.5 Sonnet — им удалось решить почти 2% сложных математических задач. Остальные модели показали себя ещё хуже, и стоит отметить, что среди них была превью-версия самой продвинутой модели o1 от OpenAI. FrontierMath позволяет искусственному интеллекту использовать среду, основанную на языке программирования Python, где он может писать и выполнять код. Как видите, моделям ИИ еще многое предстоит наверстать, когда дело доходит до более сложных математических задач. Следует отметить, что Epoch AI намерена в ближайшие месяцы выпустить больше примеров задач из тестового набора.

Источник: Epoch AI, исследователь семантики.