Искусственный интеллект учится пользоваться компьютером. Anthropic расширяет возможности модели Claude 3.5 Sonnet

Сегодня разработка больших языковых моделей (LLM) принимает относительно новое направление. Понимание различных тем популярными чат-ботами становится лучше, но оно не идеально. Однако компании уже работают над тем, чтобы модели ИИ могли сами управлять компьютером. Одна из них — Anthropic, которая усовершенствовала свою модель Claude 3.5 Sonnet для решения этой задачи. Кстати, было объявлено, что скоро появится в продаже модель Claude 3.5 Haiku.

Anthropic объявила, что ее улучшенная модель искусственного интеллекта под названием Claude 3.5 Sonnet способна работать на компьютере. Кроме того, скоро будет доступна новая модель Claude 3.5 Haiku.

Claude 3 — новое семейство моделей ИИ, возможности которого превосходят GPT-4 от OpenAI. Однако соперник свободен лишь частично.

Новая модель Claude 3.5 Haiku во многих тестах превосходит самую совершенную версию предыдущего поколения Claude 3 Opus. Его преимуществом является скорость, и он лучше всех умеет программировать. Доступность запланирована на октябрь 2024 года (изначально только в виде текстовой модели, со временем появится возможность анализа графики). Однако самым интересным решением, несомненно, является улучшенный Claude 3.5 Sonnet, имеющий возможность использования компьютера. Это означает, что модель ИИ может «видеть» то, что находится на экране, перемещать мышь, нажимать на определенные элементы и вводить текст.

Модель OpenAI GPT-4 была свергнута. Пользователи выбрали следующего короля — новинку от Anthropic.

Правда, мы имеем дело с экспериментальной версией, над которой еще нужно много работать, чтобы можно было использовать это решение для более сложных задач (во время показа модель перестала записывать экран, что привело к потере всего материала). , а в другой раз решила передохнуть и посмотреть на снимки Йеллоустонского национального парка). Однако возможности Claude 3.5 Sonnet уже доступны (публичная бета-версия) через API. Так что теперь разработчики могут протестировать новый инструмент, а исследователи Anthropic будут постепенно расширять возможности модели в этом плане. В бенчмарке OSWorld, оценивающем возможности моделей ИИ в компьютерных задачах, Claude 3.5 Sonnet в категории «Скриншот» набрал балл 14,9% за 15 шагов (для людей результат обычно находится в диапазоне 70-75% ). Для сравнения, GPT-4 Vision закончил этот тест с результатом 7,69%, а Gemini-Pro Vision — 5,8%. Так что пройдет еще много времени, прежде чем модели ИИ начнут хорошо работать с компьютерами, но они на правильном пути (что, конечно, несет в себе много рисков, но Anthropic считает, что лучше тестировать новые навыки сейчас, когда модель не представляет слишком большой угрозы, чем если бы она сделала это только тогда, когда Сонет Клода 3.5 потребовал бы использования большей безопасности и риск был бы более серьезным).

Даже во время записи этих демо мы столкнулись с некоторыми забавными моментами. В одном из них Клод случайно остановил длительную запись экрана, в результате чего все кадры были потеряны.

Позже Клод сделал перерыв в нашей демонстрации кода и начал использовать фотографии Йеллоустонского национального парка. pic.twitter.com/r6Lrx6XPxZ

— Антропный (@AnthropicAI) 22 октября 2024 г.