me vs internet

Главная новость недели — новые модели Anthropic (которые даже не сменили версии, показав солидный рост производетельности) и Claude Computer Use.

Эта функциональность позволяет Claude управлять компьютером как человек: двигать курсором, нажимать кнопки, вводить текст, и использовать любое программное обеспечение. Может выполнять последовательности действий (например, проверить таблицу → открыть браузер → заполнить форму). Пока находится в экспериментальной стадии и доступна через API.

Это не первый такой продукт — подобное уже давно реализовано в OpenInterpreter, своя модель для взаимодействия с интерфейсами есть у Apple, подобную же модель показывали злополучные Rabbit (они называли её large action model).

Однако это первый раз, когда подобный API опубликован компанией-разработчиком большой языковой модели, доступнен сразу же неограниченному кругу пользователей.

У модели полно ограничений. Некоторые базовые действия (скроллинг, перетаскивание, зум) даются пока что с трудом. В моих текстах она не справлялась с такими простыми операциями, как закрытие всплывающих окон с запросом про cookie — и, надо признать, эти интерфейсы действительно сложны, и для человека тоже.

Computer Use набрал 14.9% в тесте OSWorld, оценивающей способности ии-моделей пользоваться компьютером, в категории "только скриншоты" — это почти вдвое лучше следующего конкурента (7.8%), но всё ещё не первое место (там сейчас [Agent-S)).
Видео-демо: Claude | Computer use for automating operations - YouTube

Как протестировать уже сегодня:
(понадобятся навыки работы с терминалом)

Безопасный способ. Установите стартовые пакеты из официального дистрибутива anthropics/anthropic-quickstarts · GitHub — он установит виртуальную машину, у которой нет доступа к вашей файловой системе. Все тестовые операции будут выполняться внутри этой виртуальной машины.

Небезопасный способ. Через вышеупомянытй OpenInterpreter на MacOS. Установите утилиту (pip install open-interpreter), выберите модель (interpreter --model claude-3) и запустите команду (interpreter --os). Теперь вы можете давать утилите текстовые команды, для выполнения которых OpenInterpreter может запускать программы, искать в интернете, создавать, редактировать и удалять файлы.
Для работы с интерфейсами программа делает скриншоты и отправляет их в API Claude, поэтому будьте готовы, что это будет небыстро, и, к сожалению, недешево.

На один эксперимент: поискать в интернете, сохранить данные в таблицу, я потратил около часа, 2 500 000 токенов и почти 8 долларов. Но главное, что эксперимент удался, я получил на выходе pdf с отформатированными результатами поиска.

На другой эксперимент — сделать для меня подборку событий на выходные в Берлине с учетом моих интересов и вывод их в markdown-таблицу, потратил почти 3 доллара и почти миллион токенов.

Если задачи формулировать максимально точно, минимизировать при их постановке использование графических интерфейсов, снизить разрешение экрана (чтобы уменьшить количество потребляемых токенов), то цены можно минимизировать — тут промт-инжиниринг и подготовка среды будут иметь в ближайшее время огромное значение.

И хотя всё это работает пока не очень надежно, есть что-то очень футуристичное в том, что ии может пользоваться графическими интерфейсами почти так же, как мы.

— Глеб

Anthropic

Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku

A refreshed, more powerful Claude 3.5 Sonnet, Claude 3.5 Haiku, and a new experimental AI capability: computer use.

24 views15:16

me vs internet

https://kenhv.com/blog/securing-a-linux-server

Ken Harris

Securing A Linux Server

A guide to securing and hardening a Linux server install.

24 views12:27

me vs internet

https://www.youtube.com/watch?v=D-RXVg6JUDQ