Заметки LLM-энтузиаста
509 subscribers
139 photos
17 videos
1 file
171 links
Дмитрий Жечков @djdim
архитектор в Yandex Cloud,
ex. VMware NSX specialist, ex. Cisco SE

Здесь пишу свои заметки по LLM (большим языковым моделям) и AI-разработке.

Это личное мнение и не отражает официальную позицию компании, в которой я работаю.
Download Telegram
#news #microsoft #omnitool #omniparser #agent #opensource #automation

🤖 Microsoft представила OmniParser V2 и OmniTool

👀 Похоже, у OpenAI Operator появился еще один серьезный конкурент! Microsoft выпустила два open-source инструмента, позволяющих языковым моделям (LLM) видеть, понимать и управлять компьютером почти как человек.

🔍 Почему это может быть интересно? В отличие от закрытого OpenAI Operator, эти инструменты доступны как open-source решения, что дает больше гибкости в использовании и настройке.

📱 OmniParser V2:
• Анализирует скриншоты и преобразует UI в структурированные данные
• На 60% быстрее первой версии
• Улучшенное распознавание мелких элементов интерфейса
• Работает на CPU (с опциональной поддержкой GPU)
• Поддерживает парсинг документов и UI-компонентов

🛠 OmniTool:
• Автоматизирует компьютерные задачи
• Умеет навигировать по браузеру
• Открывает приложения
• Выполняет команды

💻 Требования для установки OmniParser V2: • Git • Python • Conda • Токен Hugging Face

🖥 Требования для OmniTool : • Windows 11 VM • Docker • 20+ ГБ свободного места • Мощный ПК

⚡️ Важно: несмотря на пока еще достаточно сложный процесс установки, OmniTool после настройки может автоматизировать практически любую компьютерную задачу (демка здесь). Это делает его мощным AI-помощником для автоматизации повторяющихся задач, анализа UI-компонентов и интеграции с другими рабочими процессами.

🎯 Где это можно применить:
• Автоматизация тестирования ПО
• Извлечение данных из разных источников
• Автоматизация рабочего стола
• Корпоративная автоматизация
• Кибербезопасность и мониторинг систем

🤔 Интересный факт: с помощью таких инструментов AI может, например, самостоятельно найти репозиторий на GitHub, скопировать ссылку для клонирования, открыть терминал и выполнить команду clone.

Полный набор роликов со сценариями использования от разработчиков здесь.

#AI #Microsoft #Automation #Tech #Development #OpenAI
👍2❤‍🔥1🔥1
Как GPT может строить рабочие процессы в N8N без лишних туториалов 🤖

В качестве продолжения и дополнения к более раннему посту .

Если вы используете N8N для автоматизации бизнес-процессов или создаете решения для клиентов, возможно, стоит обратить внимание на специализированного бота в ChatGPT. Он способен значительно упростить вашу работу. 🧠

Что это такое и как найти

Речь идет о боте "N8N Assistant", который можно найти в разделе GPTs:
1️⃣ Откройте ChatGPT
2️⃣ Нажмите "Explore GPTs" в боковой панели
3️⃣ Введите "N8N" в поиске
4️⃣ Выберите "N8N Assistant" из результатов (самый верхний в представленном списке - см. скриншот)
Или по прямой ссылке

Бот обучен на документации N8N и понимает структуру узлов, типы автоматизаций и особенности масштабирования. Звучит многообещающе, хотя, как обычно с ИИ-инструментами, результаты могут варьироваться. 😏

Полезные способы применения

Есть несколько сценариев использования бота:

📋 Проверка существующих рабочих процессов

• Загрузите JSON-файл вашего рабочего процесса (через три точки → Download в интерфейсе N8N)
• Спросите бота: Do you see any potential problems with this workflow? If I want to run any records at scale, any suggestions for improvements
• Получите анализ потенциальных проблем и рекомендации по оптимизации

💻 Создание JavaScript-выражений
• Просто опишите, что должно делать выражение
• Бот сгенерирует готовый код для вставки в N8N

🔧 Исправление ошибок
• Отправьте боту скриншот ошибки
• Получите рекомендации по исправлению

✍️ Улучшение AI-промптов для N8N
• Поделитесь своим текущим промптом
• Бот предложит улучшенную версию

🆕 Создание рабочих процессов с нуля
• Опишите, что должен делать рабочий процесс
• Бот создаст JSON-файл, который можно импортировать в N8N

Если сравнивать данный инструмент с https://n8nchat.com (подробнее про него писал тут), то данный инструмент хоть и не имеет встроенной браузерной интеграции с n8n, все же может сэкономить время на разработке и отладке автоматизаций. 🕒

#n8n #automation #chatgpt #workflow #productivity
👍4❤‍🔥3🔥1
Claude Code получил функцию Hooks для интеграции в рабочий процесс 🔧

В Claude Code появилась новая возможность — Hooks, которая позволяет выполнять пользовательские shell-команды до или после использования инструментов. Это позволяет пользователю интегрировать в пайплайн разработки с использованием Claude Code свои собственные скрипты.

Доступные типы хуков:

1️⃣ PreToolUse — выполняется перед использованием инструмента, подходит для блокировки потенциально опасных операций

2️⃣ PostToolUse — запускается после использования инструмента, полезен для автоформатирования или логирования

3️⃣ Notification — срабатывает когда Claude требует внимания или задает вопрос

4️⃣ Stop — выполняется перед завершением ответа, подходит для очистки или генерации сводок

5️⃣ SubagentStop — запускается когда субагент Claude Code (вызов инструмента Task) завершает свою работу

Настройка и использование ⚙️

• Настройка через интерфейс /hooks (см. скриншот)
• Возможность фильтрации по названию инструмента
• Команды могут выполняться параллельно

Практические примеры:

• Notification хук для macOS со звуковым уведомлением (если его настроить на хук Stop или SubagentStop, то будет аналог того, что есть в Cursor Settings в разделе Settings -> Chat -> Completion Sound)
• Можно настроить отправку уведомлений в Slack или WhatsApp при завершении задач 📱

Безопасность 🔒

Claude контролирует безопасность вызовов — всегда запрашивает подтверждение перед внесением изменений, что предотвращает выполнение потенциально вредоносных скриптов.

Что круто: функция совместима и может работать с MCP инструментами

Подробности настройки в официальной документации

@llm_notes

#claude #hooks #vibecoding #development #automation
🔥5👍2💯2
rtrvr.ai показал лучшие результаты в тестах Web Bench 🚀

Я несколько раз в постах (1|2) уже упоминал вскользь такой инструмент для автономного решения рабочих задач в браузере как rtrvr.ai

Инструмент чрезвычайно эффективный - может почти полностью заменить человека, который работает с браузером (не только по результативности, но и по скорости работы), и имеет возможность запуска задач по расписанию, поэтому хотел бы посвятить ему отдельный пост.

Платформа rtrvr.ai продемонстрировала впечатляющие результаты в бенчмарке Web Bench, достигнув 81,39% успешности выполнения задач при среднем времени выполнения всего 0,9 минуты (см. скриншот).

Ключевые особенности архитектуры 🔧

rtrvr.ai использует локальный подход через Chrome-расширение (также есть расширение для Edge браузера под Windows), работая напрямую с DOM веб-страниц:

• Обход систем защиты от ботов и CAPTCHA
• Использование уже авторизованных сессий пользователя
• Поддержка работы в нескольких вкладках одновременно
• Интеграция пользовательской логики через AI Function Calling (можно добавлять свои инструменты)

Производительность по типам задач 📊

1️⃣ Задачи чтения данных: 88,24% успешности 2️⃣ Операции записи: 65,63% успешности
3️⃣ Средняя стоимость: $0,12 за задачу

Решение проблемы "экспоненциального отказа" ⚡️

Платформа эффективно справляется с усложнением многошаговых процессов благодаря:

• Параллельному выполнению в нескольких вкладках
• Работе с "живым" DOM
• Локальной оркестрации задач

Такой подход имитирует поведение реального пользователя, что значительно снижает количество ошибок при работе с динамическими элементами и сложными формами. Единственно что - по новой открываемой браузерной вкладке требует повторной авторизации, надо еще раз нажимать "ок".

Практическое применение 💼

rtrvr.ai подходит как для индивидуальных пользователей, так и для корпоративного использования, предлагая быструю и доступную автоматизацию веб-задач с минимальной настройкой.

Как и в любом AI-инструменте, эффективность использования сильно зависит от правильной постановки задачи.
Поэтому имеет смысл ознакомиться с лучшими практиками использования и попробовать готовые workflow.

А еще есть классная штука - запись своего workflow, для автоматизации рутины, которую делаешь, но долго или сложно описать словами. Кажется, такая функция сейчас должна работать "из коробки" в любом современном браузере :)

У инструмента есть полнофункциональный Free Tier, который обновляется каждый месяц, поэтому можно потестировать и посмотреть насколько он вам подходит (250 Initial Credits, 100 Credits/Month).

Подробности: https://www.rtrvr.ai/blog/web-bench-results
Записи тестов здесь

@llm_notes

#web #automation #ai #agents #browser #rtrvr
2👍2🔥1
ChatGPT Agent: новый инструмент для автоматизации задач 🤖

OpenAI представила ChatGPT Agent — он объядиняет возможности Operator и Deep Research в единой системе. Логичный шаг, теперь у Openai есть агент, который может самостоятельно выполнять сложные задачи, используя браузер, терминал и различные API.

Небольшое отступление. По сути, все эти задачи можно решить и без ChatGPT Agent, настроив в любом AI-кодере, у которого есть доступ к терминалу, необходимый набор MCP-серверов, но если серверов много - можно наткнуться на лимиты по количеству инструментов (как наример, в Cursor) или же AI-кодер может просто "запутаться" в количесте MCP-инструментов и начать делать что-то не то. Выход из такого положения тоже есть:
1) поместить инструкции по применению MCP-инструментов в системный промпт (rules-файлы)
2) использовать MCP-агрегаторы со встроенным RAG по списку MCP-инструментов наподобие ACI.DEV (отлично справляется в случае с Cursor, когда есть лимиты на количество MCP-tools, и что круто - этот инструмент может быть установлен локально!)

Судя по всему, сам сценарий использования стал настолько популярен, что Openai решили пойти по пути создания pret-a-porter агента, который в данном контексте выигрывает за счет того, что не требует дополнительной "сборки" и настройки под описанный выше класс задач и будет удобнее для обычного пользователя, который далек от AI-программирования и не хочет вдаваться в детали настройки MCP.

Основные возможности:
• Анализ календаря и подготовка брифингов по встречам
• Планирование покупок и составление списков
• Создание презентаций и анализ конкурентов
• Бронирование и планирование поездок
• Работа с таблицами и документами

Технические особенности: ⚙️
🔹 Визуальный браузер для взаимодействия с веб-интерфейсами
🔹 Текстовый браузер для быстрого анализа контента
🔹 Доступ к терминалу для выполнения кода
🔹 Интеграция с Gmail, Google Calendar, GitHub (я полагаю, что в сравнении с MCP-интеграцией здесь преимущество в безопасности системы, за которую теперь отвечает openai, а не дуэт в составе автора MCP-сервера и команды anthropic, которая пишет спецификацию MCP-протокола)
🔹 Возможность создания презентаций и таблиц (это уже относительно давно есть в manus и genspark)

Результаты тестирования: 📊
1️⃣ Humanity's Last Exam: 41.6% (новый рекорд)
2️⃣ FrontierMath: 27.4% точности
3️⃣ SpreadsheetBench: 45.5% при работе с файлами
4️⃣ BrowseComp: 68.9% (+17.4% к предыдущим результатам)

Безопасность и ограничения: ⚠️
Система требует подтверждения для критических действий и защищена от prompt injection атак. Пользователи могут в любой момент прервать выполнение задачи или взять управление на себя.

Доступность:
• Pro пользователи: 400 запросов/месяц
• Plus и Team: 40 запросов/месяц
• Постепенный запуск в течение нескольких дней

Функция пока недоступна в ЕС и Швейцарии.
Я пока тоже доступ не получил.
Разработчики планируют регулярные улучшения системы.

Полезные ссылки для просмотра:
- Введение в ChatGPT Agent
- Кастомизация ChatGPT Agent

@llm_notes

#chatgpt #agents #openai #automation #productivity
🔥21🤔1
Заметки LLM-энтузиаста
#info #ai #tools Друзья, всем привет! Есть возможность очень сильно сэкономить на AI-инструментах, воспользовавшись вот этим офером https://www.lennysnewsletter.com/p/an-unbelievable-offer-now-get-one $200 за годовую подписку на 10 классных AI-инструментов…
🔥 Скидка на AI-инструменты возвращается!

Коллеги, всем привет! 👋

Для тех кто в апреле пропустил скидку на подписку на AI-инструменты есть возможность воспользоваться ей сейчас (https://www.lennysnewsletter.com/p/productpass)

💰 $200 или $350 за годовую подписку на 16 классных AI-инструментов (как правило, годовая подписка на 1-2 инструмента из списка стоит либо столько же, либо дороже)

Из апрельского списка "ушли" такие инструменты как v0, Cursor, Granola и Notion, но зато добавились такие интересные инструменты как:

🔧 n8n (https://n8n.io/) - самый популярный no-code инструмент для автоматизации процессов (я немного писал про работу с ним здесь и тут)

⚡️ Warp (https://www.warp.dev/) - кросс-платформенная агентная среда разработки, написанная на Rust (аналог Claude Code или Gemini CLI, но со своим UI)

🎨 Magic Patterns (https://www.magicpatterns.com/) - AI-инструмент для быстрого создания UI-прототипов, поддерживает командную работу и позиционируется для продуктовых команд

📋 ChatPRD (https://www.chatprd.ai/) - AI-инструмент для продукт-менеджеров, помогает создавать качественные PRDs (Product Requirement Document). Замечу, что для AI-программирования с моей точки зрения больше подойдет https://www.codeguide.dev/

🎬 Descript (https://www.descript.com/) - комплексная платформа для создания и редактирования видео и подкастов, которая использует AI для упрощения процесса создания контента

📊 Gamma (https://gamma.app/) - AI-инструмент для быстрого создания презентаций, документов и визуального контента

📱 Mobbin (https://mobbin.com/) - крупнейшая онлайн-библиотека UI/UX-паттернов и справочных материалов для дизайнеров и продуктовых команд. Бесплатные аналоги: https://dribbble.com/ и https://21st.dev/home (писал про него здесь)

🎤 Wispr Flow (https://wisprflow.ai/) - классный инструмент для транскрибации голоса в текст для мака, сам регулярно им пользуюсь при работе с AI-кодерами. У него есть бесплатный тир, которого при умеренном использовании может хватить

🔍 Raycast (https://www.raycast.ai/) - как я понял, это такой ИИ-помощник для мака: умный поиск, администрирование (можно дать ему доступ к календарю и файлам/папкам) и тому подобные вещи, похоже на AI-OS плагин. Скачивается только через VPN.

⚠️ Условия такие же: надо быть новым клиентом по выбранному продукту и не мешкать с активацией ключей. Если, конечно, не возьмете insider подписку за $350 - по ней пишут, что доступ к подпискам гарантированный.

Для тех кто уже как я оформлял подписку офер также действует - можно им воспользоваться на новые продукты из списка, но в связи со всплеском трафика соответствующая страничка (https://lennysproductpass.com/) недоступна

Главное через год не забыть отключить подписку, чтобы не получить продление по полной стоимости.

@llm_notes

#ai #tools #discount #productivity #automation #nocode
3👍2