Заметки LLM-энтузиаста
587 subscribers
150 photos
18 videos
1 file
181 links
Дмитрий Жечков @djdim
архитектор в Yandex Cloud,
ex. VMware NSX specialist, ex. Cisco SE

Здесь пишу свои заметки по LLM (большим языковым моделям) и AI-разработке.

Это личное мнение и не отражает официальную позицию компании, в которой я работаю.
Download Telegram
#news #microsoft #omnitool #omniparser #agent #opensource #automation

🤖 Microsoft представила OmniParser V2 и OmniTool

👀 Похоже, у OpenAI Operator появился еще один серьезный конкурент! Microsoft выпустила два open-source инструмента, позволяющих языковым моделям (LLM) видеть, понимать и управлять компьютером почти как человек.

🔍 Почему это может быть интересно? В отличие от закрытого OpenAI Operator, эти инструменты доступны как open-source решения, что дает больше гибкости в использовании и настройке.

📱 OmniParser V2:
• Анализирует скриншоты и преобразует UI в структурированные данные
• На 60% быстрее первой версии
• Улучшенное распознавание мелких элементов интерфейса
• Работает на CPU (с опциональной поддержкой GPU)
• Поддерживает парсинг документов и UI-компонентов

🛠 OmniTool:
• Автоматизирует компьютерные задачи
• Умеет навигировать по браузеру
• Открывает приложения
• Выполняет команды

💻 Требования для установки OmniParser V2: • Git • Python • Conda • Токен Hugging Face

🖥 Требования для OmniTool : • Windows 11 VM • Docker • 20+ ГБ свободного места • Мощный ПК

⚡️ Важно: несмотря на пока еще достаточно сложный процесс установки, OmniTool после настройки может автоматизировать практически любую компьютерную задачу (демка здесь). Это делает его мощным AI-помощником для автоматизации повторяющихся задач, анализа UI-компонентов и интеграции с другими рабочими процессами.

🎯 Где это можно применить:
• Автоматизация тестирования ПО
• Извлечение данных из разных источников
• Автоматизация рабочего стола
• Корпоративная автоматизация
• Кибербезопасность и мониторинг систем

🤔 Интересный факт: с помощью таких инструментов AI может, например, самостоятельно найти репозиторий на GitHub, скопировать ссылку для клонирования, открыть терминал и выполнить команду clone.

Полный набор роликов со сценариями использования от разработчиков здесь.

#AI #Microsoft #Automation #Tech #Development #OpenAI
👍2❤‍🔥1🔥1
#ai #dev #news #replit #agent

🚀 Replit Agent v2: Создаем Reddit-клон за 15 минут

Привет, друзья! 👋
Сегодня хочу поделиться чем-то действительно впечатляющим из мира разработки.

Replit выпустил Agent v2 — и это настоящий прорыв в генерации кода с помощью ИИ! 🤯

🔍 Что нового:
• Новый интерфейс лобби — теперь AI предлагает тип приложения и технологии
• Визуальный предпросмотр в реальном времени — видишь UI до создания бэкенда
• Потоковая генерация HTML — элементы появляются на глазах
• Улучшенная диагностика ошибок — AI сам исправляет проблемы

💡 Практический пример:
В демо они создали полноценный клон Reddit всего за 15 минут и с помощью двух промптов!

Результат включал:
• Красивый адаптивный интерфейс (даже лучше оригинала 😏)
• Тёмную/светлую тему
• Систему авторизации
• Создание постов и комментариев
• Полностью рабочий деплой

🧠 Как это работает:
1️⃣ Вводишь простой промпт (например, "создай клон Reddit")
2️⃣ Agent сам предлагает план и технологический стек
3️⃣ Сначала генерирует фронтенд для визуальной оценки
4️⃣ Затем создаёт полноценный бэкенд
5️⃣ Исправляет ошибки на лету

🌐 Особенно впечатляет:
То, что раньше требовало недель работы команды разработчиков, теперь делается за минуты одним человеком без навыков программирования.

Технология использует Claude 3.7 Sonnet (выпущенный совсем недавно) и другие передовые модели ИИ, что объясняет значительный скачок в качестве.

🔑 Как получить доступ:
Если вы хотите попробовать Agent v2 прямо сейчас:
1️⃣ Включите режим "Explorer Mode" в своем аккаунте Replit (как это сделать см. здесь)
2️⃣ После активации Explorer Mode, Agent v2 будет доступен по умолчанию
3️⃣ В ближайшие недели функционал будет постепенно выкатываться для всех пользователей

🤔 Мои мысли:
Это не просто улучшение — это новый уровень взаимодействия с ИИ для создания приложений. Особенно радует возможность следить за процессом создания через мобильное приложение Replit.

А вы уже пробовали новые инструменты генерации кода? Делитесь впечатлениями в комментариях! 💬

#Replit #AgentV2 #ИИ #Разработка #НовыеТехнологии
5🔥4
#news #manus #agent #prompts #opensource

🔍 MANUS: нашумевший ИИ-агент и его секретные промпты

Друзья! Сегодня хочу поделиться интересной находкой.
Один из коллег получил доступ к новому ИИ-инструменту Manus и обнаружил нечто удивительное... 👀

Manus позиционирует себя как "настоящий ИИ-агент, который выполняет задачи". Но самое интересное не это.

Представьте: вы просите ИИ показать файлы из системной директории, и он... просто берет и выдает все свои внутренности! 🤯

🤖 Что такое Manus?
Manus — это не просто чат-бот, а инструмент, который:
• Анализирует проблемы
• Автоматически выполняет задачи
• Предоставляет готовые результаты с визуализацией

Он может:
1. Планировать путешествия с персонализированными маршрутами
2. Анализировать финансовое состояние компаний
3. Оптимизировать онлайн-магазины
4. Обрабатывать и визуализировать данные
5. Создавать образовательный контент
6. Оптимизировать рабочие процессы

🔐 Но вот что произошло...
Когда коллега попросил Manus показать содержимое директории "/opt/.manus/", ИИ просто выдал все свои промпты, инструменты и код песочницы!

Это как если бы вы попросили фокусника показать, как он делает трюк, а он вместо отказа достал подробную инструкцию со всеми секретами. 🎩

📋 Что было обнаружено:
• Полный код среды выполнения
• Детальные инструменты агента
• Системные промпты для различных задач
• Структура взаимодействия с API

🧠 Почему это важно?
Понимание того, как работают такие системы, дает нам представление о:
• Методах обработки запросов
• Ограничениях и возможностях ИИ
• Потенциальных уязвимостях
• Способах оптимизации наших собственных запросов

🔗 Где посмотреть?
Все найденные промпты и инструменты доступны в этом GitHub Gist: https://gist.github.com/jlia0/db0a9695b3ca7609c9b1a08dcbf872c9

💭 Мысли напоследок
Такие "утечки" показывают, насколько молода еще индустрия ИИ-агентов. Системы становятся все сложнее, но базовые принципы безопасности иногда упускаются из виду.

Не удивительно, что опенсорсная версия появилась практически сразу (вот здесь) и уже набрала 28.5к "звездочек".

А вы что думаете об этом? Делитесь в комментариях! 👇

#ИИ #Manus #ИскусственныйИнтеллект #Технологии #Промпты
👍754🔥3
GenSpark AI Developer: новый инструмент для создания веб-приложений методом vibecoding 🚀

Компания GenSpark AI представила GenSpark AI Developer — специализированного ИИ-агента, который дополняет функциональность супер-агента Genspark и позволяет создавать веб-сайты и приложения без навыков программирования (про genspark.ai и варианты его использования я писал чуть ранее, вот пример одного из постов)

Основные возможности:

• Работа с несколькими AI-моделями, включая Claude Sonnet 4
• Создание сайтов прямо в браузере или мобильном приложении
• Автоматическая генерация админ-панелей для управления контентом
• Интеграция с GitHub для разработчиков

Примеры использования:

1️⃣ Бизнес-сайты — система бронирования для салона красоты с возможностью выбора времени и подтверждения записей 2️⃣ E-commerce — интернет-магазин с корзиной покупок и каталогом товаров 3️⃣ Личные проекты — трекер домашних дел для детей с системой баллов и наград 4️⃣ Игры — простые игровые приложения по текстовому описанию

Для разработчиков 👨‍💻

Поддерживает работу с существующими GitHub-репозиториями (см. скриншот). Можно модифицировать код, создавать pull request'ы и деплоить изменения через браузер или мобильное приложение.

Технические детали:

• Поддерживаемые модели: Claude Sonnet 4.0, Opus 4.1, GPT-5, Kimi K2
• Модель нельзя изменить в процессе работы над проектом ⚠️
• Интеграция с GenSpark SuperAgent для создания программных продуктов или простых веб-сайтов на основе проведенных исследований (сам пользуюсь с начала этой недели, вот один из примеров)

Варианты публикации приложения: 📤

• Через сам GenSpark (не очень удобно, т.к. требует от пользователя приложения регистрации на самом genspark.ai)
Cloudflare Pages (хороший вариант, т.к. позволяет разместить веб-приложение на хостинге с развитыми инструментами мониторинга и сопровождения, но в РФ опубликованный таким образом сайт будет доступен только через VPN)
• Экспорт кодовой базы для размещения на любом хостинге
GitHub Pages для простых сайтов (бесплатно)

Конкуренты: Genspark AI Developer с моей точки зрения уже сейчас составляет хорошую конкуренцию таким решениям как lovable.dev, bolt.new и v0.app. Основное его преимущество в том, что после проведения подготовительной работы, которой обычно является глубокий ресерч по какой-то тематике, не требуется переключаться на другую платформу.

Чего не хватает: 🔍 Встроенного Security Audit — пока можно использовать внешние инструменты для проверки безопасности кода, такие как https://vibe-eval.com/ например.

Сервис позиционируется как решение для непрограммистов, которым нужно взаимодействовать с командами разработки или создавать простые веб-приложения самостоятельно.

Как я чаще всего использую 📚
Провожу ресерч по интересующей меня теме
Создаю для себя обучающий сайт с проверочными тестами (к слову, и раньше без специализированного ai dev-агента это тоже можно было делать, но с AI developer качество стало значительно выше, думаю, что другим популярным универсальным браузерным ИИ-агентам, таким как manus, flowith, abaqus deep agent и т.д. имеет смысл перенять опыт genspark.ai )
Очень удобно быстро собрать интерактивный материал для изучения новых областей. И все на одной универсальной платформе.

В следующем посте приведу пример подготовки комплексной обучающей программы, которым поделился один из моих коллег на своем тг-канале.

@llm_notes

#genspark #agent #vibecoding #lovable #bolt #replit
👍21