Заметки LLM-энтузиаста
393 subscribers
125 photos
14 videos
1 file
150 links
Дмитрий Жечков @djdim
архитектор в Yandex Cloud,
ex. VMware NSX specialist, ex. Cisco SE

Здесь пишу свои заметки по LLM (большим языковым моделям) и LLM-разработке.

Это личное мнение и не отражает официальную позицию компании, в которой я работаю.
Download Telegram
#news #microsoft #omnitool #omniparser #agent #opensource #automation

🤖 Microsoft представила OmniParser V2 и OmniTool

👀 Похоже, у OpenAI Operator появился еще один серьезный конкурент! Microsoft выпустила два open-source инструмента, позволяющих языковым моделям (LLM) видеть, понимать и управлять компьютером почти как человек.

🔍 Почему это может быть интересно? В отличие от закрытого OpenAI Operator, эти инструменты доступны как open-source решения, что дает больше гибкости в использовании и настройке.

📱 OmniParser V2:
• Анализирует скриншоты и преобразует UI в структурированные данные
• На 60% быстрее первой версии
• Улучшенное распознавание мелких элементов интерфейса
• Работает на CPU (с опциональной поддержкой GPU)
• Поддерживает парсинг документов и UI-компонентов

🛠 OmniTool:
• Автоматизирует компьютерные задачи
• Умеет навигировать по браузеру
• Открывает приложения
• Выполняет команды

💻 Требования для установки OmniParser V2: • Git • Python • Conda • Токен Hugging Face

🖥 Требования для OmniTool : • Windows 11 VM • Docker • 20+ ГБ свободного места • Мощный ПК

⚡️ Важно: несмотря на пока еще достаточно сложный процесс установки, OmniTool после настройки может автоматизировать практически любую компьютерную задачу (демка здесь). Это делает его мощным AI-помощником для автоматизации повторяющихся задач, анализа UI-компонентов и интеграции с другими рабочими процессами.

🎯 Где это можно применить:
• Автоматизация тестирования ПО
• Извлечение данных из разных источников
• Автоматизация рабочего стола
• Корпоративная автоматизация
• Кибербезопасность и мониторинг систем

🤔 Интересный факт: с помощью таких инструментов AI может, например, самостоятельно найти репозиторий на GitHub, скопировать ссылку для клонирования, открыть терминал и выполнить команду clone.

Полный набор роликов со сценариями использования от разработчиков здесь.

#AI #Microsoft #Automation #Tech #Development #OpenAI
#news #manus #agent #prompts #opensource

🔍 MANUS: нашумевший ИИ-агент и его секретные промпты

Друзья! Сегодня хочу поделиться интересной находкой.
Один из коллег получил доступ к новому ИИ-инструменту Manus и обнаружил нечто удивительное... 👀

Manus позиционирует себя как "настоящий ИИ-агент, который выполняет задачи". Но самое интересное не это.

Представьте: вы просите ИИ показать файлы из системной директории, и он... просто берет и выдает все свои внутренности! 🤯

🤖 Что такое Manus?
Manus — это не просто чат-бот, а инструмент, который:
• Анализирует проблемы
• Автоматически выполняет задачи
• Предоставляет готовые результаты с визуализацией

Он может:
1. Планировать путешествия с персонализированными маршрутами
2. Анализировать финансовое состояние компаний
3. Оптимизировать онлайн-магазины
4. Обрабатывать и визуализировать данные
5. Создавать образовательный контент
6. Оптимизировать рабочие процессы

🔐 Но вот что произошло...
Когда коллега попросил Manus показать содержимое директории "/opt/.manus/", ИИ просто выдал все свои промпты, инструменты и код песочницы!

Это как если бы вы попросили фокусника показать, как он делает трюк, а он вместо отказа достал подробную инструкцию со всеми секретами. 🎩

📋 Что было обнаружено:
• Полный код среды выполнения
• Детальные инструменты агента
• Системные промпты для различных задач
• Структура взаимодействия с API

🧠 Почему это важно?
Понимание того, как работают такие системы, дает нам представление о:
• Методах обработки запросов
• Ограничениях и возможностях ИИ
• Потенциальных уязвимостях
• Способах оптимизации наших собственных запросов

🔗 Где посмотреть?
Все найденные промпты и инструменты доступны в этом GitHub Gist: https://gist.github.com/jlia0/db0a9695b3ca7609c9b1a08dcbf872c9

💭 Мысли напоследок
Такие "утечки" показывают, насколько молода еще индустрия ИИ-агентов. Системы становятся все сложнее, но базовые принципы безопасности иногда упускаются из виду.

Не удивительно, что опенсорсная версия появилась практически сразу (вот здесь) и уже набрала 28.5к "звездочек".

А вы что думаете об этом? Делитесь в комментариях! 👇

#ИИ #Manus #ИскусственныйИнтеллект #Технологии #Промпты
#ocr #pdf #model #opensource

SmolDocling: Опенсорс инструмент для OCR документов 📄

Коллеги, добрый день! 👋

Обычно первым шагом при построении ИИ-ассистентов является обработка/распознавание существующей документации.
Поэтому многие ищут хорошие решения для распознавания PDF-файлов, особенно когда речь идет о больших документах.
В связи с этим хочу поделиться интересной находкой.

SmolDocling — это новая мультимодальная визуально-языковая модель для полноценного OCR документов. Несмотря на компактный размер (всего 256M параметров), она обрабатывает страницу за 0.35 секунды! 🚀

Что умеет? 💪

• Распознает сложные макеты документов
• Корректно обрабатывает код
• Понимает математические формулы
• Распознает графики и диаграммы
• Работает с таблицами
• Классифицирует графические элементы
• Сохраняет структуру заголовков
• Группирует списки

Где пригодится? 📚

• Научные статьи
• Бизнес-документы
• Патенты
• Таблицы и отчеты

Удобные фишки ⚙️

• Пакетная обработка документов
• Экспорт в Markdown, HTML и JSON

Попробовать можно здесь: https://huggingface.co/ds4sd/SmolDocling-256M-preview

Кто уже тестировал? Делитесь впечатлениями в комментариях! 💬
#ai #db #tool #text2sql #opensource

🚀 Chat2DB: AI-помощник для работы с базами данных

Привет, друзья! 👋
Сегодня хочу поделиться находкой, которая может серьезно упростить вашу работу с базами данных — инструмент Chat2DB.

Что это такое?

Chat2DB — это интеллектуальный SQL-клиент с интегрированным AI, который помогает:

💬 Генерировать SQL-запросы через обычный диалог на русском языке
🔄 Подключаться к более чем 16 типам баз данных (MySQL, PostgreSQL, MongoDB, Redis и др.)
📊 Создавать красивые дашборды и визуализации данных
🛠 Управлять структурой БД и синхронизировать таблицы

Что особенно впечатлило:

🧠 Работает с Claude 3.7 Sonnet, GPT-4o, DeepSeek и другими топовыми моделями
🔍 Понимает контекст вашей базы данных и не галлюцинирует
🖥 Есть опенсорсная версия, которую можно скачать бесплатно
🏠 Может работать локально — ваши данные не уходят на сторонние сервера

Вот как это выглядит в действии:

• Подключаешься к своей БД
• Спрашиваешь на обычном языке: "Покажи 10 последних заказов" (или любой интересующий вас запрос, см. скриншот)
• AI генерирует правильный SQL-запрос и сразу выполняет его
• Можно тут же создать график или добавить результат на дашборд

Если вы часто работаете с базами данных и устали писать сложные запросы вручную — однозначно стоит попробовать.
Есть три версии: Community (бесплатная), Local и Pro. На платные версии дается 30 дневный trial.

Короткий видео туториал от разработчиков можно посмотреть здесь. А вот тут шикарное 4х минутное демо именно по v3.0 которая вышла недавно. Очень похоже на Cursor for DB :)

Кто уже пользовался Chat2DB? Делитесь впечатлениями в комментариях! 👇

#БазыДанных #AI #SQL #ИнструментыРазработчика
Alibaba выпускает Qwen3: новое семейство моделей ИИ на уровне топовых моделей OpenAI и xAI 🚀

Лаборатория Qwen AI от Alibaba представила новое семейство языковых моделей Qwen3 с открытыми весами!
Считается, что это настоящий прорыв, который ставит китайскую компанию в один ряд с лидерами индустрии.

Что в новинке? 💡

• Флагманская модель Qwen3-235B по производительности не уступает гигантам вроде OpenAI o1, Grok-3 и DeepSeek-R1 на ключевых бенчмарках
• Внедрена гибридная система "мышления" — можно выбирать между глубоким рассуждением или быстрыми ответами
• Улучшенные навыки программирования и агентные возможности
• Поддержка 119 языков (привет, полиглоты! 👋)

Линейка моделей 📊

Alibaba выпустила сразу 8 моделей — от легковесной версии с 600 млн параметров до полноценного монстра на 235 млрд. Причем даже малые модели показывают значительный прогресс по сравнению с предыдущими версиями.

Почему это важно? 🌍

Китай стремительно сокращает отставание в сфере ИИ, и сегодняшний релиз Qwen3 — яркое тому подтверждение. Все модели выпущены с открытыми весами под лицензией Apache 2.0 и доступны через Hugging Face или для локального/облачного развертывания.

Теперь все взгляды обращены на DeepSeek и их ожидаемый запуск R2. Гонка ИИ набирает обороты! 🏎

#ИИ #Alibaba #Qwen3 #ИскусственныйИнтеллект #ЯзыковыеМодели #OpenSource #ТехНовости
Bolt.DIY 1.0: Что нового в обновлении? 🚀

Команда Bolt.DIY (это опенсорсный эквивалент bolt.new, уже писал про него ранее, очень простой и удобный AI-кодер, пожалуй, самый первый из веб-кодеров, кто добился значительного роста числа своих пользователей в рекордно короткие сроки, все еще один из лидеров обзора инструментов для Vibe Coding) наконец выпустила версию 1.0, и, надо признать, обновление получилось довольно внушительным. Давайте разберемся, что там интересного, без лишнего восторга и маркетинговой шелухи.

Новые функции и улучшения

Улучшенные системные промпты 🤖 В настройках появилась библиотека промптов с тремя вариантами: стандартный, оптимизированный и новый "fine-tuned". Последний обещает более строгие стандарты, меньше ошибок и лучшее планирование. Правда, по умолчанию всё равно стоит базовый вариант — видимо, чтобы мы сами могли оценить разницу.

Шаблоны и производительность ⚡️ Добавили новые стартовые шаблоны: Expo (для мобильной разработки), Astro и пару вариантов с ShadCN. Установка шаблонов теперь работает быстрее, и, что важно, больше нет проблем с rate limit, которые раньше случались с завидной регулярностью.

Улучшения интерфейса 💅 Появилась кнопка "перейти к последнему сообщению" — мелочь, а приятно. Исправили странное поведение скроллбара в чате, теперь он отдельный и не дублируется с основным. Стриминг сообщений стал плавнее.

Редактор кода 👨‍💻 В редакторе теперь можно блокировать файлы, чтобы LLM не перезаписывал их (полезно для .env файлов). Добавили поиск по всем файлам с отображением всех вхождений.

Node.js 20 🔄 Обновили Node.js до версии 20 (было 18). Это должно положительно сказаться на производительности, хотя на практике разница не всегда заметна.

Интеграции 🔌
• Supabase: Теперь можно подключить базу данных прямо из интерфейса.
• Vercel: Добавили возможность деплоить приложения на Vercel (как раньше с Netlify). Интеграции с Cloudflare пока нет, но, возможно, появится в следующих версиях.

Десктопное приложение 🖥 Теперь Bolt.DIY можно установить как нативное приложение на Windows, Mac и Linux. Правда, приложения пока не подписаны, так что придется игнорировать предупреждения безопасности при установке.
К слову, dmg-образ для mac у меня не запустился - оказался corrupted.

Expo для мобильной разработки 📱 Наконец-то добавили интеграцию с Expo, что позволяет разрабатывать мобильные приложения. Сканируете QR-код в Expo Go на телефоне — и сразу видите результат. Функция, которая давно была в других AI-инструментах, наконец добралась и до Bolt.DIY.

Как обновиться 🔄

Если вы используете локальную версию:

1) В терминале выполните git pull
2) Установите зависимости: pnpm install
3) Запустите: pnpm run dev

Для существующего деплоя на Cloudflare достаточно синхронизировать форк через кнопку "Sync fork".

Важно ⚠️: Очистите кеш браузера после обновления (Application → Storage → Clear site data), иначе могут возникнуть проблемы с интерфейсом. Учтите, что это удалит ваши API-ключи, если они не сохранены в .env файле.

В целом, обновление выглядит солидно. Разработчики явно поработали над стабильностью и добавили несколько полезных функций. Хотя до идеала еще далеко (где мой деплой приложений на Cloudflare? 🤔), прогресс очевиден. Посмотрим, что они приготовят в следующих версиях.

#bolt #opensource #news #update
This media is not supported in your browser
VIEW IN TELEGRAM
DeerFlow: Новый фреймворк для глубоких исследований от ByteDance

ByteDance, компания-создатель TikTok, выпустила новый опенсорсный инструмент под названием DeerFlow. Это фреймворк для проведения глубоких исследований, который уже набрал почти 5000 звезд на GitHub всего за несколько дней. Неплохо для очередного AI-проекта, не так ли? 🤔

Что такое DeerFlow?

DeerFlow представляет собой фреймворк для систематических глубоких исследований с использованием координированных LangGraph агентов. По сути, это еще один AI-ассистент, но с открытым исходным кодом и возможностью запуска локально.

Основные возможности:
• Комплексный анализ литературы
• Синтез данных
• Структурированное извлечение знаний
• Интеграция с веб-поиском и Python

Как это работает?

Система использует языковые модели (например, Qwen 2.5 14B) и может работать с различными инструментами:

- Веб-поиск (DuckDuckGo, Tavily, Brave Search)
- Веб-краулинг
- Выполнение Python-кода
- Генерация отчетов и даже подкастов 🎙

Интерфейс выглядит довольно приятно (см. демо), а процесс исследования отображается в реальном времени с активностями, выводами и ссылками на источники. Всё как у "больших мальчиков", только бесплатно.

Стоит ли пробовать?

Если вы устали от платных API и хотите иметь собственный инструмент для исследований — возможно. Установка не самая простая (требуется Node.js 22+, несколько зависимостей и настройка конфигурации), но для энтузиастов это не проблема.

Конечно, не стоит ожидать, что он заменит ChatGPT или Claude, но для специфических исследовательских задач может оказаться полезным. По крайней мере, не нужно платить за каждый токен. 💸

Источники
1) Официальный сайт проекта: https://deerflow.tech/
2) Репозиторий проекта: github.com/ByteDance/DeerFlow
3) Подробная документация со схемами по репозиторию здесь

#AI #opensource #ByteDance #deerflow #ИИ_инструменты #deepsearch #agents
Microsoft представила концепцию "открытого агентного веба" на Build 2025 🚀

Очень много крутых анонсов от Microsoft.

Microsoft представила свое видение "открытого агентного веба" (open agentic web) на конференции Build 2025, выпустив целый ряд новых инструментов и обновлений с поддержкой искусственного интеллекта.

Ключевые анонсы:

• GitHub Copilot эволюционирует из помощника в редакторе кода в полноценного агента, работающего асинхронно. Также Microsoft сделала открытым исходный код Copilot Chat в VS Code 🔧

• Компания выпустила Magentic-UI — исследовательский прототип с открытым исходным кодом для веб-агентов (построенных на базе агентного фреймворка AutoGen), ориентированный на сотрудничество с пользователем и контроль 🕸 (ссылка на github здесь)

• Microsoft добавляет модели Grok 3 и Grok 3 mini от xAI в Azure AI Foundry, что позволит разработчикам выбирать из более чем 1900 моделей 🧠

• Новый открытый проект NLWeb стремится стать аналогом HTML для агентного веба, упрощая добавление разговорного интерфейса на веб-сайты 💬 (ссылка на github тут)

• Copilot расширяется с новыми возможностями настройки, позволяя организациям обучать модели на корпоративных данных (можно зарегистрироваться на соответствующую сессию завтра), а также оркестрировать взаимодействие нескольких агентов для совместного решения бизнес-задач 📊

Почему это важно

Хотя "год AI-агентов" пока не оправдал всех ожиданий в плане практического применения, индустрия движется в правильном направлении. Заметен также сдвиг в сторону открытого исходного кода, что подтверждается многочисленными релизами от технологического гиганта.

Если вдруг пропустили вот ссылка на Keynote от Satya Nadella (CEO Microsoft)
Для тех, у кого мало времени, или кто не любит youtube, подготовил краткий транскрипт и саммари выступления.

P.S. Будет чем заняться на выходных - продукты классные, будем тестировать.

#ai #microsoft #copilot #agents #opensource
This media is not supported in your browser
VIEW IN TELEGRAM
ByteDance открыл исходный код FlowGram: инструмента для оркестрации рабочих процессов, который используется в Coze!

Компания ByteDance, известная как создатель TikTok, недавно сделала важный шаг для сообщества разработчиков — открыла исходный код своего инструмента FlowGram 🔄

Что такое FlowGram?

FlowGram — это движок для построения процессов на основе узлов, который позволяет разработчикам быстро создавать рабочие процессы с:

• фиксированными макетами
• произвольными соединениями между компонентами

Ключевые особенности

Инструмент предоставляет набор лучших практик для взаимодействия, что делает его особенно полезным для:

1️⃣ Визуализации рабочих процессов
2️⃣ Создания четких входных и выходных параметров
3️⃣ Упрощения сложных последовательностей действий

Если вы интересуетесь инструментами оркестрации или работаете с Coze, стоит обратить внимание на этот проект.
Кажется, что теперь сделать свое no-code решение стало еще проще :)

• Исходный код доступен на GitHub: https://github.com/bytedance/flowgram.ai
• Подробная документация со схемами архитектуры от deepwiki здесь

#workflow #bytedance #opensource #development #ai
DeepSeek-R1-0528: новая модель с открытым исходным кодом 🤖

Компания DeepSeek выпустила обновленную версию своей модели R1-0528, которая теперь доступна с открытым исходным кодом на платформе HuggingFace.

Основные характеристики модели:

• Выполняет глубокий анализ и генерацию текста
• Обладает естественным стилем рассуждений
• Поддерживает длительную обработку задач
• Может работать над одной задачей до 30-60 минут
• Основана на DeepSeek-V3-0324 с 660B параметрами

Результаты тестирования 📊

На бенчмарке LiveCodeBench новая модель показала результаты:

1️⃣ Сопоставимые с o3-mini (High) и o4-mini (Medium) 2️⃣ Превосходящие Gemini 2.5 Pro 3️⃣ Значительное улучшение способностей к программированию

Модель представляет собой заметный шаг вперед для open-source решений в области ИИ. Веса модели уже доступны для загрузки, хотя описание на HuggingFace пока не обновлено.
Модель уже можно использовать в AI-кодерах Roo Code/Cline, например, через https://www.requesty.ai/ (на openrouter пока нет)

🔗 Ссылка: https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main

#deepseek #opensource #ai #llm #reasoning
🔍 Два новых инструмента для веб-поиска и исследований: Firesearch и GPT Researcher

Разработчики получили два интересных решения для автоматизации веб-исследований, которые решают разные задачи при работе с данными.

Firesearch: поиск и скрапинг в одном запросе

Firecrawl запустили эндпоинт /search, который объединяет поиск в интернете и извлечение контента в одном API-вызове. Теперь не нужно делать отдельные запросы для поиска и последующего скрапинга страниц. Что очень круто. Например, yandex search api в режиме нейро-поиска пока работает только по определенному спектру url (см. здесь).

Основные возможности:
• Поиск и извлечение контента одним запросом
• Настройка по языку, стране и временному диапазону
• Вывод в разных форматах: markdown, HTML, ссылки, скриншоты
• Интеграция с Zapier, n8n, MCP для Claude и OpenAI

Как устроен:
Firesearch использует Langgraph и Firecrawl и построен на основе одного основного компонента - LangGraphSearchEngine, который управляет всем процессом поиска через граф состояний LangGraph.
Система содержит 6 основных узлов обработки в графе состояний:
understand - анализ запроса пользователяplan - планирование стратегии поиска
search - выполнение поисковых запросов
scrape - извлечение дополнительного контента
analyze - анализ найденных источников
synthesize - синтез финального ответа
Подробнее в репозитории (где, кстати, есть возможность сразу сделать деплой на vercel со своими ключами Firecrawl и Openai) и на deepwiki (где можно не только подробно ознакомиться с архитектурой решения, но и позадавать интересующие вопросы, только не включайте опцию deep research - она почему-то работает бесконечно медленно)


GPT Researcher: opensource альтернатива дорогим deep research решениям

Пока крупные компании предлагают свои "Deep Research" функции за $200/месяц (OpenAI) или с ограничениями (Perplexity - 5 запросов в день), GPT Researcher предоставляет открытое решение.

Ключевые особенности:
1️⃣ Мультиагентная архитектура с планировщиком и исполнителем
2️⃣ Рекурсивные исследования с древовидной структурой анализа
3️⃣ Обработка 20+ источников за 3 минуты ($0.1 за отчет)
4️⃣ Глубокий анализ за 5 минут ($0.4 за расширенный отчет)
5️⃣ Отчеты свыше 2000 слов с цитированием источников

Как устроен
GPT Researcher использует Tavily для поиска и LangGraph для построения мультиагентной архитектуры.
Система состоит из 8 агентов:
Chief Editor - главный агент-координатор, который управляет командой через LangGraph
Researcher (gpt-researcher) - специализированный автономный агент для исследований
Editor - планирует структуру исследования
Reviewer - проверяет корректность результатов
Revisor - пересматривает результаты на основе обратной связи
Writer - составляет финальный отчет
Publisher - публикует отчет в различных форматах
Human - человек в цикле для обратной связи
Подобнее в репозитории и на deepwiki
Также у GPT Researcher есть отдельный репозиторий для MCP-сервера

Практическое применение 📊

Firesearch подходит для быстрого получения актуального контента с веб-страниц, а GPT Researcher - для комплексного анализа и создания детальных отчетов по исследуемым темам.

Оба инструмента можно интегрировать в существующие рабочие процессы и настроить под конкретные задачи.

@llm_notes

#webscraping #deepresearch #opensource #firecrawl #langgraph