Заметки LLM-энтузиаста
552 subscribers
150 photos
17 videos
1 file
180 links
Дмитрий Жечков @djdim
архитектор в Yandex Cloud,
ex. VMware NSX specialist, ex. Cisco SE

Здесь пишу свои заметки по LLM (большим языковым моделям) и AI-разработке.

Это личное мнение и не отражает официальную позицию компании, в которой я работаю.
Download Telegram
#deepresearch #opensource

Альтернатива OpenAI Deep Research с открытым исходным кодом

Я, честно говоря, в шоке как быстро реагирует опенсорc на то, что делает Openai :)

Менее чем через сутки после выхода Deep Research кому-то удалось создать версию с открытым исходным кодом.
Эта версия с представляет собой Node.js-реализацию Deep Research от OpenAI, и использует Gemini Flash и Jina Reader.
Запускается цикл, в котором "поисковик" читает и рассуждает до тех пор, пока цель поиска не будет достигнута.

Вот ссылка на репозиторий: https://github.com/jina-ai/node-DeepResearch

Если интересны opensource альтернативы Openai Operator (это агент по выполнению пользовательских задач разного плана, не только поиска) - напишите в комментариях, я в одном из следующих постов напишу, какие опции можно использовать, кроме предлагаемой Vercel, о которой писал ранее
3🔥2👍1
#tools #rag #opensource

🤖 RAG для ленивых разработчиков

Привет, друзья! Наткнулся тут на интересную штуку для тех, кто делает AI-проекты и не хочет изобретать велосипед (полагаю, что таких среди нас много 😅).

Ребята из Upstash запилили React-компонент для быстрой сборки чат-ассистентов с RAG (это та самая штука, которая помогает AI не нести чушь и опираться на реальные данные).

Что там внутри:

- Стриминг ответов (потому что кто в 2025 не стримит, тот не хипстер 😉)
- Серверная часть из коробки
- Хранение истории чатов
- Кастомизация UI (можно сделать и минимализм, и буйство красок – на ваш вкус)

В общем, если надо быстро прикрутить умный чат к своему Next.js проекту и не париться – может пригодиться.

Исходники лежат тут

Что еще ?
- При желании работу с YandexGPT (или Llama 3.1/3.3 из Yandex Foundation Models) можно настроить через Openai Adapter
- Через Cursor Agent Composer можно переписать компонент и настроить его на работу с любым Vector Store и потом использовать как готовый модуль в других проектах.

#разработка #ai #react #nextjs
2👍1🔥1🙏1
#news #microsoft #omnitool #omniparser #agent #opensource #automation

🤖 Microsoft представила OmniParser V2 и OmniTool

👀 Похоже, у OpenAI Operator появился еще один серьезный конкурент! Microsoft выпустила два open-source инструмента, позволяющих языковым моделям (LLM) видеть, понимать и управлять компьютером почти как человек.

🔍 Почему это может быть интересно? В отличие от закрытого OpenAI Operator, эти инструменты доступны как open-source решения, что дает больше гибкости в использовании и настройке.

📱 OmniParser V2:
• Анализирует скриншоты и преобразует UI в структурированные данные
• На 60% быстрее первой версии
• Улучшенное распознавание мелких элементов интерфейса
• Работает на CPU (с опциональной поддержкой GPU)
• Поддерживает парсинг документов и UI-компонентов

🛠 OmniTool:
• Автоматизирует компьютерные задачи
• Умеет навигировать по браузеру
• Открывает приложения
• Выполняет команды

💻 Требования для установки OmniParser V2: • Git • Python • Conda • Токен Hugging Face

🖥 Требования для OmniTool : • Windows 11 VM • Docker • 20+ ГБ свободного места • Мощный ПК

⚡️ Важно: несмотря на пока еще достаточно сложный процесс установки, OmniTool после настройки может автоматизировать практически любую компьютерную задачу (демка здесь). Это делает его мощным AI-помощником для автоматизации повторяющихся задач, анализа UI-компонентов и интеграции с другими рабочими процессами.

🎯 Где это можно применить:
• Автоматизация тестирования ПО
• Извлечение данных из разных источников
• Автоматизация рабочего стола
• Корпоративная автоматизация
• Кибербезопасность и мониторинг систем

🤔 Интересный факт: с помощью таких инструментов AI может, например, самостоятельно найти репозиторий на GitHub, скопировать ссылку для клонирования, открыть терминал и выполнить команду clone.

Полный набор роликов со сценариями использования от разработчиков здесь.

#AI #Microsoft #Automation #Tech #Development #OpenAI
👍2❤‍🔥1🔥1
#news #manus #agent #prompts #opensource

🔍 MANUS: нашумевший ИИ-агент и его секретные промпты

Друзья! Сегодня хочу поделиться интересной находкой.
Один из коллег получил доступ к новому ИИ-инструменту Manus и обнаружил нечто удивительное... 👀

Manus позиционирует себя как "настоящий ИИ-агент, который выполняет задачи". Но самое интересное не это.

Представьте: вы просите ИИ показать файлы из системной директории, и он... просто берет и выдает все свои внутренности! 🤯

🤖 Что такое Manus?
Manus — это не просто чат-бот, а инструмент, который:
• Анализирует проблемы
• Автоматически выполняет задачи
• Предоставляет готовые результаты с визуализацией

Он может:
1. Планировать путешествия с персонализированными маршрутами
2. Анализировать финансовое состояние компаний
3. Оптимизировать онлайн-магазины
4. Обрабатывать и визуализировать данные
5. Создавать образовательный контент
6. Оптимизировать рабочие процессы

🔐 Но вот что произошло...
Когда коллега попросил Manus показать содержимое директории "/opt/.manus/", ИИ просто выдал все свои промпты, инструменты и код песочницы!

Это как если бы вы попросили фокусника показать, как он делает трюк, а он вместо отказа достал подробную инструкцию со всеми секретами. 🎩

📋 Что было обнаружено:
• Полный код среды выполнения
• Детальные инструменты агента
• Системные промпты для различных задач
• Структура взаимодействия с API

🧠 Почему это важно?
Понимание того, как работают такие системы, дает нам представление о:
• Методах обработки запросов
• Ограничениях и возможностях ИИ
• Потенциальных уязвимостях
• Способах оптимизации наших собственных запросов

🔗 Где посмотреть?
Все найденные промпты и инструменты доступны в этом GitHub Gist: https://gist.github.com/jlia0/db0a9695b3ca7609c9b1a08dcbf872c9

💭 Мысли напоследок
Такие "утечки" показывают, насколько молода еще индустрия ИИ-агентов. Системы становятся все сложнее, но базовые принципы безопасности иногда упускаются из виду.

Не удивительно, что опенсорсная версия появилась практически сразу (вот здесь) и уже набрала 28.5к "звездочек".

А вы что думаете об этом? Делитесь в комментариях! 👇

#ИИ #Manus #ИскусственныйИнтеллект #Технологии #Промпты
👍754🔥3
#ocr #pdf #model #opensource

SmolDocling: Опенсорс инструмент для OCR документов 📄

Коллеги, добрый день! 👋

Обычно первым шагом при построении ИИ-ассистентов является обработка/распознавание существующей документации.
Поэтому многие ищут хорошие решения для распознавания PDF-файлов, особенно когда речь идет о больших документах.
В связи с этим хочу поделиться интересной находкой.

SmolDocling — это новая мультимодальная визуально-языковая модель для полноценного OCR документов. Несмотря на компактный размер (всего 256M параметров), она обрабатывает страницу за 0.35 секунды! 🚀

Что умеет? 💪

• Распознает сложные макеты документов
• Корректно обрабатывает код
• Понимает математические формулы
• Распознает графики и диаграммы
• Работает с таблицами
• Классифицирует графические элементы
• Сохраняет структуру заголовков
• Группирует списки

Где пригодится? 📚

• Научные статьи
• Бизнес-документы
• Патенты
• Таблицы и отчеты

Удобные фишки ⚙️

• Пакетная обработка документов
• Экспорт в Markdown, HTML и JSON

Попробовать можно здесь: https://huggingface.co/ds4sd/SmolDocling-256M-preview

Кто уже тестировал? Делитесь впечатлениями в комментариях! 💬
🔥8❤‍🔥3
#ai #db #tool #text2sql #opensource

🚀 Chat2DB: AI-помощник для работы с базами данных

Привет, друзья! 👋
Сегодня хочу поделиться находкой, которая может серьезно упростить вашу работу с базами данных — инструмент Chat2DB.

Что это такое?

Chat2DB — это интеллектуальный SQL-клиент с интегрированным AI, который помогает:

💬 Генерировать SQL-запросы через обычный диалог на русском языке
🔄 Подключаться к более чем 16 типам баз данных (MySQL, PostgreSQL, MongoDB, Redis и др.)
📊 Создавать красивые дашборды и визуализации данных
🛠 Управлять структурой БД и синхронизировать таблицы

Что особенно впечатлило:

🧠 Работает с Claude 3.7 Sonnet, GPT-4o, DeepSeek и другими топовыми моделями
🔍 Понимает контекст вашей базы данных и не галлюцинирует
🖥 Есть опенсорсная версия, которую можно скачать бесплатно
🏠 Может работать локально — ваши данные не уходят на сторонние сервера

Вот как это выглядит в действии:

• Подключаешься к своей БД
• Спрашиваешь на обычном языке: "Покажи 10 последних заказов" (или любой интересующий вас запрос, см. скриншот)
• AI генерирует правильный SQL-запрос и сразу выполняет его
• Можно тут же создать график или добавить результат на дашборд

Если вы часто работаете с базами данных и устали писать сложные запросы вручную — однозначно стоит попробовать.
Есть три версии: Community (бесплатная), Local и Pro. На платные версии дается 30 дневный trial.

Короткий видео туториал от разработчиков можно посмотреть здесь. А вот тут шикарное 4х минутное демо именно по v3.0 которая вышла недавно. Очень похоже на Cursor for DB :)

Кто уже пользовался Chat2DB? Делитесь впечатлениями в комментариях! 👇

#БазыДанных #AI #SQL #ИнструментыРазработчика
👍6🔥2👏2
Alibaba выпускает Qwen3: новое семейство моделей ИИ на уровне топовых моделей OpenAI и xAI 🚀

Лаборатория Qwen AI от Alibaba представила новое семейство языковых моделей Qwen3 с открытыми весами!
Считается, что это настоящий прорыв, который ставит китайскую компанию в один ряд с лидерами индустрии.

Что в новинке? 💡

• Флагманская модель Qwen3-235B по производительности не уступает гигантам вроде OpenAI o1, Grok-3 и DeepSeek-R1 на ключевых бенчмарках
• Внедрена гибридная система "мышления" — можно выбирать между глубоким рассуждением или быстрыми ответами
• Улучшенные навыки программирования и агентные возможности
• Поддержка 119 языков (привет, полиглоты! 👋)

Линейка моделей 📊

Alibaba выпустила сразу 8 моделей — от легковесной версии с 600 млн параметров до полноценного монстра на 235 млрд. Причем даже малые модели показывают значительный прогресс по сравнению с предыдущими версиями.

Почему это важно? 🌍

Китай стремительно сокращает отставание в сфере ИИ, и сегодняшний релиз Qwen3 — яркое тому подтверждение. Все модели выпущены с открытыми весами под лицензией Apache 2.0 и доступны через Hugging Face или для локального/облачного развертывания.

Теперь все взгляды обращены на DeepSeek и их ожидаемый запуск R2. Гонка ИИ набирает обороты! 🏎

#ИИ #Alibaba #Qwen3 #ИскусственныйИнтеллект #ЯзыковыеМодели #OpenSource #ТехНовости
❤‍🔥4👍4🔥2
Bolt.DIY 1.0: Что нового в обновлении? 🚀

Команда Bolt.DIY (это опенсорсный эквивалент bolt.new, уже писал про него ранее, очень простой и удобный AI-кодер, пожалуй, самый первый из веб-кодеров, кто добился значительного роста числа своих пользователей в рекордно короткие сроки, все еще один из лидеров обзора инструментов для Vibe Coding) наконец выпустила версию 1.0, и, надо признать, обновление получилось довольно внушительным. Давайте разберемся, что там интересного, без лишнего восторга и маркетинговой шелухи.

Новые функции и улучшения

Улучшенные системные промпты 🤖 В настройках появилась библиотека промптов с тремя вариантами: стандартный, оптимизированный и новый "fine-tuned". Последний обещает более строгие стандарты, меньше ошибок и лучшее планирование. Правда, по умолчанию всё равно стоит базовый вариант — видимо, чтобы мы сами могли оценить разницу.

Шаблоны и производительность ⚡️ Добавили новые стартовые шаблоны: Expo (для мобильной разработки), Astro и пару вариантов с ShadCN. Установка шаблонов теперь работает быстрее, и, что важно, больше нет проблем с rate limit, которые раньше случались с завидной регулярностью.

Улучшения интерфейса 💅 Появилась кнопка "перейти к последнему сообщению" — мелочь, а приятно. Исправили странное поведение скроллбара в чате, теперь он отдельный и не дублируется с основным. Стриминг сообщений стал плавнее.

Редактор кода 👨‍💻 В редакторе теперь можно блокировать файлы, чтобы LLM не перезаписывал их (полезно для .env файлов). Добавили поиск по всем файлам с отображением всех вхождений.

Node.js 20 🔄 Обновили Node.js до версии 20 (было 18). Это должно положительно сказаться на производительности, хотя на практике разница не всегда заметна.

Интеграции 🔌
• Supabase: Теперь можно подключить базу данных прямо из интерфейса.
• Vercel: Добавили возможность деплоить приложения на Vercel (как раньше с Netlify). Интеграции с Cloudflare пока нет, но, возможно, появится в следующих версиях.

Десктопное приложение 🖥 Теперь Bolt.DIY можно установить как нативное приложение на Windows, Mac и Linux. Правда, приложения пока не подписаны, так что придется игнорировать предупреждения безопасности при установке.
К слову, dmg-образ для mac у меня не запустился - оказался corrupted.

Expo для мобильной разработки 📱 Наконец-то добавили интеграцию с Expo, что позволяет разрабатывать мобильные приложения. Сканируете QR-код в Expo Go на телефоне — и сразу видите результат. Функция, которая давно была в других AI-инструментах, наконец добралась и до Bolt.DIY.

Как обновиться 🔄

Если вы используете локальную версию:

1) В терминале выполните git pull
2) Установите зависимости: pnpm install
3) Запустите: pnpm run dev

Для существующего деплоя на Cloudflare достаточно синхронизировать форк через кнопку "Sync fork".

Важно ⚠️: Очистите кеш браузера после обновления (Application → Storage → Clear site data), иначе могут возникнуть проблемы с интерфейсом. Учтите, что это удалит ваши API-ключи, если они не сохранены в .env файле.

В целом, обновление выглядит солидно. Разработчики явно поработали над стабильностью и добавили несколько полезных функций. Хотя до идеала еще далеко (где мой деплой приложений на Cloudflare? 🤔), прогресс очевиден. Посмотрим, что они приготовят в следующих версиях.

#bolt #opensource #news #update
5🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
DeerFlow: Новый фреймворк для глубоких исследований от ByteDance

ByteDance, компания-создатель TikTok, выпустила новый опенсорсный инструмент под названием DeerFlow. Это фреймворк для проведения глубоких исследований, который уже набрал почти 5000 звезд на GitHub всего за несколько дней. Неплохо для очередного AI-проекта, не так ли? 🤔

Что такое DeerFlow?

DeerFlow представляет собой фреймворк для систематических глубоких исследований с использованием координированных LangGraph агентов. По сути, это еще один AI-ассистент, но с открытым исходным кодом и возможностью запуска локально.

Основные возможности:
• Комплексный анализ литературы
• Синтез данных
• Структурированное извлечение знаний
• Интеграция с веб-поиском и Python

Как это работает?

Система использует языковые модели (например, Qwen 2.5 14B) и может работать с различными инструментами:

- Веб-поиск (DuckDuckGo, Tavily, Brave Search)
- Веб-краулинг
- Выполнение Python-кода
- Генерация отчетов и даже подкастов 🎙

Интерфейс выглядит довольно приятно (см. демо), а процесс исследования отображается в реальном времени с активностями, выводами и ссылками на источники. Всё как у "больших мальчиков", только бесплатно.

Стоит ли пробовать?

Если вы устали от платных API и хотите иметь собственный инструмент для исследований — возможно. Установка не самая простая (требуется Node.js 22+, несколько зависимостей и настройка конфигурации), но для энтузиастов это не проблема.

Конечно, не стоит ожидать, что он заменит ChatGPT или Claude, но для специфических исследовательских задач может оказаться полезным. По крайней мере, не нужно платить за каждый токен. 💸

Источники
1) Официальный сайт проекта: https://deerflow.tech/
2) Репозиторий проекта: github.com/ByteDance/DeerFlow
3) Подробная документация со схемами по репозиторию здесь

#AI #opensource #ByteDance #deerflow #ИИ_инструменты #deepsearch #agents
🔥43👍3
Microsoft представила концепцию "открытого агентного веба" на Build 2025 🚀

Очень много крутых анонсов от Microsoft.

Microsoft представила свое видение "открытого агентного веба" (open agentic web) на конференции Build 2025, выпустив целый ряд новых инструментов и обновлений с поддержкой искусственного интеллекта.

Ключевые анонсы:

• GitHub Copilot эволюционирует из помощника в редакторе кода в полноценного агента, работающего асинхронно. Также Microsoft сделала открытым исходный код Copilot Chat в VS Code 🔧

• Компания выпустила Magentic-UI — исследовательский прототип с открытым исходным кодом для веб-агентов (построенных на базе агентного фреймворка AutoGen), ориентированный на сотрудничество с пользователем и контроль 🕸 (ссылка на github здесь)

• Microsoft добавляет модели Grok 3 и Grok 3 mini от xAI в Azure AI Foundry, что позволит разработчикам выбирать из более чем 1900 моделей 🧠

• Новый открытый проект NLWeb стремится стать аналогом HTML для агентного веба, упрощая добавление разговорного интерфейса на веб-сайты 💬 (ссылка на github тут)

• Copilot расширяется с новыми возможностями настройки, позволяя организациям обучать модели на корпоративных данных (можно зарегистрироваться на соответствующую сессию завтра), а также оркестрировать взаимодействие нескольких агентов для совместного решения бизнес-задач 📊

Почему это важно

Хотя "год AI-агентов" пока не оправдал всех ожиданий в плане практического применения, индустрия движется в правильном направлении. Заметен также сдвиг в сторону открытого исходного кода, что подтверждается многочисленными релизами от технологического гиганта.

Если вдруг пропустили вот ссылка на Keynote от Satya Nadella (CEO Microsoft)
Для тех, у кого мало времени, или кто не любит youtube, подготовил краткий транскрипт и саммари выступления.

P.S. Будет чем заняться на выходных - продукты классные, будем тестировать.

#ai #microsoft #copilot #agents #opensource
❤‍🔥2👍2
This media is not supported in your browser
VIEW IN TELEGRAM
ByteDance открыл исходный код FlowGram: инструмента для оркестрации рабочих процессов, который используется в Coze!

Компания ByteDance, известная как создатель TikTok, недавно сделала важный шаг для сообщества разработчиков — открыла исходный код своего инструмента FlowGram 🔄

Что такое FlowGram?

FlowGram — это движок для построения процессов на основе узлов, который позволяет разработчикам быстро создавать рабочие процессы с:

• фиксированными макетами
• произвольными соединениями между компонентами

Ключевые особенности

Инструмент предоставляет набор лучших практик для взаимодействия, что делает его особенно полезным для:

1️⃣ Визуализации рабочих процессов
2️⃣ Создания четких входных и выходных параметров
3️⃣ Упрощения сложных последовательностей действий

Если вы интересуетесь инструментами оркестрации или работаете с Coze, стоит обратить внимание на этот проект.
Кажется, что теперь сделать свое no-code решение стало еще проще :)

• Исходный код доступен на GitHub: https://github.com/bytedance/flowgram.ai
• Подробная документация со схемами архитектуры от deepwiki здесь

#workflow #bytedance #opensource #development #ai
❤‍🔥2👍2