Neural Kovalskii
9.29K subscribers
382 photos
55 videos
4 files
281 links
Head of AI redmadrobot.com

From IT Admin to Head of AI in 5 years

Applied AI Engineer
B2C RAG (2M+ books)
B2B RAG platform (10+ implementations)
B2C gptdaisy.com (100k MAU)

github.com/vakovalskii | chat @neuraldeepchat

To infinity... and beyond!
Download Telegram
Media is too big
VIEW IN TELEGRAM
На сегодня хватит интернетов 🤣
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁90
SGR memory agent?
Бесконечная память у агента?

Паша задал хорошую планку закрепление теории о различиях между типами памяти для агентов на уровне инженерии этих агентов

Но не зря мы все копаем один наш проект sgr-core
Я в свою очередь взял вместе со своими ребятами из RnD, раскопал и адаптировал tool из репозитория mem-agent под наш SGR-пайплайн

Код кстати open-source, тут можете подглядеть как оно работает скоро выделим в отдельный репо это направление, как сделать так же, но интерфейса и всей той магии там не будет только базовый разбор репо на tool

Интерфейс увы пока не выкладывал в нем так сказать больше всего сил сконцентрировал

А дальше меня немного понесло)))
Решил довести все это до состояния, когда могу быстро проверять гипотезы как сделать такую штуку универсальной и наглядной для себя и экспериментов

И что же вышло?

Интерфейс с фичами:
Разделение областей знаний на юзеров
Транкейт диалога и бесконечный режим общения
Лимиты
Голосовой ввод (взял интеграцию со speechcoreai.com)
Возможность на лету менять модель сейчас больше всего экспериментов с gpt-4.1-mini и Qwen3-30B-A3B-Instruct-2507
Быстрая настройка основного системного промпта и редактирование докстрингов тулов прямо из интерфейса

Как работает память?

По факту у агента есть систем промпт и 15 тулов которые поваляют работать с долгосрочной памятью в режиме obsidian лайк подходе
Он комбинирует когда надо прочитать инфу о вас а когда можно пользоваться данными загруженными в диалог

Сейчас продолжаю эксперименты и ежедневно общаюсь со своим агентом
На скрине как раз структура, которую он сам создал вокруг нашего общения

Сейчас в эксперименте еще один режим работы постоянной памяти в виде саб-агента, который:
Анализирует диалог после каждого шага (возможно затратно)
Работает с долгосрочной памятью в формате MD (анализирует её тулами если были обновления)
Постоянно отжимает всё в компактную заметку не более 2К символов размером


Кто сидит в нашем чатике, уже видел побольше про этот проект и даже успел зарегаться)))
150+ юзеров зарегистрировалось
~20 человек постоянно ведут эксперименты(из за вас ввел лимиты, но за 1 неделю потрачено 10$ 🤣 вот она мощь sgr на мини модельках), а еще подкидываете мне новые сценарии, спасибо!


P.S Данный пост сделал дабы закрепить мысли об этом эксперименте

Как только соберу критическую массу идей расскажу где и зачем такое может пригодится и как оно работает на локальных моделях!
18🔥13👍43
MCP нам был нужен, теперь пришло время идти дальше

Спустя чуть менее года с момента релиза протокола MCP, Anthropic написали статью о том, что MCP был ошибкой 😄

В этой статье они небезосновательно упоминают о частых проблемах с MCP:

▪️Tools тратят очень много токенов контекстного окна, я об этом кстати уже рассказывал тут

▪️Промежуточные результаты tools тратят дополнительные токены.
В статье приводится пример запроса пользователя: "Скачай meeting transcripts с Google Drive и добавь их к Salesforce lead".

Для исполнения такого запроса нужно, чтобы модель использовала один tool для выкачивания транскриптов, а потом создала из этого лиды.
Транскрипт 2 часового митинга может занимать около 50к токенов, что, в свою очередь, ведёт к тому, что контекстное окно в скором времени закончится.
Насколько я помню, у Claude Desktop версий моделек Sonnet, контекстное окно вообще в 32k токенов

Как эти проблемы предлагает решить Anthropic?

Просить модель делать то, что она уже умеет очень хорошо — писать код, который выполнит задачу.

Как наш пример можно реализовать с таким подходом?

1. Модель получает интерфейсы и API от внешних tools - от Google Drive MCP и от Salesforce MCP
2. На основе имеющихся интерфейсов и задачи от пользователя, модель пишет код, который программно возьмет нужные meeting transcripts и создаст Salesforce leads
3. Задача выполнена
optional. Ту инфу, которую модели нужно знать, она узнает из кода через console.log()

Гениально! 🎉

В статье упомянуто, что в этой конкретной задаче таким способом удалось снизить расход токенов с 150к до 2к.

☝️

Как обычно, подход очевиден, но не все осознают его.
Я в своем опыте использую такой подход для написания одноразовых скриптов.
Из последнего — упростить миграцию данных из одной БД в другую. Я прошу Claude Code написать два node js скрипта:
1) db1 -> json
2) json -> db2
Ну и далее эти скрипты исполняются вручную мной или агентом и выполняют задачу.

Этот подход уже используется в Cloudflare Agents SDK (на него ссылаются авторы), так же знаю, что Ринат Абдуллин (@llm_under_hood) использует такой способ написания кода в своем видении AI Coding.

Стоит отметить, что написание кода LLM моделям "роднее", потому что программного кода они в своих датасетах видели больше, чем "MCP tool calls".

Конечно, здесь есть и свои минусы, но на мой взгляд, это может помочь повысить надёжность способов взаимодействия LLM с внешним миром.

А вы что думаете по этому подходу?

✔️ Timur Khakhalev про AI Coding, подписывайтесь!
⭐️ Консультации по AI Coding
Please open Telegram to view this post
VIEW IN TELEGRAM
33👍22🤔7🤣3
Forwarded from red_mad_robot
Новая карта LLM-практик в России: исследование red_mad_robot

Проводим опрос, чтобы понять, как разработчики, исследователи, продакты и основатели AI-стартапов используют LLM в своей повседневной работе. Ответы помогут зафиксировать реальные сценарии применения и определить, какие value-added сервисы действительно нужны пользователям, чтобы ускорить эксперименты и снизить затраты на работу с моделями.

📎 Опрос занимает 5–7 минут, а пройти его можно по ссылке.

После завершения исследования все участники получат аналитику об LLM, функциях и метриках, которые сегодня в фокусе у продвинутых команд в России.

#AI_moment #роботайм

↗️ red_mad_robot
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍2
SGR File-First: когда двухфазная архитектура встречает файловую систему

После массы экспериментов с двухфазной ReAct архитектурой и
готовым sgr-core (кстати уже 640 звезд и 116 форков и 10 Contributors!)
стало действительно легко создавать и тестировать новые гипотезы

Пост Рефата про file-first подход натолкнул меня на мысль проверить еще одного агента под задачи поиска по файловой системе
Решил взять лучшие тулы от Cursor от других file агентов и упаковать их в SGRFileAgent

Я считаю что мой сетап как раз для локал использования (но конечно же в рамках компании)

Qwen3-30B-A3B-Instruct-2507 FP16 на двух RTX 4090 48GB(хотя я лично знаю человека который купил такой же домой) это примерно 12 тысяч долларов или 1.2 миллиона рублей с утильсбором в РФ (и 80к токенов)

Кстати https://chat.sgr-core.com/ (данный memory агент переведен на эту модель с этого сервера)

Конечно не ахти по цене вон PewDiePie собрал на 8 карт за $20к (у нас бы вышло 5.3 млн с утилем) и там можно крутить что-то серьезнее

Но для production file search и adaptive reasoning достаточно
Агент адаптируется на лету
Самое крутое открытие из логов:
Step 4: Ищу PDF в /home
Result: TIMEOUT после 30 секунд

Step 5: Qwen3-30B reasoning
"Поиск всех PDF привел к таймауту
Необходимо сузить область поиска
Рассмотрим Downloads Documents Desktop"

Step 6: Ищу в /Downloads
Result: 25 файлов за 0.5 секунды


Агент САМ понял проблему и изменил стратегию понял куда его не пускают и что есть доступ к Downloads и пошел там шерстить

Это не hardcoded retry logic это reasoning на уровне LLM модель видит ошибку анализирует причину адаптирует подход (ага ага, все опять про двухфазовый реакт)

Попробуйте сами, пока идет бюджетирования 2026г можно проверить пару интересных гипотез

Код отдельная ветка: https://github.com/vamplabAI/sgr-deep-research/tree/feature/sgr-file-agent

Краткая инструкция как развернуть и креды к модели qwen3-30b-a3b-instruct-2507 (на 5 дней)
cp config.yaml.example config.yaml

Закидываем туда мои креды доступ к qwen3-30b-a3b-instruct-2507 на моем кластере:

API: https://openai-hub.neuraldeep.tech/v1
Key: sk-yrCBAGm4pEkAq7iBE1c1lQ
Активен: 5 дней

В одном терминале поднимаем апи

uv run python sgr_deep_research


В другом кидаем запрос
curl -X POST "http://0.0.0.0:8010/v1/chat/completions" \
-H "Content-Type: application/json" \
-d '{
"model": "sgr_file_agent",
"messages": [
{
"role": "user",
"content": "Найди все Python файлы больше 1MB"
}
]
}'


Naive RAG vs Agentic RAG иногда для поиска по куче мусора лучше взять инструмент который не создаст еще больше мусора (о как придумал)

Спасибо Рефату за идею на вечер!
Знатно поигрался с агентом поиска по файловой системе на локал модели и на собственном фреймворке!
Как вывод если у вас данные все на Google Drive берем - rclone, моего агента и у вас Agentic RAG ))) Причем адаптированный под локал модельку)
5🔥236👍3
Помогите SGR Deep Research стать еще лучше — поделитесь своим опытом!

Друзья, нужна ваша помощь!
Через несколько дней выступаю на конференции про SGR Deep Research, и хочу показать реальные кейсы от людей, которые уже используют фреймворк в production.

Не абстрактные метрики, а живые истории — как вы решаете задачи, какие профиты получаете, с какими граблями сталкиваетесь используя проект https://github.com/vamplabAI/sgr-deep-research

Почему стоит потратить 3 минуты:
Получите сводную аналитику по всем кейсам (как другие используют SGR, какие паттерны работают). Ваш feedback напрямую повлияет на roadmap проекта

Лучшие кейсы упомяну в докладе, по вашему желанию можем анонимно

Проект растет
Изначально это был sgr-deep-research, сейчас обрастаем разными решениями и архитектурными подходами
Возможно, пора ребрендиться в sgr-agent-core?
Ваше мнение для меня критично!

Опрос анонимный
Контакты только если вы их оставите и хотите получить резульаты


https://docs.google.com/forms/d/e/1FAIpQLSdgG4xr2KDG7CucjxkRd1yNtS0qsij5RL3xBcw2LowHrlOD5w/viewform?usp=dialog
🔥12
Видео (6 мин) работы чатбота с SGR на базе локальной Qwen-30b-a3b

Про Schema-Guided Reasoning говорили и писали уже много. Но одно дело слышать, а другое дело - увидеть, как оно работает вживую. Особенно, если реализация сделана настолько аккуратно и вдумчиво, как это сделали ребята из neuraldeep.

Поэтому вот вам видео на 6 минут - Русский / English

Самое классное тут, что эта демка работала на достаточно слабой и медленной Qwen-30b-a3b. А теперь представьте, что можно сделать, если прочитать методичку (написано тут), взять код (он есть в Github) поставить ему звездочку, взять модель помощнее и сделать свою версию - с тестами, с доступом в свои хранилища, учетом своей специфики и своими инструментами. И запускать все это на небольшой коробочке вроде DGX Spark.

А если будут PR - можно смело присылать их в ту репу, чтобы двигать дальше State of the Art в области применения небольших LLM на практике.

Ваш, @llm_under_hood 🤗
4🔥317👍5💯4
Qwen3Guard-Stream: real-time модерация которая реально работает

Новый день новый тест Qwen!

Если вы пропустили специализированные модели для safety moderation, то вот есть три размера (0.6B, 4B, 8B) обученные на 1.19 млн промптов с разметкой на безопасность

Разберем именно стриминг он мне как раз больше всего интересен

Stream-версия делает token-level classification на лету, модерирует каждый токен пока он генерится, можешь прервать сразу как увидел unsafe контент
Напомню мой опыт с NSFW-фильтрами, там боролся с 37% False Positive на gpt-4o-mini, переделывал промпты долго

Тут получаешь детекцию в реальном времени прямо в процессе генерации
Трехуровневую классификацию: Safe, Controversial, Unsafe
9 категорий для промптов включая Jailbreak
8 категорий для ответов
119 языков из коробки

Ну и возможность тюна конечно если есть ресурсы

На одной RTX 4090
Модель на 8B выдает 55 t/s это примерно 150ms до первого токена и начала модерации
В целом крутой пайп буду затаскивать дальше в эксперименты

Про стриминг анализ ответа, как по мне это сильно повышает удовлетворенность от UX эксприенса!
Пользователь не ждет полный ответ чтобы понять что заблокирован система реагирует моментально (кстати давно так делаем в своей RAG платформе спасибо Дяде за подсказку)


Как работает анализ/модерация в режиме стриминга разберем на примере как говорит мой друг Леха "переводим на говяжий"

Представь что твой чат-бот начинает генерить ответ на вопрос пользователя "как сделать бомбу"

Без Stream-модерации ты ждешь пока бот напишет весь ответ (например 200 токенов) потом прогоняешь через модератор и если плохо удаляешь, пользователь уже видел начало генерации

Со Stream-модерацией бот генерит первый токен "Вот" отправляешь в Qwen3Guard-Stream он говорит Safe продолжаешь, второй токен "простые" проверяешь Safe, третий токен "инструкции" проверяешь Safe, четвертый токен "по" проверяешь Safe, пятый токен "изготовлению" проверяешь Unsafe стоп прерываешь генерацию прямо тут
Пользователь видит "Вот простые инструкции по..." бац остановка вместо полного вредоносного текста


Механизм под капотом
Модель имеет специальный classification head который работает параллельно генерации
Шаг 1 прогоняешь промпт пользователя целиком "как сделать бомбу" через stream_moderate_from_ids с role="user"
Модель возвращает оценку Safe/Controversial/Unsafe плюс stream_state это типа память контекста разговора

Шаг 2 твоя основная LLM (например GPT или Qwen) начинает генерить ответ токен за токеном

Шаг 3 каждый новый токен от основной LLM ты сразу скармливаешь в Qwen3Guard-Stream вместе со stream_state
Модель видит весь контекст (промпт плюс уже сгенерированные токены) и оценивает текущий токен

Шаг 4 если детектит Unsafe можешь сразу прервать основную LLM не дожидаясь полного ответа

Это работает потому что Stream-версия обучена анализировать частичный текст а не только финальный результат

Поддержка уже везде SGLang и vLLM
Для Gen-версии можно поднять через sglang>=0.4.6.post1 или vllm>=0.9.0

Особенно интересно для сценариев где latency критична и нужна мультиязычность!
19🔥11👍3🤔2
This media is not supported in your browser
VIEW IN TELEGRAM
SGR Agent Core + UI

Наконец у меня дошли руки сделать фронт: сделал PR жду заливки в main https://github.com/vamplabAI/sgr-agent-core/tree/feature/frontend-integration

Мучал его 3 или 4 дня туго шло из за того что вырезал кучу логики от https://chat.sgr-core.com/ (cуммарно $90 мне стоил этот опыт)

Забирайте на тесты:
Ридми тут https://github.com/vamplabAI/sgr-agent-core/blob/feature/frontend-integration/README.md

Тапками не кидать я в Vue (0)
1🔥3353👍3
Composer, когда ты почти на мели

Ну что вот и я потребил все мыслимые лимиты в Cursor, и он любезно мне предложил перейти на Composer

Я подумал что на текущем проекте тестить эту модель не хочу

И тут researcher из нашего rnd отдела напилил себе сайтик на html+css вдохновившись сайтом Andrej Karpathy

А я решил что вот оно куда я потрачу 2 часа времени и опробую React http://vkovalskii.com/

Цвет шрифт стили подобрал тут https://www.namecheap.com/logo-maker/ (там прикольный опрос потом архив с примером шрифта и лого)


Вышло так что за время генерки ни одной ошибки не было он сам все фиксил либо были не значительные баги на деплое из за http/https что пофиксили быстро за 2-3 промпта


Cтавлю 5+ Cursor за Composer для таких проектов!
В этот раз попробовал сделать документацию в obsidian like структуре в базовой вложенностью

main_llm_instruction_about_this_site_read_first.md (основной файл где есть линки на другие файлы с инструкциями, и правила ведения проекта и документации)
Так же попросил называть все папки по семантическому смыслу (ЯКОРЯ ОХ ЯКОРЯ)

├── 📄 main_llm_instruction_about_this_site_read_first.md (you are here)
├── 📄 README.md
├── 📄 package.json

├── 📁 src/
│ ├── 📄 what_this_folder_do.md
│ ├── 📄 App.jsx
│ ├── 📄 main.jsx
│ │
│ ├── 📁 pages/
│ │ ├── 📄 what_this_folder_do.md
│ │ │
│ │ ├── 📁 career/ ⭐️ PRIMARY SECTION
│ │ │ ├── 📄 what_this_folder_do.md
│ │ │ ├── 📄 CareerPage.jsx


Проверим временем насколько легко будет добавлять в такой сайт новые разделы, кстати для этого я сделал конвертор для статей из md в jsx


Сам сайт https://vkovalskii.com/
🔥16👍4👏2💯1
Forwarded from red_mad_robot
Карта_рынка_GenAI_red_mad_robot_2025.pdf
40.5 MB
Карта рынка GenAI: как он устроен в России

Центр AI-компетенций red_mad_robot собрал большой отчёт по состоянию российского рынка GenAI в 2025 году. Получилась настоящая онтологическая карта с уровнями экосистемы, распределением ролей и зонами, где формируются ключевые компетенции.

Мы проанализировали локальный ландшафт, зафиксировали связи и точки роста, а контекст и практические детали дополнили разговоры с экспертами из red_mad_robot, @beeline и @skolkovo_channel.

Сохраняйте и читайте PDF!

#AI_moment #трендвотчинг

↗️ red_mad_robot
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22🔥131
SGR-Agent-Core

700 звезд пробили!


Сегодня будет крупная обнова следим тут:


https://github.com/vamplabAI/sgr-agent-core

Планирую для ERC3 использовать этого агента доработаю только tool_kit, а ты уже готов?
50🔥42👍10👏6💯2
Media is too big
VIEW IN TELEGRAM
Как прошёл Вайб Цех 😍

Ловите топовый клип про то как прошел наш митап!

+ Фото
+ Запись стрима!

Семь топовых спикеров из бигтеха, более 50 гостей в Цехе и 1600+ зрителей онлайн.

Подготовили для вас записи докладов в ВК и на YouTube (в самом конце фрагмент, который видели только гости офлайн площадки!)

Скачивайте презентации про то, как вайбкодинг меняет индустрию разработки🔗

Заполняйте форму обратной связи, чтобы мы становились лучше, а также ищите себя на фотографиях с митапа и погружайтесь в цеховую атмосферу в отчётном ролике.

Будем ждать вас на следующих митапах 😊
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥25👍1751