Forwarded from Daisy news
Хочешь увидеть, как я справляюсь с ролью креативного редактора? Теперь я могу полностью преобразить фото. Добавить детали, поменять стиль, создать новую сцену, и всё это по твоему описанию.
📸 Просто загрузи снимок и напиши, что нужно изменить. Я аккуратно доработаю кадр — от Деда Мороза в стеклянном шаре до Человека-паука с идеальным фото для резюме.
⚡️ Daisy — AI-сервис для удобной работы с передовыми LLM. Работает без VPN.
🌼 @daisygpt_bot
#DaisyNews
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍5❤3 3
Media is too big
VIEW IN TELEGRAM
На сегодня хватит интернетов 🤣
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁89
SGR memory agent?
Бесконечная память у агента?
Паша задал хорошую планку закрепление теории о различиях между типами памяти для агентов на уровне инженерии этих агентов
Но не зря мы все копаем один наш проект sgr-core
Я в свою очередь взял вместе со своими ребятами из RnD, раскопал и адаптировал tool из репозитория mem-agent под наш SGR-пайплайн
Код кстати open-source, тут можете подглядеть как оно работает скоро выделим в отдельный репо это направление, как сделать так же, но интерфейса и всей той магии там не будет только базовый разбор репо на tool
Интерфейс увы пока не выкладывал в нем так сказать больше всего сил сконцентрировал
А дальше меня немного понесло)))
Решил довести все это до состояния, когда могу быстро проверять гипотезы как сделать такую штуку универсальной и наглядной для себя и экспериментов
И что же вышло?
Интерфейс с фичами:
Разделение областей знаний на юзеров
Транкейт диалога и бесконечный режим общения
Лимиты
Голосовой ввод (взял интеграцию со speechcoreai.com)
Возможность на лету менять модель сейчас больше всего экспериментов с gpt-4.1-mini и Qwen3-30B-A3B-Instruct-2507
Быстрая настройка основного системного промпта и редактирование докстрингов тулов прямо из интерфейса
Как работает память?
По факту у агента есть систем промпт и 15 тулов которые поваляют работать с долгосрочной памятью в режиме obsidian лайк подходе
Он комбинирует когда надо прочитать инфу о вас а когда можно пользоваться данными загруженными в диалог
Сейчас продолжаю эксперименты и ежедневно общаюсь со своим агентом
На скрине как раз структура, которую он сам создал вокруг нашего общения
Сейчас в эксперименте еще один режим работы постоянной памяти в виде саб-агента, который:
Анализирует диалог после каждого шага (возможно затратно)
Работает с долгосрочной памятью в формате MD (анализирует её тулами если были обновления)
Постоянно отжимает всё в компактную заметку не более 2К символов размером
Кто сидит в нашем чатике, уже видел побольше про этот проект и даже успел зарегаться)))
150+ юзеров зарегистрировалось
~20 человек постоянно ведут эксперименты(из за вас ввел лимиты, но за 1 неделю потрачено 10$ 🤣 вот она мощь sgr на мини модельках), а еще подкидываете мне новые сценарии, спасибо!
P.S Данный пост сделал дабы закрепить мысли об этом эксперименте
Как только соберу критическую массу идей расскажу где и зачем такое может пригодится и как оно работает на локальных моделях!
Бесконечная память у агента?
Паша задал хорошую планку закрепление теории о различиях между типами памяти для агентов на уровне инженерии этих агентов
Но не зря мы все копаем один наш проект sgr-core
Я в свою очередь взял вместе со своими ребятами из RnD, раскопал и адаптировал tool из репозитория mem-agent под наш SGR-пайплайн
Код кстати open-source, тут можете подглядеть как оно работает скоро выделим в отдельный репо это направление, как сделать так же, но интерфейса и всей той магии там не будет только базовый разбор репо на tool
Интерфейс увы пока не выкладывал в нем так сказать больше всего сил сконцентрировал
А дальше меня немного понесло)))
Решил довести все это до состояния, когда могу быстро проверять гипотезы как сделать такую штуку универсальной и наглядной для себя и экспериментов
И что же вышло?
Интерфейс с фичами:
Разделение областей знаний на юзеров
Транкейт диалога и бесконечный режим общения
Лимиты
Голосовой ввод (взял интеграцию со speechcoreai.com)
Возможность на лету менять модель сейчас больше всего экспериментов с gpt-4.1-mini и Qwen3-30B-A3B-Instruct-2507
Быстрая настройка основного системного промпта и редактирование докстрингов тулов прямо из интерфейса
Как работает память?
По факту у агента есть систем промпт и 15 тулов которые поваляют работать с долгосрочной памятью в режиме obsidian лайк подходе
Он комбинирует когда надо прочитать инфу о вас а когда можно пользоваться данными загруженными в диалог
Сейчас продолжаю эксперименты и ежедневно общаюсь со своим агентом
На скрине как раз структура, которую он сам создал вокруг нашего общения
Сейчас в эксперименте еще один режим работы постоянной памяти в виде саб-агента, который:
Анализирует диалог после каждого шага (возможно затратно)
Работает с долгосрочной памятью в формате MD (анализирует её тулами если были обновления)
Постоянно отжимает всё в компактную заметку не более 2К символов размером
Кто сидит в нашем чатике, уже видел побольше про этот проект и даже успел зарегаться)))
150+ юзеров зарегистрировалось
~20 человек постоянно ведут эксперименты(из за вас ввел лимиты, но за 1 неделю потрачено 10$ 🤣 вот она мощь sgr на мини модельках), а еще подкидываете мне новые сценарии, спасибо!
P.S Данный пост сделал дабы закрепить мысли об этом эксперименте
Как только соберу критическую массу идей расскажу где и зачем такое может пригодится и как оно работает на локальных моделях!
❤18🔥13👍4 3
Forwarded from The AI Architect | AI Coding
MCP нам был нужен, теперь пришло время идти дальше
Спустя чуть менее года с момента релиза протокола MCP, Anthropic написали статью о том, что MCP был ошибкой 😄
В этой статье они небезосновательно упоминают о частых проблемах с MCP:
▪️Tools тратят очень много токенов контекстного окна, я об этом кстати уже рассказывал тут
▪️Промежуточные результаты tools тратят дополнительные токены.
В статье приводится пример запроса пользователя: "Скачай meeting transcripts с Google Drive и добавь их к Salesforce lead".
Для исполнения такого запроса нужно, чтобы модель использовала один tool для выкачивания транскриптов, а потом создала из этого лиды.
Транскрипт 2 часового митинга может занимать около 50к токенов, что, в свою очередь, ведёт к тому, что контекстное окно в скором времени закончится.
Насколько я помню, у Claude Desktop версий моделек Sonnet, контекстное окно вообще в 32k токенов
Как эти проблемы предлагает решить Anthropic?
Просить модель делать то, что она уже умеет очень хорошо — писать код, который выполнит задачу.
Как наш пример можно реализовать с таким подходом?
1. Модель получает интерфейсы и API от внешних tools - от Google Drive MCP и от Salesforce MCP
2. На основе имеющихся интерфейсов и задачи от пользователя, модель пишет код, который программно возьмет нужные meeting transcripts и создаст Salesforce leads
3. Задача выполнена
optional. Ту инфу, которую модели нужно знать, она узнает из кода через console.log()
Гениально! 🎉
В статье упомянуто, что в этой конкретной задаче таким способом удалось снизить расход токенов с 150к до 2к.
☝️
Как обычно, подход очевиден, но не все осознают его.
Я в своем опыте использую такой подход для написания одноразовых скриптов.
Из последнего — упростить миграцию данных из одной БД в другую. Я прошу Claude Code написать два node js скрипта:
1) db1 -> json
2) json -> db2
Ну и далее эти скрипты исполняются вручную мной или агентом и выполняют задачу.
Этот подход уже используется в Cloudflare Agents SDK (на него ссылаются авторы), так же знаю, что Ринат Абдуллин (@llm_under_hood) использует такой способ написания кода в своем видении AI Coding.
Стоит отметить, что написание кода LLM моделям "роднее", потому что программного кода они в своих датасетах видели больше, чем "MCP tool calls".
Конечно, здесь есть и свои минусы, но на мой взгляд, это может помочь повысить надёжность способов взаимодействия LLM с внешним миром.
А вы что думаете по этому подходу?
✔️ Timur Khakhalev про AI Coding, подписывайтесь!
⭐️ Консультации по AI Coding
Спустя чуть менее года с момента релиза протокола MCP, Anthropic написали статью о том, что MCP был ошибкой 😄
В этой статье они небезосновательно упоминают о частых проблемах с MCP:
▪️Tools тратят очень много токенов контекстного окна, я об этом кстати уже рассказывал тут
▪️Промежуточные результаты tools тратят дополнительные токены.
В статье приводится пример запроса пользователя: "Скачай meeting transcripts с Google Drive и добавь их к Salesforce lead".
Для исполнения такого запроса нужно, чтобы модель использовала один tool для выкачивания транскриптов, а потом создала из этого лиды.
Транскрипт 2 часового митинга может занимать около 50к токенов, что, в свою очередь, ведёт к тому, что контекстное окно в скором времени закончится.
Как эти проблемы предлагает решить Anthropic?
Просить модель делать то, что она уже умеет очень хорошо — писать код, который выполнит задачу.
Как наш пример можно реализовать с таким подходом?
1. Модель получает интерфейсы и API от внешних tools - от Google Drive MCP и от Salesforce MCP
2. На основе имеющихся интерфейсов и задачи от пользователя, модель пишет код, который программно возьмет нужные meeting transcripts и создаст Salesforce leads
3. Задача выполнена
optional. Ту инфу, которую модели нужно знать, она узнает из кода через console.log()
Гениально! 🎉
В статье упомянуто, что в этой конкретной задаче таким способом удалось снизить расход токенов с 150к до 2к.
☝️
Как обычно, подход очевиден, но не все осознают его.
Я в своем опыте использую такой подход для написания одноразовых скриптов.
Из последнего — упростить миграцию данных из одной БД в другую. Я прошу Claude Code написать два node js скрипта:
1) db1 -> json
2) json -> db2
Ну и далее эти скрипты исполняются вручную мной или агентом и выполняют задачу.
Этот подход уже используется в Cloudflare Agents SDK (на него ссылаются авторы), так же знаю, что Ринат Абдуллин (@llm_under_hood) использует такой способ написания кода в своем видении AI Coding.
Стоит отметить, что написание кода LLM моделям "роднее", потому что программного кода они в своих датасетах видели больше, чем "MCP tool calls".
Конечно, здесь есть и свои минусы, но на мой взгляд, это может помочь повысить надёжность способов взаимодействия LLM с внешним миром.
А вы что думаете по этому подходу?
Please open Telegram to view this post
VIEW IN TELEGRAM
❤32👍22🤔7🤣3
Forwarded from red_mad_robot
Новая карта LLM-практик в России: исследование red_mad_robot
Проводим опрос, чтобы понять, как разработчики, исследователи, продакты и основатели AI-стартапов используют LLM в своей повседневной работе. Ответы помогут зафиксировать реальные сценарии применения и определить, какие value-added сервисы действительно нужны пользователям, чтобы ускорить эксперименты и снизить затраты на работу с моделями.
📎 Опрос занимает 5–7 минут, а пройти его можно по ссылке.
После завершения исследования все участники получат аналитику об LLM, функциях и метриках, которые сегодня в фокусе у продвинутых команд в России.
#AI_moment #роботайм
↗️ red_mad_robot
Проводим опрос, чтобы понять, как разработчики, исследователи, продакты и основатели AI-стартапов используют LLM в своей повседневной работе. Ответы помогут зафиксировать реальные сценарии применения и определить, какие value-added сервисы действительно нужны пользователям, чтобы ускорить эксперименты и снизить затраты на работу с моделями.
После завершения исследования все участники получат аналитику об LLM, функциях и метриках, которые сегодня в фокусе у продвинутых команд в России.
#AI_moment #роботайм
Please open Telegram to view this post
VIEW IN TELEGRAM
Google Docs
Пользовательский опыт работы с LLM
🔥9👍2
SGR File-First: когда двухфазная архитектура встречает файловую систему
После массы экспериментов с двухфазной ReAct архитектурой и
готовым sgr-core (кстати уже 640 звезд и 116 форков и 10 Contributors!)
стало действительно легко создавать и тестировать новые гипотезы
Пост Рефата про file-first подход натолкнул меня на мысль проверить еще одного агента под задачи поиска по файловой системе
Решил взять лучшие тулы от Cursor от других file агентов и упаковать их в SGRFileAgent
Я считаю что мой сетап как раз для локал использования (но конечно же в рамках компании)
Qwen3-30B-A3B-Instruct-2507 FP16 на двух RTX 4090 48GB(хотя я лично знаю человека который купил такой же домой) это примерно 12 тысяч долларов или 1.2 миллиона рублей с утильсбором в РФ (и 80к токенов)
Кстати https://chat.sgr-core.com/ (данный memory агент переведен на эту модель с этого сервера)
Конечно не ахти по цене вон PewDiePie собрал на 8 карт за $20к (у нас бы вышло 5.3 млн с утилем) и там можно крутить что-то серьезнее
Но для production file search и adaptive reasoning достаточно
Агент адаптируется на лету
Самое крутое открытие из логов:
Агент САМ понял проблему и изменил стратегию понял куда его не пускают и что есть доступ к
Это не hardcoded retry logic это reasoning на уровне LLM модель видит ошибку анализирует причину адаптирует подход (ага ага, все опять про двухфазовый реакт)
Попробуйте сами, пока идет бюджетирования 2026г можно проверить пару интересных гипотез
Код отдельная ветка: https://github.com/vamplabAI/sgr-deep-research/tree/feature/sgr-file-agent
Краткая инструкция как развернуть и креды к модели qwen3-30b-a3b-instruct-2507 (на 5 дней)
Закидываем туда мои креды доступ к qwen3-30b-a3b-instruct-2507 на моем кластере:
API:
Key:
Активен: 5 дней
В одном терминале поднимаем апи
В другом кидаем запрос
Naive RAG vs Agentic RAG иногда для поиска по куче мусора лучше взять инструмент который не создаст еще больше мусора (о как придумал)
Спасибо Рефату за идею на вечер!
Знатно поигрался с агентом поиска по файловой системе на локал модели и на собственном фреймворке!
Как вывод если у вас данные все на Google Drive берем - rclone, моего агента и у вас Agentic RAG ))) Причем адаптированный под локал модельку)
После массы экспериментов с двухфазной ReAct архитектурой и
готовым sgr-core (кстати уже 640 звезд и 116 форков и 10 Contributors!)
стало действительно легко создавать и тестировать новые гипотезы
Пост Рефата про file-first подход натолкнул меня на мысль проверить еще одного агента под задачи поиска по файловой системе
Решил взять лучшие тулы от Cursor от других file агентов и упаковать их в SGRFileAgent
Я считаю что мой сетап как раз для локал использования (но конечно же в рамках компании)
Qwen3-30B-A3B-Instruct-2507 FP16 на двух RTX 4090 48GB(хотя я лично знаю человека который купил такой же домой) это примерно 12 тысяч долларов или 1.2 миллиона рублей с утильсбором в РФ (и 80к токенов)
Кстати https://chat.sgr-core.com/ (данный memory агент переведен на эту модель с этого сервера)
Конечно не ахти по цене вон PewDiePie собрал на 8 карт за $20к (у нас бы вышло 5.3 млн с утилем) и там можно крутить что-то серьезнее
Но для production file search и adaptive reasoning достаточно
Агент адаптируется на лету
Самое крутое открытие из логов:
Step 4: Ищу PDF в /home
Result: TIMEOUT после 30 секунд
Step 5: Qwen3-30B reasoning
"Поиск всех PDF привел к таймауту
Необходимо сузить область поиска
Рассмотрим Downloads Documents Desktop"
Step 6: Ищу в /Downloads
Result: 25 файлов за 0.5 секунды
Агент САМ понял проблему и изменил стратегию понял куда его не пускают и что есть доступ к
Downloads и пошел там шерститьЭто не hardcoded retry logic это reasoning на уровне LLM модель видит ошибку анализирует причину адаптирует подход (ага ага, все опять про двухфазовый реакт)
Попробуйте сами, пока идет бюджетирования 2026г можно проверить пару интересных гипотез
Код отдельная ветка: https://github.com/vamplabAI/sgr-deep-research/tree/feature/sgr-file-agent
Краткая инструкция как развернуть и креды к модели qwen3-30b-a3b-instruct-2507 (на 5 дней)
cp config.yaml.example config.yaml
Закидываем туда мои креды доступ к qwen3-30b-a3b-instruct-2507 на моем кластере:
API:
https://openai-hub.neuraldeep.tech/v1Key:
sk-yrCBAGm4pEkAq7iBE1c1lQАктивен: 5 дней
В одном терминале поднимаем апи
uv run python sgr_deep_research
В другом кидаем запрос
curl -X POST "http://0.0.0.0:8010/v1/chat/completions" \
-H "Content-Type: application/json" \
-d '{
"model": "sgr_file_agent",
"messages": [
{
"role": "user",
"content": "Найди все Python файлы больше 1MB"
}
]
}'
Naive RAG vs Agentic RAG иногда для поиска по куче мусора лучше взять инструмент который не создаст еще больше мусора (о как придумал)
Спасибо Рефату за идею на вечер!
Знатно поигрался с агентом поиска по файловой системе на локал модели и на собственном фреймворке!
Как вывод если у вас данные все на Google Drive берем - rclone, моего агента и у вас Agentic RAG ))) Причем адаптированный под локал модельку)
5🔥23❤6👍3
Помогите SGR Deep Research стать еще лучше — поделитесь своим опытом!
Друзья, нужна ваша помощь!
Через несколько дней выступаю на конференции про SGR Deep Research, и хочу показать реальные кейсы от людей, которые уже используют фреймворк в production.
Не абстрактные метрики, а живые истории — как вы решаете задачи, какие профиты получаете, с какими граблями сталкиваетесь используя проект https://github.com/vamplabAI/sgr-deep-research
Почему стоит потратить 3 минуты:
Получите сводную аналитику по всем кейсам (как другие используют SGR, какие паттерны работают). Ваш feedback напрямую повлияет на roadmap проекта
Лучшие кейсы упомяну в докладе, по вашему желанию можем анонимно
Проект растет
Изначально это был sgr-deep-research, сейчас обрастаем разными решениями и архитектурными подходами
Возможно, пора ребрендиться в sgr-agent-core?
Ваше мнение для меня критично!
Опрос анонимный
Контакты только если вы их оставите и хотите получить резульаты
https://docs.google.com/forms/d/e/1FAIpQLSdgG4xr2KDG7CucjxkRd1yNtS0qsij5RL3xBcw2LowHrlOD5w/viewform?usp=dialog
Друзья, нужна ваша помощь!
Через несколько дней выступаю на конференции про SGR Deep Research, и хочу показать реальные кейсы от людей, которые уже используют фреймворк в production.
Не абстрактные метрики, а живые истории — как вы решаете задачи, какие профиты получаете, с какими граблями сталкиваетесь используя проект https://github.com/vamplabAI/sgr-deep-research
Почему стоит потратить 3 минуты:
Получите сводную аналитику по всем кейсам (как другие используют SGR, какие паттерны работают). Ваш feedback напрямую повлияет на roadmap проекта
Лучшие кейсы упомяну в докладе, по вашему желанию можем анонимно
Проект растет
Изначально это был sgr-deep-research, сейчас обрастаем разными решениями и архитектурными подходами
Возможно, пора ребрендиться в sgr-agent-core?
Ваше мнение для меня критично!
Опрос анонимный
Контакты только если вы их оставите и хотите получить резульаты
https://docs.google.com/forms/d/e/1FAIpQLSdgG4xr2KDG7CucjxkRd1yNtS0qsij5RL3xBcw2LowHrlOD5w/viewform?usp=dialog
Google Docs
SGR Deep Research — Production Experience Survey
Опрос о решении https://github.com/vamplabAI/sgr-deep-research
🔥12
Forwarded from LLM под капотом
Видео (6 мин) работы чатбота с SGR на базе локальной Qwen-30b-a3b
Про Schema-Guided Reasoning говорили и писали уже много. Но одно дело слышать, а другое дело - увидеть, как оно работает вживую. Особенно, если реализация сделана настолько аккуратно и вдумчиво, как это сделали ребята из neuraldeep.
Поэтому вот вам видео на 6 минут - Русский / English
Самое классное тут, что эта демка работала на достаточно слабой и медленной Qwen-30b-a3b. А теперь представьте, что можно сделать, если прочитать методичку (написано тут), взять код (он есть в Github) поставить ему звездочку, взять модель помощнее и сделать свою версию - с тестами, с доступом в свои хранилища, учетом своей специфики и своими инструментами. И запускать все это на небольшой коробочке вроде DGX Spark.
А если будут PR - можно смело присылать их в ту репу, чтобы двигать дальше State of the Art в области применения небольших LLM на практике.
Ваш, @llm_under_hood 🤗
Про Schema-Guided Reasoning говорили и писали уже много. Но одно дело слышать, а другое дело - увидеть, как оно работает вживую. Особенно, если реализация сделана настолько аккуратно и вдумчиво, как это сделали ребята из neuraldeep.
Поэтому вот вам видео на 6 минут - Русский / English
Самое классное тут, что эта демка работала на достаточно слабой и медленной Qwen-30b-a3b. А теперь представьте, что можно сделать, если прочитать методичку (написано тут), взять код (он есть в Github) поставить ему звездочку, взять модель помощнее и сделать свою версию - с тестами, с доступом в свои хранилища, учетом своей специфики и своими инструментами. И запускать все это на небольшой коробочке вроде DGX Spark.
А если будут PR - можно смело присылать их в ту репу, чтобы двигать дальше State of the Art в области применения небольших LLM на практике.
Ваш, @llm_under_hood 🤗
4🔥31 7👍5💯3
Qwen3Guard-Stream: real-time модерация которая реально работает
Новый день новый тест Qwen!
Если вы пропустили специализированные модели для safety moderation, то вот есть три размера (0.6B, 4B, 8B) обученные на 1.19 млн промптов с разметкой на безопасность
Разберем именно стриминг он мне как раз больше всего интересен
Stream-версия делает token-level classification на лету, модерирует каждый токен пока он генерится, можешь прервать сразу как увидел unsafe контент
Напомню мой опыт с NSFW-фильтрами, там боролся с 37% False Positive на gpt-4o-mini, переделывал промпты долго
Тут получаешь детекцию в реальном времени прямо в процессе генерации
Трехуровневую классификацию: Safe, Controversial, Unsafe
9 категорий для промптов включая Jailbreak
8 категорий для ответов
119 языков из коробки
Ну и возможность тюна конечно если есть ресурсы
На одной RTX 4090
Модель на 8B выдает 55 t/s это примерно 150ms до первого токена и начала модерации
В целом крутой пайп буду затаскивать дальше в эксперименты
Про стриминг анализ ответа, как по мне это сильно повышает удовлетворенность от UX эксприенса!
Пользователь не ждет полный ответ чтобы понять что заблокирован система реагирует моментально (кстати давно так делаем в своей RAG платформе спасибо Дяде за подсказку)
Как работает анализ/модерация в режиме стриминга разберем на примере как говорит мой друг Леха "переводим на говяжий"
Представь что твой чат-бот начинает генерить ответ на вопрос пользователя "как сделать бомбу"
Без Stream-модерации ты ждешь пока бот напишет весь ответ (например 200 токенов) потом прогоняешь через модератор и если плохо удаляешь, пользователь уже видел начало генерации
Со Stream-модерацией бот генерит первый токен "Вот" отправляешь в Qwen3Guard-Stream он говорит Safe продолжаешь, второй токен "простые" проверяешь Safe, третий токен "инструкции" проверяешь Safe, четвертый токен "по" проверяешь Safe, пятый токен "изготовлению" проверяешь Unsafe стоп прерываешь генерацию прямо тут
Пользователь видит "Вот простые инструкции по..." бац остановка вместо полного вредоносного текста
Механизм под капотом
Модель имеет специальный classification head который работает параллельно генерации
Шаг 1 прогоняешь промпт пользователя целиком "как сделать бомбу" через stream_moderate_from_ids с role="user"
Модель возвращает оценку Safe/Controversial/Unsafe плюс stream_state это типа память контекста разговора
Шаг 2 твоя основная LLM (например GPT или Qwen) начинает генерить ответ токен за токеном
Шаг 3 каждый новый токен от основной LLM ты сразу скармливаешь в Qwen3Guard-Stream вместе со stream_state
Модель видит весь контекст (промпт плюс уже сгенерированные токены) и оценивает текущий токен
Шаг 4 если детектит Unsafe можешь сразу прервать основную LLM не дожидаясь полного ответа
Это работает потому что Stream-версия обучена анализировать частичный текст а не только финальный результат
Поддержка уже везде SGLang и vLLM
Для Gen-версии можно поднять через sglang>=0.4.6.post1 или vllm>=0.9.0
Особенно интересно для сценариев где latency критична и нужна мультиязычность!
Новый день новый тест Qwen!
Если вы пропустили специализированные модели для safety moderation, то вот есть три размера (0.6B, 4B, 8B) обученные на 1.19 млн промптов с разметкой на безопасность
Разберем именно стриминг он мне как раз больше всего интересен
Stream-версия делает token-level classification на лету, модерирует каждый токен пока он генерится, можешь прервать сразу как увидел unsafe контент
Напомню мой опыт с NSFW-фильтрами, там боролся с 37% False Positive на gpt-4o-mini, переделывал промпты долго
Тут получаешь детекцию в реальном времени прямо в процессе генерации
Трехуровневую классификацию: Safe, Controversial, Unsafe
9 категорий для промптов включая Jailbreak
8 категорий для ответов
119 языков из коробки
Ну и возможность тюна конечно если есть ресурсы
На одной RTX 4090
Модель на 8B выдает 55 t/s это примерно 150ms до первого токена и начала модерации
В целом крутой пайп буду затаскивать дальше в эксперименты
Про стриминг анализ ответа, как по мне это сильно повышает удовлетворенность от UX эксприенса!
Пользователь не ждет полный ответ чтобы понять что заблокирован система реагирует моментально (кстати давно так делаем в своей RAG платформе спасибо Дяде за подсказку)
Как работает анализ/модерация в режиме стриминга разберем на примере как говорит мой друг Леха "переводим на говяжий"
Представь что твой чат-бот начинает генерить ответ на вопрос пользователя "как сделать бомбу"
Без Stream-модерации ты ждешь пока бот напишет весь ответ (например 200 токенов) потом прогоняешь через модератор и если плохо удаляешь, пользователь уже видел начало генерации
Со Stream-модерацией бот генерит первый токен "Вот" отправляешь в Qwen3Guard-Stream он говорит Safe продолжаешь, второй токен "простые" проверяешь Safe, третий токен "инструкции" проверяешь Safe, четвертый токен "по" проверяешь Safe, пятый токен "изготовлению" проверяешь Unsafe стоп прерываешь генерацию прямо тут
Пользователь видит "Вот простые инструкции по..." бац остановка вместо полного вредоносного текста
Механизм под капотом
Модель имеет специальный classification head который работает параллельно генерации
Шаг 1 прогоняешь промпт пользователя целиком "как сделать бомбу" через stream_moderate_from_ids с role="user"
Модель возвращает оценку Safe/Controversial/Unsafe плюс stream_state это типа память контекста разговора
Шаг 2 твоя основная LLM (например GPT или Qwen) начинает генерить ответ токен за токеном
Шаг 3 каждый новый токен от основной LLM ты сразу скармливаешь в Qwen3Guard-Stream вместе со stream_state
Модель видит весь контекст (промпт плюс уже сгенерированные токены) и оценивает текущий токен
Шаг 4 если детектит Unsafe можешь сразу прервать основную LLM не дожидаясь полного ответа
Это работает потому что Stream-версия обучена анализировать частичный текст а не только финальный результат
Поддержка уже везде SGLang и vLLM
Для Gen-версии можно поднять через sglang>=0.4.6.post1 или vllm>=0.9.0
Особенно интересно для сценариев где latency критична и нужна мультиязычность!
❤19🔥11👍3🤔2
This media is not supported in your browser
VIEW IN TELEGRAM
SGR Agent Core + UI
Наконец у меня дошли руки сделать фронт: сделал PR жду заливки в main https://github.com/vamplabAI/sgr-agent-core/tree/feature/frontend-integration
Мучал его 3 или 4 дня туго шло из за того что вырезал кучу логики от https://chat.sgr-core.com/ (cуммарно $90 мне стоил этот опыт)
Забирайте на тесты:
Ридми тут https://github.com/vamplabAI/sgr-agent-core/blob/feature/frontend-integration/README.md
Тапками не кидать я в Vue (0)
Наконец у меня дошли руки сделать фронт: сделал PR жду заливки в main https://github.com/vamplabAI/sgr-agent-core/tree/feature/frontend-integration
Мучал его 3 или 4 дня туго шло из за того что вырезал кучу логики от https://chat.sgr-core.com/ (cуммарно $90 мне стоил этот опыт)
Забирайте на тесты:
Ридми тут https://github.com/vamplabAI/sgr-agent-core/blob/feature/frontend-integration/README.md
Тапками не кидать я в Vue (0)
1🔥33 5❤3👍3
Composer, когда ты почти на мели
Ну что вот и я потребил все мыслимые лимиты в Cursor, и он любезно мне предложил перейти на Composer
Я подумал что на текущем проекте тестить эту модель не хочу
И тут researcher из нашего rnd отдела напилил себе сайтик на html+css вдохновившись сайтом Andrej Karpathy
А я решил что вот оно куда я потрачу 2 часа времени и опробую React http://vkovalskii.com/
Цвет шрифт стили подобрал тут https://www.namecheap.com/logo-maker/ (там прикольный опрос потом архив с примером шрифта и лого)
Вышло так что за время генерки ни одной ошибки не было он сам все фиксил либо были не значительные баги на деплое из за http/https что пофиксили быстро за 2-3 промпта
Cтавлю 5+ Cursor за Composer для таких проектов!
В этот раз попробовал сделать документацию в obsidian like структуре в базовой вложенностью
main_llm_instruction_about_this_site_read_first.md (основной файл где есть линки на другие файлы с инструкциями, и правила ведения проекта и документации)
Так же попросил называть все папки по семантическому смыслу (ЯКОРЯ ОХ ЯКОРЯ)
Проверим временем насколько легко будет добавлять в такой сайт новые разделы, кстати для этого я сделал конвертор для статей из md в jsx
Сам сайт https://vkovalskii.com/
Ну что вот и я потребил все мыслимые лимиты в Cursor, и он любезно мне предложил перейти на Composer
Я подумал что на текущем проекте тестить эту модель не хочу
И тут researcher из нашего rnd отдела напилил себе сайтик на html+css вдохновившись сайтом Andrej Karpathy
А я решил что вот оно куда я потрачу 2 часа времени и опробую React http://vkovalskii.com/
Цвет шрифт стили подобрал тут https://www.namecheap.com/logo-maker/ (там прикольный опрос потом архив с примером шрифта и лого)
Вышло так что за время генерки ни одной ошибки не было он сам все фиксил либо были не значительные баги на деплое из за http/https что пофиксили быстро за 2-3 промпта
Cтавлю 5+ Cursor за Composer для таких проектов!
В этот раз попробовал сделать документацию в obsidian like структуре в базовой вложенностью
main_llm_instruction_about_this_site_read_first.md (основной файл где есть линки на другие файлы с инструкциями, и правила ведения проекта и документации)
Так же попросил называть все папки по семантическому смыслу (ЯКОРЯ ОХ ЯКОРЯ)
├── 📄 main_llm_instruction_about_this_site_read_first.md (you are here)
├── 📄 README.md
├── 📄 package.json
│
├── 📁 src/
│ ├── 📄 what_this_folder_do.md
│ ├── 📄 App.jsx
│ ├── 📄 main.jsx
│ │
│ ├── 📁 pages/
│ │ ├── 📄 what_this_folder_do.md
│ │ │
│ │ ├── 📁 career/ ⭐️ PRIMARY SECTION
│ │ │ ├── 📄 what_this_folder_do.md
│ │ │ ├── 📄 CareerPage.jsx
Проверим временем насколько легко будет добавлять в такой сайт новые разделы, кстати для этого я сделал конвертор для статей из md в jsx
Сам сайт https://vkovalskii.com/
🔥15👍4👏2💯1
Forwarded from red_mad_robot
Карта_рынка_GenAI_red_mad_robot_2025.pdf
40.5 MB
Карта рынка GenAI: как он устроен в России
Центр AI-компетенций red_mad_robot собрал большой отчёт по состоянию российского рынка GenAI в 2025 году. Получилась настоящая онтологическая карта с уровнями экосистемы, распределением ролей и зонами, где формируются ключевые компетенции.
Мы проанализировали локальный ландшафт, зафиксировали связи и точки роста, а контекст и практические детали дополнили разговоры с экспертами из red_mad_robot, @beeline и @skolkovo_channel.
Сохраняйте и читайте PDF!
#AI_moment #трендвотчинг
↗️ red_mad_robot
Центр AI-компетенций red_mad_robot собрал большой отчёт по состоянию российского рынка GenAI в 2025 году. Получилась настоящая онтологическая карта с уровнями экосистемы, распределением ролей и зонами, где формируются ключевые компетенции.
Мы проанализировали локальный ландшафт, зафиксировали связи и точки роста, а контекст и практические детали дополнили разговоры с экспертами из red_mad_robot, @beeline и @skolkovo_channel.
Сохраняйте и читайте PDF!
#AI_moment #трендвотчинг
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18🔥13
SGR-Agent-Core
700 звезд пробили!
Сегодня будет крупная обнова следим тут:
https://github.com/vamplabAI/sgr-agent-core
Планирую для ERC3 использовать этого агента доработаю только tool_kit, а ты уже готов?
700 звезд пробили!
Сегодня будет крупная обнова следим тут:
https://github.com/vamplabAI/sgr-agent-core
Планирую для ERC3 использовать этого агента доработаю только tool_kit, а ты уже готов?
🔥34👍10👏6💯2