Neural Deep
База знаний по каналу в телеграм? Зачем это нужно? RAG/LLM workflow/Чат бот 8 месяцев назад я решил сделать первый эксперимент в этом направление и смотря на себя тогда осознал что перемудрил с выгрузкой сделал очень сложные связи и в целом ответы чат бота…
LLM/RAG Мониторинг с первого дня - это не роскошь, а необходимость!
Когда я запускал @neuraldeepbot 8 месяцев назад, думал "сделаю MVP, а потом посмотрю"
Результат? Система работала, потом, когда-то, запущу в докере и улучшу
Но с развитием кодовых агентов и IDE таких как Cursor у меня чуть сильнее развязались руки
Сейчас подход кардинально другой — с первого запроса у меня есть:
Детализация реакций по дням (видно на графике)
Процент лайков по каждому этапу развития
Классификация сложности запросов через LLM
Трекинг используемых навыков в ReAct цепочке
И знаете что? Это реально работает!
За 6 дней метрики выросли с 48.8% до 96.0% положительных реакций
ReAct архитектура когда LLM сама решает как искать
Вместо жестко заданного пайплайна "вектора → реранкер → ответ" внедрил ReAct подход:
Конкретные цифры улучшений:
12.08: Запуск наивного RAG бота — 48.8% лайков
13.08: Анализ первых 200 запросов — 76.0% лайков
14.08: Добавил 4 навыка и классификатор — 78.3% лайков
16.08: Переход на GPT-4o-mini — 95.0% лайков
18.08: Финальные улучшения — 96.0% лайков
Аналитика запросов ваш компас в темноте это проблема почти 90% инициатив которые я встречаю
Самые болезненные инсайты пришли из анализа реальных пользовательских запросов:
Проблема №1: "Какой последний пост был?"
Система отвечала защитой из промпта
Фикс: Добавил навык временного поиска
Проблема №2: "Лучшая локальная LLM?"
Тащила посты 2024 года вместо свежих
Фикс: Приоритизация по датам через ReAct
Проблема №3: Нехватка контекста из разных каналов
Добавил данные из @llm_under_hood и @denissexy, @seeallochnaya
Сразу видно улучшение по реакциям!
Мой чек-лист для каждой итерации Q&A системы
Неделя 1: Базовый MVP + мониторинг реакций
Неделя 2: Анализ первых 100-200 запросов глазами (далее зовем LLM что бы сверится)
Неделя 3: Добавление недостающих навыков поиска
Неделя 3: Оптимизация промптов под реальные кейсы
Далее: Еженедельные итерации по метрикам
Техническая кухня что реально двигает метрики
Стек убийца:
ReAct агент для выбора стратегии поиска
gpt-5-mini как основной LLM (переход дал +19% к лайкам!)
SO на всех этапах вызова навыков
FTS + векторный поиск в зависимости от запроса
bge реранкер для финальной фильтрации
Qdrant для хранения эмбеддингов
PGSQL как основная база
teleton
fastapi
python
Система оценок:
Лайк/дизлайк после каждого ответа
Дизлайк = я лично смотрю кейс и думаю что пошло не так
Никаких A/B тестов — итерируем по общим метрикам(но только на старте)
Главные ошибки, которые убивают Q&A системы
"Сделаю идеальную архитектуру, а потом запущу" — НЕТ!
Запускай MVP и итерируй по реальным запросам
Игнорирование мониторинга без метрик ты летишь вслепую
Жесткий пайплайн вместо адаптивного ReAct дает LLM выбирать стратегию поиска
Недооценка важности промптов 80% успеха Q&A системы в правильных промптах
Ребята реально общались со мной через запросы и давали детальные советы по улучшению промптов
Честно говоря, RAG как RPG нужно быстро лечиться (хотфиксы),
крафтить экипировку (промпты), управлять инвентарем (данные)
и качать скиллы через квесты (Cursor). Каждый день фармишь опыт и лут для апгрейда системы
Но с правильным мониторингом и планом итераций
можно довести систему до production-ready за несколько недель вместо месяцев блужданий
Кто строил похожие Q&A системы без четкого понимания сценариев?
Какие метрики отслеживаете?
И главное как быстро итерируете по фидбеку пользователей?
Когда я запускал @neuraldeepbot 8 месяцев назад, думал "сделаю MVP, а потом посмотрю"
Результат? Система работала, потом, когда-то, запущу в докере и улучшу
Но с развитием кодовых агентов и IDE таких как Cursor у меня чуть сильнее развязались руки
Сейчас подход кардинально другой — с первого запроса у меня есть:
Детализация реакций по дням (видно на графике)
Процент лайков по каждому этапу развития
Классификация сложности запросов через LLM
Трекинг используемых навыков в ReAct цепочке
И знаете что? Это реально работает!
За 6 дней метрики выросли с 48.8% до 96.0% положительных реакций
ReAct архитектура когда LLM сама решает как искать
Вместо жестко заданного пайплайна "вектора → реранкер → ответ" внедрил ReAct подход:
User Query →
1) LLM классификатор навыка
Защита
Уточнение
Мета вопросы
RAG поиск
→
2) LLM классификатор сложности
ReAct агент выбирает навыки:
- FTS поиск по ключевым словам
- Векторный поиск (bge embedding)
- Комбинированный поиск
- Временная фильтрация
- Поиск по коментам vs постам
→ Синтез финального ответа
Еще одним полем отечает последовательность запуска (ему так же прописаны связи и возможности)
gpt-5-mini показала себя прям очень хорошо
Кстати все взаимодействия с навыками я построил через SO никакого tool call
Конкретные цифры улучшений:
12.08: Запуск наивного RAG бота — 48.8% лайков
13.08: Анализ первых 200 запросов — 76.0% лайков
14.08: Добавил 4 навыка и классификатор — 78.3% лайков
16.08: Переход на GPT-4o-mini — 95.0% лайков
18.08: Финальные улучшения — 96.0% лайков
Аналитика запросов ваш компас в темноте это проблема почти 90% инициатив которые я встречаю
Самые болезненные инсайты пришли из анализа реальных пользовательских запросов:
Проблема №1: "Какой последний пост был?"
Система отвечала защитой из промпта
Фикс: Добавил навык временного поиска
Проблема №2: "Лучшая локальная LLM?"
Тащила посты 2024 года вместо свежих
Фикс: Приоритизация по датам через ReAct
Проблема №3: Нехватка контекста из разных каналов
Добавил данные из @llm_under_hood и @denissexy, @seeallochnaya
Сразу видно улучшение по реакциям!
Мой чек-лист для каждой итерации Q&A системы
Неделя 1: Базовый MVP + мониторинг реакций
Неделя 2: Анализ первых 100-200 запросов глазами (далее зовем LLM что бы сверится)
Неделя 3: Добавление недостающих навыков поиска
Неделя 3: Оптимизация промптов под реальные кейсы
Далее: Еженедельные итерации по метрикам
Техническая кухня что реально двигает метрики
Стек убийца:
ReAct агент для выбора стратегии поиска
gpt-5-mini как основной LLM (переход дал +19% к лайкам!)
SO на всех этапах вызова навыков
FTS + векторный поиск в зависимости от запроса
bge реранкер для финальной фильтрации
Qdrant для хранения эмбеддингов
PGSQL как основная база
teleton
fastapi
python
Система оценок:
Лайк/дизлайк после каждого ответа
Дизлайк = я лично смотрю кейс и думаю что пошло не так
Никаких A/B тестов — итерируем по общим метрикам(но только на старте)
Главные ошибки, которые убивают Q&A системы
"Сделаю идеальную архитектуру, а потом запущу" — НЕТ!
Запускай MVP и итерируй по реальным запросам
Игнорирование мониторинга без метрик ты летишь вслепую
Жесткий пайплайн вместо адаптивного ReAct дает LLM выбирать стратегию поиска
Недооценка важности промптов 80% успеха Q&A системы в правильных промптах
Ребята реально общались со мной через запросы и давали детальные советы по улучшению промптов
Честно говоря, RAG как RPG нужно быстро лечиться (хотфиксы),
крафтить экипировку (промпты), управлять инвентарем (данные)
и качать скиллы через квесты (Cursor). Каждый день фармишь опыт и лут для апгрейда системы
Но с правильным мониторингом и планом итераций
можно довести систему до production-ready за несколько недель вместо месяцев блужданий
Кто строил похожие Q&A системы без четкого понимания сценариев?
Какие метрики отслеживаете?
И главное как быстро итерируете по фидбеку пользователей?
🔥63👍14👏6💯1
Forwarded from BOGDANISSSIMO
This media is not supported in your browser
VIEW IN TELEGRAM
Сидим-пердим впятером за AI и бизнес-вопросики
https://t.me/neuraldeep
https://t.me/alexs_journal
https://t.me/vitales_on
https://t.me/dealerAI
https://t.me/neuraldeep
https://t.me/alexs_journal
https://t.me/vitales_on
https://t.me/dealerAI
🔥32😁8🤯1🤣1