Neural Deep

Forwarded from Pavel Zloi

Почему я считаю, что RAG это call?

Пару часов назад Александр на своем канале Dealer AI снова обратил внимание на RAG-системы с точки зрения важности тестирования и оценки метрик до внедрения указанных систем в продакшен.

Я полностью разделяю эту точку зрения и всегда прошу заказчиков, по возможности, предоставлять хотя бы общий тестовый датасет, на базе которого можно будет выполнить предварительную оценку точности работы проекта и произвести его тонкую настройку до публичного релиза.

Как-то раз общался с заказчиком по одному проекту и пытался объяснить ему важность предварительного сбора бенчмарков для оценки качества системы. Логика у меня была простая: если предположим, некая RAG-система состоит из трёх последовательных звеньев (эмбеддер, ретривер, LLM), каждое из которых имеет точность, скажем, 90%, то интуитивно кажется, что и общая точность будет примерно на том же уровне. Однако на самом деле всё сложнее.

Согласно теории надёжности, в последовательных системах ошибки наследуются, и итоговая точность определяется перемножением точностей всех звеньев. Если каждый из трёх модулей даёт точность 90% (0.9), то реальная точность системы будет равна:

0.9 = 0.9
0.9 * 0.9 ≈ 0.81 (81%)
0.9 * 0.9 * 0.9 ≈ 0.729 (72.9%)
0.9 * 0.9 * 0.9 * 0.9 ≈ 0.656 (65.6%)

Это значит, что при последовательном соединении звеньев системы и с увеличением их количества вероятность ошибки увеличивается.

Подробнее о наследовании ошибок можно почитать в публикации про закон Люссера.

С другой стороны, интуитивно (без учёта наследования ошибок) может показаться, что точность системы определяется её самым слабым компонентом, в нашем примере — 90%, и, как следствие, заказчик принимает решение пренебречь предрелизным тестированием, так как верит в надёжность RAG-системы, полагаясь на интуицию.

Подобное заблуждение, как мне кажется, связано с психологическими особенностями человеческого мышления, описанными Даниэлом Канеманом в его книге "Думай медленно... решай быстро". Канеман подчёркивает, что решения, принимаемые на основе интуиции, часто приводят к систематическим ошибкам, поскольку наш мозг упрощает сложные задачи или подменяет их более простыми, игнорируя важные факторы, такие как накопление ошибок в последовательных звеньях.

Приведу ещё один пример. Если мы используем сверхточный эмбеддер (99%), средний по качеству ретривер (90%) и относительно слабую языковую модель (70%), общая точность станет:

0.99 * 0.9 * 0.7 ≈ 0.623 (62.3%)

Иными словами, замена одного компонента на более точный не всегда существенно повышает общую точность, если остальные компоненты остаются слабыми.

Понимание того, какой компонент является критически важным в нашей RAG-системе, а какой даёт слишком большую ошибку, и есть причина, по которой необходимо иметь бенчмарки ещё в процессе разработки.

Dealer.AI

Жоский ИИ дядя.
Твой личный поставщик AI 💊💉🤖

Канал о мире интересного AI: ML, DL, NLP/NLU, RL, Retrieval, RecSys.

Для связи @dealer_ai
(реклама и консультации)

Руковожу ML, AI командами.
Habr: @Andriljo
Kaggle: https://www.kaggle.com/andrilko

👍24🔥12❤4

1.89K views13:23

Neural Deep

Forwarded from #безвотэтоговотвсего

Международный вояж #безвотэтоговотвсего продолжается и мы возвращаемся в наш любимый Баку!

На нашей пятой встрече сообщества в этом прекрасном городе мы решили взять тему, которая точно не оставит равнодушным никого из тех, кто хоть чуть-чуть связан с технологиями (а есть ли другие в 2025 году?).

Тема нашей встречи - “Мир после GPT: как AI меняет рынок IT и продуктов навсегда?”. Ведь здесь, помимо хайпа, просто море интересного:

⁃ Что именно изменилось в работе IT и продуктовых команд с приходом AI?
⁃ Что теперь значит "быть профессионалом"? Раньше — знания и опыт. Сейчас — умение работать с ИИ?
⁃ Что произойдет с ощущением профессиональной идентичности? Кто я, если мои навыки заменяемы моделью?
⁃ Какие новые этические дилеммы появляются с развитием AI? Если GPT написал код с багом — кто виноват?
⁃ Почему middle-специалисты стоят как senior, если GPT делает их работу?
⁃ и многое другое )

На эту тему собрались поговорить прекрасные эксперты:

⁃ Сергей Рыжиков, основатель Битрикс24
⁃ Иван Самсонов, CPO of AI, MTS Web Services
⁃ Валерий Ковальский, Head of AI red_mad_robot
⁃ Валех Набиев, CDO at Pasha Holding

Состав уникальный и точно позволяющий разобрать вопрос с разных сторон.

Обязательно регистрируйтесь и сохраняйте билеты.

Встречаемся 03 июня в 18:30 JW Mariott Absheron (674 Azadliq Square).

Будет огненно!)

🔥136❤5💯2

1.92K views06:27

UI-Browser LLM automation песочница для автоматизация браузера на базе LLM

Давно обещал вылить свой форк тут показывал прошлые наработки browser-use-web-ui да еще и в одном из чатов попросили

Все внутри просто

docker compose up -d

И полетели!

Вот держите что я там наваял?

Единый интерфейс: Объединенный доступ к Gradio и VNC в одном окне браузера

Защищенный доступ: Авторизация по логину и паролю для контроля доступа

Разделенный экран: Фиксированное разделение экрана 50/50 для комфортной работы

Прямая интеграция: Прямой доступ к браузеру через VNC для полного контроля (буфер обемна можно самому что-то кликать)

Что меня удивило что офф версия не работает но моя старая версия работала пришлось совместить функционал новой офф версии и старого кода вышло вроде не плохо (работает и на том спасибо)

GitHub

🔥16👍6👏4❤1

2.17K viewsedited 11:06

Neural Deep

Forwarded from red_mad_robot

Подборка сервисов для быстрой оценки и сравнения LLM

Открытых моделей становится всё больше, а универсального ответа, какую ставить в продукт — нет. Одним важна точность, другим — стоимость, масштабируемость или устойчивость на длинных запросах.

Сравнительные сервисы упрощают этот выбор: они фиксируют поведение в реальных сценариях, агрегируют пользовательские оценки и показывают, какие решения уже в продакшене. Собрали подборку таких платформ.

1️⃣ OpenRouter: рейтинг LLM по реальному использованию

OpenRouter публикует открытый рейтинг моделей, основанный на частоте их использования в реальных продуктах. Это не лабораторные тесты, а фактические данные из прикладных сценариев: кодинг, маркетинг, финтех, технологии.

Рейтинг можно фильтровать по задачам и периоду: за день, неделю, месяц или по росту популярности. Это рыночный барометр: если модель стабильно удерживает лидерство в вашей категории — её используют в продакшене.

2️⃣

Chatbot Arena (LMSYS): парные сравнения моделей

Платформа предлагает формат арены: пользователь задаёт вопрос, а две модели отвечают параллельно. После этого выбирается лучший ответ. По итогам сравнений формируется рейтинг по системе Elo — как в шахматах, только для LLM.

Для моделей на русском языке есть аналог — LLM Arena. Сервис также поддерживает сравнения, голосование за лучший ответ и динамический рейтинг. Включены YandexGPT, GigaChat, MTS AI и другие модели.

3️⃣

Hugging Face: рейтинг по независимым бенчмаркам

В отличие от рейтингов популярности или пользовательских голосов, Hugging Face оценивает модели по результатам стандартных тестов: MMLU (общие знания), BBH (логика), IFEval (следование инструкциям), кодингу, математике и другим. Каждая модель получает баллы по ряду метрик, по которым можно отсортировать модели.

4️⃣

MERA: открытый бенчмарк для русскоязычных LLM

Лидерборд ранжирует модели по результатам фиксированного набора задач: логика, код, знания, этика. Оценка проходит в равных условиях: стандартизированные промпты, единые параметры, открытая методика.

Подходит, если вы работаете с русскоязычными моделями, и вам важна применимость и эффективность в конкретной области.

Какие выводы?
Выбор LLM — это управленческое решение с последствиями для качества, стоимости и скорости продукта. Сравнительные платформы не заменяют пилоты, но позволяют действовать быстрее и точнее:

📍 Отсекать слабые решения до интеграции
📍 Фокусироваться на моделях, которые уже работают в продакшене
📍 Оценивать зрелость open-source вариантов без риска потерь в качестве

Если вы внедряете LLM в продукт, рейтинги помогают действовать не по наитию, а по обоснованным критериям. Но важно не полагаться на один источник — первичную кросс-оценку стоит строить на данных из разных сервисов.

#AI_moment

@Redmadnews

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥1912👍6👏3

1.93K views12:41

Neural Deep

Смотрите чё выпало из недр моей тумбы, тогда мне точно было не до AI

Аж олдскулы свело на моменте покупки рингтонов через sms

🔥26😁14

2.37K views16:47

Neural Deep

Присоединяюсь к поздравлениям моего ~~собутыльника~~ друга Леши Жданова

Миша получил грант от Yandex Open Source (оч круглую сумму я скажу) за свой проект faster-coco-eval
— ускоренную версию оценки детекции объектов 🚀

Почему это важно?

— Опенсорс делает технологии быстрее и доступнее.

— Такие проекты, как этот, помогают исследователям и разработчикам экономить время.

— Поддержка компаний вроде Яндекса мотивирует развивать open-source.

Миш, поздравляю тебя

👏37❤12😁6

2.64K viewsedited 20:19

Neural Deep

LLM от Antropic сама решает когда пойти в интернет!

По моим тестам добавили возможность анализа есть ли знания внутри LLM и если нет она сама идет через tool искать знания в интернете
Для меня фича новая если было то извеняйте!

Но работает действительно лучше! Скипаю этап поиска и скармливания документации!

Update: роутинг и классификация, что-то новенькое это хорошо забытое старое?)

👍22🔥8❤5

2.95K viewsedited 21:55

Neural Deep

Слайды для презентаций в HTML по старинке?

А почему бы и нет

Раньше я промышлял тем, что просил LLM генерировать всё на React, и часто были потом проблемы в переносе таких слайдов куда-то в другой инструмент демонстрации я практикую сборку достаточно подробного контента в чате с LLM и для визуализации в Claude юзал этот трюк с описанием всех хотелок

Сейчас я приноровился генерировать слайды в HTML
Плюсы: это то, что он сразу хорошо фитится под артефакт
Его можно скачать и сделать очень хороший скриншот

Всё лучше и лучше стал понимать, как располагать элементы и как это промптировать, чтобы слайд был не перегружен и информативен

Часто использую теперь их как рыбу для передачи дальше в работу дизайнеру в Keynote
И да, выложил все примеры и описания, самое главное промпт на Git

В комментах примеры слайдов, которые я использую собрав добротно контент (при использовании промпта теперь не парюсь с тем, что слайд будет читаемый и почти всегда с первого раза)

🔥31👍9❤5

3.1K viewsedited 21:02

Neural Deep

Сезонные тренды на запросы к чат-LLM

Выгрузил 16к запросов в неавторизированной зоне к gpt-4o-mini
Academia лидирует в запросах к LLM (3641 из 16к за 2 дня), но не спешите создавать образовательные AI-продукты

Раскопав глубже, я увидел скучную реальность — большинство запросов примитивны: "решить задачу", "ответить на тест", "проверить домашку"
Студенты не ищут инновационные образовательные платформы нужен самый короткий путь: сфотографировал → загрузил → получил ответ еще и бесплатно в нашем сервисе gptdaisy.com можно это сделать без регистрации

И уже существующие функции форматирования в markdown и LaTeX закрывают их базовые потребности
Стоит ли бежать в эту сферу? Сомнительно

Я оцениваю что пользователям не нужен специализированный инструмент им достаточно прямого доступа к LLM с минимальной обработкой результата

Вместо создания нового продукта, рациональнее улучшить существующие боты: оптимизировать распознавание учебных задач и ускорить получение ответов

Аналитика подтверждает скучную истину: инновации не всегда нужны, когда пользователя устраивает простое и работающее решение

PS: кстати аналитику сделал на базе qwen2.5.-7b-instruct(t-lite) огонь! На двух 4090 заняло 11к секунд

👍21🔥2

2.5K viewsedited 14:22

Neural Deep

Принял эстафету по мифам и разоблачениям LLM
от Just AI которую мне передал Рома основатель llmarena.ru

Как Head of AI в red_mad_robot, уделяю большое время экспериментам с локальными моделями и решениями для бизнеса.

Вот про это и расскажу 🔼

Эстафету передаю Паше Злому

👍15🔥14❤5😁2

2.91K views10:21

Neural Deep

n8n + Qwen 2.5 7b instruct + vLLM + SO = Мощный диджитал твин на своем железе! Всем привет! По следам экспериментов я решил собрать небольшой пост старт по тематике n8n здорового человека Что это такое? Low-code подход через n8n для построения логики "диджитал…

Nathan! (n8n) лоcallьная связка vLLM + SO + API tools работает отлично на 7b модели с 9 навыками, но масштабирование требует более гибкого решения чем ручная настройка через Claude и это боль

Большую часть времени потратил на написание и стабилизацию роутинга на базе LLM (работает!)
3-ю неделю продолжаю мучать локальные модели на предмет агентского workflow в связке vLLM + SO + API tool по http реквестам
Да, вышло добротно теперь у агента на 7b модельке есть целых 9! навыков
Теперь умеет:

1) Просто поболтать
2) Сходить в интернет
3) Найти погоду по названию города
4) Найти что-то в RAG
5) Прислать календарь
6) Поставить встречу в календарь
7) Гуглить по картинкам
8) Ходить в RAG и искать по картинкам
9) Может описать картинку
И всё это на одном ПК (4090+3090) звучит достигаемо

Но всё ещё такой системе не хватает быстрого масштабирования
Да, я завязался на SO + генерацию json + его парсинг
Роутинг работает, он иногда ошибается в интентах, но проблема в том, что я недостаточно чётко прописал фью-шоты внутри tool
Проблема таких инструментов для workflow в одном если я хочу прыгать по таким решениям как
Тут мне нравится xgrammar
Тут мне нравится outlines
А тут я вообще подключил кастомный бэк, который скачивает записи звонков из Zoom
Тут я подключил VL модель
Или вообще взял и замутил касмтоную схему с CoT

И как я не старался ни одна из стандартных нод мне этого не дала (пришлось писать на js да в n8n нет python он в бэте)

Каждый чих заставляет меня идти в интерфейс к Claude и грузить туда скрины, как выглядит схема
Брать контекст кода предыдущих нод
Объяснять, что же за логику я хочу реализовать, попутно загружая как в n8n работает обращение к типам и данным
В целом, если бы сейчас я сел делать такое же, но копию сделал бы за день,
но это не масштабируется

Пошёл копать, есть ли "адекватный коннект Cursor к n8n" — на текущий момент нашёл крохи (назревают полезные мысли)

PS
Из крутого обучил системного аналитика за сутки собирать таких же агентов на базе локальных моделей

🔥34👍14❤2

2.74K viewsedited 11:43

About

Blog

Apps

Platform