R77 AI | Кейсы в ИИ (от выпускников МФТИ)
RAG — можно ли запилить коробку? Вернулись к тех. вебинарам после более бизнесово-менеджерских) Позвали наших друзей Елизавету Ермакову, Диму Черноуса из МТС AI и Валерия Ковальского из Neural deep tech, чтобы обсудить, что сейчас больше и больше приходит…
Вышла запись налетай, в закладки и вечерком смотреть!
RAG — можно ли запилить коробку? Выложили вебинар!
Наши гости:
https://t.me/lead_indeed — Лиза
http://t.me/chernous — Дима
http://t.me/neuraldeep — Валерий
https://vkvideo.ru/video-228941334_456239052
https://youtu.be/Q2W66UQG_v0
RAG — можно ли запилить коробку? Выложили вебинар!
Наши гости:
https://t.me/lead_indeed — Лиза
http://t.me/chernous — Дима
http://t.me/neuraldeep — Валерий
https://vkvideo.ru/video-228941334_456239052
https://youtu.be/Q2W66UQG_v0
Telegram
R77 AI | Кейсы в ИИ (от выпускников МФТИ)
RAG — можно ли запилить коробку? Выложили вебинар!
Наши гости:
https://t.me/lead_indeed — Лиза
http://t.me/chernous — Дима
http://t.me/neuraldeep — Валерий
https://vkvideo.ru/video-228941334_456239052
https://youtu.be/Q2W66UQG_v0
Наши гости:
https://t.me/lead_indeed — Лиза
http://t.me/chernous — Дима
http://t.me/neuraldeep — Валерий
https://vkvideo.ru/video-228941334_456239052
https://youtu.be/Q2W66UQG_v0
🔥16❤10👍7
Forwarded from BOGDANISSSIMO
Вторник 15 июля, 19:00 по мск
Мы, t.me/neuraldeep и t.me/bogdanisssimo проведём эфир, где расскажем про внедрение LLM-ов в бизнесы и поотвечаем на ваши вопросы. Обсудить всю кухню:
- Где искать заказчиков и как понять с кем стоит иметь дело?
- Как продавать AI-решения и оценивать их в деньгах?
- На какие результаты стоит и не стоит расчитывать?
- Как разбивать проект на майлстоуны и какие давать сроки?
- Как выстраивать коммуникацию с командой заказчика?
- Как понять что проект стоит закрыть или продолжить?
Про всё это, а также ваши вопросы, обсудим на следующей неделе здесь в канале @bogdanisssimo
Добавляй в календарь ивент чтобы не пропустить: https://meet.google.com/hvg-ajdg-scb
P.S. Пишите в комментарии ваши вопросы заранее, чтобы на самые важные успели ответить за время эфира
Мы, t.me/neuraldeep и t.me/bogdanisssimo проведём эфир, где расскажем про внедрение LLM-ов в бизнесы и поотвечаем на ваши вопросы. Обсудить всю кухню:
- Где искать заказчиков и как понять с кем стоит иметь дело?
- Как продавать AI-решения и оценивать их в деньгах?
- На какие результаты стоит и не стоит расчитывать?
- Как разбивать проект на майлстоуны и какие давать сроки?
- Как выстраивать коммуникацию с командой заказчика?
- Как понять что проект стоит закрыть или продолжить?
Про всё это, а также ваши вопросы, обсудим на следующей неделе здесь в канале @bogdanisssimo
Добавляй в календарь ивент чтобы не пропустить: https://meet.google.com/hvg-ajdg-scb
P.S. Пишите в комментарии ваши вопросы заранее, чтобы на самые важные успели ответить за время эфира
🔥26❤7💯3
47 встреч, 2000 вызовов Cursor и первые шаги сына что делает Head of AI(моего типа) за две недели
Посмотрел на свой календарь и статистику AI-кодинга последние 2 недели были интенсивными
реально много полезных встреч, выступление на conversation, пара новых продуктовых концепций, 7+ личный встреч, 2000 вызовов в Cursor и... первые шаги сына
Спойлер:ИИ-кодинг после 2000 вызовов агента в Cursor, понял что пишу меньше кода, но больше думаю над архитектурой
Хотя иногда ловлю себя на том, что сразу спрашиваю у Claude вместо того, чтобы подумать самому
Решил поделиться тем и проверить формат, что творится в голове и буднях моего личного котелка, когда тебе приходится быть одновременно архитектором, продактом, тимлидом, head of и папой
R&D направления под контролем:
- Направлял команду по оптимизации NSFW-фильтров (снизили False Positive на 20+% рекомендациями по работе с промптами и сборке данных для классификации) честно по факту правильный набор few shot и фильтр стал двигаться в лучшую сторону по метрикам
- Помогал ребятам с аналитикой данных через LLM выбирали архитектурный путь
- Придумал пару новых продуктовых концепций почти прошли проверку на жизнеспособность
- Участвовал в стратегии развития платформы (да, опять стратегия!)
- Советовал и помогал с архитектурой LLM-систем от naive RAG к workflow-агентам "советчик =)"
- Собрал и проработал ручками стратегию на год r&d, найм, продуктовый r&d, закрытие бэклога исследований!
Когда руки чешутся кодить то по вечерам мы что? Правильно вайбкодим
Неожиданно для себя устроил хакатон среди друзей: "кто сделает лучший сервис ну а что? =) на базе моего прототипа транскрибатора"
Результат превзошел ожидания — инструмент транскрибации скоро будут лимиты налетай пока фри
Артём кстати просто пушка — доделал все от прототипа до продакт-реди, теперь им пользуется почти вся компания
Чем больше встреч, тем важнее качество каждого решения ну и записывать записывать и еще раз записывать
Когда у тебя 47 встреч за 2 недели, каждая должна приносить конкретную пользу(база№2)
А есть ли жизнь вне LLM и кода? Много кто спрашивал меня в лс когда я в отпуск
Можно взять и арендовать дом на год, почти проект с кучей критериев выбора
Сын взял сделал первые шаги (лучшая метрика роста!)
Уже планирую осенний отдых work-life balance, да Богдан?
Еще из наблюдений массовые личные встречи дают больше энергии, чем отнимают
Живое общение с экспертами = новые идеи и решения, кто-то даже дает ревью меня сходу
Спасибо ребятам из нашего AI сообщества за рандом кофе!
Можно назвать и выводами, но пока мини рефлексия
1. Качество встреч > количество — лучше 5 фокусных встреч, чем 10 размытых(база№3)
2. ИИ-кодинг = ускоритель экспертизы после 2000 вызовов в Cursor убедился LLM не заменяет опыт, а делает его быстрее
Но осторожно, можно разлениться и перестать думать самому, уже не помню когда проксю настраивал сам
3. Команда растет быстрее, когда есть четкое направление, да-да, чем лучше ты понимаешь, что она будет делать через неделю, тем практичнее и чище её действия, мои решения по архитектуре помогли ребятам избежать месяцев экспериментов
И да, если кто-то думает, что Head of AI это только про презентации и стратегию, то вы глубоко ошибаетесь
Мы всё еще кодим по вечерам, потому что без этого никто не поймет, что реально работает, а что красивые слайды
Как проходят ваши загруженные периоды?
Что помогает держать фокус при большой нагрузке?
Частые переключения или фокус на чем то одном?
Посмотрел на свой календарь и статистику AI-кодинга последние 2 недели были интенсивными
реально много полезных встреч, выступление на conversation, пара новых продуктовых концепций, 7+ личный встреч, 2000 вызовов в Cursor и... первые шаги сына
Спойлер:
Хотя иногда ловлю себя на том, что сразу спрашиваю у Claude вместо того, чтобы подумать самому
Решил поделиться тем и проверить формат, что творится в голове и буднях моего личного котелка, когда тебе приходится быть одновременно архитектором, продактом, тимлидом, head of и папой
R&D направления под контролем:
- Направлял команду по оптимизации NSFW-фильтров (снизили False Positive на 20+% рекомендациями по работе с промптами и сборке данных для классификации) честно по факту правильный набор few shot и фильтр стал двигаться в лучшую сторону по метрикам
- Помогал ребятам с аналитикой данных через LLM выбирали архитектурный путь
- Придумал пару новых продуктовых концепций почти прошли проверку на жизнеспособность
- Участвовал в стратегии развития платформы (да, опять стратегия!)
- Советовал и помогал с архитектурой LLM-систем от naive RAG к workflow-агентам "советчик =)"
- Собрал и проработал ручками стратегию на год r&d, найм, продуктовый r&d, закрытие бэклога исследований!
Когда руки чешутся кодить то по вечерам мы что? Правильно вайбкодим
Неожиданно для себя устроил хакатон среди друзей: "кто сделает лучший сервис ну а что? =) на базе моего прототипа транскрибатора"
Результат превзошел ожидания — инструмент транскрибации скоро будут лимиты налетай пока фри
Артём кстати просто пушка — доделал все от прототипа до продакт-реди, теперь им пользуется почти вся компания
Чем больше встреч, тем важнее качество каждого решения ну и записывать записывать и еще раз записывать
Когда у тебя 47 встреч за 2 недели, каждая должна приносить конкретную пользу
А есть ли жизнь вне LLM и кода? Много кто спрашивал меня в лс когда я в отпуск
Можно взять и арендовать дом на год, почти проект с кучей критериев выбора
Сын взял сделал первые шаги (лучшая метрика роста!)
Уже планирую осенний отдых work-life balance, да Богдан?
Еще из наблюдений массовые личные встречи дают больше энергии, чем отнимают
Живое общение с экспертами = новые идеи и решения, кто-то даже дает ревью меня сходу
Спасибо ребятам из нашего AI сообщества за рандом кофе!
Можно назвать и выводами, но пока мини рефлексия
1. Качество встреч > количество — лучше 5 фокусных встреч, чем 10 размытых
2. ИИ-кодинг = ускоритель экспертизы после 2000 вызовов в Cursor убедился LLM не заменяет опыт, а делает его быстрее
Но осторожно, можно разлениться и перестать думать самому, уже не помню когда проксю настраивал сам
3. Команда растет быстрее, когда есть четкое направление, да-да, чем лучше ты понимаешь, что она будет делать через неделю, тем практичнее и чище её действия, мои решения по архитектуре помогли ребятам избежать месяцев экспериментов
И да, если кто-то думает, что Head of AI это только про презентации и стратегию, то вы глубоко ошибаетесь
Мы всё еще кодим по вечерам, потому что без этого никто не поймет, что реально работает, а что красивые слайды
Как проходят ваши загруженные периоды?
Что помогает держать фокус при большой нагрузке?
Частые переключения или фокус на чем то одном?
❤37🔥21 5🤯2
Whispex+Frontend+Open-source
Ваш личный/корпоративный/безопасный транскрибатор который можно доделать до крутого MVP
И так как вы помните я рассказывал тут про свой опыт AI кодинга (когда ни строчки не пишу сам)
Вышло достаточно сложно но если кратко ОНО не работает если ты не стараешься (как из мема "Да ладно?")
Спонсором данного поста является моя жена
Меня все просили выпустить это чудо-юдо в open-source(нашел минимум 10 реквестов!) но неугомонные руки Артёма доделали это чудо до https://speechcoreai.com (вменяемого прод решения которое почти не валится под нагрузкой, его увы выкладывать не будем), кстати он собрал огромный опус своих действий болей и проблем, он как синьор из тех тестов что форсят уже 3 дня решил взять и погрузится только в задачи чатинга LLM внутри курсора на пару недель
Но мы немного поразмышляли (я выпросил пару вечеров)
Встречайте!
Локальный домашний безопасный сервис whisperx-fronted-docker-compose полностью AI VIBE CODING 3000
Что переделал:
все конфиги через env
вырезал все хардкоды урлов
упростил сборку
выкинул кучу мусора
вырезал саммари из хардкода js файла перенес на бэкенд
как мог поработал над стабильностью (увы синхронщины оч много)
Удалил все лишние зависимости, база файлов в s3 сессии и бд в json)
Как поднимать (нужно будет два сервера или две видяхи) можно vllm взять удаленный
Берем локальную модель не тупее 7b на vllm
Берем еще сервер с 8гб памяти у видяхи
Делаем
Ииии, вы прекрасный у вас свой локальный сервис ASR (там даже есть апи)
Так как за основу взят whisperx то на rtx4500 скорость анализа записи длиной 1:30ч занимает 4 минуты
Юзабилити в массы!
Ваш личный/корпоративный/безопасный транскрибатор который можно доделать до крутого MVP
И так как вы помните я рассказывал тут про свой опыт AI кодинга (когда ни строчки не пишу сам)
Вышло достаточно сложно но если кратко ОНО не работает если ты не стараешься (как из мема "Да ладно?")
Меня все просили выпустить это чудо-юдо в open-source(нашел минимум 10 реквестов!) но неугомонные руки Артёма доделали это чудо до https://speechcoreai.com (вменяемого прод решения которое почти не валится под нагрузкой, его увы выкладывать не будем), кстати он собрал огромный опус своих действий болей и проблем, он как синьор из тех тестов что форсят уже 3 дня решил взять и погрузится только в задачи чатинга LLM внутри курсора на пару недель
Но мы немного поразмышляли (я выпросил пару вечеров)
Встречайте!
Локальный домашний безопасный сервис whisperx-fronted-docker-compose полностью AI VIBE CODING 3000
Что переделал:
все конфиги через env
вырезал все хардкоды урлов
упростил сборку
выкинул кучу мусора
вырезал саммари из хардкода js файла перенес на бэкенд
как мог поработал над стабильностью (увы синхронщины оч много)
Удалил все лишние зависимости, база файлов в s3 сессии и бд в json)
Как поднимать (нужно будет два сервера или две видяхи) можно vllm взять удаленный
Берем локальную модель не тупее 7b на vllm
Берем еще сервер с 8гб памяти у видяхи
Делаем
git clone https://github.com/vakovalskii/whisperx-fronted-docker-compose
docker compose build
docker compose up -d `
Ииии, вы прекрасный у вас свой локальный сервис ASR (там даже есть апи)
Так как за основу взят whisperx то на rtx4500 скорость анализа записи длиной 1:30ч занимает 4 минуты
Юзабилити в массы!
7🔥62❤19🤯3
Neural Deep
Whispex+Frontend+Open-source Ваш личный/корпоративный/безопасный транскрибатор который можно доделать до крутого MVP И так как вы помните я рассказывал тут про свой опыт AI кодинга (когда ни строчки не пишу сам) Вышло достаточно сложно но если кратко ОНО…
Страх и ненависть в Cursor
В продолжение реальных экспериментов Артём начинает раскрывать для нас завесу AI coding моя версия vs Senior Backend Coding + AI
Код который я выложил выше можно описать примерно вот так "
Главное фичи! Главное фичи!' - кричал я, пока Артём молча кодил с AI
Синьор-бэкендер + Cursor против фулстека с 'огромной надсмотренностью', через пару недель родился этот сервис с совершенно другим интерфейсом и бизнес логикой
Cursor показал мне крутую архитектуру
Я даже поверил, что стал лучше
Потом Артём взял мои же идеи и реализовал их так, что система не падает и выглядит это круто
Еще раз показывает разницу между 'понимать архитектуру' и 'кодить архитектуру' (тут будет серия постов с деталями и подробностями о том как и почему стоит подходит к AI разработке)
В продолжение реальных экспериментов Артём начинает раскрывать для нас завесу AI coding моя версия vs Senior Backend Coding + AI
Код который я выложил выше можно описать примерно вот так "
мне не передать словами ту боль и унижение
" которое я испытал когда слушал голосовые от Артёма и получил пару знатных ревью в лс =) Главное фичи! Главное фичи!' - кричал я, пока Артём молча кодил с AI
Синьор-бэкендер + Cursor против фулстека с 'огромной надсмотренностью', через пару недель родился этот сервис с совершенно другим интерфейсом и бизнес логикой
Cursor показал мне крутую архитектуру
Я даже поверил, что стал лучше
Потом Артём взял мои же идеи и реализовал их так, что система не падает и выглядит это круто
Еще раз показывает разницу между 'понимать архитектуру' и 'кодить архитектуру' (тут будет серия постов с деталями и подробностями о том как и почему стоит подходит к AI разработке)
Telegram
ITипичные аспекты Артёма
Страх и ненависть в Cursor
Тренды идут, а я не в трендах. Да и кодинг навыки в бытность мою лидом начали практиковаться значительно меньше 4-6 часов в день, необходимых для поддержания формы.
Потому, вдохновлённый опытом Валеры, моего любимого соратника…
Тренды идут, а я не в трендах. Да и кодинг навыки в бытность мою лидом начали практиковаться значительно меньше 4-6 часов в день, необходимых для поддержания формы.
Потому, вдохновлённый опытом Валеры, моего любимого соратника…
❤24🔥10
SWE-bench: учусь запускаться локально на swe задачах
TL;DR: SWE-bench (Software Engineering) бенчмарк для оценки AI-агентов на реальных GitHub issues
Тестирую qwen2.5-32b-coder-instruct на 2x RTX 4090 (48GB), получил 5.3% zero-shot
Планирую адаптировать open-source лидеров под локальные модели через vLLM + SO
Что такое SWE-bench его кстати придумала команда из Princeton University и Stanford University
Работа была принята на ICLR 2024
SWE-bench это benchmark для оценки больших языковых моделей на реальных software issues, собранных из GitHub
Получив кодовую базу и issue, языковая модель должна сгенерировать патч, который решает описанную проблему
В отличие от бенчмарков, фокусирующихся на скорости, SWE-bench оценивает инженерные
навыки: понимание существующего кода, генерацию нового кода, отладку, исправление багов и рефакторинг
Варианты: Full (2,294 задач), Lite (300 задач), Verified (500 задач)
Мои эксперименты: 2x RTX 4090 (48GB) + я взял сервер на 32CPU (под eval)
Развернул qwen2.5-32b-coder-instruct через vLLM
Запуск включает в себя 3 этапа:
1) Подготовка: Создание датасета с Style-3 промптами (19K символов контекста: issue + полный код + примеры патчей)
2) Inference: Модель получает промпт и генерирует diff-патч для решения GitHub issue
3) Evaluation: Патч применяется к репозиторию в Docker контейнере, запускаются тесты (FAIL_TO_PASS + PASS_TO_PASS)
Ключевые поля датасета:
Структура промпта (19K символов):
Результаты zero-shot на SWE-bench Lite:
Решено: 16/300 (5.3%)
Применимых патчей: 119/300 (39.7%)
Производительность: 79-383 tokens/s prompt, 46-64 tokens/s generation
Проблема на первый взгляд: стандартный few-shot не выдерживает формат diff - модель генерирует
правильную логику, но ломается на синтаксисе unified diff format
Именно поэтому лидеры используют structured output
Еще уперся в рейт лимиты Docker Hub api при сборке но исправление проблемы показало +1 процент точности
Так же c командой прокопали open-source лидеров
На сегодня вот такой вот лидерборд на lite
1. ExpeRepair-v1.0 + Claude 4 Sonnet — 60.33%
4 агента: Search, Reproducer, Write Patch, Reviewer
Structured Output архитектура (промптинг+shema repair)
2. Refact.ai Agent — 60.00%
Claude 3.7 Sonnet + o4-mini для deep_analysis()
Дела вывод что planning-модуль критичен без него агент работает реактивно (увидел → патчит),
с ним: анализ → стратегия → план → исполнение
Разница между 5% и 60% именно в этом
3. SWE-agent + Claude 4 Sonnet 56.67%
Новая версия с Claude 4 Sonnet
ReAct архитектура с улучшенным scaffolding
4. ExpeRepair-v1.0 — 48.33%
Базовая версия без Claude 4 Sonnet
Все тот же structured output подход(промптинг)
Чем круче подобран набор tool + архитектура > размер модели
Хочу попробовать в течении месяца по вечерам собрать такого франкенштейна
vLLM + Structured Output (замена function calling)
Локальный planning-модуль (курсор мне в помощь) (аналог deep_analysis)
Multi-agent архитектура еще не выбрал что буду брать (есть советы?)
Эффективное использование 120k context (скорее всего буду батчи упаковывать для паралельного запуска tool
P.S. Кто еще тестирует open-source агентов на SWE-bench? Делитесь результатами!
TL;DR: SWE-bench (Software Engineering) бенчмарк для оценки AI-агентов на реальных GitHub issues
Тестирую qwen2.5-32b-coder-instruct на 2x RTX 4090 (48GB), получил 5.3% zero-shot
Планирую адаптировать open-source лидеров под локальные модели через vLLM + SO
Что такое SWE-bench его кстати придумала команда из Princeton University и Stanford University
Работа была принята на ICLR 2024
SWE-bench это benchmark для оценки больших языковых моделей на реальных software issues, собранных из GitHub
Получив кодовую базу и issue, языковая модель должна сгенерировать патч, который решает описанную проблему
В отличие от бенчмарков, фокусирующихся на скорости, SWE-bench оценивает инженерные
навыки: понимание существующего кода, генерацию нового кода, отладку, исправление багов и рефакторинг
Варианты: Full (2,294 задач), Lite (300 задач), Verified (500 задач)
Мои эксперименты: 2x RTX 4090 (48GB) + я взял сервер на 32CPU (под eval)
Развернул qwen2.5-32b-coder-instruct через vLLM
Запуск включает в себя 3 этапа:
1) Подготовка: Создание датасета с Style-3 промптами (19K символов контекста: issue + полный код + примеры патчей)
2) Inference: Модель получает промпт и генерирует diff-патч для решения GitHub issue
3) Evaluation: Патч применяется к репозиторию в Docker контейнере, запускаются тесты (FAIL_TO_PASS + PASS_TO_PASS)
Ключевые поля датасета:
instance_id - уникальный ID (astropy__astropy-12907)
text - полный промпт для модели (19K символов)
problem_statement - описание GitHub issue (1.2K символов)
patch - правильное решение (500 символов)
FAIL_TO_PASS - тесты, которые должны заработать
PASS_TO_PASS - тесты, которые должны остаться рабочими
Структура промпта (19K символов):
Введение (100 символов) - инструкция для модели
<issue> (1.2K символов) - описание проблемы + примеры
<code> (16K символов) - полный контекст кода + документация
<patch> (1.2K символов) - пример формата решения
Результаты zero-shot на SWE-bench Lite:
Решено: 16/300 (5.3%)
Применимых патчей: 119/300 (39.7%)
Производительность: 79-383 tokens/s prompt, 46-64 tokens/s generation
Проблема на первый взгляд: стандартный few-shot не выдерживает формат diff - модель генерирует
правильную логику, но ломается на синтаксисе unified diff format
Именно поэтому лидеры используют structured output
Еще уперся в рейт лимиты Docker Hub api при сборке но исправление проблемы показало +1 процент точности
Так же c командой прокопали open-source лидеров
На сегодня вот такой вот лидерборд на lite
1. ExpeRepair-v1.0 + Claude 4 Sonnet — 60.33%
4 агента: Search, Reproducer, Write Patch, Reviewer
Structured Output архитектура (промптинг+shema repair)
2. Refact.ai Agent — 60.00%
Claude 3.7 Sonnet + o4-mini для deep_analysis()
Дела вывод что planning-модуль критичен без него агент работает реактивно (увидел → патчит),
с ним: анализ → стратегия → план → исполнение
Разница между 5% и 60% именно в этом
3. SWE-agent + Claude 4 Sonnet 56.67%
Новая версия с Claude 4 Sonnet
ReAct архитектура с улучшенным scaffolding
4. ExpeRepair-v1.0 — 48.33%
Базовая версия без Claude 4 Sonnet
Все тот же structured output подход(промптинг)
Чем круче подобран набор tool + архитектура > размер модели
Хочу попробовать в течении месяца по вечерам собрать такого франкенштейна
vLLM + Structured Output (замена function calling)
Локальный planning-модуль (курсор мне в помощь) (аналог deep_analysis)
Multi-agent архитектура еще не выбрал что буду брать (есть советы?)
Эффективное использование 120k context (скорее всего буду батчи упаковывать для паралельного запуска tool
P.S. Кто еще тестирует open-source агентов на SWE-bench? Делитесь результатами!
🔥20❤11👍5 2
Forwarded from BOGDANISSSIMO
Напоминаем что сегодня в 19:00 по мск мы с t.me/neuraldeep обсудим тонкости внедрения LLM в бизнесы, не задудьте добавить время в календарь чтобы не пропустить
https://stripo.email/storage/ics/2025/7/ics_neural-deep-bogdanisssimo-2025-07-08-060232.ics
https://stripo.email/storage/ics/2025/7/ics_neural-deep-bogdanisssimo-2025-07-08-060232.ics
Telegram
Neural Deep
Head of AI redmadrobot.ru
6 лет: 0>>>Head of AI
AI Infrastructure | Production RAG
Local inference
RAG (2M+ книг)
RAG chat bot (5М+ токенов)
B2B платформа (10+ клиентов)
B2C gptdaisy.com (100k MAU)
Код, кейсы, R&D
github.com/kekslop | @neuraldeepchat
6 лет: 0>>>Head of AI
AI Infrastructure | Production RAG
Local inference
RAG (2M+ книг)
RAG chat bot (5М+ токенов)
B2B платформа (10+ клиентов)
B2C gptdaisy.com (100k MAU)
Код, кейсы, R&D
github.com/kekslop | @neuraldeepchat
❤9🔥5
Forwarded from Pavel Zloi
Хабр
MCP для новичков
Model Context Protocol (MCP) - это просто API, разработанный для LLM. Конечно, LLM могут использовать традиционные API, но это как просить повара готовить в кладовке из-за: Сложных промптов для...
Обзор "MCP для новичков"
Пожалуй это первая публикация на Хабр в которой просто и понятно, без маркетингового булщита и воды, автор разобрался сам и попытался объяснить нам, что такое MCP (Model Context Protocol), зачем он нужен, почему он работает так как работает и какие у него особенности.
Тезис, вокруг которого построена публикация:
Я тоже придерживаюсь мнения, что MCP это такое хитрое API с полезными утилитами созданными для того чтобы LLM эффективнее решала поставленные задачи, точка, попытки прикрутить к MCP что-то более как правило оканчиваются разочарованием в MCP.
Тут просто нужно понять и принять тот факт, что инструмент этот создан под определённую задачу, например молотком стоит забивать гвозди, а не пытаться рубить дерево, MCP нужен далеко не всегда, иногда проще реализовать классическое REST API.
Рекомендую к прочтению.
PS. И хоть видно что публикацию сгенерила нейронка виден здравый поинт и мысль автора.
Пожалуй это первая публикация на Хабр в которой просто и понятно, без маркетингового булщита и воды, автор разобрался сам и попытался объяснить нам, что такое MCP (Model Context Protocol), зачем он нужен, почему он работает так как работает и какие у него особенности.
Тезис, вокруг которого построена публикация:
Model Context Protocol (MCP) - это просто API, разработанный для LLM.
Я тоже придерживаюсь мнения, что MCP это такое хитрое API с полезными утилитами созданными для того чтобы LLM эффективнее решала поставленные задачи, точка, попытки прикрутить к MCP что-то более как правило оканчиваются разочарованием в MCP.
Тут просто нужно понять и принять тот факт, что инструмент этот создан под определённую задачу, например молотком стоит забивать гвозди, а не пытаться рубить дерево, MCP нужен далеко не всегда, иногда проще реализовать классическое REST API.
Рекомендую к прочтению.
PS. И хоть видно что публикацию сгенерила нейронка виден здравый поинт и мысль автора.
❤33🤣6
Так так тут вторая часть вышла!
Страха и ненависти вЛас-Вегас (курсоре) точно перейдем на Claude Code в следующих итерациях)))
Зачитаться что еще накопал синьор при работе с AI инструментами
Страха и ненависти в
Зачитаться что еще накопал синьор при работе с AI инструментами
Telegram
ITипичные аспекты Артёма
Начало
Продолжу описывать процесс работы длиной в (предыдущую) неделю,мысли подходы в формате:
* Затраченное время
* Какие изменения вносил
* Какие выводы сделаны/инсайты получены
пнд-втр, 10+14=24ч.
- Загружен проект, проведена первичная оценка имеющейся…
Продолжу описывать процесс работы длиной в (предыдущую) неделю,мысли подходы в формате:
* Затраченное время
* Какие изменения вносил
* Какие выводы сделаны/инсайты получены
пнд-втр, 10+14=24ч.
- Загружен проект, проведена первичная оценка имеющейся…
👏12👍7🔥4😁2
Завтра выступлю на конфе Turbo ML Conf 2025
https://t.me/zheltyi_ai/440
Рега уже закрыта, будет запись
Расскажу про workflow, мелкие модели до 10b и простые решения!
Возможно запишу вам обстановку!
https://t.me/zheltyi_ai/440
Рега уже закрыта, будет запись
Расскажу про workflow, мелкие модели до 10b и простые решения!
Возможно запишу вам обстановку!
1❤47👍11 9🔥4
Новый топ в open-source среди ру моделей 30b +?
И так пока я мчу на сапсане в МСК разберу новинку от t-tech
T-pro-it-2.0 (qwen3-32b)
Запустил я модельку на нашем кластере х2 4090(48 гб модифицированные)
"Без спекулятивки"
Влезли все те же 120к токенов в (кто забыл как настраивать rope_scaling в сonfig.json)
Сходу пару базовых сюпризов 1) пришлось уйти на самую последнюю версию vllm 2) поднять версии драйверов (nvdidia+cuda)
Как вы помните я тестировал тут qwen coder и T-pro-it-1.0 он же (qwen2.5-32b-instruct)
средняя скорость чтения в одном потоке 800 т/с чтение и 22 т/c генерация
Модель рассуждающая так что она будет пулять еще поле think (бюджетом на рассуждение пока можно управлять через систем промпт возможно в vLLM появится поддержка
Либо можно передать параметр
Такой подход передает в шаблон
prompt: '<|im_start|>user\nРеши: 2x + 5 = 13<|im_end|>\n<|im_start|>assistant\n
Что в свою очередь отключает размыления
Еще можно включить
Такое нужно для передачи отдельного поля
————————————————————————-
И так скорость честно я ожидал чуть больше исходя из того что проделали ребята из t-tech
Чтение в одном потоке 920 т/с чтение и 24.7 т/c генерация прирост составил 2.7 токена в секунду на моих кейсах что тоже неплохо!
Дальше я буду делать замеры на задачах
RAG (наш бенч) + Задачи классификации контента
SO погоняю большие схемы
Генерация отличная чистая без китайский иероглифов и артефактов, конечно же модель запущена в FP16 без квантов
И так пока я мчу на сапсане в МСК разберу новинку от t-tech
T-pro-it-2.0 (qwen3-32b)
Запустил я модельку на нашем кластере х2 4090(48 гб модифицированные)
"Без спекулятивки"
Влезли все те же 120к токенов в (кто забыл как настраивать rope_scaling в сonfig.json)
"rope_scaling": {
"factor": 4.0,
"original_max_position_embeddings": 32768,
"type": "yarn"
},
Сходу пару базовых сюпризов 1) пришлось уйти на самую последнюю версию vllm 2) поднять версии драйверов (nvdidia+cuda)
Как вы помните я тестировал тут qwen coder и T-pro-it-1.0 он же (qwen2.5-32b-instruct)
средняя скорость чтения в одном потоке 800 т/с чтение и 22 т/c генерация
Модель рассуждающая так что она будет пулять еще поле think (бюджетом на рассуждение пока можно управлять через систем промпт возможно в vLLM появится поддержка
budget
) Либо можно передать параметр
"enable_thinking": False
и отключить расждуения вовсеstream = client.chat.completions.create(
model="qwen3-32b",
messages=[{"role": "user", "content": "Реши: 2x + 5 = 13"}],
stream=True,
extra_body={"chat_template_kwargs": {"enable_thinking": False}}
)
Такой подход передает в шаблон
prompt: '<|im_start|>user\nРеши: 2x + 5 = 13<|im_end|>\n<|im_start|>assistant\n
<think>\n\n</think>
\n\n'Что в свою очередь отключает размыления
Еще можно включить
--reasoning-parser qwen3
Такое нужно для передачи отдельного поля
reasoning_content
в ответе что хорошо расширят кол-во сценариев при работе с такой моделью————————————————————————-
И так скорость честно я ожидал чуть больше исходя из того что проделали ребята из t-tech
Чтение в одном потоке 920 т/с чтение и 24.7 т/c генерация прирост составил 2.7 токена в секунду на моих кейсах что тоже неплохо!
Дальше я буду делать замеры на задачах
RAG (наш бенч) + Задачи классификации контента
SO погоняю большие схемы
Генерация отличная чистая без китайский иероглифов и артефактов, конечно же модель запущена в FP16 без квантов
🔥30👍9🤔2 1
Forwarded from LLM под капотом
График точности всех RAG экспериментов из ERCv2
Напомню, что в ERCr2 43 разные команды ставили эксперименты по построению RAG систем, которые смогут дать наиболее точные ответы на 100 вопросов по 100 PDF (публичные отчеты компаний). Некоторые вопросы требовали сравнительной работы с разными PDF.
Всего было поставлено 134 эксперимента с разными моделями и архитектурами. На этой таблицы они все отображены.
- R - это точность работы Retrieval алгоритма (системы должны были подтверждать свои ответы ссылками на страница)
- G - это точность финального ответа, на основе ground truth данных
- Зеленая линия - линия, где у систем качество Retrieval совпадает с качеством Generation.
Архитектуры, которые выше этой линии - доставали много ненужных страниц (или пропускали нужные), но как-то получали правильный ответ.
Те, кто был ниже - находили правильные данные, но путались с генерацией ответа.
Самые лучшие RAG системы (по итоговому качеству ответов) - "сгрудились" рядом с этой зеленой линией - строго под ней. Получается логический вывод - качество финального ответа обычно зависит от качества заполнения контекста.
Ваш, @llm_under_hood 🤗
PS: Исходную таблицу можно увидеть на странице ERC. Там же есть ссылки на все доступные исходные данные соревнования, включая алгоритм оценки результатов и описания архитектур.
Напомню, что в ERCr2 43 разные команды ставили эксперименты по построению RAG систем, которые смогут дать наиболее точные ответы на 100 вопросов по 100 PDF (публичные отчеты компаний). Некоторые вопросы требовали сравнительной работы с разными PDF.
Всего было поставлено 134 эксперимента с разными моделями и архитектурами. На этой таблицы они все отображены.
- R - это точность работы Retrieval алгоритма (системы должны были подтверждать свои ответы ссылками на страница)
- G - это точность финального ответа, на основе ground truth данных
- Зеленая линия - линия, где у систем качество Retrieval совпадает с качеством Generation.
Архитектуры, которые выше этой линии - доставали много ненужных страниц (или пропускали нужные), но как-то получали правильный ответ.
Те, кто был ниже - находили правильные данные, но путались с генерацией ответа.
Самые лучшие RAG системы (по итоговому качеству ответов) - "сгрудились" рядом с этой зеленой линией - строго под ней. Получается логический вывод - качество финального ответа обычно зависит от качества заполнения контекста.
Ваш, @llm_under_hood 🤗
PS: Исходную таблицу можно увидеть на странице ERC. Там же есть ссылки на все доступные исходные данные соревнования, включая алгоритм оценки результатов и описания архитектур.
🔥13❤5
Forwarded from BOGDANISSSIMO
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from LLM Arena
Классические лидерборды больше не отражают реальную эффективность моделей в прикладных задачах. Мы видим, что специалисты комбинируют метрики и сигналы, чтобы подобрать идеальную LLM под свой уникальный кейс.
Мы проводим новое исследование, чтобы понять:
🔹Как профессионалы выбирают решение на базе LLM.
🔹Какие данные, инструменты и сигналы реально помогают.
🧑💻 Для кого?
Приглашаем всех, кто профессионально связан с AI-продуктами и работает с LLM: ML-инженеры, дата-сайентисты, исследователи, продакты, MLOps и индивидуальные контрибьюторы.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥3