Forwarded from RnD CV Team (Alexander Kapitanov)
Data Fest в Сбере 🏦 🦜
30 мая Data Fest 2025 придёт в гости в штаб-квартиру на Кутузовском проспекте.
🧠 Открывает главную сцену Иван Оселедец @Ivan_Oseledets с докладом "Большие языковые модели в эпоху ризонинга"
🎨 Следом выступит Александр Капитанов @rndcv_team с релизом state-of-the-art модели инструктивного редактирования изображений MALVINA, над которой активно трудилась команда @layercv
😎 Также будет представлен доклад Федора Минькина @gigadev_channel о разработке больших языковых моделей в Сбере
🛠 Андрей Кузнецов @complete_ai выступит с интересной темой про генеративное проектирование в строительстве и промышленности
🧑💻 Дмитрий Бабаев @dl_l_lb представит подробный доклад о том, как команда обучает GigaCode
🤖 Сергей Марков @oulenspiegel_channel открывает сцену с визионерским докладом про ИИ в эпоху больших языковых моделей
🧠 Александр Абрамов @dealerAI расскажет про глобальную память в LLM на примере GigaChat
📝 Никита Мартынов и Даниил Астафуров, инженеры MERA покажут, как оценивать генеративные способности LLM для русского языка
🖥 Виктория Вольф @rndcv_team поделится лайфхаками обработки и фильтрации больших объемов мультимодальных данных.
И это еще не все, в программе представлено более 20 крутых докладов!
🖥 Зарегистрироваться и узнать подробности можно на сайте
30 мая Data Fest 2025 придёт в гости в штаб-квартиру на Кутузовском проспекте.
🧠 Открывает главную сцену Иван Оселедец @Ivan_Oseledets с докладом "Большие языковые модели в эпоху ризонинга"
🎨 Следом выступит Александр Капитанов @rndcv_team с релизом state-of-the-art модели инструктивного редактирования изображений MALVINA, над которой активно трудилась команда @layercv
🛠 Андрей Кузнецов @complete_ai выступит с интересной темой про генеративное проектирование в строительстве и промышленности
🧑💻 Дмитрий Бабаев @dl_l_lb представит подробный доклад о том, как команда обучает GigaCode
🤖 Сергей Марков @oulenspiegel_channel открывает сцену с визионерским докладом про ИИ в эпоху больших языковых моделей
📝 Никита Мартынов и Даниил Астафуров, инженеры MERA покажут, как оценивать генеративные способности LLM для русского языка
И это еще не все, в программе представлено более 20 крутых докладов!
Please open Telegram to view this post
VIEW IN TELEGRAM
Neural Deep
Data Fest в Сбере 🏦 🦜 30 мая Data Fest 2025 придёт в гости в штаб-квартиру на Кутузовском проспекте. 🧠 Открывает главную сцену Иван Оселедец @Ivan_Oseledets с докладом "Большие языковые модели в эпоху ризонинга" 🎨 Следом выступит Александр Капитанов @rndcv_team…
Дядя тут будет👆👆👆
Telegram
Dealer.AI
Жоский ИИ дядя.
Твой личный поставщик AI 💊💉🤖
Канал о мире интересного AI: ML, DL, NLP/NLU, RL, Retrieval, RecSys.
Для связи @dealer_ai
(реклама и консультации)
Руковожу AI командами.
Habr @Andriljo
Kaggle: Andrilko
Твой личный поставщик AI 💊💉🤖
Канал о мире интересного AI: ML, DL, NLP/NLU, RL, Retrieval, RecSys.
Для связи @dealer_ai
(реклама и консультации)
Руковожу AI командами.
Habr @Andriljo
Kaggle: Andrilko
Телепорт по каналу!
Подсмотрел у Рината как оформлен первый пост в закрепе
Очень зашел такой формат хоть и очевиден (нет) и я взял выгрузил посты своего канала разметил через LLM в три этапа конечно помогли навыки SO +CoT
1) Первым этапом получил теги
2) Потом достал кейсы/мануалы
3) Получил только важное и вот и у вас теперь тоже есть телепорт!
Подсмотрел у Рината как оформлен первый пост в закрепе
Очень зашел такой формат хоть и очевиден (нет) и я взял выгрузил посты своего канала разметил через LLM в три этапа конечно помогли навыки SO +CoT
1) Первым этапом получил теги
2) Потом достал кейсы/мануалы
3) Получил только важное и вот и у вас теперь тоже есть телепорт!
Понедельник в r&d начинается с 96GB кофе
На 2 недели на тесте две 4090 48GB Turbo
По мере тестов буду выкладывать что получается а что не очень!
За фото спасибо IT Support r_m_r❤️
Кто заметил пасхалку?
#x2_409048GB
На 2 недели на тесте две 4090 48GB Turbo
По мере тестов буду выкладывать что получается а что не очень!
За фото спасибо IT Support r_m_r
Кто заметил пасхалку?
#x2_409048GB
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from BOGDANISSSIMO
Да, кстати, не подвёл итоги конкурса
Большинство предложенных решений не учитывали некоторые из вводных пунктов, а потому не были приняты в рассмотрение. Правильно говорят в физике, понять задачу = половина решения
Самым элегантным решением, которое всё ещё не требует лишних действий/настроек от пользователя оказалась идея Валерия (https://t.me/neuraldeep)
Идея: ориентироваться по движению устройства в руке. Когда мы листаем на новый чат / сториз / профиль, мы как будто делаем какое-то количество движений, по которым можно отделить, что мы уже переключились на другой экран в каком-либо приложении, а на остаёмся в том же и генерим ответы под него
Правда я не проверял, будет ли оно работать в случае, если приложение в фоне. В самом приложении без дополнительных пермишенов сбор углов поворота/движения и других показаний гироскопа точно работает. Но сама задумка мне кажется клёвой
Большинство предложенных решений не учитывали некоторые из вводных пунктов, а потому не были приняты в рассмотрение. Правильно говорят в физике, понять задачу = половина решения
Самым элегантным решением, которое всё ещё не требует лишних действий/настроек от пользователя оказалась идея Валерия (https://t.me/neuraldeep)
Идея: ориентироваться по движению устройства в руке. Когда мы листаем на новый чат / сториз / профиль, мы как будто делаем какое-то количество движений, по которым можно отделить, что мы уже переключились на другой экран в каком-либо приложении, а на остаёмся в том же и генерим ответы под него
Правда я не проверял, будет ли оно работать в случае, если приложение в фоне. В самом приложении без дополнительных пермишенов сбор углов поворота/движения и других показаний гироскопа точно работает. Но сама задумка мне кажется клёвой
Telegram
Neural Deep
Head of AI redmadrobot.ru
6 лет: 0>>>Head of AI
AI Infrastructure | Production RAG
Local inference
RAG (2M+ книг)
RAG chat bot (5М+ токенов)
B2B платформа (10+ клиентов)
B2C gptdaisy.com (100k MAU)
Код, кейсы, R&D
github.com/kekslop | @neuraldeepchat
6 лет: 0>>>Head of AI
AI Infrastructure | Production RAG
Local inference
RAG (2M+ книг)
RAG chat bot (5М+ токенов)
B2B платформа (10+ клиентов)
B2C gptdaisy.com (100k MAU)
Код, кейсы, R&D
github.com/kekslop | @neuraldeepchat
Neural Deep
Да, кстати, не подвёл итоги конкурса Большинство предложенных решений не учитывали некоторые из вводных пунктов, а потому не были приняты в рассмотрение. Правильно говорят в физике, понять задачу = половина решения Самым элегантным решением, которое всё…
Планируем с Богданом провести подкаст еще не определились с датой и темой, но уже решили провести, пишите свои вопросы в комментарии про LLM-сервисы / продукты / приёмы, LLM в бизнесе / маркетинге и т.д.
От каждого подписчика по вопросу, если будет слишком много, разгребём с ChatGPT
👇👇👇
От каждого подписчика по вопросу, если будет слишком много, разгребём с ChatGPT
👇👇👇
Доброе утро всем!
Продолжаем тесты RTX 4090 (48GB). Наконец сегодня дошли руки доделать адекватный тест с мониторингом всех performance-графиков пока что два простеньких теста х5 и х10 реквестов с разным размером контекста
Сейчас делал замеры на скорость:
- Чтения
- Генерации
- И нагрузки GPU
Как держит разную нагрузку именно под полным и неполным контекстом с FP16 моделькой и какое кол-во реквестов (батч) оптимальное
На тесте сегодня у нас Qwen2.5-Coder-32B-Instruct
Задача: прочитать большой код 15к токенов и найти нужные мне функции, описать их, разобрать функционал (простая задача, с этим модель справилась, как всегда, отлично).
Из интересного: если правильно нарезать задачу, то в целом можно выжать из такого конфига — а напомню, у нас x2 RTX 4090 (48GB) Max Concurrency 2.76x 32к token:
- Prompt Speed: 1,017 tok/s
- Generation: 164.2 tok/s
С результатами можно ознакомиться тут и скриншоты подробнее в комментариях
За предоставленные карты на тест отдельное спасибо https://riverstrom.ai
#x2_409048GB
Продолжаем тесты RTX 4090 (48GB). Наконец сегодня дошли руки доделать адекватный тест с мониторингом всех performance-графиков пока что два простеньких теста х5 и х10 реквестов с разным размером контекста
Сейчас делал замеры на скорость:
- Чтения
- Генерации
- И нагрузки GPU
Как держит разную нагрузку именно под полным и неполным контекстом с FP16 моделькой и какое кол-во реквестов (батч) оптимальное
На тесте сегодня у нас Qwen2.5-Coder-32B-Instruct
Задача: прочитать большой код 15к токенов и найти нужные мне функции, описать их, разобрать функционал (простая задача, с этим модель справилась, как всегда, отлично).
Из интересного: если правильно нарезать задачу, то в целом можно выжать из такого конфига — а напомню, у нас x2 RTX 4090 (48GB) Max Concurrency 2.76x 32к token:
- Prompt Speed: 1,017 tok/s
- Generation: 164.2 tok/s
С результатами можно ознакомиться тут и скриншоты подробнее в комментариях
За предоставленные карты на тест отдельное спасибо https://riverstrom.ai
#x2_409048GB
Forwarded from #безвотэтоговотвсего
Дружочки!
Это была 5я оффлайн встреча #безвотэтоговотвсего в Баку, на тему ““Мир после GPT: как AI меняет рынок IT и продуктов навсегда?”
С нашими прекрасными спикерами, Сергеем Рыжиковым из Битрикс24, Ваней Самсоновым из MWS и Валерой Ковальским из r_m_r много и обстоятельно поговорили про:
- Что действительно изменилось в подходе к разработке и запуску продуктов за последний год с приходом массового AI
- Как сегодня понять, что человек – профессионал, если знания и навыки становятся доступными через нейросети?
- Как AI меняет структуру ответственности в корпорациях?
- Чего нам ждать от AI в ближайшие несколько лет
Обо всем этом можно и нужно смотреть на записи нашей дискуссии в Youtube и VK Video. Филиал сообщества #безвотэтоговотвсего в Баку растет и развивается и мы обязательно скоро вернемся, следите за анонсами :)
Это была 5я оффлайн встреча #безвотэтоговотвсего в Баку, на тему ““Мир после GPT: как AI меняет рынок IT и продуктов навсегда?”
С нашими прекрасными спикерами, Сергеем Рыжиковым из Битрикс24, Ваней Самсоновым из MWS и Валерой Ковальским из r_m_r много и обстоятельно поговорили про:
- Что действительно изменилось в подходе к разработке и запуску продуктов за последний год с приходом массового AI
- Как сегодня понять, что человек – профессионал, если знания и навыки становятся доступными через нейросети?
- Как AI меняет структуру ответственности в корпорациях?
- Чего нам ждать от AI в ближайшие несколько лет
Обо всем этом можно и нужно смотреть на записи нашей дискуссии в Youtube и VK Video. Филиал сообщества #безвотэтоговотвсего в Баку растет и развивается и мы обязательно скоро вернемся, следите за анонсами :)
Vibe Coding Notes
Сегодня я собрал для вас подборку постов, на мой взгляд самую лучшую прокопку реальных кейсов AI кодинга
Как и в случае с нашими тестами RTX 4090, где я выжимаю максимум производительности, эти материалы помогут вам эффективно использовать AI-инструменты в работе
Внутри: практические советы по Cursor, реальные кейсы автоматизации, нестандартные применения AI-инструментов, рабочие workflow и обзоры инструментов типа Stitch, Context7 и Lovable.
Каждый автор делится тем, что сам использует в работе. Никакой воды - только то, что реально экономит время и решает задачи.
-Вайб-кодим Google Apps Script для офисных задач: как LLM превращает часы рутины в минуты магии
- Vibe Cursor Coding
- AI / Vibe coding - советы и best practices
- Как получилось, что юристы используют среду для разработчиков?
- Stitch: от вайб-кодинга к вайб-дизайну и обратно
- Как я бросил курсорить и начал шотганить
- Context7 — один из лучших инструментов для AI-разработки
- Топовый AI Coding Workflow: Cursor & AI Studio
- Как Cursor AI превращает текст в готовые макеты Figma
- Простое веб-приложение за 30 минут с помощью Lovable
Если материал зайдет - подписывайтесь на авторов. Я сам читаю каждого из них и рекомендую
Сегодня я собрал для вас подборку постов, на мой взгляд самую лучшую прокопку реальных кейсов AI кодинга
Как и в случае с нашими тестами RTX 4090, где я выжимаю максимум производительности, эти материалы помогут вам эффективно использовать AI-инструменты в работе
Внутри: практические советы по Cursor, реальные кейсы автоматизации, нестандартные применения AI-инструментов, рабочие workflow и обзоры инструментов типа Stitch, Context7 и Lovable.
Каждый автор делится тем, что сам использует в работе. Никакой воды - только то, что реально экономит время и решает задачи.
-Вайб-кодим Google Apps Script для офисных задач: как LLM превращает часы рутины в минуты магии
- Vibe Cursor Coding
- AI / Vibe coding - советы и best practices
- Как получилось, что юристы используют среду для разработчиков?
- Stitch: от вайб-кодинга к вайб-дизайну и обратно
- Как я бросил курсорить и начал шотганить
- Context7 — один из лучших инструментов для AI-разработки
- Топовый AI Coding Workflow: Cursor & AI Studio
- Как Cursor AI превращает текст в готовые макеты Figma
- Простое веб-приложение за 30 минут с помощью Lovable
Если материал зайдет - подписывайтесь на авторов. Я сам читаю каждого из них и рекомендую
Когда open-source логирование подставляет, а невнимательность с моделями бьет по метрикам 📊
Все вы помните как я переехал на LiteLLM
Вчера у нас был тот самый день, когда все идет не так, как планировалось
OpenAI API частично лежало, задержки до 16 секунд, пользователи в поддержку валом — классика жанра для любого сервиса с высоким MAU
Проблема №1: Слепая зона в мониторинге
Когда пользователи начали жаловаться на тормоза, мы полезли проверять наш LiteLLM прокси. И тут выяснилось, что без лицензии у нас доступны только базовые метрики в
Мой самописный дашборд показывал, что с прокси все ОК — никаких аномалий
Но задержки-то были! В логах они светились, а в интерфейсе нет
Результат: 2 часа потрачено на копание в прокси, вместо того чтобы сразу проверить статус провайдеров
Ха-ха классический случай "лечим симптомы, а не причину"
Проблема №2: Миграция фильтров без должного тестирования
Наша эволюция фильтров NSFW для FLUX генерации:
- Начали с Llama 3.1 + кастомный промпт для нашего FLUX (низкий RPS легко справлялся локальный кластер)
- Переехали на Qwen2.5 (промпт остался тот же)
- Из-за нагрузки мигрировали на gpt-4o-mini
И вот тут началось веселье!
Промпт, который работал с локальными моделями, на gpt-4o-mini показал себя ужасно да как так то? =)
- 37% False Positive срабатываний
- Пользователи, которые писали "девушка" в запросе, не получали генерацию
После анализа данных из единого прокси (спасибо ему за централизованные логи!) команда R&D быстро поняла масштаб проблемы и сделали первое
1) Выгрузил все срабатывания от момента замены модели
2) Глазами просмотрели все FALSE
3) Поняли что нужно менять
Что сделали:
- Переработали промпт под gpt-4o-mini
- Ввели уровни категоризации вместо бинарной фильтрации
- Добавили структурированный вывод (SO)
Результаты после фикса(все просмотрели глазами)
- Снижение общей фильтрации до 17%
- FP уменьшились до 24%
- Пользователи снова получают нормальные генерации
Проблема №3: Мистический расход токенов на $350
Тут была самая загадочная история! Один из API ключей потребил весь свой бюджет на токены за какие-то 5 запросов. Трекнулось аж целых 350 долларов сразу алерты полетели 🚨
Что я сделал? Натравил на логи агента в Cursor, дал ему доступ через SSH к серверу где лежит проект и указал как писать запросы в БД и где лежат логи и сказал: "Найди что тут не так!"
И знаете что? LLM оказался круче любого DevOps инженера! За несколько минут он нашел, что это web search функция, которая за 1000 запросов стоит $35, а не обычная генерация
Дальше мы с LLM стали искать, где же система неправильно трекает этот параметр. 15 взаимодействий с find и grep — и вуаля! Нашли проблемный участок кода.
Баг найден будет отправлен в репозиторий LiteLLM
Честно, почти везде LLM помогли найти проблему быстрее, чем я бы сам
- Анализ латенси — LLM разобрал логи и указал на узкие места
- Поиск багов — структурированный поиск по кодовой базе
- Анализ трафика — выявление аномальных паттернов в запросах
Мой новый подход
1. Логи → LLM для первичного анализа
2. LLM находит зацепки → я иду копать глубже
3. LLM помогает с grep/awk/sed магией
4. Профит!
По мониторингу
- Open-source решения могут подставить в критический момент
- Нужен собственный экспортер метрик для Grafana
- Логи != метрики в дашборде (очевидно, но забываем)
По фильтрации
- Каждая модель требует отдельной настройки промптов
- A/B тестирование фильтров — не роскошь, а необходимость
- Миграция моделей без тестов = выстрел себе в ногу
По дебагу
- LLM + логи = мощный дуэт для поиска проблем
- Структурированный анализ через AI экономит часы времени
- Всегда держите LLM "под рукой" при инцидентах:
Да, скажете "это же база!" — но опыт есть опыт. Иногда нужно наступить на грабли, чтобы понять, где они лежат 😅
И главное LLM действительно может быть вашим DevOps коллегой. Не заменит, но сильно поможет! Главное не дать выполнить критичные команды (читай каждую команду что генерит LLM)
P.S. Единое прокси снова доказало свою ценность — без централизованного логирования мы бы копались в проблеме намного дольше!
Все вы помните как я переехал на LiteLLM
Вчера у нас был тот самый день, когда все идет не так, как планировалось
OpenAI API частично лежало, задержки до 16 секунд, пользователи в поддержку валом — классика жанра для любого сервиса с высоким MAU
Проблема №1: Слепая зона в мониторинге
Когда пользователи начали жаловаться на тормоза, мы полезли проверять наш LiteLLM прокси. И тут выяснилось, что без лицензии у нас доступны только базовые метрики в
/metrics
Мой самописный дашборд показывал, что с прокси все ОК — никаких аномалий
Но задержки-то были! В логах они светились, а в интерфейсе нет
Результат: 2 часа потрачено на копание в прокси, вместо того чтобы сразу проверить статус провайдеров
Ха-ха классический случай "лечим симптомы, а не причину"
Проблема №2: Миграция фильтров без должного тестирования
Наша эволюция фильтров NSFW для FLUX генерации:
- Начали с Llama 3.1 + кастомный промпт для нашего FLUX (низкий RPS легко справлялся локальный кластер)
- Переехали на Qwen2.5 (промпт остался тот же)
- Из-за нагрузки мигрировали на gpt-4o-mini
И вот тут началось веселье!
Промпт, который работал с локальными моделями, на gpt-4o-mini показал себя ужасно да как так то? =)
- 37% False Positive срабатываний
- Пользователи, которые писали "девушка" в запросе, не получали генерацию
После анализа данных из единого прокси (спасибо ему за централизованные логи!) команда R&D быстро поняла масштаб проблемы и сделали первое
1) Выгрузил все срабатывания от момента замены модели
2) Глазами просмотрели все FALSE
3) Поняли что нужно менять
Что сделали:
- Переработали промпт под gpt-4o-mini
- Ввели уровни категоризации вместо бинарной фильтрации
- Добавили структурированный вывод (SO)
Результаты после фикса(все просмотрели глазами)
- Снижение общей фильтрации до 17%
- FP уменьшились до 24%
- Пользователи снова получают нормальные генерации
Проблема №3: Мистический расход токенов на $350
Тут была самая загадочная история! Один из API ключей потребил весь свой бюджет на токены за какие-то 5 запросов. Трекнулось аж целых 350 долларов сразу алерты полетели 🚨
Что я сделал? Натравил на логи агента в Cursor, дал ему доступ через SSH к серверу где лежит проект и указал как писать запросы в БД и где лежат логи и сказал: "Найди что тут не так!"
И знаете что? LLM оказался круче любого DevOps инженера! За несколько минут он нашел, что это web search функция, которая за 1000 запросов стоит $35, а не обычная генерация
Дальше мы с LLM стали искать, где же система неправильно трекает этот параметр. 15 взаимодействий с find и grep — и вуаля! Нашли проблемный участок кода.
Баг найден будет отправлен в репозиторий LiteLLM
Честно, почти везде LLM помогли найти проблему быстрее, чем я бы сам
- Анализ латенси — LLM разобрал логи и указал на узкие места
- Поиск багов — структурированный поиск по кодовой базе
- Анализ трафика — выявление аномальных паттернов в запросах
Мой новый подход
1. Логи → LLM для первичного анализа
2. LLM находит зацепки → я иду копать глубже
3. LLM помогает с grep/awk/sed магией
4. Профит!
По мониторингу
- Open-source решения могут подставить в критический момент
- Нужен собственный экспортер метрик для Grafana
- Логи != метрики в дашборде (очевидно, но забываем)
По фильтрации
- Каждая модель требует отдельной настройки промптов
- A/B тестирование фильтров — не роскошь, а необходимость
- Миграция моделей без тестов = выстрел себе в ногу
По дебагу
- LLM + логи = мощный дуэт для поиска проблем
- Структурированный анализ через AI экономит часы времени
- Всегда держите LLM "под рукой" при инцидентах:
Да, скажете "это же база!" — но опыт есть опыт. Иногда нужно наступить на грабли, чтобы понять, где они лежат 😅
И главное LLM действительно может быть вашим DevOps коллегой. Не заменит, но сильно поможет! Главное не дать выполнить критичные команды (читай каждую команду что генерит LLM)
P.S. Единое прокси снова доказало свою ценность — без централизованного логирования мы бы копались в проблеме намного дольше!
Как GenAI работает в реальных решениях? Расскажем на Conversations
В конце июня встречаемся на одной из главных летних AI-конференций — Conversations 2025. Обсудим, как GenAI становится частью рабочих систем, что помогает не просто тестировать технологии, а внедрять их осознанно, и куда движется индустрия.
От red_mad_robot — два доклада:
Я расскажу, как мы перешли от Naive RAG к workflow-агентским системам, усложнили архитектуру и применяем подход в решении многослойных бизнес-задач.
Илья Филиппов, CEO red_mad_robot AI, вместе с руководителем сервиса книги билайн Натальей Каменских покажет, как AI-поиск работает в продукте и что это даёт пользователю и бизнесу. Кстати Илья завел очень крутой канал где рассказывает про крупный b2b сегмент GenAI в РФ
Конференция пройдёт 26–27 июня в Санкт-Петербурге. Подробности и билеты на сайте,а от меня промокод на 10% — CNVS25sKaV
В конце июня встречаемся на одной из главных летних AI-конференций — Conversations 2025. Обсудим, как GenAI становится частью рабочих систем, что помогает не просто тестировать технологии, а внедрять их осознанно, и куда движется индустрия.
От red_mad_robot — два доклада:
Я расскажу, как мы перешли от Naive RAG к workflow-агентским системам, усложнили архитектуру и применяем подход в решении многослойных бизнес-задач.
Илья Филиппов, CEO red_mad_robot AI, вместе с руководителем сервиса книги билайн Натальей Каменских покажет, как AI-поиск работает в продукте и что это даёт пользователю и бизнесу. Кстати Илья завел очень крутой канал где рассказывает про крупный b2b сегмент GenAI в РФ
Конференция пройдёт 26–27 июня в Санкт-Петербурге. Подробности и билеты на сайте,