Положить LLM в карман: стоит ли выносить языковую модель из облака?
В какой-то момент гонка за облачными мощностями начинает утомлять. Ты привыкаешь, что для любой серьезной задачи с LLM нужен API-ключ и хороший бюджет. Но в IT, как известно, все циклично, и вот снова набирает силу тренд на on-device AI - возвращение вычислений с небес на землю, прямо на наши устройства
Поработав с разными облачными провайдерами, начинаешь задумывался об альтернативе - запуске LLM на собственном железе.
Для меня последней каплей стал пост Иэна Баллантайна (Linkedin), где он заставил свежую Gemma 3 270M от Google летать на Raspberry Pi 5. Его цифры - около 30-32 токенов в секунду на голом CPU - звучали слишком хорошо, чтобы быть правдой (ниже будет видео от автора)
Цитата автора:
Увидев такие цифры, я окончательно решился повторить его эксперимент
Мой тестовый стенд
Конечно, в мечтах - домашний мини-кластер на четырех GPU, но начнем с малого. Мой сетап для эксперимента:
Устройство: Orange Pi 5 Pro с 16 ГБ оперативной памяти (оно по некоторым параметрам даже превосходит то, что было у Иэна)
Кандидаты на запуск:
✨ Frida - компактная русскоязычная модель от команды ai-forever, удобная для экспериментов за счёт небольшого размера (<300 M параметров) и открытых QAT-чекпоинтов
✨ Gemma 3 270M - свежая модель от Google, оптимизированная для энергоэффективности и быстрой тонкой настройки
Главный вопрос: какая в этом мотивация?
Прежде чем погружаться в технические дебри, я решил посчитать, имеет ли эта затея экономический смысл
Окупаемость железа
- Аренда схожего по характеристикам облачного CPU-сервера – ≈ 5 300 ₽/мес
- Покупка Orange Pi 5 Pro – ≈ 12 000 ₽
- Разделив, получаем ≈ 2.3 месяца до полной окупаемости оборудования
Дополнительные затраты
Конечно, в расчёт не вошла стоимость моего времени на настройку. Но для энтузиаста это скорее удовольствие, а потребление энергии устройством (≈ 6–10 Вт под нагрузкой) сравнимо с ежемесячным счетом за лампочку, в то время как облачные серверы обходятся в сотни рублей за час работы.
📌 Вывод: локальный деплой выгоден при регулярных нагрузках; для редких задач облако остаётся привлекательным
Экономия на API-токенах
А вот здесь все не так однозначно. Если вам нужно лишь изредка обращаться к модели, использование API через облако может быть очень дешевым. Например, для редких задач вызовы самой доступной русскоязычной модели обошлись бы примерно в 0,02 ₽ за 1 000 000 токенов. Очевидно, что покупать отдельное устройство из-за такой низкой цены токена бессмысленно.
📌 Вывод: Локальный деплой выгоден, если вы заменяете им постоянно работающий облачный сервер, а не редкие API-вызовы
Зачем это нужно в глобальном смысле?
Экономия - это приятно, но потенциал локальных моделей гораздо шире. Вы думаете, успехи Китая в роботизации - это шутки? Локальные LLM играют в этом ключевую роль. Робот на производстве или дрон-курьер не могут зависеть от стабильности интернет-соединения с дата-центром. Им нужна автономия
Перенос AI на устройства дает:
🔵 Приватность: Данные обрабатываются локально и не утекают на сторонние серверы
🔵 Низкую задержку: Отклик модели происходит мгновенно, что критически важно для систем реального времени
🔵 Надежность: Устройство работает даже без подключения к сети
Что дальше?
Я пока только приступил к тестам и в ближайших планах развернуть Frida и Gemma 3 270m на своем Orange Pi. Очень интересно, какие результаты удастся получить и насколько они будут близки к показателям на Raspberry Pi
#hardware
В какой-то момент гонка за облачными мощностями начинает утомлять. Ты привыкаешь, что для любой серьезной задачи с LLM нужен API-ключ и хороший бюджет. Но в IT, как известно, все циклично, и вот снова набирает силу тренд на on-device AI - возвращение вычислений с небес на землю, прямо на наши устройства
Поработав с разными облачными провайдерами, начинаешь задумывался об альтернативе - запуске LLM на собственном железе.
Для меня последней каплей стал пост Иэна Баллантайна (Linkedin), где он заставил свежую Gemma 3 270M от Google летать на Raspberry Pi 5. Его цифры - около 30-32 токенов в секунду на голом CPU - звучали слишком хорошо, чтобы быть правдой (ниже будет видео от автора)
Цитата автора:
как быстро работает Gemma 3 270M "из коробки" на Raspberry Pi 5? Около 30 токенов/сек на CPU для квантизованной модели Q4_0 при использовании Ollama. Я также попробовал Llama.cpp и получил около 32 токенов/сек
Увидев такие цифры, я окончательно решился повторить его эксперимент
Мой тестовый стенд
Конечно, в мечтах - домашний мини-кластер на четырех GPU, но начнем с малого. Мой сетап для эксперимента:
Устройство: Orange Pi 5 Pro с 16 ГБ оперативной памяти (оно по некоторым параметрам даже превосходит то, что было у Иэна)
Кандидаты на запуск:
Главный вопрос: какая в этом мотивация?
Прежде чем погружаться в технические дебри, я решил посчитать, имеет ли эта затея экономический смысл
Окупаемость железа
- Аренда схожего по характеристикам облачного CPU-сервера – ≈ 5 300 ₽/мес
- Покупка Orange Pi 5 Pro – ≈ 12 000 ₽
- Разделив, получаем ≈ 2.3 месяца до полной окупаемости оборудования
Дополнительные затраты
Конечно, в расчёт не вошла стоимость моего времени на настройку. Но для энтузиаста это скорее удовольствие, а потребление энергии устройством (≈ 6–10 Вт под нагрузкой) сравнимо с ежемесячным счетом за лампочку, в то время как облачные серверы обходятся в сотни рублей за час работы.
Экономия на API-токенах
А вот здесь все не так однозначно. Если вам нужно лишь изредка обращаться к модели, использование API через облако может быть очень дешевым. Например, для редких задач вызовы самой доступной русскоязычной модели обошлись бы примерно в 0,02 ₽ за 1 000 000 токенов. Очевидно, что покупать отдельное устройство из-за такой низкой цены токена бессмысленно.
Зачем это нужно в глобальном смысле?
Экономия - это приятно, но потенциал локальных моделей гораздо шире. Вы думаете, успехи Китая в роботизации - это шутки? Локальные LLM играют в этом ключевую роль. Робот на производстве или дрон-курьер не могут зависеть от стабильности интернет-соединения с дата-центром. Им нужна автономия
Перенос AI на устройства дает:
Что дальше?
Я пока только приступил к тестам и в ближайших планах развернуть Frida и Gemma 3 270m на своем Orange Pi. Очень интересно, какие результаты удастся получить и насколько они будут близки к показателям на Raspberry Pi
#hardware
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥4❤2👀1 1 1
Мир IT тесен, а Machine Learning - ещё теснее. Я трижды переходил между крупными IT-компаниями, и каждый раз среди коллег попадались знакомые - будь то со студенчества или с предыдущих мест работы
Авторы ML-каналов знакомы друг с другом едва ли не так же хорошо, как и коллеги в офисе
В папке - подборка крутых ребят, за которыми точно стоит следить. Каждый из них создаёт топовый ML-контент, а вместе они дают широкий спектр взглядов на нашу интересную индустрию
(много ML ребят тут)🐸
Отдельно выделю тех, с кем у меня схожий профиль и кто делится полезными советами и практиками в области машинного обучения
🔶 канал Андрея
Классно рассказал, как он собеседовал стажеров к себе в команду - можно найти инсайты для себя
🔶 канал Димы
Круто и наглядно объяснил процесс обучения LLM
🔶 канал Саши
Делал крутую публикацию на тему хаков при DS собеседовании, полезно
🔶 канал Юры
Делится разборами промышленного домена ML - вот, например, как применяется ML в диагностировании двигателей
Авторы ML-каналов знакомы друг с другом едва ли не так же хорошо, как и коллеги в офисе
В папке - подборка крутых ребят, за которыми точно стоит следить. Каждый из них создаёт топовый ML-контент, а вместе они дают широкий спектр взглядов на нашу интересную индустрию
(много ML ребят тут)
Отдельно выделю тех, с кем у меня схожий профиль и кто делится полезными советами и практиками в области машинного обучения
Классно рассказал, как он собеседовал стажеров к себе в команду - можно найти инсайты для себя
Круто и наглядно объяснил процесс обучения LLM
Делал крутую публикацию на тему хаков при DS собеседовании, полезно
Делится разборами промышленного домена ML - вот, например, как применяется ML в диагностировании двигателей
Please open Telegram to view this post
VIEW IN TELEGRAM
Спонсор вайба на выходных - Илон Маск, а с меня - свежий лайфхак для vibe-кодинга
Начну сразу с главного: два дня тестирую новую Grok Code Fast 1 (xAI), которую сейчас бесплатно раздают в Cursor (аж до 2 сентября, вы тоже успеете потестировать), но все таки, пока что личный фаворит - это Claude 4 Sonnet
Grok Code Fast 1 генерирует код с какой-то нечеловеческой скоростью (авторы заявляют 160 tokens per second). Я с ним за час набросал ядро сложного мультимодального RAG-поиска. А потом пришло время все это собирать воедино с основным сервисом. И пошли проблемы. Ассистент, пытаясь исправить одну ошибку, создавал три новых. Думаю эта ситуация знакома многим
И вот мой лайфхак, который спасает 90% времени и нервов - это тесты с подробными логами. Это ваш единственный объективный критерий того, что все работает как надо
Этот подход можно разбить на две части
Допустим, мы только что собрали мультимодальный RAG-поиск. Мой промпт будет выглядеть так (обычно пишу на английском - субъективно работает лучше и дешевле ):
🟡 Пишем тесты:
Обычно в момент написания все тесты проходят без проблем, но это только пока мы не насоздавали еще десятки зависимостей
🟡 А если зависимости все ломают, то дебажим при помощи тестов:
И это отлично работает! Особенно когда приходится переключаться между чатами с потерей контекста
Что касается моих впечатлений от Grok Code Fast 1 - модель быстрая, но сыровата, хотя метрики на SWE bench могут впечатлить. Для большинства практических задач связка Claude 4 Sonnet с описанной выше методологией пока остается непревзойденной. Я потратил час на написание фичи с Grok, а потом еще 30 минут дебажил результат с помощью Claude и тестов..
Всем вайбовых выходных!
💃 #vibe_coding@ml_maxim
Начну сразу с главного: два дня тестирую новую Grok Code Fast 1 (xAI), которую сейчас бесплатно раздают в Cursor (аж до 2 сентября, вы тоже успеете потестировать), но все таки, пока что личный фаворит - это Claude 4 Sonnet
Grok Code Fast 1 генерирует код с какой-то нечеловеческой скоростью (авторы заявляют 160 tokens per second). Я с ним за час набросал ядро сложного мультимодального RAG-поиска. А потом пришло время все это собирать воедино с основным сервисом. И пошли проблемы. Ассистент, пытаясь исправить одну ошибку, создавал три новых. Думаю эта ситуация знакома многим
И вот мой лайфхак, который спасает 90% времени и нервов - это тесты с подробными логами. Это ваш единственный объективный критерий того, что все работает как надо
Этот подход можно разбить на две части
Допустим, мы только что собрали мультимодальный RAG-поиск. Мой промпт будет выглядеть так (
Here is the python module with multi-modal RAG logic [code]. Your job is write an extensive tests for it using pytest. I need at least 20 tests covering huge bunch of cases: from file uploads to API responses and edge cases like empty inputs and hard cases with different input combinations.
Обычно в момент написания все тесты проходят без проблем, но это только пока мы не насоздавали еще десятки зависимостей
Okay, look. Here is the output of the tests we wrote before. [вставляю лог с ошибками]. 4 / 20 tests failed. Your changes broke the critical functionality. Your one and only goal right now is to fix the code so that all 20 tests pass again. start fixing all failed tests.
И это отлично работает! Особенно когда приходится переключаться между чатами с потерей контекста
Что касается моих впечатлений от Grok Code Fast 1 - модель быстрая, но сыровата, хотя метрики на SWE bench могут впечатлить. Для большинства практических задач связка Claude 4 Sonnet с описанной выше методологией пока остается непревзойденной. Я потратил час на написание фичи с Grok, а потом еще 30 минут дебажил результат с помощью Claude и тестов..
Всем вайбовых выходных!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥4❤2 2❤🔥1
Когда уже сделают tool по картам для ai-агентов
Гонял в отпуск и вспоминал, как я планировал его в perplexity. У их агента много различных инструментов, но мне лично не хватило одного очень важного - чтобы у агента был инструмент работы с картами
Подумал и набросал небольшой proof of concept такого тула для ai агента. Все подробности в статье на habr🍿
Такого функционала очень не хватает Яндекс картам или Циану, каким бы удобным сразу стал поиск квартиры, да?
Кстати, в отпуске занимался чтением великой доменной литературы, и передаю привет автору
ПС: книгу пока не подписал, но это пока🚨
Гонял в отпуск и вспоминал, как я планировал его в perplexity. У их агента много различных инструментов, но мне лично не хватило одного очень важного - чтобы у агента был инструмент работы с картами
Подумал и набросал небольшой proof of concept такого тула для ai агента. Все подробности в статье на habr
Такого функционала очень не хватает Яндекс картам или Циану, каким бы удобным сразу стал поиск квартиры, да?
Кстати, в отпуске занимался чтением великой доменной литературы, и передаю привет автору
ПС: книгу пока не подписал, но это пока
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍4❤2 1
🔍 Что скрывается под капотом Perplexity?
Когда AI отказывается выполнить задачу, ссылаясь на "лимиты ресурсов", возникает вопрос: а что это за лимиты? Со мной случился как раз такой кейс.
Я решил выяснить, что происходит внутри Perplexity, когда он выполняет код. Попросил AI проанализировать собственные логи и окружение. И он буквально сам рассказал: "Я работаю в Docker-контейнере на Linux 6.1, у меня 2 CPU и 1GB RAM..." и далее выдал полную базу, вплоть до локации своего сервера (кстати, США, штат Орегон)
Perplexity использует E2B Sandbox - специализированную платформу для AI-агентов. Каждый ваш запрос с кодом запускается в контейнере.
🔵 Архитектура: FastAPI ↔ WebSocket ↔ Jupyter Kernel
🔵 Оптимизация: uvloop + orjson + httptools
Это объясняет, почему AI иногда "отказывается" - не из-за технических лимитов, а из-за бизнес-логики системы. Ведь критически важно быстро отдавать пользователю результат - это основной приоритет таких решений
GitHub Copilot, Replit, CodeSandbox - все используют похожие решения
Зная архитектуру подобных решений, можно:
🔜 Правильно использовать контекст
🔜 Оптимизировать запросы под систему (и манипулировать системой)
🔜 Понимать реальные ограничения и бизнес-логику
Понимание внутреннего устройства AI-систем становится критически важным навыком. Это не просто любопытство - это практический инструмент для более эффективной работы
📖 Полное исследование на Habr
Когда AI отказывается выполнить задачу, ссылаясь на "лимиты ресурсов", возникает вопрос: а что это за лимиты? Со мной случился как раз такой кейс.
Я решил выяснить, что происходит внутри Perplexity, когда он выполняет код. Попросил AI проанализировать собственные логи и окружение. И он буквально сам рассказал: "Я работаю в Docker-контейнере на Linux 6.1, у меня 2 CPU и 1GB RAM..." и далее выдал полную базу, вплоть до локации своего сервера (кстати, США, штат Орегон)
Perplexity использует E2B Sandbox - специализированную платформу для AI-агентов. Каждый ваш запрос с кодом запускается в контейнере.
Это объясняет, почему AI иногда "отказывается" - не из-за технических лимитов, а из-за бизнес-логики системы. Ведь критически важно быстро отдавать пользователю результат - это основной приоритет таких решений
GitHub Copilot, Replit, CodeSandbox - все используют похожие решения
Зная архитектуру подобных решений, можно:
Понимание внутреннего устройства AI-систем становится критически важным навыком. Это не просто любопытство - это практический инструмент для более эффективной работы
📖 Полное исследование на Habr
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9⚡3👍3
Реально ли собрать мультиагентную систему AI‑аналитики за учебный год? 📈
Спойлер: да, и наши студенты Школы аналитиков данных МТС сделали InsightFinder, который автоматизирует EDA и делает бизнес‑интерпретацию.
Часы ручной рутины ужимаются до примерно пяти минут, а результат понятен и DS/DA, и менеджерам.
Авторы проекта:
🔵 Анна Шестакова (@anny_shestakova)
🔵 Григорий Суханов (@dvmgz)
🔵 Михаил Футьянов (@mikefdsg)
🔵 Алексей Жданов (@Zhdanov_Alexey)
- в статье на habr есть разбор и гайд от ребят, как повторить.
⚡️ Ссылка на habr: тык
⚡️ Ссылка на git: тык
Обучение в школе бесплатное, 10 месяцев, онлайн, два вебинара в неделю от практиков, а лучшим - стажировки и офферы
Я тоже преподаю, мои предметы: ML / DL / NLP - приходите послушать👋
Можно почитать у Никиты подробнее про выпускной и школу вот тут
Спойлер: да, и наши студенты Школы аналитиков данных МТС сделали InsightFinder, который автоматизирует EDA и делает бизнес‑интерпретацию.
Часы ручной рутины ужимаются до примерно пяти минут, а результат понятен и DS/DA, и менеджерам.
Авторы проекта:
- в статье на habr есть разбор и гайд от ребят, как повторить.
Обучение в школе бесплатное, 10 месяцев, онлайн, два вебинара в неделю от практиков, а лучшим - стажировки и офферы
Я тоже преподаю, мои предметы: ML / DL / NLP - приходите послушать
Можно почитать у Никиты подробнее про выпускной и школу вот тут
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13❤6 4👎1
Недавно завершился основной этап Yandex Cup. В этот раз я решил испытать одну идею - и получился довольно интересный результат. И хотя до поездки в Стамбул на финал мне не хватило совсем чуть-чуть, я нашел для себя новый подход к исследованиям, который позволил мне проверить в три раза больше гипотез, чем обычно 🛌
Хочу поделиться этим подходом с вами. Думаю, скоро решение задач с AI-ассистентом, или co-solver'ом станет либо нормой, либо даже отдельной квалификацией в подобных соревнованиях
Бутылочное горлышко любого исследователя
У меня за плечами несколько медалей с Kaggle, и я всегда шел по классическому пути: от простого к сложному, проверяя гипотезу за гипотезой. Ты формулируешь идею, реализуешь ее, собираешь метрики, анализируешь и делаешь выводы. Подход рабочий, но с проблемой: нехватка твоего личного времени и фокуса. Ты физически не можешь проверить все, даже самые безумные идеи, которые приходят в голову
Решение проблемы с личным co-solver
Суть этого подхода в том, чтобы перестать быть единственным исполнителем и стать тем, кто задает направление, а рутинную работу делегирует AI-ассистенту
Вот как это работает:
⭐️ Обозначаем «вектор А». Вы вручную проделываете полный цикл создания первого, базового решения. Главное - максимально подробно документировать каждый шаг: почему вы выбрали именно такую модель, как обработали данные, какие метрики получили. Это ваша отправная точка
⭐️ Обозначаем «вектор Б». Затем вы создаете второе решение, но ключевое условие - оно должно быть концептуально иным. Другая архитектура, другой подход к фичам, возможно, вообще другая логика. Это второй край вашего «исследовательского вектора»
⭐️ Создаем «карту» для co-solver'а. Самый интересный этап. Вы прописываете для AI-ассистента правила игры:
- Какие компоненты из решения «А» и «Б» можно смешивать?
- Какие гиперпараметры и в каком диапазоне нужно перебирать?
- Как автоматически оценивать успешность каждой попытки?
После этого вы «пускаете модель в свободное плавание». AI начинает систематически исследовать пространство между вашими двумя векторами, комбинируя подходы и проверяя десятки гипотез. А у вас освобождается время на самое ценное - творческий поиск следующей новой идеи, нового «вектора В»
Конечно, у подхода есть ограничения - это все-таки co-pilot. Качество итогового решения полностью зависит от того, насколько разноплановые и сильные «вектора» вы зададите. Если ваши идеи слабые, AI лишь поможет вам быстрее убедиться в их бесперспективности. Вы рискуете застрять в локальном оптимуме, ограниченном вашим же видением
Лично для меня это был невероятно позитивный опыт . Ощущение, будто у меня появился личный лаборант, который берет на себя всю рутину после того, как я сделал самое интересное
Ну а подробный технический разбор моего решения и рефлексия по итогам соревнования будут во второй части публикации - уже после финала. Stay tuned👋
Хочу поделиться этим подходом с вами. Думаю, скоро решение задач с AI-ассистентом, или co-solver'ом станет либо нормой, либо даже отдельной квалификацией в подобных соревнованиях
Бутылочное горлышко любого исследователя
У меня за плечами несколько медалей с Kaggle, и я всегда шел по классическому пути: от простого к сложному, проверяя гипотезу за гипотезой. Ты формулируешь идею, реализуешь ее, собираешь метрики, анализируешь и делаешь выводы. Подход рабочий, но с проблемой: нехватка твоего личного времени и фокуса. Ты физически не можешь проверить все, даже самые безумные идеи, которые приходят в голову
Решение проблемы с личным co-solver
Суть этого подхода в том, чтобы перестать быть единственным исполнителем и стать тем, кто задает направление, а рутинную работу делегирует AI-ассистенту
Вот как это работает:
- Какие компоненты из решения «А» и «Б» можно смешивать?
- Какие гиперпараметры и в каком диапазоне нужно перебирать?
- Как автоматически оценивать успешность каждой попытки?
После этого вы «пускаете модель в свободное плавание». AI начинает систематически исследовать пространство между вашими двумя векторами, комбинируя подходы и проверяя десятки гипотез. А у вас освобождается время на самое ценное - творческий поиск следующей новой идеи, нового «вектора В»
Конечно, у подхода есть ограничения - это все-таки co-pilot. Качество итогового решения полностью зависит от того, насколько разноплановые и сильные «вектора» вы зададите. Если ваши идеи слабые, AI лишь поможет вам быстрее убедиться в их бесперспективности. Вы рискуете застрять в локальном оптимуме, ограниченном вашим же видением
Лично для меня это был невероятно позитивный опыт . Ощущение, будто у меня появился личный лаборант, который берет на себя всю рутину после того, как я сделал самое интересное
Ну а подробный технический разбор моего решения и рефлексия по итогам соревнования будут во второй части публикации - уже после финала. Stay tuned
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12👍6 2❤1
RuCode премия - моя рефлексия
В этот понедельник состоялась церемония награждения лауреатов RuCode, где я получил награду в номинации, посвященной преподаванию 🏆
Один из векторов моей работы - это внедрение AI-инструментов в образовательный процесс. Приятно осознавать, что эта тема находит отклик. Лично для меня наибольшую ценность представляет тот факт, что все проекты прошли экспертизу совета, состоящего из признанных лидеров отрасли. Получить одобрение от людей, которые глубоко разбираются в технологиях - это дорогого стоит🙂
И, конечно, отдельные благодарности тем, кто сделал это возможным:
Работаем дальше💪
В этот понедельник состоялась церемония награждения лауреатов RuCode, где я получил награду в номинации, посвященной преподаванию 🏆
Один из векторов моей работы - это внедрение AI-инструментов в образовательный процесс. Приятно осознавать, что эта тема находит отклик. Лично для меня наибольшую ценность представляет тот факт, что все проекты прошли экспертизу совета, состоящего из признанных лидеров отрасли. Получить одобрение от людей, которые глубоко разбираются в технологиях - это дорогого стоит
И, конечно, отдельные благодарности тем, кто сделал это возможным:
Организаторам RuCode, МФТИ и экспертному совету - за высокую оценку и безупречную организацию фестиваля. Всем партнёрам - за поддержку таких инициатив. Фестиваль RuCode реализуется при поддержке гранта Минобрнауки России в рамках Десятилетия науки и технологий
Работаем дальше
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20❤7⚡5👍3
Да кто это такие, ваши background agents 🤔
Недавно ходил в гости к ребятам из AI4Dev и рассказал о background agents - фоновых агентах, которые могут решить одну проблему неэффективности датацентров
Видеозапись доступна здесь:
🔵 YouTube
🔵 VK
Коротко про что лекция:
Есть две проблемы, которые повышают цену токенов
1️⃣ Неэффективность фазы декодирования. Выходные токены (output tokens) стоят кратно дороже входных (input tokens). Это происходит из-за того, что фаза Decode (генерация ответа) работает последовательно, токен за токеном. В этой фазе GPU простаивает сильно больше времени, чем фаза prefill, и стоимость этого простоя закладывается в высокую цену токенов
2️⃣ Закупка ресурсов впрок. Взрывной рост числа пользователей (Open AI достигла 1 млн за 5 дней) и динамика суточной нагрузки заставляют компании закупать дорогостоящие видеокарты впрок. Этот ресурс не используется на полную мощность и простаивает
В видео я разбираю потенциальное решение проблемы: background agents📈
Это прерываемые, некритичные к задержкам агенты, которые встраиваются в простаивающие окна GPU. Они выполняют полезную фоновую работу: проверку кода, аналитику данных или обработку неструктурированных данных.
Повышая утилизацию видеокарты, компании смогут снизить цену токенов, что даст им сильное конкурентное преимущество на рынке
Недавно ходил в гости к ребятам из AI4Dev и рассказал о background agents - фоновых агентах, которые могут решить одну проблему неэффективности датацентров
Видеозапись доступна здесь:
Коротко про что лекция:
Есть две проблемы, которые повышают цену токенов
В видео я разбираю потенциальное решение проблемы: background agents
Это прерываемые, некритичные к задержкам агенты, которые встраиваются в простаивающие окна GPU. Они выполняют полезную фоновую работу: проверку кода, аналитику данных или обработку неструктурированных данных.
Повышая утилизацию видеокарты, компании смогут снизить цену токенов, что даст им сильное конкурентное преимущество на рынке
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤5🔥5 2
Разбор решения Yandex Cup
Прошел Yandex Cup, где в треке ML я выбрал задачу STEM problem Q&A для VLM моделей (это когда надо решать задачи по математике и физике с листочка - но только в нашем случае, при помощи VLM)
Самое время подвести черту и поделиться решением📃
Сразу отмечу: радует, что агенты стали нормой. Комьюнити созрело, орги не банят за LLM-кодинг. Кажется, все приняли как данность, что без этого теперь никуда.
Мой технический стек
В итоге я вышел на такое решение:
Ядро: Qwen3-VL-8B-Instruct + 4-bit квантование
Методы: Chain of Thought + Prompt Routing
Почему так: Большие модели лучше маленьких - это факт. Я пробовал собирать ансамбли из мелких моделей, но они никак не могли приблизиться к одной большой. Time Limit в 1 час сильно ограничивал: на полноценную Thinking-модель времени инференса мне просто не хватило (квантованные версии не попробовал). До finetune версий моделей тоже не дошел
Что было больно (и интересно)
🔵 Недетерминированность. На графике динамики лидеров видно, как участников штормило. Один из вариантов решения - поставить высокую температуру и устроить Voting одной и той же версии модели. Понятно что такое решение невоспроизводимо. Даже с температурой 0 метрика гуляла. Ты запускаешь топовое решение второй раз, и оно падает в рейтинге
Инженерные вызовы и хаки
🔵 Контейнеризация. Часть успеха - корректно развернуть модель в докере. Это был отдельный инженерный вызов
🔵 Железо. Хорошо бы иметь домашний Linux GPU-кластер (ну или брать его в аренду). Это единственный способ сделать локальную валидацию быстрой и приближенной к проду.
Моя главная ошибка:
Я собрал неверный сет для локальной валидации. Использовал ScienceQA, Geometry3k и MathVista, но поздно понял, что у меня нет корреляции Local / Public Leaderboard. Был момент, когда из-за бага давали 8 сабмитов в день - идеальный шанс подобрать val data, но я его упустил. В итоге локально метрика росла, а на лидерборде - нет.
Классический совет себе на будущее:
Не нужно долбиться в одно решение. Не работает с трех попыток - делаем шаг назад и думаем еще
Завтра расскажу про свой подход к vibe-competiting - как решать задачи с помощью co-solver’а и не сойти с ума
P.S. Интересно, кто-то из финалистов уже рассказал о своем решении? Если знаете - скидывайте ссылки в комментарии
Прошел Yandex Cup, где в треке ML я выбрал задачу STEM problem Q&A для VLM моделей (это когда надо решать задачи по математике и физике с листочка - но только в нашем случае, при помощи VLM)
Самое время подвести черту и поделиться решением
Сразу отмечу: радует, что агенты стали нормой. Комьюнити созрело, орги не банят за LLM-кодинг. Кажется, все приняли как данность, что без этого теперь никуда.
Мой технический стек
В итоге я вышел на такое решение:
Ядро: Qwen3-VL-8B-Instruct + 4-bit квантование
Методы: Chain of Thought + Prompt Routing
Почему так: Большие модели лучше маленьких - это факт. Я пробовал собирать ансамбли из мелких моделей, но они никак не могли приблизиться к одной большой. Time Limit в 1 час сильно ограничивал: на полноценную Thinking-модель времени инференса мне просто не хватило (квантованные версии не попробовал). До finetune версий моделей тоже не дошел
Что было больно (и интересно)
Инженерные вызовы и хаки
Моя главная ошибка:
Я собрал неверный сет для локальной валидации. Использовал ScienceQA, Geometry3k и MathVista, но поздно понял, что у меня нет корреляции Local / Public Leaderboard. Был момент, когда из-за бага давали 8 сабмитов в день - идеальный шанс подобрать val data, но я его упустил. В итоге локально метрика росла, а на лидерборде - нет.
Классический совет себе на будущее:
Не нужно долбиться в одно решение. Не работает с трех попыток - делаем шаг назад и думаем еще
Завтра расскажу про свой подход к vibe-competiting - как решать задачи с помощью co-solver’а и не сойти с ума
P.S. Интересно, кто-то из финалистов уже рассказал о своем решении? Если знаете - скидывайте ссылки в комментарии
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥3👍2 2
Про Context-Driven Solving
Вчера я рассказал про свое VLM-решение на Yandex Cup: Qwen, STEM-задачи и все, что вокруг них. Теперь - более верхнеуровневая часть истории: про мой подход к соревнованиям, когда в процессе появился co-solver, и почему я называю этот метод Context-Driven Solving
Что такое Context-Driven Solving
Коротко: это способ решать ML-задачи, где вы управляете контекстом и постановкой, а агент берет на себя максимально возможный объем итеративных изменений.
Главная валюта и фактор успеха - это не только GPU и токены, но и количество осмысленных гипотез, которые вы успеваете проверить, плюс ширина вашего понимания задачи
Что нужно сделать, чтобы ваш co-solver заработал
Если совсем упрощать, вам нужно создать три вещи
1️⃣ Честную систему оценки решения (метрики)
2️⃣ Пространство для записи и чтения логов экспериментов
3️⃣ Пространство с контекстом для генерации идей
В моем случае co-solver - это Cursor, который умеет писать и перебирать код. Но у него нет понимания, как итеративно идти к улучшению решения. Для этого нужно создать удобный контур локальной валидации.
Например: поднять контейнер с решением, прогонять его на val-выборке и сделать результаты доступными для Cursor - например, через MCP (Model Context Protocol)
Как это работало у меня
🔵 Собрал около 9k примеров из трех датасетов, затем отобрал по 250 из каждого для быстрой локальной валидации
🔵 Описал правила: какие изменения считаются новой гипотезой, как меряем качество, когда считаем эксперимент неуспешным. Это определяющий шаг для автономности: чем лучше прописаны правила, тем меньше у co-solver'а галлюцинаций
🔵 Дал агенту право генерировать варианты кода, промптов и пайплайнов, а система валидации сама выявляла лучшие идеи
В итоге получилось провести 64 эксперимента за время соревнования. В ручном режиме я еле-еле дожал бы до двух десятков
Ловушка контекста
При этом co-solver - все еще помощник.
Если вы плохо понимаете доменную область, даете сырое описание задачи и расплывчатые метрики, агент просто масштабирует это непонимание. Он честно и быстро ведет вас в локальный оптимум.
Ваша задача - создать систему проверки и качественно описать идеи. Результат оказывается лучше суммы частей только если архитектор силен. Если архитектор слабый - co-solver просто ускоряет путь в тупик.
Что будет в соревновательном ML в 2026
Думаю, 2026 год будет еще интереснее:
1. Задачки вида «подкрутите fine-tune» уйдут. Уже появляются skills, которые делают finetune «из коробки». По сути, за нас сделали MCP для задач обучения - это круто.
2. Появятся сложные форматы с агентами, многошаговой логикой и ограничениями по контексту.
Ориентиром уже сейчас выглядят соревнования уровня AI Journey 2025 у Сбера, где одной «большой моделью» без архитектурного дизайна не обойтись (вот тут в канале у дяди делали разбор топовых решений - получилось интересно).
Итог
Призываю всех пробовать участвовать в соревнованиях. В первую очередь самостоятельно, чтобы расширять свой контекст, но и во вторую - при помощи LLM и co-solver’ов.
Даже если ваша цель - не победа, а просто практика, вы:
🔵 лучше поймете, как ставить задачи моделям
🔵 научитесь строить рабочие контексты
🔵 увидите, где ваш способ мышления реально упирается в потолок
Соревнования - это безопасная песочница, где можно экспериментировать с Context-Driven Solving и учиться работать в паре с ИИ
Вчера я рассказал про свое VLM-решение на Yandex Cup: Qwen, STEM-задачи и все, что вокруг них. Теперь - более верхнеуровневая часть истории: про мой подход к соревнованиям, когда в процессе появился co-solver, и почему я называю этот метод Context-Driven Solving
Что такое Context-Driven Solving
Коротко: это способ решать ML-задачи, где вы управляете контекстом и постановкой, а агент берет на себя максимально возможный объем итеративных изменений.
Главная валюта и фактор успеха - это не только GPU и токены, но и количество осмысленных гипотез, которые вы успеваете проверить, плюс ширина вашего понимания задачи
Что нужно сделать, чтобы ваш co-solver заработал
Если совсем упрощать, вам нужно создать три вещи
В моем случае co-solver - это Cursor, который умеет писать и перебирать код. Но у него нет понимания, как итеративно идти к улучшению решения. Для этого нужно создать удобный контур локальной валидации.
Например: поднять контейнер с решением, прогонять его на val-выборке и сделать результаты доступными для Cursor - например, через MCP (Model Context Protocol)
Как это работало у меня
В итоге получилось провести 64 эксперимента за время соревнования. В ручном режиме я еле-еле дожал бы до двух десятков
Ловушка контекста
При этом co-solver - все еще помощник.
Если вы плохо понимаете доменную область, даете сырое описание задачи и расплывчатые метрики, агент просто масштабирует это непонимание. Он честно и быстро ведет вас в локальный оптимум.
Ваша задача - создать систему проверки и качественно описать идеи. Результат оказывается лучше суммы частей только если архитектор силен. Если архитектор слабый - co-solver просто ускоряет путь в тупик.
Что будет в соревновательном ML в 2026
Думаю, 2026 год будет еще интереснее:
1. Задачки вида «подкрутите fine-tune» уйдут. Уже появляются skills, которые делают finetune «из коробки». По сути, за нас сделали MCP для задач обучения - это круто.
2. Появятся сложные форматы с агентами, многошаговой логикой и ограничениями по контексту.
Ориентиром уже сейчас выглядят соревнования уровня AI Journey 2025 у Сбера, где одной «большой моделью» без архитектурного дизайна не обойтись (вот тут в канале у дяди делали разбор топовых решений - получилось интересно).
Итог
Призываю всех пробовать участвовать в соревнованиях. В первую очередь самостоятельно, чтобы расширять свой контекст, но и во вторую - при помощи LLM и co-solver’ов.
Даже если ваша цель - не победа, а просто практика, вы:
Соревнования - это безопасная песочница, где можно экспериментировать с Context-Driven Solving и учиться работать в паре с ИИ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2🔥2 2 1
Давно не было про собесы, поэтому принес важные кейсы с моих собесов, что сейчас есть актуального по теории ML и практике в system design
Вот тут писал
Джентельменский набор алгоритмов бустинга:
Это свежий кейс с недавнего собеса. Кандидату надо было показать и рассказать, как бы он собрал RAG Pipeline удобного QnA поиска по корпоративной JIRA, и его итоговый результат на картинке (последняя картинка
Вообще, вес секции system design сейчас подрос, особенно на middle+ позиции. И конечно одна из причин - активное внедрение copilots и coding agents. Становится критически важно держать в голове полную схем проекта, даже при разработке маленькой его части. Кстати, уже поднимал эту тему и писал об этом здесь
Всем сильных собесов
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥4👎3⚡1❤1 1
Продолжаем LLM‑adoption в нашем финтехе: в этот раз добрались до фоновой аналитики и завели в прод (успели под конец года
Вот последняя в этом году статья про background agents на Habr
Там подробнее про то, как поставить такого агента в прод, какие ограничения надо учесть и за счет чего фоновые процессы реально начинают драйвить бизнес, а не просто жгут GPU по ночам
Искренне верю, что именно background-агенты - следующий шаг после копилотов, которые монетизируют idle GPU и автоматизируют аналитику
Если интересна предыстория всего сервиса и конкретно background agents, то:
Часть 1
Часть 2
Предыдущий пост
Всем новогоднего вайба
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍4❤🔥2👎1 1
Вместо итогов года: анимация истории канала
Если не нравятся чужие wrappers - надо делать свой😊
Вместо традиционных итогов года написал свой пайплайн аналитики истории канала
Считаю, что нельзя уместить всю историю канала на одной картинке или в сухом дашборде. Статичная инфографика - это, конечно, круто, но любой автор подтвердит: его канал - это не статика. Это живой процесс, который постоянно меняется вместе с самим автором. Для чего вообще заводят канал? Чтобы фиксировать мысли, расти и развиваться вместе со своей аудиторией
Визуализация данных в динамике - это отдельный вид удовольствия, особенно если у автора накопилось 300+ публикаций (в комментах есть такие примеры). На такой анимации отлично видно, как меняются темы, смещаются интересы и как эволюционирует контент от первых постов к текущему моменту
Поэтому поготовил такую аналитику в динамике, а еще прогнал для некоторых авторов, которых читал в этом году (все gif в комментариях)
Вот чью историю года мне так же было интересно посмотреть:
✨ e/acc (@cryptoEssay)
✨ эйай ньюз (@ai_newz)
✨ Дата канальи - про «специалистов» в данных / ML / AI (@datarascals)
✨ Kantor.AI (@kantor_ai)
✨ Время Валеры (@cryptovalerii)
✨ Dealer.AI (@dealerAI)
✨ Neural Kovalskii (@neuraldeep)
✨ Силиконовый Мешок (@prompt_design)
✨ Борис опять (@boris_again)
✨ Сиолошная (@seeallochnaya)
✨ И наш корп-блог - МТС True Tech (@truetechcommunity)
(вся статистика по авторам в комментариях)
Хотите такую же анимацию?
Если у вас есть канал или вы хотите увидеть визуализацию истории вашего любимого блога - пишите в комментарии.
Скидывайте ссылку на публичный канал, и если там до 1000 публикаций за 2025 год, скину ответным сообщением
Масс-сервиса и API сейчас нет - мой ресурс этого года уже и так ушел в минус🛌 . Но для интересных каналов всегда найду возможность запустить скрипт
Всех с наступающим!🎅
Если не нравятся чужие wrappers - надо делать свой
Вместо традиционных итогов года написал свой пайплайн аналитики истории канала
Считаю, что нельзя уместить всю историю канала на одной картинке или в сухом дашборде. Статичная инфографика - это, конечно, круто, но любой автор подтвердит: его канал - это не статика. Это живой процесс, который постоянно меняется вместе с самим автором. Для чего вообще заводят канал? Чтобы фиксировать мысли, расти и развиваться вместе со своей аудиторией
Визуализация данных в динамике - это отдельный вид удовольствия, особенно если у автора накопилось 300+ публикаций (в комментах есть такие примеры). На такой анимации отлично видно, как меняются темы, смещаются интересы и как эволюционирует контент от первых постов к текущему моменту
Поэтому поготовил такую аналитику в динамике, а еще прогнал для некоторых авторов, которых читал в этом году (все gif в комментариях)
Вот чью историю года мне так же было интересно посмотреть:
(вся статистика по авторам в комментариях)
Хотите такую же анимацию?
Если у вас есть канал или вы хотите увидеть визуализацию истории вашего любимого блога - пишите в комментарии.
Скидывайте ссылку на публичный канал, и если там до 1000 публикаций за 2025 год, скину ответным сообщением
Масс-сервиса и API сейчас нет - мой ресурс этого года уже и так ушел в минус
Всех с наступающим!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤3 2⚡1