Maxim.ML - канал
867 subscribers
66 photos
6 videos
1 file
46 links
🟥 Machine Learning Team Lead
📢 Рассказываю о жизни в IT в целом и о machine learning в частности
🤖 Генератор контента для обучения AGI
✉️ лс тут: @Maxim_ML
Download Telegram
BERTScore vs косинус: лайфхак для подготовки к конференции с помощью алгоритмов RAG-а

Недавно готовился к выступлению на AhaConf, а это, на минуточку, 70+ спикеров и 1000+ слушателей. Сразу возникает классическая проблема: как сделать свой доклад уникальным и не повторить то, что уже рассказали до тебя?

Многие думают, что RAG - это какая-то сложная штука для enterprise-задач. Но на деле это просто очень здравый подход к работе с информацией. И я применил его при подготовке к выступлению: нашел релевантные данные (Retrieval) в программе конференции, чтобы улучшить свое выступление. Получился такой RAG для одного человека

Зачем вообще искать похожие доклады?

Главный страх любого спикера - выйти на сцену и понять, что твою ключевую мысль только что озвучил предыдущий оратор. Чтобы избежать этого фейла и выжать из конфы максимум, я поставил две цели:

1️⃣Дифференцироваться от коллег. Найти тех, кто говорит на смежные темы, чтобы скорректировать свой доклад, добавить уникальности и не лить воду, которую слушатели уже слышали

2️⃣Нетворкинг. Заранее вычислить «своих» по духу и темам. С таким списком можно подходить в кулуарах не с банальным «чем занимаешься?», а с конкретным «слушай, видел твой доклад про X, у меня как раз очень похожий кейс»

План эксперимента: старый добрый косинус против BERTScore

Мой план был прост:

1️⃣Собрать данные: выгрузить все названия и описания докладов

2️⃣Измерить близость: прогнать каждый доклад через два фильтра для сравнения с моим - старую добрую косинусную близость и более «вдумчивый» BERTScore

3️⃣Проанализировать топ-5 от каждого метода и посмотреть, какие доклады попали в топ

Что получилось

И вот тут-то и проявилась вся разница подходов

Косинусная близость. Этот метод представляет каждый текст как единый числовой вектор (эмбеддинг), усредняя его семантическое содержание. Он эффективно находит документы с лексическими пересечениями, но из-за усреднения контекста может упустить более сложные семантические связи, если они выражены синонимичными или описательными конструкциями

BERTScore. Этот подход работает на более детальном уровне, сопоставляя контекстные эмбеддинги каждого токена из одного текста с токенами другого. На основе этой матрицы попарных сходств он вычисляет метрику F1, что позволяет улавливать локальные семантические связи, например, между «ML-платформой» и «автоматизацией ресурсов», даже при отсутствии общих ключевых слов. (подробнее в оригинальной статье «BERTScore: Evaluating Text Generation with BERT»). Но из-за циклично расчета эмбедингов время получения метрики растет в разы

Главный вывод: дилемма близости в RAG - скорость или глубина?

Мой эксперимент отлично подсветил классический компромисс в мире RAG: выбор между скоростью и семантической глубиной. Здесь нет однозначного победителя, потому что косинусная близость и BERTScore решают разные задачи

По сути, идеальный RAG-пайплайн часто использует оба подхода в связке, как это подтверждают и исследования, и многочисленные гайды от практиков. Использовать только косинус - быстро, но рискуешь получить поверхностный результат (привет реранкерам). Использовать только BERTScore - качественно, но непозволительно медленно

Если бы кто-то придумал «быстрый BERTScore», это бы кардинально изменило подходы к поиску релевантных чанков в RAG. Мы бы получили поиск, который по-настоящему понимает запрос. Но пока приходится жить в мире компромиссов

А для тех, кто хочет провести похожий анализ, я, по традиции, выложил весь код в репозиторий. Забирайте и экспериментируйте 💪
Please open Telegram to view this post
VIEW IN TELEGRAM
7🔥3
Как школьники решают задачи по AI на уровне магистров

В пятницу провел четырехчасовую тренировку для наших школьников, которые едут на Международную олимпиаду по ИИ (IOAI), и до сих пор под впечатлением. Задачи - серьезные, на уровне магистров: CV, NLP, классика на таблицах. Но поразил меня не столько уровень решений, сколько один паттерн, который прослеживался почти везде

Есть один инструмент, который ребята использовали в ~85% случаев. Угадаете какой? Конечно, CatBoost. Его умудрялись прикрутить даже для классификации картинок и анализа текстов. И это не от лени или незнания других архитектур. Это прагматизм в чистом виде: если инструмент достаточно гибкий и мощный, чтобы решать 85% задач «в лоб», зачем усложнять? С определенными трюками такой подход для олимпиады - самое то

Я, честно говоря, не могу вспомнить ни одного знакомого DS-а из IT-компаний, у кого бы в проде не стоял CatBoost в том или ином виде 🧐

Вся эта подготовка - финальный рывок перед главным событием. Олимпиада пройдет со 2 по 9 августа в Пекине. Это огромное достижение для ребят - представлять страну на таком уровне. Буду внимательно следить за успехами нашей команды, а значит и вы тоже

P.S. Хотите узнать, какие вопросы о внутреннем устройстве CatBoost я задаю на собеседованиях, чтобы проверить глубину понимания, а не просто знание .fit() и .predict()? Накидайте реакций 🔥, и я напишу об этом отдельный пост

P.P.S Ребят курирует Саша, он пишет о всех тонкостях процесса довольно часто
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4354👎1
Выходные созданы для вайба, но мой вайб закончился. Впервые за три месяца исчерпал свой лимит на cursor за 20$, но это не конец истории. В Cursor мне любезно предоставили возможность потратить еще 30$ за их счет, так что общий чек за месяц составил 50$ 📈

Откуда такая щедрость и почему компания готова работать себе в убыток? 📉

В первую очередь, мы платим не только деньгами. Основная валюта в новой экономике ИИ - это данные о нашем взаимодействии с моделью. Каждый запрос, успешный или неудачный будет использоваться для обучения и доработки, особенно для развития способности моделей к сложным рассуждениям.

Представьте: вы с помощью ИИ создаете стартап. Модель обучается на истории ваших идей и итераций. Теоретически, в будущем другой пользователь сможет сформулировать запрос, который воспроизведет вашу бизнес-логику, ведь нейросеть уже будет обучена на вашем примере. Мы платим за дешевый доступ своим интеллектуальным вкладом, который делает модели умнее.

И да, в Cursor есть private mode, который, вероятно, вас защитит. 👀 Он работает только если вы догадались его включить. По умолчанию данные уходят в обучение. Ну а Google и OpenAI честно признаются в политиках об использовании пользовательских данных для тренировки моделей

💃 #vibe_coding@ml_maxim
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8533
Они это сделали

Помните я рассказывал про школьников, которые готовились к олимпиаде по ИИ?

Буквально только что на стриме Саши стало известно, что ребята получили:

🥇 6 золотых
🥈 1 серебро
🥉 1 бронзу


От всего сердца поздравляю команду и их великолепного тренера! Будущее AI в надежных руках 💪
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉17🔥6🏆52
Когда AI-агент предлагает кронштейн вместо телевизора

Короче, история. Решил я тут потестировать одного AI-агента для покупок. Вбил простой, на первый взгляд, запрос: «хочу телевизор чтобы повесить на стену»

И что вы думаете? Этот агент проигнорировал главное слово «телевизор» и вцепился в фразу «повесить на стену» и начал мне предлагать… кронштейны 🤦‍♂️ . И вроде бы логично, а с другой стороны - ну нет. Можно же было и дрель с шурупами предложить, чего уж там

Этот забавный сбой - яркий пример того, как RAG-системы могут спотыкаться о буквальную трактовку, упуская суть запроса. Как это исправить? Существует несколько продвинутых техник для настройки RAG-пайплайнов, рассмотрим некоторые из них

⭐️ Подход 1: Query Expansion
Вместо того чтобы слепо следовать запросу пользователя, система с Query Expansion генерирует несколько его вариаций, чтобы лучше понять контекст. То есть, она бы не просто искала «повесить» и «стена», а додумалась бы до запросов вроде: «телевизоры с настенным креплением» или «купить телевизор для монтажа на стену». Так основной объект телевизор остался бы в фокусе.

⭐️ Подход 2: Multi-Step RAG
Multi-step RAG - это когда система не пытается решить все в один заход, а бьет задачу на этапы. В моем случае это выглядело бы так:

Шаг 1: Выделить главное: объект («телевизор») и действие («повесить на стену»)
Шаг 2: Сначала найти «телевизоры». И только их
Шаг 3: Из найденного отфильтровать те, что подходят под «повесить на стену»

⭐️ Подход 3: Метаданные как фильтр
Каждый товар в базе можно (и нужно!) обвешать тегами: категория, тип, цена и т.д. В контексте RAG-пайплайна важны все детали: от диагонали экрана до адреса склада

Если каждый товар в базе данных магазина имеет мета-теги вроде  category: "television"  или  type: "wall_mount" , система сработает лучше. Мой запрос «хочу телевизор» активировал бы фильтр по категории  television , и даже слова «повесить на стену» не смогли бы сбить его с толку и заставить искать аксессуары

⭐️ Подход 4: Агенты-критики и Chain of Debate
Парадигма multi-agent debate предполагает, что над задачей работает не один, а несколько специализированных AI-агентов, которые ведут «дебаты» для поиска лучшего решения

Представьте их диалог:
〰️ Агент «Анализатор запроса»: «Пользователь хочет что-то повесить на стену. Наверное, ему нужен кронштейн».
〰️ Агент «Эксперт по товарам»: «Подожди, основной объект в запросе - “телевизор”. Это главный товар. Фраза “повесить на стену” - это характеристика, а не самостоятельный запрос. Предлагать аксессуар, не убедившись в наличии телевизора, - это плохой клиентский опыт».
〰️ Агент «Модератор»: «Решено. Ищем телевизоры, которые можно повесить на стену».


Индустрия AI-агентов развивается стремительно, и сама возможность создавать «агентов для покупок» - это уже большое достижение 💪 . Однако, как показывает этот случай, RAG-архитектуры нуждаются в тонкой настройке.

Stay tuned - в будущих постах обязательно разберем каждый из этих подходов подробнее

P.S. ранее уже разбирал, где можно улучшить ваш RAG-Pipeline
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥321
Расскажу про Data Science в мире больших данных на летней школе от ФКН ВШЭ, приходите послушать 23 августа 👋

Буду выступать с темой: «Что делать с данными, когда их слишком много: от Big Data к Smart Data» (я начинаю в 12:15)

Весь движ организует Центр непрерывного образования ФКН НИУ ВШЭ

Мир IT удивительно тесный, поэтому обнаружил среди спикеров Аню, мы вместе работали в Ситимобил над самым лучшим сервисом такси 🧐

Также будут спикеры из Т-банка, Яндекса, Альфа-Банка, X5 Tech, Magnit Tech, Авито, Вкусно — и точка, и другие

Когда: 21 августа в онлайн-формате, 23 августа — очно.
Где: Центр Культур НИУ ВШЭ, г. Москва, Покровский бульвар, 11.

Участие бесплатное для всех желающих, но требуется регистрация: по ссылке

Пишите, если придете и захотите пообщаться в кулуарах ☕️
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥64👍32🗿21
This media is not supported in your browser
VIEW IN TELEGRAM
Copilot, налоги, роботы 🤖


Давно хотел поднять эту тему, а на днях судьба сама подкинула повод - столкнулся в кафе с парой роботов от Pudu Robotics. Выглядит футуристично: они развозят заказы, помогают персоналу и, очевидно, повышают эффективность бизнеса. Получается замена человека в рутинных задачах


На фоне таких трендов в правительстве уже обсуждают идею введения налога на роботов. Логика простая: компании сокращают персонал, а значит, падает объём страховых отчислений в бюджет. Налог мог бы это компенсировать. Пока в России такой меры нет, но почва для трансформации готовится


Раньше говорили: «Не пойдет учеба - пойдешь на завод». Скоро, похоже, и на завод без диплома магистра по робототехнике не пройдёшь 😰


С физическим миром всё более-менее ясно, но что насчет офисов? Здесь автоматизация еще интереснее. Если появится налог на «железных» роботов, не возникнет ли следом идея обложить налогом и «программных»? Представьте себе AI-аналитиков, AI-программистов или целые AI-команды. Хотя, скорее всего, бизнес найдёт лазейку. Ведь можно назвать это не «AI-программист», а «Copilot для программиста». Инструмент, а не замена. И тогда гипотетический налог платить, вероятно, не придется


Да мы и сами в команде грешим ускорением всей этой автоматизации, делали ранее публикацию на эту тему.

В удивительное время живем 🍿
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6321
Положить LLM в карман: стоит ли выносить языковую модель из облака?

В какой-то момент гонка за облачными мощностями начинает утомлять. Ты привыкаешь, что для любой серьезной задачи с LLM нужен API-ключ и хороший бюджет. Но в IT, как известно, все циклично, и вот снова набирает силу тренд на on-device AI - возвращение вычислений с небес на землю, прямо на наши устройства

Поработав с разными облачными провайдерами, начинаешь задумывался об альтернативе - запуске LLM на собственном железе.

Для меня последней каплей стал пост Иэна Баллантайна (Linkedin), где он заставил свежую Gemma 3 270M от Google летать на Raspberry Pi 5. Его цифры - около 30-32 токенов в секунду на голом CPU - звучали слишком хорошо, чтобы быть правдой (ниже будет видео от автора)

Цитата автора:

как быстро работает Gemma 3 270M "из коробки" на Raspberry Pi 5? Около 30 токенов/сек на CPU для квантизованной модели Q4_0 при использовании Ollama. Я также попробовал Llama.cpp и получил около 32 токенов/сек


Увидев такие цифры, я окончательно решился повторить его эксперимент

Мой тестовый стенд
Конечно, в мечтах - домашний мини-кластер на четырех GPU, но начнем с малого. Мой сетап для эксперимента:

Устройство: Orange Pi 5 Pro с 16 ГБ оперативной памяти (оно по некоторым параметрам даже превосходит то, что было у Иэна)

Кандидаты на запуск:
Frida - компактная русскоязычная модель от команды ai-forever, удобная для экспериментов за счёт небольшого размера (<300 M параметров) и открытых QAT-чекпоинтов
Gemma 3 270M - свежая модель от Google, оптимизированная для энергоэффективности и быстрой тонкой настройки

Главный вопрос: какая в этом мотивация?
Прежде чем погружаться в технические дебри, я решил посчитать, имеет ли эта затея экономический смысл

Окупаемость железа
- Аренда схожего по характеристикам облачного CPU-сервера – ≈ 5 300 ₽/мес
- Покупка Orange Pi 5 Pro – ≈ 12 000 ₽
- Разделив, получаем ≈ 2.3 месяца до полной окупаемости оборудования

Дополнительные затраты
Конечно, в расчёт не вошла стоимость моего времени на настройку. Но для энтузиаста это скорее удовольствие, а потребление энергии устройством (≈ 6–10 Вт под нагрузкой) сравнимо с ежемесячным счетом за лампочку, в то время как облачные серверы обходятся в сотни рублей за час работы.
📌 Вывод: локальный деплой выгоден при регулярных нагрузках; для редких задач облако остаётся привлекательным

Экономия на API-токенах
А вот здесь все не так однозначно. Если вам нужно лишь изредка обращаться к модели, использование API через облако может быть очень дешевым. Например, для редких задач вызовы самой доступной русскоязычной модели обошлись бы примерно в 0,02 ₽ за 1 000 000 токенов. Очевидно, что покупать отдельное устройство из-за такой низкой цены токена бессмысленно.
📌 Вывод: Локальный деплой выгоден, если вы заменяете им постоянно работающий облачный сервер, а не редкие API-вызовы

Зачем это нужно в глобальном смысле?
Экономия - это приятно, но потенциал локальных моделей гораздо шире. Вы думаете, успехи Китая в роботизации - это шутки? Локальные LLM играют в этом ключевую роль. Робот на производстве или дрон-курьер не могут зависеть от стабильности интернет-соединения с дата-центром. Им нужна автономия

Перенос AI на устройства дает:
🔵Приватность: Данные обрабатываются локально и не утекают на сторонние серверы
🔵Низкую задержку: Отклик модели происходит мгновенно, что критически важно для систем реального времени
🔵Надежность: Устройство работает даже без подключения к сети

Что дальше?
Я пока только приступил к тестам и в ближайших планах развернуть Frida и Gemma 3 270m на своем Orange Pi. Очень интересно, какие результаты удастся получить и насколько они будут близки к показателям на Raspberry Pi

#hardware
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥42👀111
Мир IT тесен, а Machine Learning - ещё теснее. Я трижды переходил между крупными IT-компаниями, и каждый раз среди коллег попадались знакомые - будь то со студенчества или с предыдущих мест работы

Авторы ML-каналов знакомы друг с другом едва ли не так же хорошо, как и коллеги в офисе

В папке - подборка крутых ребят, за которыми точно стоит следить. Каждый из них создаёт топовый ML-контент, а вместе они дают широкий спектр взглядов на нашу интересную индустрию

(много ML ребят тут) 🐸

Отдельно выделю тех, с кем у меня схожий профиль и кто делится полезными советами и практиками в области машинного обучения

🔶 канал Андрея
Классно рассказал, как он собеседовал стажеров к себе в команду - можно найти инсайты для себя

🔶 канал Димы
Круто и наглядно объяснил процесс обучения LLM

🔶 канал Саши
Делал крутую публикацию на тему хаков при DS собеседовании, полезно

🔶 канал Юры
Делится разборами промышленного домена ML - вот, например, как применяется ML в диагностировании двигателей
Please open Telegram to view this post
VIEW IN TELEGRAM
8774👎1
Спонсор вайба на выходных - Илон Маск, а с меня - свежий лайфхак для vibe-кодинга

Начну сразу с главного: два дня тестирую новую Grok Code Fast 1 (xAI), которую сейчас бесплатно раздают в Cursor (аж до 2 сентября, вы тоже успеете потестировать), но все таки, пока что личный фаворит - это Claude 4 Sonnet

Grok Code Fast 1 генерирует код с какой-то нечеловеческой скоростью (авторы заявляют 160 tokens per second). Я с ним за час набросал ядро сложного мультимодального RAG-поиска. А потом пришло время все это собирать воедино с основным сервисом. И пошли проблемы. Ассистент, пытаясь исправить одну ошибку, создавал три новых. Думаю эта ситуация знакома многим

И вот мой лайфхак, который спасает 90% времени и нервов - это тесты с подробными логами. Это ваш единственный объективный критерий того, что все работает как надо

Этот подход можно разбить на две части

Допустим, мы только что собрали мультимодальный RAG-поиск. Мой промпт будет выглядеть так (обычно пишу на английском - субъективно работает лучше и дешевле):

🟡Пишем тесты:
Here is the python module with multi-modal RAG logic [code]. Your job is write an extensive tests for it using pytest. I need at least 20 tests covering huge bunch of cases: from file uploads to API responses and edge cases like empty inputs and hard cases with different input combinations.


Обычно в момент написания все тесты проходят без проблем, но это только пока мы не насоздавали еще десятки зависимостей

🟡А если зависимости все ломают, то дебажим при помощи тестов:
Okay, look. Here is the output of the tests we wrote before. [вставляю лог с ошибками]. 4 / 20 tests failed. Your changes broke the critical functionality. Your one and only goal right now is to fix the code so that all 20 tests pass again. start fixing all failed tests.


И это отлично работает! Особенно когда приходится переключаться между чатами с потерей контекста

Что касается моих впечатлений от Grok Code Fast 1 - модель быстрая, но сыровата, хотя метрики на SWE bench могут впечатлить. Для большинства практических задач связка Claude 4 Sonnet с описанной выше методологией пока остается непревзойденной. Я потратил час на написание фичи с Grok, а потом еще 30 минут дебажил результат с помощью Claude и тестов..

Всем вайбовых выходных!

💃 #vibe_coding@ml_maxim
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥422❤‍🔥1
Когда уже сделают tool по картам для ai-агентов

Гонял в отпуск и вспоминал, как я планировал его в perplexity. У их агента много различных инструментов, но мне лично не хватило одного очень важного - чтобы у агента был инструмент работы с картами

Подумал и набросал небольшой proof of concept такого тула для ai агента. Все подробности в статье на habr 🍿

Такого функционала очень не хватает Яндекс картам или Циану, каким бы удобным сразу стал поиск квартиры, да?

Кстати, в отпуске занимался чтением великой доменной литературы, и передаю привет автору

ПС: книгу пока не подписал, но это пока 🚨
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍421
🔍 Что скрывается под капотом Perplexity?

Когда AI отказывается выполнить задачу, ссылаясь на "лимиты ресурсов", возникает вопрос: а что это за лимиты? Со мной случился как раз такой кейс.

Я решил выяснить, что происходит внутри Perplexity, когда он выполняет код. Попросил AI проанализировать собственные логи и окружение. И он буквально сам рассказал: "Я работаю в Docker-контейнере на Linux 6.1, у меня 2 CPU и 1GB RAM..." и далее выдал полную базу, вплоть до локации своего сервера (кстати, США, штат Орегон)

Perplexity использует E2B Sandbox - специализированную платформу для AI-агентов. Каждый ваш запрос с кодом запускается в контейнере.

🔵 Архитектура: FastAPI WebSocket Jupyter Kernel
🔵 Оптимизация: uvloop + orjson + httptools

Это объясняет, почему AI иногда "отказывается" - не из-за технических лимитов, а из-за бизнес-логики системы. Ведь критически важно быстро отдавать пользователю результат - это основной приоритет таких решений

GitHub Copilot, Replit, CodeSandbox - все используют похожие решения

Зная архитектуру подобных решений, можно:
🔜 Правильно использовать контекст
🔜 Оптимизировать запросы под систему (и манипулировать системой)
🔜 Понимать реальные ограничения и бизнес-логику

Понимание внутреннего устройства AI-систем становится критически важным навыком. Это не просто любопытство - это практический инструмент для более эффективной работы

📖 Полное исследование на Habr
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥93👍3
Реально ли собрать мультиагентную систему AI‑аналитики за учебный год? 📈

Спойлер: да, и наши студенты Школы аналитиков данных МТС сделали InsightFinder, который автоматизирует EDA и делает бизнес‑интерпретацию.

Часы ручной рутины ужимаются до примерно пяти минут, а результат понятен и DS/DA, и менеджерам.

Авторы проекта:

🔵Анна Шестакова (@anny_shestakova)
🔵Григорий Суханов (@dvmgz)
🔵Михаил Футьянов (@mikefdsg)
🔵Алексей Жданов (@Zhdanov_Alexey)

- в статье на habr есть разбор и гайд от ребят, как повторить.

⚡️Ссылка на habr: тык
⚡️Ссылка на git: тык

Обучение в школе бесплатное, 10 месяцев, онлайн, два вебинара в неделю от практиков, а лучшим - стажировки и офферы

Я тоже преподаю, мои предметы: ML / DL / NLP - приходите послушать 👋

Можно почитать у Никиты подробнее про выпускной и школу вот тут
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1364👎1
Недавно завершился основной этап Yandex Cup. В этот раз я решил испытать одну идею - и получился довольно интересный результат. И хотя до поездки в Стамбул на финал мне не хватило совсем чуть-чуть, я нашел для себя новый подход к исследованиям, который позволил мне проверить в три раза больше гипотез, чем обычно 🛌

Хочу поделиться этим подходом с вами. Думаю, скоро решение задач с AI-ассистентом, или co-solver'ом станет либо нормой, либо даже отдельной квалификацией в подобных соревнованиях

Бутылочное горлышко любого исследователя

У меня за плечами несколько медалей с Kaggle, и я всегда шел по классическому пути: от простого к сложному, проверяя гипотезу за гипотезой. Ты формулируешь идею, реализуешь ее, собираешь метрики, анализируешь и делаешь выводы. Подход рабочий, но с проблемой: нехватка твоего личного времени и фокуса. Ты физически не можешь проверить все, даже самые безумные идеи, которые приходят в голову

Решение проблемы с личным co-solver

Суть этого подхода в том, чтобы перестать быть единственным исполнителем и стать тем, кто задает направление, а рутинную работу делегирует AI-ассистенту

Вот как это работает:

⭐️ Обозначаем «вектор А». Вы вручную проделываете полный цикл создания первого, базового решения. Главное - максимально подробно документировать каждый шаг: почему вы выбрали именно такую модель, как обработали данные, какие метрики получили. Это ваша отправная точка

⭐️ Обозначаем «вектор Б». Затем вы создаете второе решение, но ключевое условие - оно должно быть концептуально иным. Другая архитектура, другой подход к фичам, возможно, вообще другая логика. Это второй край вашего «исследовательского вектора»

⭐️ Создаем «карту» для co-solver'а. Самый интересный этап. Вы прописываете для AI-ассистента правила игры:
- Какие компоненты из решения «А» и «Б» можно смешивать?
- Какие гиперпараметры и в каком диапазоне нужно перебирать?
- Как автоматически оценивать успешность каждой попытки?

После этого вы «пускаете модель в свободное плавание». AI начинает систематически исследовать пространство между вашими двумя векторами, комбинируя подходы и проверяя десятки гипотез. А у вас освобождается время на самое ценное - творческий поиск следующей новой идеи, нового «вектора В»

Конечно, у подхода есть ограничения - это все-таки co-pilot. Качество итогового решения полностью зависит от того, насколько разноплановые и сильные «вектора» вы зададите. Если ваши идеи слабые, AI лишь поможет вам быстрее убедиться в их бесперспективности. Вы рискуете застрять в локальном оптимуме, ограниченном вашим же видением

Лично для меня это был невероятно позитивный опыт . Ощущение, будто у меня появился личный лаборант, который берет на себя всю рутину после того, как я сделал самое интересное

Ну а подробный технический разбор моего решения и рефлексия по итогам соревнования будут во второй части публикации - уже после финала. Stay tuned 👋
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12👍621
RuCode премия - моя рефлексия

В этот понедельник состоялась церемония награждения лауреатов RuCode, где я получил награду в номинации, посвященной преподаванию 🏆

Один из векторов моей работы - это внедрение AI-инструментов в образовательный процесс. Приятно осознавать, что эта тема находит отклик. Лично для меня наибольшую ценность представляет тот факт, что все проекты прошли экспертизу совета, состоящего из признанных лидеров отрасли. Получить одобрение от людей, которые глубоко разбираются в технологиях - это дорогого стоит 🙂

И, конечно, отдельные благодарности тем, кто сделал это возможным:
Организаторам RuCode, МФТИ и экспертному совету - за высокую оценку и безупречную организацию фестиваля. Всем партнёрам - за поддержку таких инициатив. Фестиваль RuCode реализуется при поддержке гранта Минобрнауки России в рамках Десятилетия науки и технологий


Работаем дальше 💪
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2075👍3