MLinside - школа ML
3.79K subscribers
234 photos
18 videos
196 links
Предзапись на 4 поток курса "База ML": https://vk.cc/cQ7AkI
Наши курсы: https://taplink.cc/mlinside
Чат коммьюнити: @ml_insidechat
По вопросам: @marinagartm
Download Telegram
Как линейная алгебра помогает понять, что делает модель машинного обучения

Машинное обучение часто воспринимается как черный ящик. Кажется, что внутри происходит что-то слишком сложное и недоступное без сильной математики. Из-за этого многие откладывают старт, думая, что сначала нужно разобраться в теории. Но на базовом уровне модель работает гораздо проще, чем кажется. Если упростить, она берет признаки, применяет к ним коэффициенты и получает результат. Вся эта логика описывается инструментами линейной алгебры.

Вот как это выглядит на практике:
▪️Любой объект представляется как набор чисел. Это вектор признаков, например рост, вес или любые другие характеристики.
▪️Когда таких объектов много, они складываются в матрицу. По сути, это таблица, с которой работает модель.
▪️В процессе обучения модель подбирает коэффициенты. Часто это можно описать как умножение на матрицу весов.
▪️Признаки могут быть связаны между собой. Сильная линейная зависимость может ухудшать обучение и приводить к нестабильным оценкам коэффициентов.
▪️Чтобы упростить задачу, используются разложения матриц. Они помогают снизить размерность и выделить наиболее значимые направления в данных.

Если собрать это в одну мысль, на базовом уровне модель сводится к последовательным преобразованиям чисел и поиску таких коэффициентов, при которых результат становится максимально близким к нужному. Именно поэтому математика в ML не выглядит как бесконечный набор формул. Важно понять логику работы с признаками и тем, как они преобразуются. Глубокие детали приходят уже по мере решения конкретных задач.

Если хочется разобраться в ML без ощущения перегруза, стоит начинать именно с таких базовых вещей. Это дает понимание, на которое потом легко наслаиваются более сложные темы.
142👍1
TP/ DP/ PP – как масштабировать обучение LLM?

Рассказывает Андрей Жогов (ML-инженер в Сбере, преподаватель Физтеха) на YouTube. Если вы пытались обучать большие LLM и упирались в ошибку CUDA Out of Memory – вы не одиноки.

В видео Андрей разобрал, как на практике обучают модели, которые физически не помещаются ни в одну видеокарту, и какие подходы используют в индустрии, чтобы масштабировать обучение без хаоса и слива бюджета.

Пока видео можно посмотреть только на YouTube: https://youtu.be/QPOd_c7DHpw?si=9NgnzDpsUzbTPoXL, в ВК и Дзен есть некоторые проблемы с обработкой видео.
🔥65
Учимся на практике: решаем реальные ML-задачки, да еще и с покемонами

Миллениалы на месте? Сегодня будем определять лучшего покемона с помощью ML. Да, это рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных (ну или почти реальных) проектов, чтобы лучше запомнить теорию. Не уверены, что упоминание об этом проекте можно включить в портфолио, и поможет ли вам это на собеседованиях, но тем не менее.

Десятая задача

Что нужно сделать: Определить лучшего покемона каждого поколения

Как можно сделать:
▪️Определить лучшие характеристики (атака, защита, хп) для каждого поколения
▪️Сделать классификационную модель определения является ли покемон легендарным или нет (переменная isLegendary)
▪️Сделать классификационную модель которая определяется цвет (Color) покемона по его характеристикам, посмотреть какие признаки важны для такой модели
▪️Посмотреть есть ли какая-то зависимость роста и веса от типа (Type_1 и Type_2 и т.д.) покемона

Данные можно взять на Kaggle: https://www.kaggle.com/datasets/alopez247/pokemon
Пример ноутбука (с случайными пропусками строк): https://colab.research.google.com/drive/1BBcUCIJ0RS1XpzloWim7WhUyG3fPKFHv?usp=sharing

Готовы попробовать? Делитесь своими результатами в комментариях.

Все посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside
8
Добавили в специализацию новый блок про агентные системы

Это следующий шаг после базовой работы с моделями, когда они становятся частью системы с доступом к данным, инструментам и логике принятия решений.

Начинаем с базы: как устроен инференс LLM, что влияет на скорость и стоимость, зачем нужен kv-cache и квантование. Дальше переходим к практике – поднимаем инференс через triton, сравниваем vLLM и TensorRT и разбираемся, что выбирать под задачу.

Вторая часть – полноценный разбор Retrieval-Augmented Generation, в формате как это реально собирается в проде:
▪️как готовить данные и не сломать поиск
▪️чем отличаются BM25, FAISS и биэнкодеры
▪️как работает ранжирование и реранкеры
▪️как собирать контекст и управлять генерацией
▪️как считать метрики и находить узкие места
▪️как контролировать стоимость и обновления

Отдельно разбираем диагностику, безопасность и advanced-паттерны.

И финальный блок – сами агентные системы: архитектуры, мультиагентные сценарии, Supervisor-парадигма, протоколы взаимодействия (MCP), атаки и мониторинг. Плюс практические семинары и ДЗ после ключевых этапов.

А в практической части используем платформу VseLLM от Романа Куцева (эксперт в области оценки AI и фаундер платформы LLM Arena) – это сервис с единым API для доступа к разным моделям, балансировкой нагрузки и автоматическим переключением между провайдерами. Студентам специализации даём бонус на тестирование сервиса – можно будет сразу применять инструменты из курса на практике.

В этом блоке уроки ведут:
— Никита Зелинский (CDS MWS, директор по машинному обучению и исследованию данных)
— Максим Шаланкин (ML Team Lead в финтех‑команде Big Data MWS (МТС))

Если коротко: в этом блоке разбираем, как из отдельных моделей собираются полноценные AI-системы с понятной архитектурой и предсказуемым поведением.

Присоединяйтесь уже сейчас
7🔥72🎉2
Почему современные LLM, нейросети и большие языковые модели обучают именно на GPU, а не на CPU?

Рассказывает Андрей Жогов (ML-инженер в Сбере, преподаватель Физтеха) в новом видео на YouTube и ВК. Если хотите узнать, как устроена современная архитектура GPU для LLM, почему графические процессоры так хорошо подходят для матричных вычислений и за счёт чего они дают огромный прирост производительности в задачах машинного обучения, deep learning и инференса нейросетей, видео определенно будет вам полезно.

Вот ссылки для удобства:
YouTube
ВК
6🔥5👍2
Продолжаем рубрику Code Detective

Сегодня формат рубрики будет необычным. Мы опубликуем часть кода, а вам нужно сказать, что он выведет. Варианты будут в опросе ниже, а объяснение мы опубликуем завтра. Если рубрика вам нравится, будем благодарны, если поставите реакцию, а другие посты этой рубрики можно посмотреть по хэштегу: #CodeDetective_MLinside

Итак, вот сама задачка:

Что выведут следующие 2 примера?
x = 10
y = 10
print(x is y)

x = 1000
y = 1000
print(x is y)

#CodeDetective_MLinside
🔥13🤔10
2
Объяснение:
Это поведение связано с внутренней оптимизацией интерпретатора Python - кэшированием небольших чисел [-5,256]. Оператор is проверяет, ссылаются ли две переменные на один и тот же объект в памяти, для этого маленького списка ссылки на объекты берутся из кэша, а для всех других создаются новые

#CodeDetective_MLinside
🔥7👍53
За 2025 год мы выпустили 83 видео на YouTube

И очень благодарны, что вы их смотрите, лайкаете и комментируете. Нам это очень помогает в продвижении контента. И мы решили, что не помешает сделать подборку из тех видео, которые выделились среди других. Если что-то из этого пропустили, рекомендуем посмотреть:

Топ по просмотрам:
▪️ Карьера в топовых компаниях мира | Валерий Бабушкин 1 часть – просмотры: 50 169
▪️ ML в 2025: Как начать с нуля и не слиться (Пошаговый план из опыта) | Часть 1 – просмотры: 40 271
▪️ Зачем они нужны в ML? Собственные значения и собственные векторы – просмотры: 30 365

Топ по комментариям:
▪️ Математика в ML: сколько реально нужно знать – комментарии: 106
▪️ Стоит ли учить ML в 2026? Или поезд уже ушёл? – комментарии: 99
▪️ Сколько на самом деле зарабатывают ML-инженеры – комментарии: 68

Топ по лайкам:
▪️ ML в 2025: Как освоить модели и найти первую работу (Пошаговый план + Лайфхаки) | Часть 2 – лайки: 853
▪️"Никогда на Руси джуны хорошо не жили" | Валерий Бабушкин 2 часть – лайки: 687
▪️5 тем по линейной алгебре, без которых ты не поймёшь ML – лайки: 617

Спасибо, что вы с нами, дальше – больше
13🔥52
Почему на ML собеседовании спрашивают все подряд – от SQL до backend?

На ML-собеседованиях часто спрашивают не только машинное обучение, но и SQL, backend, алгоритмы и системный дизайн. Это вызывает у многих кандидатов недоумение: зачем ML-инженеру весь этот стек?

Ответ на этот вопрос разбирает Андрей Жогов (ML-инженер в Сбере, преподаватель Физтеха) у нас на YouTube, в ВК и ДЗЕН.

Кому будет полезно это видео:
▪️ Начинающим в ML – чтобы понять реальные требования профессии и не фокусироваться только на моделях
▪️ Тем, кто готовится к ML-собеседованию – чтобы закрыть пробелы и понимать, какие темы могут спросить
▪️ Data Scientist’ам – чтобы расширить понимание production-части и инженерных задач
▪️ Разработчикам, переходящим в ML — чтобы увидеть, какие навыки уже релевантны и чего не хватает
▪️ ML-инженерам на уровне junior/middle — чтобы систематизировать знания и подготовиться к следующему уровню
▪️ Тем, кто хочет попасть в Big Tech — чтобы понять ожидания компаний и структуру интервью

Если нашли себя в этом списке, переходите и смотрите видео на удобной для вас платформе:
https://youtu.be/vsHXuJTDi4M
https://vk.com/video-228219607_456239203
https://dzen.ru/video/watch/69da0b28a6a02616d1d2354d
74
Учимся на практике: решаем реальные ML-задачки

Это рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных (ну или почти реальных) проектов, чтобы лучше запомнить теорию. Плюс, упоминание об этом можно включить в портфолио, что определенно поможет вам на собеседованиях.

Одиннадцатая задача

Что нужно сделать: определить по различным признакам, транзакция фродовая или нет

Как можно сделать:
▪️Визуализировать данные чтобы визуально понять можно ли как-то кластеризовать или нет
▪️Посмотреть как-то коррелируют между собой признаки или нет
▪️Обучить модель для случая когда явный дизбаланс классов

Данные можно взять на Kaggle: https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud
Пример ноутбука (с случайными пропусками строк): https://colab.research.google.com/drive/10grgB6zavSk-ZgAm02ixGalRSPPtgHTx?usp=sharing

Готовы попробовать? Делитесь своими результатами в комментариях. А другие посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside
👍9
SVD в машинном обучении

У нас на YouTube, в ВК и ДЗЕН вышло видео с Андреем Жоговым (ML-инженер в Сбере, преподаватель Физтеха), где он разбирает, как работает SVD, почему он позволяет находить скрытую структуру в данных и где именно используется на практике: от обработки текстов до рекомендательных систем и современных LLM. Андрей объясняет SVD через геометрическую интуицию, показывает, как из большой и зашумлённой матрицы получить компактное представление данных, и разбирает ключевые кейсы: латентно-семантический анализ (LSA), матричную факторизацию и применение SVD в LoRA для дообучения нейросетей. В конце вас ждёт неожиданный пример, как SVD выявляет скрытые закономерности даже в данных голосований.

Кому будет полезно это видео и почему:
▪️ Начинающим в ML и Data Science — чтобы понять одну из ключевых тем линейной алгебры через практику, а не абстрактные формулы
▪️ Студентам и тем, кто изучает математику для ML — чтобы связать теорию (матрицы, разложения) с реальными задачами
▪️ ML-инженерам — чтобы глубже понимать методы снижения размерности, работу с признаками и оптимизацию моделей
▪️ Тем, кто работает с NLP — чтобы понять, как раньше решалась задача поиска смысла в текстах и откуда выросли современные эмбеддинги
▪️ Тем, кто интересуется LLM и fine-tuning — чтобы разобраться, как идеи SVD используются в LoRA и экономии ресурсов

Если нашли себя в этом списке, переходите и смотрите видео на удобной для вас платформе.
14👀4
В следующую среду, 29 апреля выходим в прямой эфир с Виктором Кантором

Вы наверняка знаете Виктора – он автор специализации «Машинное обучение и анализ данных» МФТИ и Яндекса на Coursera, которую с 2016 года прошли более 200 000 человек. За его плечами построение ML-службы в Яндекс.Такси, руководство Big Data в МТС (600+ сотрудников) и звание Forbes «30 до 30».

В эфире Виктор расскажет про новую специализацию «Искусственный интеллект и анализ данных» – переосмысленную версию легендарного курса, которую он выпустил вместе с командой MLinside. Полный путь от основ до нейросетей, LLM и AI-агентов по подписке от 5 000 ₽ в месяц.

Но кроме этого, Виктор ответит на ваши вопросы. Это хорошая возможность спросить напрямую у человека, который сам прошёл путь от Data Scientist до топ-менеджера:
▪️ Как войти в AI/ML с нуля?
▪️ Какой путь выбрать — Data Scientist, ML-инженер, AI Engineer?
▪️ Чем новая специализация отличается от того, что уже есть на рынке?
Или любой другой вопрос, на ваше усмотрение.

Задайте вопрос Виктору заранее – он ответит на него в эфире.

И зарегистрируйтесь на трансляцию, чтобы не пропустить начало: https://t.me/ml_insideBot?start=web290426
👍73🔥3
Python для ML: что нужно знать на старте?

Python – основной язык в машинном обучении, но для старта не нужно знать его целиком. На YouTube, в ВК и Дзен у нас вышло видео с Александром Дубейковским, где он разбирает, какая часть Python действительно используется в ML, какие библиотеки важны и как выглядит реальная работа ML-инженера. Вы поймёте, почему Python, это в первую очередь инструмент для работы с данными и экспериментами, а не язык для сложной разработки.

Видео будет полезно новичкам в ML (чтобы не тратить время на изучение лишнего и сразу сфокусироваться на нужных навыках), разработчикам, переходящим в ML (чтобы понять разницу между Python в backend и Python в машинном обучении), студентам и самоучкам (чтобы выстроить правильную траекторию обучения без перегруза) и тем, кто готовится к ML-собеседованию (чтобы понять, какой уровень Python реально ожидается).

Если нашли себя в этом списке, welcome к нам, на любую из удобных площадок:
https://youtu.be/_yAuLFKZZhk
https://vkvideo.ru/video-228219607_456239206
https://dzen.ru/video/watch/69eb4b55a0b5d51d0ac7700c
14🔥8👀4
Запускаем новую рубрику с математическими задачками

Эта рубрика поможет прокачать прикладное математическое мышление. А умение быстро разбираться в задачах, видеть структуру и находить решения без громоздких вычислений – супер полезно не только в теории, но и в практике ML, где часто важно быстро оценить поведение системы, вероятность исходов или логику процесса.

Сегодня первая задачка и мы проверим, насколько хорошо вы чувствуете производные. Формат простой: посмотрите на график и ответьте на вопрос:

В какой из точек производная функции y=f(x) принимает наибольшее значение?


#math_MLinside
12👍3🔥2
В какой из точек производная функции y=f(x) принимает наибольшее значение?
Anonymous Quiz
2%
A
15%
B
5%
C
78%
D
3
MLinside - школа ML
В следующую среду, 29 апреля выходим в прямой эфир с Виктором Кантором Вы наверняка знаете Виктора – он автор специализации «Машинное обучение и анализ данных» МФТИ и Яндекса на Coursera, которую с 2016 года прошли более 200 000 человек. За его плечами построение…
Послезавтра, 29 апреля в 19:00 выходим в прямой эфир с Виктором Кантором на YouTube

В эфире можно будет задать вопрос напрямую Виктору и пообщаться с ним на тему ML или AI. Также, Виктор расскажет про курс специализация «Искусственный интеллект и анализ данных».

Задать вопрос Виктору заранее: https://forms.yandex.ru/u/69e884fe6d2d736b9b087371

Зарегистрируйтесь на трансляцию, чтобы не пропустить начало: https://t.me/ml_insideBot?start=web290426