MLinside - школа ML
3.79K subscribers
234 photos
18 videos
196 links
Предзапись на 4 поток курса "База ML": https://vk.cc/cQ7AkI
Наши курсы: https://taplink.cc/mlinside
Чат коммьюнити: @ml_insidechat
По вопросам: @marinagartm
Download Telegram
Учимся на практике: решаем реальные ML-задачки, да еще и с покемонами

Миллениалы на месте? Сегодня будем определять лучшего покемона с помощью ML. Да, это рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных (ну или почти реальных) проектов, чтобы лучше запомнить теорию. Не уверены, что упоминание об этом проекте можно включить в портфолио, и поможет ли вам это на собеседованиях, но тем не менее.

Десятая задача

Что нужно сделать: Определить лучшего покемона каждого поколения

Как можно сделать:
▪️Определить лучшие характеристики (атака, защита, хп) для каждого поколения
▪️Сделать классификационную модель определения является ли покемон легендарным или нет (переменная isLegendary)
▪️Сделать классификационную модель которая определяется цвет (Color) покемона по его характеристикам, посмотреть какие признаки важны для такой модели
▪️Посмотреть есть ли какая-то зависимость роста и веса от типа (Type_1 и Type_2 и т.д.) покемона

Данные можно взять на Kaggle: https://www.kaggle.com/datasets/alopez247/pokemon
Пример ноутбука (с случайными пропусками строк): https://colab.research.google.com/drive/1BBcUCIJ0RS1XpzloWim7WhUyG3fPKFHv?usp=sharing

Готовы попробовать? Делитесь своими результатами в комментариях.

Все посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside
8
Добавили в специализацию новый блок про агентные системы

Это следующий шаг после базовой работы с моделями, когда они становятся частью системы с доступом к данным, инструментам и логике принятия решений.

Начинаем с базы: как устроен инференс LLM, что влияет на скорость и стоимость, зачем нужен kv-cache и квантование. Дальше переходим к практике – поднимаем инференс через triton, сравниваем vLLM и TensorRT и разбираемся, что выбирать под задачу.

Вторая часть – полноценный разбор Retrieval-Augmented Generation, в формате как это реально собирается в проде:
▪️как готовить данные и не сломать поиск
▪️чем отличаются BM25, FAISS и биэнкодеры
▪️как работает ранжирование и реранкеры
▪️как собирать контекст и управлять генерацией
▪️как считать метрики и находить узкие места
▪️как контролировать стоимость и обновления

Отдельно разбираем диагностику, безопасность и advanced-паттерны.

И финальный блок – сами агентные системы: архитектуры, мультиагентные сценарии, Supervisor-парадигма, протоколы взаимодействия (MCP), атаки и мониторинг. Плюс практические семинары и ДЗ после ключевых этапов.

А в практической части используем платформу VseLLM от Романа Куцева (эксперт в области оценки AI и фаундер платформы LLM Arena) – это сервис с единым API для доступа к разным моделям, балансировкой нагрузки и автоматическим переключением между провайдерами. Студентам специализации даём бонус на тестирование сервиса – можно будет сразу применять инструменты из курса на практике.

В этом блоке уроки ведут:
— Никита Зелинский (CDS MWS, директор по машинному обучению и исследованию данных)
— Максим Шаланкин (ML Team Lead в финтех‑команде Big Data MWS (МТС))

Если коротко: в этом блоке разбираем, как из отдельных моделей собираются полноценные AI-системы с понятной архитектурой и предсказуемым поведением.

Присоединяйтесь уже сейчас
7🔥72🎉2
Почему современные LLM, нейросети и большие языковые модели обучают именно на GPU, а не на CPU?

Рассказывает Андрей Жогов (ML-инженер в Сбере, преподаватель Физтеха) в новом видео на YouTube и ВК. Если хотите узнать, как устроена современная архитектура GPU для LLM, почему графические процессоры так хорошо подходят для матричных вычислений и за счёт чего они дают огромный прирост производительности в задачах машинного обучения, deep learning и инференса нейросетей, видео определенно будет вам полезно.

Вот ссылки для удобства:
YouTube
ВК
6🔥5👍2
Продолжаем рубрику Code Detective

Сегодня формат рубрики будет необычным. Мы опубликуем часть кода, а вам нужно сказать, что он выведет. Варианты будут в опросе ниже, а объяснение мы опубликуем завтра. Если рубрика вам нравится, будем благодарны, если поставите реакцию, а другие посты этой рубрики можно посмотреть по хэштегу: #CodeDetective_MLinside

Итак, вот сама задачка:

Что выведут следующие 2 примера?
x = 10
y = 10
print(x is y)

x = 1000
y = 1000
print(x is y)

#CodeDetective_MLinside
🔥13🤔10
2
Объяснение:
Это поведение связано с внутренней оптимизацией интерпретатора Python - кэшированием небольших чисел [-5,256]. Оператор is проверяет, ссылаются ли две переменные на один и тот же объект в памяти, для этого маленького списка ссылки на объекты берутся из кэша, а для всех других создаются новые

#CodeDetective_MLinside
🔥7👍53
За 2025 год мы выпустили 83 видео на YouTube

И очень благодарны, что вы их смотрите, лайкаете и комментируете. Нам это очень помогает в продвижении контента. И мы решили, что не помешает сделать подборку из тех видео, которые выделились среди других. Если что-то из этого пропустили, рекомендуем посмотреть:

Топ по просмотрам:
▪️ Карьера в топовых компаниях мира | Валерий Бабушкин 1 часть – просмотры: 50 169
▪️ ML в 2025: Как начать с нуля и не слиться (Пошаговый план из опыта) | Часть 1 – просмотры: 40 271
▪️ Зачем они нужны в ML? Собственные значения и собственные векторы – просмотры: 30 365

Топ по комментариям:
▪️ Математика в ML: сколько реально нужно знать – комментарии: 106
▪️ Стоит ли учить ML в 2026? Или поезд уже ушёл? – комментарии: 99
▪️ Сколько на самом деле зарабатывают ML-инженеры – комментарии: 68

Топ по лайкам:
▪️ ML в 2025: Как освоить модели и найти первую работу (Пошаговый план + Лайфхаки) | Часть 2 – лайки: 853
▪️"Никогда на Руси джуны хорошо не жили" | Валерий Бабушкин 2 часть – лайки: 687
▪️5 тем по линейной алгебре, без которых ты не поймёшь ML – лайки: 617

Спасибо, что вы с нами, дальше – больше
13🔥52
Почему на ML собеседовании спрашивают все подряд – от SQL до backend?

На ML-собеседованиях часто спрашивают не только машинное обучение, но и SQL, backend, алгоритмы и системный дизайн. Это вызывает у многих кандидатов недоумение: зачем ML-инженеру весь этот стек?

Ответ на этот вопрос разбирает Андрей Жогов (ML-инженер в Сбере, преподаватель Физтеха) у нас на YouTube, в ВК и ДЗЕН.

Кому будет полезно это видео:
▪️ Начинающим в ML – чтобы понять реальные требования профессии и не фокусироваться только на моделях
▪️ Тем, кто готовится к ML-собеседованию – чтобы закрыть пробелы и понимать, какие темы могут спросить
▪️ Data Scientist’ам – чтобы расширить понимание production-части и инженерных задач
▪️ Разработчикам, переходящим в ML — чтобы увидеть, какие навыки уже релевантны и чего не хватает
▪️ ML-инженерам на уровне junior/middle — чтобы систематизировать знания и подготовиться к следующему уровню
▪️ Тем, кто хочет попасть в Big Tech — чтобы понять ожидания компаний и структуру интервью

Если нашли себя в этом списке, переходите и смотрите видео на удобной для вас платформе:
https://youtu.be/vsHXuJTDi4M
https://vk.com/video-228219607_456239203
https://dzen.ru/video/watch/69da0b28a6a02616d1d2354d
74
Учимся на практике: решаем реальные ML-задачки

Это рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных (ну или почти реальных) проектов, чтобы лучше запомнить теорию. Плюс, упоминание об этом можно включить в портфолио, что определенно поможет вам на собеседованиях.

Одиннадцатая задача

Что нужно сделать: определить по различным признакам, транзакция фродовая или нет

Как можно сделать:
▪️Визуализировать данные чтобы визуально понять можно ли как-то кластеризовать или нет
▪️Посмотреть как-то коррелируют между собой признаки или нет
▪️Обучить модель для случая когда явный дизбаланс классов

Данные можно взять на Kaggle: https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud
Пример ноутбука (с случайными пропусками строк): https://colab.research.google.com/drive/10grgB6zavSk-ZgAm02ixGalRSPPtgHTx?usp=sharing

Готовы попробовать? Делитесь своими результатами в комментариях. А другие посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside
👍9
SVD в машинном обучении

У нас на YouTube, в ВК и ДЗЕН вышло видео с Андреем Жоговым (ML-инженер в Сбере, преподаватель Физтеха), где он разбирает, как работает SVD, почему он позволяет находить скрытую структуру в данных и где именно используется на практике: от обработки текстов до рекомендательных систем и современных LLM. Андрей объясняет SVD через геометрическую интуицию, показывает, как из большой и зашумлённой матрицы получить компактное представление данных, и разбирает ключевые кейсы: латентно-семантический анализ (LSA), матричную факторизацию и применение SVD в LoRA для дообучения нейросетей. В конце вас ждёт неожиданный пример, как SVD выявляет скрытые закономерности даже в данных голосований.

Кому будет полезно это видео и почему:
▪️ Начинающим в ML и Data Science — чтобы понять одну из ключевых тем линейной алгебры через практику, а не абстрактные формулы
▪️ Студентам и тем, кто изучает математику для ML — чтобы связать теорию (матрицы, разложения) с реальными задачами
▪️ ML-инженерам — чтобы глубже понимать методы снижения размерности, работу с признаками и оптимизацию моделей
▪️ Тем, кто работает с NLP — чтобы понять, как раньше решалась задача поиска смысла в текстах и откуда выросли современные эмбеддинги
▪️ Тем, кто интересуется LLM и fine-tuning — чтобы разобраться, как идеи SVD используются в LoRA и экономии ресурсов

Если нашли себя в этом списке, переходите и смотрите видео на удобной для вас платформе.
14👀4
В следующую среду, 29 апреля выходим в прямой эфир с Виктором Кантором

Вы наверняка знаете Виктора – он автор специализации «Машинное обучение и анализ данных» МФТИ и Яндекса на Coursera, которую с 2016 года прошли более 200 000 человек. За его плечами построение ML-службы в Яндекс.Такси, руководство Big Data в МТС (600+ сотрудников) и звание Forbes «30 до 30».

В эфире Виктор расскажет про новую специализацию «Искусственный интеллект и анализ данных» – переосмысленную версию легендарного курса, которую он выпустил вместе с командой MLinside. Полный путь от основ до нейросетей, LLM и AI-агентов по подписке от 5 000 ₽ в месяц.

Но кроме этого, Виктор ответит на ваши вопросы. Это хорошая возможность спросить напрямую у человека, который сам прошёл путь от Data Scientist до топ-менеджера:
▪️ Как войти в AI/ML с нуля?
▪️ Какой путь выбрать — Data Scientist, ML-инженер, AI Engineer?
▪️ Чем новая специализация отличается от того, что уже есть на рынке?
Или любой другой вопрос, на ваше усмотрение.

Задайте вопрос Виктору заранее – он ответит на него в эфире.

И зарегистрируйтесь на трансляцию, чтобы не пропустить начало: https://t.me/ml_insideBot?start=web290426
👍73🔥3
Python для ML: что нужно знать на старте?

Python – основной язык в машинном обучении, но для старта не нужно знать его целиком. На YouTube, в ВК и Дзен у нас вышло видео с Александром Дубейковским, где он разбирает, какая часть Python действительно используется в ML, какие библиотеки важны и как выглядит реальная работа ML-инженера. Вы поймёте, почему Python, это в первую очередь инструмент для работы с данными и экспериментами, а не язык для сложной разработки.

Видео будет полезно новичкам в ML (чтобы не тратить время на изучение лишнего и сразу сфокусироваться на нужных навыках), разработчикам, переходящим в ML (чтобы понять разницу между Python в backend и Python в машинном обучении), студентам и самоучкам (чтобы выстроить правильную траекторию обучения без перегруза) и тем, кто готовится к ML-собеседованию (чтобы понять, какой уровень Python реально ожидается).

Если нашли себя в этом списке, welcome к нам, на любую из удобных площадок:
https://youtu.be/_yAuLFKZZhk
https://vkvideo.ru/video-228219607_456239206
https://dzen.ru/video/watch/69eb4b55a0b5d51d0ac7700c
14🔥8👀4
Запускаем новую рубрику с математическими задачками

Эта рубрика поможет прокачать прикладное математическое мышление. А умение быстро разбираться в задачах, видеть структуру и находить решения без громоздких вычислений – супер полезно не только в теории, но и в практике ML, где часто важно быстро оценить поведение системы, вероятность исходов или логику процесса.

Сегодня первая задачка и мы проверим, насколько хорошо вы чувствуете производные. Формат простой: посмотрите на график и ответьте на вопрос:

В какой из точек производная функции y=f(x) принимает наибольшее значение?


#math_MLinside
12👍3🔥2
В какой из точек производная функции y=f(x) принимает наибольшее значение?
Anonymous Quiz
2%
A
15%
B
5%
C
78%
D
3
MLinside - школа ML
В следующую среду, 29 апреля выходим в прямой эфир с Виктором Кантором Вы наверняка знаете Виктора – он автор специализации «Машинное обучение и анализ данных» МФТИ и Яндекса на Coursera, которую с 2016 года прошли более 200 000 человек. За его плечами построение…
Послезавтра, 29 апреля в 19:00 выходим в прямой эфир с Виктором Кантором на YouTube

В эфире можно будет задать вопрос напрямую Виктору и пообщаться с ним на тему ML или AI. Также, Виктор расскажет про курс специализация «Искусственный интеллект и анализ данных».

Задать вопрос Виктору заранее: https://forms.yandex.ru/u/69e884fe6d2d736b9b087371

Зарегистрируйтесь на трансляцию, чтобы не пропустить начало: https://t.me/ml_insideBot?start=web290426
Машинное обучение меняется быстрее, чем кажется

Подходы, которые ещё недавно считались стандартом, сегодня уже теряют актуальность и на эту тему у нас на YouTube, в ВК и Дзен вышло видео, где Александр Дубейковский (ML-Engineer Авито, ex-Yandex, эксперт MLinside) разбирает, какие знания по ML устаревают быстрее всего в 2026 году: от классических алгоритмов и старых NLP-подходов до инструментов и библиотек, которые постепенно уходят из продакшна.

Видео будет полезно:
Новичкам в ML: чтобы не тратить время на устаревшие подходы и сразу учить актуальный стек
Junior ML-инженерам: чтобы понять, какие знания реально востребованы на практике
Тем, кто готовится к собеседованиям: чтобы не фокусироваться на том, что почти не спрашивают и не используют
Data Scientists: чтобы переоценить свой стек и актуализировать навыки
Backend/Data инженерам, переходящим в ML: чтобы быстрее понять, как изменилась индустрия
Практикующим специалистам: чтобы не отставать от трендов и понимать, куда движется рынок

Видео вышло на всех площадках:
https://youtu.be/ML1Df2_e9xA
https://vkvideo.ru/video-228219607_456239208
https://dzen.ru/video/watch/69f34789cda828524c42f444
Всем стоять, работают Code Detectives

Да, это та самая рубрика, где мы публикуем часть кода, а вам нужно сказать, что он выведет. Варианты будут в опросе ниже, а объяснение мы опубликуем позже.

Не забывайте, что если рубрика вам нравится, мы будем благодарны, если поставите реакцию, а другие посты этой рубрики можно посмотреть по хэштегу: #CodeDetective_MLinside

Итак, вот сама задачка:

Что выведут следующие 3 примера?
x = 0.1 + 0.2
if x == 0.3:
print(True)
else:
print(False)

x = 0.5 + 0.2
if x == 0.7:
print(True)
else:
print(False)

x = 0.1 + 0.25
if x == 0.35:
print(True)
else:
print(False)

#CodeDetective_MLinside
17🔥21