PET-проекты, которые помогут собрать сильное ML-портфолио
Собрать первое ML-портфолио сейчас – не проблема. Проблема - показать работодателю, что вы готовы работать с реальными задачами.
Поэтому, если вы покажете подходящие pet-проекты, то можно считать, что оффер у вас в кармане.
Вот 3 типа проектов, которые особенно хорошо работают для ML-портфолио.
▪️Проект на современных ML-технологиях
Очевидный, но тем не менее, крайне важный совет. Используйте актуальные технологии, например, это может быть работа с большими языковыми моделями, транспортерами или современными NLP-подходами.
Идеи для таких проектов можно найти прямо в вакансиях. Просто посмотрите, какие технологии компании упоминают чаще всего.
▪️Проект с бизнес-задачей
Второй тип проектов – задачи, которые уже решаются в компаниях. Это может быть кредитный скоринг, ранжирование рекламы, прогнозирование спроса или задачи ценообразования.
Тут важно показать, как вы оцениваете результат: какие метрики используете, как сравниваете модели и почему выбираете конкретное решение.
▪️Проект с реальным применением
Это может быть небольшой сервис с ML-моделью, автоматизация рабочей задачи или эксперимент в продукте. Даже небольшой проект с реальными пользователями показывает, что вы умеете не только обучать модели, но и применять их на практике.
Эти 3 упражнения делайте,спина болеть не будет проблем с поиском работы не будет. А если не знаете, с чего начать, посмотрите варианты pet-проектов у нас в канале по хэштегу #петпроект_MLinside
Собрать первое ML-портфолио сейчас – не проблема. Проблема - показать работодателю, что вы готовы работать с реальными задачами.
Поэтому, если вы покажете подходящие pet-проекты, то можно считать, что оффер у вас в кармане.
Вот 3 типа проектов, которые особенно хорошо работают для ML-портфолио.
▪️Проект на современных ML-технологиях
Очевидный, но тем не менее, крайне важный совет. Используйте актуальные технологии, например, это может быть работа с большими языковыми моделями, транспортерами или современными NLP-подходами.
Идеи для таких проектов можно найти прямо в вакансиях. Просто посмотрите, какие технологии компании упоминают чаще всего.
▪️Проект с бизнес-задачей
Второй тип проектов – задачи, которые уже решаются в компаниях. Это может быть кредитный скоринг, ранжирование рекламы, прогнозирование спроса или задачи ценообразования.
Тут важно показать, как вы оцениваете результат: какие метрики используете, как сравниваете модели и почему выбираете конкретное решение.
▪️Проект с реальным применением
Это может быть небольшой сервис с ML-моделью, автоматизация рабочей задачи или эксперимент в продукте. Даже небольшой проект с реальными пользователями показывает, что вы умеете не только обучать модели, но и применять их на практике.
Эти 3 упражнения делайте,
👍4❤1🔥1😁1
Во многих задачах ML не нужен и только усложняет продукт
Но как понять, когда ML действительно оправдан, а когда лучше использовать простые алгоритмы и правила?
Рассказывает наш бессменный спикер – Александр Дубейковский на YouTube, в ВК и ДЗЕН.
Что Александр рассказал в видео:
▪️ какие задачи действительно требуют машинного обучения
▪️ почему наличие данных ещё не означает, что нужна модель
▪️ когда ML становится избыточным решением
▪️ какие ограничения делают использование ML рискованным
▪️ как быстро проверить идею до разработки полноценной модели
▪️ почему внедрение ML часто оказывается дороже ожидаемой пользы
Если вы разработчик, аналитик, продакт-менеджер или работаете с данными и принимаете решения о внедрении ML, видео вам будет полезно, рекомендуем посмотреть.
Но как понять, когда ML действительно оправдан, а когда лучше использовать простые алгоритмы и правила?
Рассказывает наш бессменный спикер – Александр Дубейковский на YouTube, в ВК и ДЗЕН.
Что Александр рассказал в видео:
▪️ какие задачи действительно требуют машинного обучения
▪️ почему наличие данных ещё не означает, что нужна модель
▪️ когда ML становится избыточным решением
▪️ какие ограничения делают использование ML рискованным
▪️ как быстро проверить идею до разработки полноценной модели
▪️ почему внедрение ML часто оказывается дороже ожидаемой пользы
Если вы разработчик, аналитик, продакт-менеджер или работаете с данными и принимаете решения о внедрении ML, видео вам будет полезно, рекомендуем посмотреть.
❤1
Учимся на практике: решаем реальные ML-задачки
С вами рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных проектов, чтобы лучше запомнить теорию. Плюс, упоминание об этом можно включить в портфолио, что определенно поможет вам на собеседованиях.
Девятая задача: предсказание качества вина по его характеристикам
Что нужно сделать: на основе различных характеристик вина определить каким будет его итоговое качество
Как можно сделать:
▪️Обучить регрессор, затем классификатор, сравнить их качество предсказания
▪️Нормализовать данные или их часть и снова обучить, посмотреть как нормализация повлияла на качество
▪️Построить графики важности признаков для каждой из итоговых оценок качества
Данные можно взять на Kaggle: https://www.kaggle.com/datasets/uciml/red-wine-quality-cortez-et-al-2009
Пример ноутбука (с случайными пропусками строк): https://colab.research.google.com/drive/1qfOnrBpsIhNR4Sh6J47ImpjrkTWh2brJ?usp=sharing
Готовы попробовать? Делитесь своими результатами в комментариях.
Все посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside
С вами рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных проектов, чтобы лучше запомнить теорию. Плюс, упоминание об этом можно включить в портфолио, что определенно поможет вам на собеседованиях.
Девятая задача: предсказание качества вина по его характеристикам
Что нужно сделать: на основе различных характеристик вина определить каким будет его итоговое качество
Как можно сделать:
▪️Обучить регрессор, затем классификатор, сравнить их качество предсказания
▪️Нормализовать данные или их часть и снова обучить, посмотреть как нормализация повлияла на качество
▪️Построить графики важности признаков для каждой из итоговых оценок качества
Данные можно взять на Kaggle: https://www.kaggle.com/datasets/uciml/red-wine-quality-cortez-et-al-2009
Пример ноутбука (с случайными пропусками строк): https://colab.research.google.com/drive/1qfOnrBpsIhNR4Sh6J47ImpjrkTWh2brJ?usp=sharing
Готовы попробовать? Делитесь своими результатами в комментариях.
Все посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside
🔥5❤3
На ML-собеседованиях проверяют не только знание алгоритмов и умение писать код
Гораздо важнее, есть ли у вас целостная картина машинного обучения. Понимаете ли вы, как связаны данные, признаки, модели и метрики, и можете ли объяснить свои решения.
У нас на YouTube, в ВК и Дзен вышло видео, где Александр Дубейковский разбирает, что именно оценивают интервьюеры и почему даже сильные кандидаты часто проваливаются на простых вопросах.
Гораздо важнее, есть ли у вас целостная картина машинного обучения. Понимаете ли вы, как связаны данные, признаки, модели и метрики, и можете ли объяснить свои решения.
У нас на YouTube, в ВК и Дзен вышло видео, где Александр Дубейковский разбирает, что именно оценивают интервьюеры и почему даже сильные кандидаты часто проваливаются на простых вопросах.
❤6🔥3👏2⚡1
Продолжаем нашу регулярную рубрику Code Detective
Напомним правила – мы публикуем фрагмент кода, а вы смотрите, что с ним не так. Но трюк в том, что ошибки может и не быть. Так что если хотите прокачать навык чтения и анализа чужого кода, а это крайне полезный навык в работе ML-инженера, рубрика вам пригодится.
Вот фрагмент кода:
Тут всё хорошо. Или нет? Есть какая-то ошибка? Если есть, напишите в комментариях:
1. Какую ошибку нашли;
2. Варианты её исправления.
Ответ мы опубликуем завтра, а посты этой рубрики можно посмотреть по хэштегу: #CodeDetective_MLinside
Напомним правила – мы публикуем фрагмент кода, а вы смотрите, что с ним не так. Но трюк в том, что ошибки может и не быть. Так что если хотите прокачать навык чтения и анализа чужого кода, а это крайне полезный навык в работе ML-инженера, рубрика вам пригодится.
Вот фрагмент кода:
funcs = []
for i in range(3):
funcs.append(lambda: i) # хотим сделать список функций которые будут выводить 0, 1, 2
print([f() for f in funcs])
Тут всё хорошо. Или нет? Есть какая-то ошибка? Если есть, напишите в комментариях:
1. Какую ошибку нашли;
2. Варианты её исправления.
Ответ мы опубликуем завтра, а посты этой рубрики можно посмотреть по хэштегу: #CodeDetective_MLinside
⚡4
Как линейная алгебра помогает понять, что делает модель машинного обучения
Машинное обучение часто воспринимается как черный ящик. Кажется, что внутри происходит что-то слишком сложное и недоступное без сильной математики. Из-за этого многие откладывают старт, думая, что сначала нужно разобраться в теории. Но на базовом уровне модель работает гораздо проще, чем кажется. Если упростить, она берет признаки, применяет к ним коэффициенты и получает результат. Вся эта логика описывается инструментами линейной алгебры.
Вот как это выглядит на практике:
▪️Любой объект представляется как набор чисел. Это вектор признаков, например рост, вес или любые другие характеристики.
▪️Когда таких объектов много, они складываются в матрицу. По сути, это таблица, с которой работает модель.
▪️В процессе обучения модель подбирает коэффициенты. Часто это можно описать как умножение на матрицу весов.
▪️Признаки могут быть связаны между собой. Сильная линейная зависимость может ухудшать обучение и приводить к нестабильным оценкам коэффициентов.
▪️Чтобы упростить задачу, используются разложения матриц. Они помогают снизить размерность и выделить наиболее значимые направления в данных.
Если собрать это в одну мысль, на базовом уровне модель сводится к последовательным преобразованиям чисел и поиску таких коэффициентов, при которых результат становится максимально близким к нужному. Именно поэтому математика в ML не выглядит как бесконечный набор формул. Важно понять логику работы с признаками и тем, как они преобразуются. Глубокие детали приходят уже по мере решения конкретных задач.
Если хочется разобраться в ML без ощущения перегруза, стоит начинать именно с таких базовых вещей. Это дает понимание, на которое потом легко наслаиваются более сложные темы.
Машинное обучение часто воспринимается как черный ящик. Кажется, что внутри происходит что-то слишком сложное и недоступное без сильной математики. Из-за этого многие откладывают старт, думая, что сначала нужно разобраться в теории. Но на базовом уровне модель работает гораздо проще, чем кажется. Если упростить, она берет признаки, применяет к ним коэффициенты и получает результат. Вся эта логика описывается инструментами линейной алгебры.
Вот как это выглядит на практике:
▪️Любой объект представляется как набор чисел. Это вектор признаков, например рост, вес или любые другие характеристики.
▪️Когда таких объектов много, они складываются в матрицу. По сути, это таблица, с которой работает модель.
▪️В процессе обучения модель подбирает коэффициенты. Часто это можно описать как умножение на матрицу весов.
▪️Признаки могут быть связаны между собой. Сильная линейная зависимость может ухудшать обучение и приводить к нестабильным оценкам коэффициентов.
▪️Чтобы упростить задачу, используются разложения матриц. Они помогают снизить размерность и выделить наиболее значимые направления в данных.
Если собрать это в одну мысль, на базовом уровне модель сводится к последовательным преобразованиям чисел и поиску таких коэффициентов, при которых результат становится максимально близким к нужному. Именно поэтому математика в ML не выглядит как бесконечный набор формул. Важно понять логику работы с признаками и тем, как они преобразуются. Глубокие детали приходят уже по мере решения конкретных задач.
Если хочется разобраться в ML без ощущения перегруза, стоит начинать именно с таких базовых вещей. Это дает понимание, на которое потом легко наслаиваются более сложные темы.
❤14⚡2👍1
TP/ DP/ PP – как масштабировать обучение LLM?
Рассказывает Андрей Жогов (ML-инженер в Сбере, преподаватель Физтеха) на YouTube. Если вы пытались обучать большие LLM и упирались в ошибку CUDA Out of Memory – вы не одиноки.
В видео Андрей разобрал, как на практике обучают модели, которые физически не помещаются ни в одну видеокарту, и какие подходы используют в индустрии, чтобы масштабировать обучение без хаоса и слива бюджета.
Пока видео можно посмотреть только на YouTube: https://youtu.be/QPOd_c7DHpw?si=9NgnzDpsUzbTPoXL, в ВК и Дзен есть некоторые проблемы с обработкой видео.
Рассказывает Андрей Жогов (ML-инженер в Сбере, преподаватель Физтеха) на YouTube. Если вы пытались обучать большие LLM и упирались в ошибку CUDA Out of Memory – вы не одиноки.
В видео Андрей разобрал, как на практике обучают модели, которые физически не помещаются ни в одну видеокарту, и какие подходы используют в индустрии, чтобы масштабировать обучение без хаоса и слива бюджета.
Пока видео можно посмотреть только на YouTube: https://youtu.be/QPOd_c7DHpw?si=9NgnzDpsUzbTPoXL, в ВК и Дзен есть некоторые проблемы с обработкой видео.
🔥6❤5
Как вам тема видео?
Anonymous Poll
82%
Супер
16%
Норм
2%
Хочу видео на другую тему (будем благодарны, если в комментариях напишете, на какую именно)
⚡3
Учимся на практике: решаем реальные ML-задачки, да еще и с покемонами
Миллениалы на месте? Сегодня будем определять лучшего покемона с помощью ML. Да, это рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных (ну или почти реальных) проектов, чтобы лучше запомнить теорию. Не уверены, что упоминание об этом проекте можно включить в портфолио, и поможет ли вам это на собеседованиях, но тем не менее.
Десятая задача
Что нужно сделать: Определить лучшего покемона каждого поколения
Как можно сделать:
▪️Определить лучшие характеристики (атака, защита, хп) для каждого поколения
▪️Сделать классификационную модель определения является ли покемон легендарным или нет (переменная isLegendary)
▪️Сделать классификационную модель которая определяется цвет (Color) покемона по его характеристикам, посмотреть какие признаки важны для такой модели
▪️Посмотреть есть ли какая-то зависимость роста и веса от типа (Type_1 и Type_2 и т.д.) покемона
Данные можно взять на Kaggle: https://www.kaggle.com/datasets/alopez247/pokemon
Пример ноутбука (с случайными пропусками строк): https://colab.research.google.com/drive/1BBcUCIJ0RS1XpzloWim7WhUyG3fPKFHv?usp=sharing
Готовы попробовать? Делитесь своими результатами в комментариях.
Все посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside
Миллениалы на месте? Сегодня будем определять лучшего покемона с помощью ML. Да, это рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных (ну или почти реальных) проектов, чтобы лучше запомнить теорию. Не уверены, что упоминание об этом проекте можно включить в портфолио, и поможет ли вам это на собеседованиях, но тем не менее.
Десятая задача
Что нужно сделать: Определить лучшего покемона каждого поколения
Как можно сделать:
▪️Определить лучшие характеристики (атака, защита, хп) для каждого поколения
▪️Сделать классификационную модель определения является ли покемон легендарным или нет (переменная isLegendary)
▪️Сделать классификационную модель которая определяется цвет (Color) покемона по его характеристикам, посмотреть какие признаки важны для такой модели
▪️Посмотреть есть ли какая-то зависимость роста и веса от типа (Type_1 и Type_2 и т.д.) покемона
Данные можно взять на Kaggle: https://www.kaggle.com/datasets/alopez247/pokemon
Пример ноутбука (с случайными пропусками строк): https://colab.research.google.com/drive/1BBcUCIJ0RS1XpzloWim7WhUyG3fPKFHv?usp=sharing
Готовы попробовать? Делитесь своими результатами в комментариях.
Все посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside
⚡8
Добавили в специализацию новый блок про агентные системы
Это следующий шаг после базовой работы с моделями, когда они становятся частью системы с доступом к данным, инструментам и логике принятия решений.
Начинаем с базы: как устроен инференс LLM, что влияет на скорость и стоимость, зачем нужен kv-cache и квантование. Дальше переходим к практике – поднимаем инференс через triton, сравниваем vLLM и TensorRT и разбираемся, что выбирать под задачу.
Вторая часть – полноценный разбор Retrieval-Augmented Generation, в формате как это реально собирается в проде:
▪️как готовить данные и не сломать поиск
▪️чем отличаются BM25, FAISS и биэнкодеры
▪️как работает ранжирование и реранкеры
▪️как собирать контекст и управлять генерацией
▪️как считать метрики и находить узкие места
▪️как контролировать стоимость и обновления
Отдельно разбираем диагностику, безопасность и advanced-паттерны.
И финальный блок – сами агентные системы: архитектуры, мультиагентные сценарии, Supervisor-парадигма, протоколы взаимодействия (MCP), атаки и мониторинг. Плюс практические семинары и ДЗ после ключевых этапов.
А в практической части используем платформу VseLLM от Романа Куцева (эксперт в области оценки AI и фаундер платформы LLM Arena) – это сервис с единым API для доступа к разным моделям, балансировкой нагрузки и автоматическим переключением между провайдерами. Студентам специализации даём бонус на тестирование сервиса – можно будет сразу применять инструменты из курса на практике.
В этом блоке уроки ведут:
— Никита Зелинский (CDS MWS, директор по машинному обучению и исследованию данных)
— Максим Шаланкин (ML Team Lead в финтех‑команде Big Data MWS (МТС))
Если коротко: в этом блоке разбираем, как из отдельных моделей собираются полноценные AI-системы с понятной архитектурой и предсказуемым поведением.
Присоединяйтесь уже сейчас
Это следующий шаг после базовой работы с моделями, когда они становятся частью системы с доступом к данным, инструментам и логике принятия решений.
Начинаем с базы: как устроен инференс LLM, что влияет на скорость и стоимость, зачем нужен kv-cache и квантование. Дальше переходим к практике – поднимаем инференс через triton, сравниваем vLLM и TensorRT и разбираемся, что выбирать под задачу.
Вторая часть – полноценный разбор Retrieval-Augmented Generation, в формате как это реально собирается в проде:
▪️как готовить данные и не сломать поиск
▪️чем отличаются BM25, FAISS и биэнкодеры
▪️как работает ранжирование и реранкеры
▪️как собирать контекст и управлять генерацией
▪️как считать метрики и находить узкие места
▪️как контролировать стоимость и обновления
Отдельно разбираем диагностику, безопасность и advanced-паттерны.
И финальный блок – сами агентные системы: архитектуры, мультиагентные сценарии, Supervisor-парадигма, протоколы взаимодействия (MCP), атаки и мониторинг. Плюс практические семинары и ДЗ после ключевых этапов.
А в практической части используем платформу VseLLM от Романа Куцева (эксперт в области оценки AI и фаундер платформы LLM Arena) – это сервис с единым API для доступа к разным моделям, балансировкой нагрузки и автоматическим переключением между провайдерами. Студентам специализации даём бонус на тестирование сервиса – можно будет сразу применять инструменты из курса на практике.
В этом блоке уроки ведут:
— Никита Зелинский (CDS MWS, директор по машинному обучению и исследованию данных)
— Максим Шаланкин (ML Team Lead в финтех‑команде Big Data MWS (МТС))
Если коротко: в этом блоке разбираем, как из отдельных моделей собираются полноценные AI-системы с понятной архитектурой и предсказуемым поведением.
Присоединяйтесь уже сейчас
❤7🔥7⚡2🎉2
Почему современные LLM, нейросети и большие языковые модели обучают именно на GPU, а не на CPU?
Рассказывает Андрей Жогов (ML-инженер в Сбере, преподаватель Физтеха) в новом видео на YouTube и ВК. Если хотите узнать, как устроена современная архитектура GPU для LLM, почему графические процессоры так хорошо подходят для матричных вычислений и за счёт чего они дают огромный прирост производительности в задачах машинного обучения, deep learning и инференса нейросетей, видео определенно будет вам полезно.
Вот ссылки для удобства:
YouTube
ВК
Рассказывает Андрей Жогов (ML-инженер в Сбере, преподаватель Физтеха) в новом видео на YouTube и ВК. Если хотите узнать, как устроена современная архитектура GPU для LLM, почему графические процессоры так хорошо подходят для матричных вычислений и за счёт чего они дают огромный прирост производительности в задачах машинного обучения, deep learning и инференса нейросетей, видео определенно будет вам полезно.
Вот ссылки для удобства:
YouTube
ВК
❤6🔥5👍2
Как вам тема видео?
Anonymous Poll
76%
Супер
17%
Норм
6%
Хочу другую тему (будет благодарны, если напишете в комментариях ваши идеи)
Продолжаем рубрику Code Detective
Сегодня формат рубрики будет необычным. Мы опубликуем часть кода, а вам нужно сказать, что он выведет. Варианты будут в опросе ниже, а объяснение мы опубликуем завтра. Если рубрика вам нравится, будем благодарны, если поставите реакцию, а другие посты этой рубрики можно посмотреть по хэштегу: #CodeDetective_MLinside
Итак, вот сама задачка:
Что выведут следующие 2 примера?
#CodeDetective_MLinside
Сегодня формат рубрики будет необычным. Мы опубликуем часть кода, а вам нужно сказать, что он выведет. Варианты будут в опросе ниже, а объяснение мы опубликуем завтра. Если рубрика вам нравится, будем благодарны, если поставите реакцию, а другие посты этой рубрики можно посмотреть по хэштегу: #CodeDetective_MLinside
Итак, вот сама задачка:
Что выведут следующие 2 примера?
x = 10
y = 10
print(x is y)
x = 1000
y = 1000
print(x is y)
#CodeDetective_MLinside
🔥13🤔10
⚡2
Объяснение:
#CodeDetective_MLinside
Это поведение связано с внутренней оптимизацией интерпретатора Python - кэшированием небольших чисел [-5,256]. Оператор is проверяет, ссылаются ли две переменные на один и тот же объект в памяти, для этого маленького списка ссылки на объекты берутся из кэша, а для всех других создаются новые
#CodeDetective_MLinside
🔥7👍5⚡3
За 2025 год мы выпустили 83 видео на YouTube
И очень благодарны, что вы их смотрите, лайкаете и комментируете. Нам это очень помогает в продвижении контента. И мы решили, что не помешает сделать подборку из тех видео, которые выделились среди других. Если что-то из этого пропустили, рекомендуем посмотреть:
Топ по просмотрам:
▪️ Карьера в топовых компаниях мира | Валерий Бабушкин 1 часть – просмотры: 50 169
▪️ ML в 2025: Как начать с нуля и не слиться (Пошаговый план из опыта) | Часть 1 – просмотры: 40 271
▪️ Зачем они нужны в ML? Собственные значения и собственные векторы – просмотры: 30 365
Топ по комментариям:
▪️ Математика в ML: сколько реально нужно знать – комментарии: 106
▪️ Стоит ли учить ML в 2026? Или поезд уже ушёл? – комментарии: 99
▪️ Сколько на самом деле зарабатывают ML-инженеры – комментарии: 68
Топ по лайкам:
▪️ ML в 2025: Как освоить модели и найти первую работу (Пошаговый план + Лайфхаки) | Часть 2 – лайки: 853
▪️"Никогда на Руси джуны хорошо не жили" | Валерий Бабушкин 2 часть – лайки: 687
▪️5 тем по линейной алгебре, без которых ты не поймёшь ML – лайки: 617
Спасибо, что вы с нами, дальше – больше
И очень благодарны, что вы их смотрите, лайкаете и комментируете. Нам это очень помогает в продвижении контента. И мы решили, что не помешает сделать подборку из тех видео, которые выделились среди других. Если что-то из этого пропустили, рекомендуем посмотреть:
Топ по просмотрам:
▪️ Карьера в топовых компаниях мира | Валерий Бабушкин 1 часть – просмотры: 50 169
▪️ ML в 2025: Как начать с нуля и не слиться (Пошаговый план из опыта) | Часть 1 – просмотры: 40 271
▪️ Зачем они нужны в ML? Собственные значения и собственные векторы – просмотры: 30 365
Топ по комментариям:
▪️ Математика в ML: сколько реально нужно знать – комментарии: 106
▪️ Стоит ли учить ML в 2026? Или поезд уже ушёл? – комментарии: 99
▪️ Сколько на самом деле зарабатывают ML-инженеры – комментарии: 68
Топ по лайкам:
▪️ ML в 2025: Как освоить модели и найти первую работу (Пошаговый план + Лайфхаки) | Часть 2 – лайки: 853
▪️"Никогда на Руси джуны хорошо не жили" | Валерий Бабушкин 2 часть – лайки: 687
▪️5 тем по линейной алгебре, без которых ты не поймёшь ML – лайки: 617
Спасибо, что вы с нами, дальше – больше
⚡13🔥5❤2
Какой формат курса вам сейчас нужнее?
Anonymous Poll
40%
База ML с нуля (структурно пройти весь фундамент)
47%
Узкие направления (например NLP, RecSys, CV)
60%
Практические курсы (pet-проекты, реальные задачи)
46%
Подготовка к работе (собеседования, кейсы, портфолио)
2%
Другой вариант (будет благодарны, если напишете подробнее в комментариях)
⚡6❤2
Почему на ML собеседовании спрашивают все подряд – от SQL до backend?
На ML-собеседованиях часто спрашивают не только машинное обучение, но и SQL, backend, алгоритмы и системный дизайн. Это вызывает у многих кандидатов недоумение: зачем ML-инженеру весь этот стек?
Ответ на этот вопрос разбирает Андрей Жогов (ML-инженер в Сбере, преподаватель Физтеха) у нас на YouTube, в ВК и ДЗЕН.
Кому будет полезно это видео:
▪️ Начинающим в ML – чтобы понять реальные требования профессии и не фокусироваться только на моделях
▪️ Тем, кто готовится к ML-собеседованию – чтобы закрыть пробелы и понимать, какие темы могут спросить
▪️ Data Scientist’ам – чтобы расширить понимание production-части и инженерных задач
▪️ Разработчикам, переходящим в ML — чтобы увидеть, какие навыки уже релевантны и чего не хватает
▪️ ML-инженерам на уровне junior/middle — чтобы систематизировать знания и подготовиться к следующему уровню
▪️ Тем, кто хочет попасть в Big Tech — чтобы понять ожидания компаний и структуру интервью
Если нашли себя в этом списке, переходите и смотрите видео на удобной для вас платформе:
https://youtu.be/vsHXuJTDi4M
https://vk.com/video-228219607_456239203
https://dzen.ru/video/watch/69da0b28a6a02616d1d2354d
На ML-собеседованиях часто спрашивают не только машинное обучение, но и SQL, backend, алгоритмы и системный дизайн. Это вызывает у многих кандидатов недоумение: зачем ML-инженеру весь этот стек?
Ответ на этот вопрос разбирает Андрей Жогов (ML-инженер в Сбере, преподаватель Физтеха) у нас на YouTube, в ВК и ДЗЕН.
Кому будет полезно это видео:
▪️ Начинающим в ML – чтобы понять реальные требования профессии и не фокусироваться только на моделях
▪️ Тем, кто готовится к ML-собеседованию – чтобы закрыть пробелы и понимать, какие темы могут спросить
▪️ Data Scientist’ам – чтобы расширить понимание production-части и инженерных задач
▪️ Разработчикам, переходящим в ML — чтобы увидеть, какие навыки уже релевантны и чего не хватает
▪️ ML-инженерам на уровне junior/middle — чтобы систематизировать знания и подготовиться к следующему уровню
▪️ Тем, кто хочет попасть в Big Tech — чтобы понять ожидания компаний и структуру интервью
Если нашли себя в этом списке, переходите и смотрите видео на удобной для вас платформе:
https://youtu.be/vsHXuJTDi4M
https://vk.com/video-228219607_456239203
https://dzen.ru/video/watch/69da0b28a6a02616d1d2354d
❤7⚡4
Учимся на практике: решаем реальные ML-задачки
Это рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных (ну или почти реальных) проектов, чтобы лучше запомнить теорию. Плюс, упоминание об этом можно включить в портфолио, что определенно поможет вам на собеседованиях.
Одиннадцатая задача
Что нужно сделать: определить по различным признакам, транзакция фродовая или нет
Как можно сделать:
▪️Визуализировать данные чтобы визуально понять можно ли как-то кластеризовать или нет
▪️Посмотреть как-то коррелируют между собой признаки или нет
▪️Обучить модель для случая когда явный дизбаланс классов
Данные можно взять на Kaggle: https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud
Пример ноутбука (с случайными пропусками строк): https://colab.research.google.com/drive/10grgB6zavSk-ZgAm02ixGalRSPPtgHTx?usp=sharing
Готовы попробовать? Делитесь своими результатами в комментариях. А другие посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside
Это рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных (ну или почти реальных) проектов, чтобы лучше запомнить теорию. Плюс, упоминание об этом можно включить в портфолио, что определенно поможет вам на собеседованиях.
Одиннадцатая задача
Что нужно сделать: определить по различным признакам, транзакция фродовая или нет
Как можно сделать:
▪️Визуализировать данные чтобы визуально понять можно ли как-то кластеризовать или нет
▪️Посмотреть как-то коррелируют между собой признаки или нет
▪️Обучить модель для случая когда явный дизбаланс классов
Данные можно взять на Kaggle: https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud
Пример ноутбука (с случайными пропусками строк): https://colab.research.google.com/drive/10grgB6zavSk-ZgAm02ixGalRSPPtgHTx?usp=sharing
Готовы попробовать? Делитесь своими результатами в комментариях. А другие посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside
👍9
SVD в машинном обучении
У нас на YouTube, в ВК и ДЗЕН вышло видео с Андреем Жоговым (ML-инженер в Сбере, преподаватель Физтеха), где он разбирает, как работает SVD, почему он позволяет находить скрытую структуру в данных и где именно используется на практике: от обработки текстов до рекомендательных систем и современных LLM. Андрей объясняет SVD через геометрическую интуицию, показывает, как из большой и зашумлённой матрицы получить компактное представление данных, и разбирает ключевые кейсы: латентно-семантический анализ (LSA), матричную факторизацию и применение SVD в LoRA для дообучения нейросетей. В конце вас ждёт неожиданный пример, как SVD выявляет скрытые закономерности даже в данных голосований.
Кому будет полезно это видео и почему:
▪️ Начинающим в ML и Data Science — чтобы понять одну из ключевых тем линейной алгебры через практику, а не абстрактные формулы
▪️ Студентам и тем, кто изучает математику для ML — чтобы связать теорию (матрицы, разложения) с реальными задачами
▪️ ML-инженерам — чтобы глубже понимать методы снижения размерности, работу с признаками и оптимизацию моделей
▪️ Тем, кто работает с NLP — чтобы понять, как раньше решалась задача поиска смысла в текстах и откуда выросли современные эмбеддинги
▪️ Тем, кто интересуется LLM и fine-tuning — чтобы разобраться, как идеи SVD используются в LoRA и экономии ресурсов
Если нашли себя в этом списке, переходите и смотрите видео на удобной для вас платформе.
У нас на YouTube, в ВК и ДЗЕН вышло видео с Андреем Жоговым (ML-инженер в Сбере, преподаватель Физтеха), где он разбирает, как работает SVD, почему он позволяет находить скрытую структуру в данных и где именно используется на практике: от обработки текстов до рекомендательных систем и современных LLM. Андрей объясняет SVD через геометрическую интуицию, показывает, как из большой и зашумлённой матрицы получить компактное представление данных, и разбирает ключевые кейсы: латентно-семантический анализ (LSA), матричную факторизацию и применение SVD в LoRA для дообучения нейросетей. В конце вас ждёт неожиданный пример, как SVD выявляет скрытые закономерности даже в данных голосований.
Кому будет полезно это видео и почему:
▪️ Начинающим в ML и Data Science — чтобы понять одну из ключевых тем линейной алгебры через практику, а не абстрактные формулы
▪️ Студентам и тем, кто изучает математику для ML — чтобы связать теорию (матрицы, разложения) с реальными задачами
▪️ ML-инженерам — чтобы глубже понимать методы снижения размерности, работу с признаками и оптимизацию моделей
▪️ Тем, кто работает с NLP — чтобы понять, как раньше решалась задача поиска смысла в текстах и откуда выросли современные эмбеддинги
▪️ Тем, кто интересуется LLM и fine-tuning — чтобы разобраться, как идеи SVD используются в LoRA и экономии ресурсов
Если нашли себя в этом списке, переходите и смотрите видео на удобной для вас платформе.
YouTube
SVD в машинном обучении
SVD — один из базовых инструментов линейной алгебры, который широко применяется в машинном обучении.
В этом видео Андрей Жогов (ML-инженер в Сбере, преподаватель Физтеха) разбирает, как работает SVD, почему он позволяет находить скрытую структуру в данных…
В этом видео Андрей Жогов (ML-инженер в Сбере, преподаватель Физтеха) разбирает, как работает SVD, почему он позволяет находить скрытую структуру в данных…
❤14👀4