Библиотека собеса по Data Science | вопросы с собеседований

🫣 Боитесь математики в ML?

Думаете, для этого нужно вспоминать университетские интегралы и решать сложные уравнения?

У нас хорошая новость: машинное обучение — это в первую очередь инженерная практика, а не математическая олимпиада. Здесь важнее понимать суть, а не выводить формулы.

Именно на таком подходе — через логику, интуицию и наглядные примеры — и построен наш курс «ML для старта в Data Science», где мы объясняем всё на пальцах, без боли и зубрёжки.

Регистрируйтесь, пока есть свободные места 😉

686 views15:03

💡

Как связаны ошибки первого и второго рода с precision, recall и ROC-кривой

Ошибки первого рода (ложноположительные) и второго рода (ложноотрицательные) напрямую отражаются в метриках:

➡️ Recall (чувствительность) — показывает, какую долю настоящих положительных случаев модель нашла. Повышая recall, мы уменьшаем ошибки второго рода, но можем увеличить ошибки первого рода — то есть начать «ловить» ложные срабатывания.

➡️ Precision (точность) — показывает, какую долю из предсказанных положительных случаев действительно являются таковыми. Чем выше precision, тем меньше ошибок первого рода.

➡️ ROC-кривая отображает компромисс между True Positive Rate (Recall) и False Positive Rate (ошибка первого рода) при разных порогах. Она помогает выбрать рабочую точку модели в зависимости от цены каждой из ошибок.

📌 Важно: выбор между precision и recall зависит от задачи. В медицине критичнее не пропустить заболевание (минимизировать ошибку второго рода), а в спаме — не ошибаться с лишними срабатываниями (ошибки первого рода).

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

673 views20:05

Библиотека собеса по Data Science | вопросы с собеседований

❓Как можно встроить экспертные знания о задаче в Bayesian-подход к тюнингу гиперпараметров

В Bayesian optimization доменные знания можно внедрить через задание информативных априорных распределений и стартовых точек:

🟠 Ограничение диапазонов — если известно, что в вашей области обучения эффективные learning rate находятся в узком интервале, априор можно задать не равномерным, а суженным (например, log-uniform в пределах, где вы ожидаете хорошие результаты).

🟠 Warm-start — добавить в начальный набор экспериментов уже успешные конфигурации, чтобы модель-заместитель сразу получила полезную информацию о ландшафте гиперпараметров.

🟠 Специализированная модель-заместитель — вместо стандартного Gaussian Process использовать модель, отражающую корреляции между гиперпараметрами (например, объединяя родственные типы регуляризации в иерархию).

💡 Подводный камень: чрезмерно «узкие» или слишком уверенные априоры могут зафиксировать поиск в локальном оптимуме. Даже с сильными предположениями полезно сохранять некоторую степень случайного исследования пространства.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍3

669 views17:59

Библиотека собеса по Data Science | вопросы с собеседований

🧐 Зоопарк моделей в ML: с чего начать?

Открываешь статью по машинному обучению — и в тебя летят слова: трансформеры, бустинги, SVM, регрессии.

Кажется, придётся учить всё это, иначе в ML не пустят.

Хорошая новость: 90% задач можно закрыть 2–3 классическими методами. Разберёшь их — уже сможешь собирать работающие проекты. А хайповые названия подождут.

Важно: не распыляйся на всё подряд. Начни с базового — это фундамент, на котором держится остальное.

👉 Успей попасть на курс «ML для старта в Data Science»

605 views15:30

Библиотека собеса по Data Science | вопросы с собеседований

👉 Как интегрировать несупервизорные или self-supervised сигналы в потоковой обработке данных, если метки приходят с задержкой или доступны частично

В таких условиях модель не должна простаивать, пока ждёт разметку — можно использовать несколько стратегий:

✅ Self-supervised задачи — для текста (маскированное предсказание токенов) или изображений (контрастивное обучение) модель может подстраиваться к новым распределениям данных без явных меток, постепенно улучшая представления.

✅ Буферизация с дообучением — хранить необмеченные данные, частично дообучать модель на self-supervised или старых размеченных данных, а после получения меток выполнять полное обновление.

✅ Инкрементальное кластеризование — алгоритмы вроде online k-means или потоковых версий DBSCAN позволяют отслеживать появление новых кластеров (концепт-дрифт) и адаптировать модель ещё до появления меток.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

672 views18:02

Библиотека собеса по Data Science | вопросы с собеседований

👇

Как выявлять и обрабатывать концептуальный дрейф (concept drift) в потоковых данных

Когда распределение входных данных или целевой переменной меняется со временем, модель начинает деградировать. Чтобы минимизировать ущерб:

➡️ Мониторинг статистик — отслеживать метрики качества и распределения признаков, использовать тесты вроде K-S или PSI.

➡️ Скользящее окно обучения — хранить только последние N наблюдений и регулярно дообучать модель.

➡️ Адаптивные алгоритмы — применять модели, которые сами подстраиваются под новые данные (например, online gradient descent или адаптивные леса).

➡️ Гибридные ансамбли — совмещать несколько моделей с разными “возрастами” данных, постепенно замещая устаревшие.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4

709 views18:01

Библиотека собеса по Data Science | вопросы с собеседований

❓Какова связь между масштабированием и PCA

PCA чувствителен к масштабу признаков — признаки с большей дисперсией будут сильнее влиять на главные компоненты.

Поэтому перед применением PCA обычно выполняют масштабирование или стандартизацию: вычитают среднее и делят на стандартное отклонение каждого признака. Это позволяет избежать ситуации, когда признаки с большим масштабом непропорционально влияют на результат, и сосредоточиться на выявлении реальных зависимостей в данных.

Библиотека собеса по Data Science

❤1

590 views18:02

Библиотека собеса по Data Science | вопросы с собеседований

📺 Хватит коллекционировать туториалы!

Десятки роликов по ML, сотни вкладок, папка «Посмотреть позже» трещит по швам. В голове — обрывки знаний о нейросетях и Pandas.

Знания без системы — это просто «шум». Они не превращаются в навыки и проекты.

Наш курс «ML для старта в Data Science» — это не ещё один туториал. Это система. Чёткий путь от «каши» в голове до первого сильного проекта в портфолио.

И да, чтобы старт был ещё проще — при покупке курса по ML вы получаете курс по Python в подарок

👉 Превратите «шум» в навык

А вы сталкивались с «информационной кашей»? Как выбирались? 👇

629 views15:03

Библиотека собеса по Data Science | вопросы с собеседований

❓Как учитывать стоимость ошибок в классификации, если мы опираемся на AUC и ROC-кривые

ROC-кривые и AUC оценивают, насколько хорошо модель ранжирует положительные объекты выше отрицательных, но не учитывают, что цена ложноположительных и ложноотрицательных ошибок может сильно отличаться.

В задачах с высокими ставками — от поиска мошенничества до медицинской диагностики — важно адаптировать подход:

🔎

Использовать матрицу стоимости или кастомную функцию потерь, чтобы сильнее наказывать определённые ошибки.

🔎

Выбирать порог не для максимизации TPR/FPR, а для минимизации ожидаемой стоимости ошибок.

🔎

Считать дополнительные метрики, например, cost-weighted accuracy или Weighted Error Rate, которые учитывают специфику домена.

Главная ошибка — слепо ориентироваться на AUC: модель с лучшим AUC может оказаться хуже на реальном пороге, где критична стоимость ошибок.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤3

665 views18:02

Библиотека собеса по Data Science | вопросы с собеседований

❓ У вас есть набор данных с пропущенными значениями. Как вы подходите к их обработке?

Сначала анализируем, какие данные пропущены и почему (MCAR, MAR, MNAR).

📌 Если пропусков мало, можно удалять строки или колонки.

📌 Если много — импутация: среднее/медиана для числовых, мода для категориальных, или более сложные методы (KNN, MICE).

📌 Для моделей, чувствительных к пропускам (например, деревья), можно оставить NaN как отдельную категорию.

📌 Важно не искажать распределение данных и фиксировать шаги для воспроизводимости.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1🤔1

618 views18:03

Библиотека собеса по Data Science | вопросы с собеседований

🚀 Главная ошибка новичка в ML — строить звездолёт вместо велосипеда

Многие сразу хотят свою Midjourney, но в итоге получают только выгорание.

Успех начинается с «велосипеда»: научитесь предсказывать цены или классифицировать отзывы. Освойте базу, а уже потом стройте «звездолёты».

Наш курс «ML для старта в Data Science» — это и есть тот самый правильный старт от простого к сложному.

👉 Начните правильно

Берёте курс «ML для старта» до конца недели — Python в подарок.

❗А 21 августа пройдет бесплатный вебинар с Марией Жаровой: узнаете, какие проекты качают скилл, а какие качают ваши нервы.

А какой самый сложный проект вы брались делать в самом начале? 🫢

625 views15:03

Библиотека собеса по Data Science | вопросы с собеседований

💬 В чём разница между LIME и SHAP с точки зрения стабильности объяснений и теоретической основы

Обе методики дают локальные объяснения, но:

SHAP — основан на теории кооперативных игр и гарантирует согласованность и аддитивность. Если вклад признака растёт во всех возможных комбинациях признаков, его значение SHAP не уменьшится. Это даёт более стабильные объяснения между запусками, но требует больше вычислительных ресурсов.

LIME — использует локальную линейную аппроксимацию и создаёт объяснение на основе случайной выборки точек вокруг объекта. Из-за случайности результат может меняться между запусками, зато метод проще и быстрее.

Итог: SHAP — стабильнее и теоретически обоснованнее, LIME — быстрее и проще.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

670 views18:03

Библиотека собеса по Data Science | вопросы с собеседований

❓

Что такое мультиколлинеарность и почему она опасна для регрессионных моделей

Мультиколлинеарность — это ситуация, когда два или более признака сильно коррелируют между собой.

Последствия:
— Коэффициенты модели становятся нестабильными и трудно интерпретируемыми.
— Стандартные ошибки увеличиваются, снижается статистическая значимость признаков.
— Модель хуже обобщается на новые данные.

Решения:
— Удалить один из коррелирующих признаков.
— Применять регуляризацию (Ridge/Lasso).
— Использовать методы снижения размерности (PCA).

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍3

631 viewsedited 18:08

Библиотека собеса по Data Science | вопросы с собеседований

🧠 Выбор первого ML-проекта: чеклист против выгорания

Классика плохих решений в ML — выбрать слишком сложный проект: неделя ковыряния в коде, десятки крашей и никакого результата. Хотите дойти до финиша — начните с простого проекта, который реально можно довести до конца.

Мини-чеклист первого проекта:

1. Понятные данные — без «я нашёл датасет в даркнете, но он на суахили».

2. Измеримая метрика — «точность 92%», а не «ну вроде работает».

3. Объяснимый результат — чтобы не-техлид понял, почему модель ругается на спам.

Наш курс «ML для старта в Data Science» — старт от простого к сложному: теория → практика → проверка → проект в портфолио.

👉 Начать свой путь в Data Science

Оплатите курс по ML до 17 августа — курс по Python в подарок.

📅 Бесплатный вебинар с Марией Жаровой — 21 августа: как выбирать проекты, которые доводят до оффера, а не до психотерапевта.

💾 Сохрани, чтобы не потерять, когда будешь готов(а) начать

675 views19:00

Библиотека собеса по Data Science | вопросы с собеседований

▶️ Могут ли в Adam возникать проблемы исчезающих или взрывающихся градиентов

Да, полностью избежать этих проблем Adam не может. Хотя адаптивное изменение шагов помогает уменьшить эффект исчезающих или взрывающихся градиентов, при определённых архитектурах или распределениях данных они всё равно могут появляться.

Если градиенты резко становятся очень большими, шаг Adam тоже может временно стать слишком большим, особенно если оценка второго момента ещё не усреднилась. В обратной ситуации — при очень маленьких градиентах — Adam постепенно уменьшает шаг, что может привести к слишком медрому обучению, даже если параметрам нужно сделать крупные поправки.

📌 Вывод: Adam снижает риск, но не полностью устраняет проблемы исчезающих и взрывающихся градиентов — архитектура сети и нормализация данных по-прежнему критически важны.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2❤1

645 views17:58

Библиотека собеса по Data Science | вопросы с собеседований

😎 Вы просили — мы сделали. Самый долгожданный анонс этого лета!

Мы открываем набор на второй поток курса «AI-агенты для DS-специалистов»!

На курсе мы учим главному навыку 2025 года: не просто «болтать» с LLM, а строить из них рабочие системы с помощью Ollama, RAG, LangChain и crew.ai.

📆 Старт потока — 15 сентября.

💸 Цена 49 000 ₽ действует только в эти выходные — до 17 августа. С понедельника будет дороже.

👉 Занять место

😢2😁1

644 views19:00

Библиотека собеса по Data Science | вопросы с собеседований

🔎

В чём разница между 1D, 2D и 3D свёртками и в каких задачах их применяют

✅ 1D свёртки

Работают вдоль одной размерности (с каналами). Часто применяются для последовательных данных: аудио, текстовые последовательности после эмбеддинга. Ядро имеет форму kernel_size × in_channels и скользит по одной оси.

✅ 2D свёртки

Стандарт для изображений. Ядро скользит по ширине и высоте (и по каналам). Идеальны для обработки обычных 2D-картинок.

✅ 3D свёртки

Добавляют третью ось, например, время или глубину. Используются для видео (высота × ширина × время). Ядро может быть, например, 3×3×3, чтобы одновременно улавливать пространственные и временные зависимости.

Особенности:
— Неправильная размерность приводит к несоответствию данных и модели.
— 3D свёртки требовательны к памяти, поэтому часто используют комбинации 2D + временное объединение или (2+1)D свёртки (разделяют пространственную и временную части).

Вывод: Выбор типа свёртки зависит от структуры данных: последовательности — 1D, изображения — 2D, видео — 3D.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

678 views18:01

Библиотека собеса по Data Science | вопросы с собеседований

🔥 Последняя неделя, чтобы забрать курс по AI-агентам по старой цене!

Пока вы тестируете Copilot, другие уже учатся строить AI-агентов, которые реально работают на бизнес. Хватит отставать!

Наш курс — это концентрат практики по LangChain и RAG. Улучшенная версия, доработанная по отзывам первого потока.

📆 Старт — 15 сентября.

💸 Цена 49 000 ₽ — только до 24 августа.

👉 Зафиксировать цену

619 views15:03

Библиотека собеса по Data Science | вопросы с собеседований

🤔 Что делать, если утечка данных (data leakage) обнаружена уже после вывода модели в прод

В такой ситуации нужно немедленно исключить утёкшие признаки из пайплайна и переобучить модель без них. Утечка данных приводит к завышенным офлайн-метрикам, поэтому все оценки нужно пересчитать заново. После переобучения важно убедиться, что модель действительно справляется с реальными данными, где этой информации нет.

Также необходимо:
— оценить, насколько широко была развернута утёкшая модель;
— при необходимости откатить (rollback) её или быстро заменить новой;
— в критичных системах иметь резервную/параллельную модель, которую можно включить на время расследования.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

😁1

573 views18:07

Библиотека собеса по Data Science | вопросы с собеседований

🧃

Можно ли выполнять отбор признаков на всём датасете до разбиения на train и test

Нет, это плохая практика. Отбор признаков нужно включать внутрь кросс-валидационного пайплайна, чтобы выборка признаков обучалась только на тренировочных фолдах, а не на тестовом наборе. Если сделать отбор на всём датасете сразу, происходит утечка информации из теста, что ведёт к завышенным оценкам качества модели.

Правильный подход:
1️⃣ Разбиваем данные на train и test (и фолды для кросс-валидации, если нужно).
2️⃣ В каждом тренировочном фолде выполняем отбор признаков (RFE, фильтры или встроенные методы) и обучаем модель.
3️⃣ Оцениваем качество на валидационном фолде.
4️⃣ После кросс-валидации фиксируем набор признаков или пайплайн.
5️⃣ Переобучаем модель на всём тренировочном наборе с выбранными признаками и оцениваем на отдельном тесте.

Отбор признаков до разбиения на train/test ведёт к утечке данных и неверной оценке качества модели.

Если вам нравится копаться в таких тонкостях и вы хотите прокачать свои Data Science суперсилы:
— AI-агенты для DS-специалистов (чтобы ваши модели могли работать сами)
— ML для старта в Data Science (чтобы уверенно входить в DS и не делать утечек данных)

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍1

608 views18:28

About

Blog

Apps

Platform