Библиотека собеса по Data Science | вопросы с собеседований
4.31K subscribers
446 photos
10 videos
1 file
469 links
Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://t.me/proglibrary/9197
Download Telegram
У вас есть набор данных с пропущенными значениями. Как вы подходите к их обработке?

Сначала анализируем, какие данные пропущены и почему (MCAR, MAR, MNAR).

📌 Если пропусков мало, можно удалять строки или колонки.

📌 Если много — импутация: среднее/медиана для числовых, мода для категориальных, или более сложные методы (KNN, MICE).

📌 Для моделей, чувствительных к пропускам (например, деревья), можно оставить NaN как отдельную категорию.

📌 Важно не искажать распределение данных и фиксировать шаги для воспроизводимости.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🤔1
🚀 Главная ошибка новичка в ML — строить звездолёт вместо велосипеда

Многие сразу хотят свою Midjourney, но в итоге получают только выгорание.

Успех начинается с «велосипеда»: научитесь предсказывать цены или классифицировать отзывы. Освойте базу, а уже потом стройте «звездолёты».

Наш курс «ML для старта в Data Science» — это и есть тот самый правильный старт от простого к сложному.

👉 Начните правильно

Берёте курс «ML для старта» до конца недели — Python в подарок.

А 21 августа пройдет бесплатный вебинар с Марией Жаровой: узнаете, какие проекты качают скилл, а какие качают ваши нервы.

А какой самый сложный проект вы брались делать в самом начале? 🫢
💬 В чём разница между LIME и SHAP с точки зрения стабильности объяснений и теоретической основы

Обе методики дают локальные объяснения, но:

SHAP — основан на теории кооперативных игр и гарантирует согласованность и аддитивность. Если вклад признака растёт во всех возможных комбинациях признаков, его значение SHAP не уменьшится. Это даёт более стабильные объяснения между запусками, но требует больше вычислительных ресурсов.

LIME — использует локальную линейную аппроксимацию и создаёт объяснение на основе случайной выборки точек вокруг объекта. Из-за случайности результат может меняться между запусками, зато метод проще и быстрее.

Итог: SHAP — стабильнее и теоретически обоснованнее, LIME — быстрее и проще.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Что такое мультиколлинеарность и почему она опасна для регрессионных моделей

Мультиколлинеарность — это ситуация, когда два или более признака сильно коррелируют между собой.

Последствия:
Коэффициенты модели становятся нестабильными и трудно интерпретируемыми.
Стандартные ошибки увеличиваются, снижается статистическая значимость признаков.
Модель хуже обобщается на новые данные.

Решения:
Удалить один из коррелирующих признаков.
Применять регуляризацию (Ridge/Lasso).
Использовать методы снижения размерности (PCA).

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍3
🧠 Выбор первого ML-проекта: чеклист против выгорания

Классика плохих решений в ML — выбрать слишком сложный проект: неделя ковыряния в коде, десятки крашей и никакого результата. Хотите дойти до финиша — начните с простого проекта, который реально можно довести до конца.

Мини-чеклист первого проекта:

1. Понятные данные — без «я нашёл датасет в даркнете, но он на суахили».

2. Измеримая метрика — «точность 92%», а не «ну вроде работает».

3. Объяснимый результат — чтобы не-техлид понял, почему модель ругается на спам.

Наш курс «ML для старта в Data Science» — старт от простого к сложному: теория → практика → проверка → проект в портфолио.

👉 Начать свой путь в Data Science

Оплатите курс по ML до 17 августа — курс по Python в подарок.

📅 Бесплатный вебинар с Марией Жаровой — 21 августа: как выбирать проекты, которые доводят до оффера, а не до психотерапевта.

💾 Сохрани, чтобы не потерять, когда будешь готов(а) начать
▶️ Могут ли в Adam возникать проблемы исчезающих или взрывающихся градиентов

Да, полностью избежать этих проблем Adam не может. Хотя адаптивное изменение шагов помогает уменьшить эффект исчезающих или взрывающихся градиентов, при определённых архитектурах или распределениях данных они всё равно могут появляться.

Если градиенты резко становятся очень большими, шаг Adam тоже может временно стать слишком большим, особенно если оценка второго момента ещё не усреднилась. В обратной ситуации — при очень маленьких градиентах — Adam постепенно уменьшает шаг, что может привести к слишком медрому обучению, даже если параметрам нужно сделать крупные поправки.

📌 Вывод: Adam снижает риск, но не полностью устраняет проблемы исчезающих и взрывающихся градиентов — архитектура сети и нормализация данных по-прежнему критически важны.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21
😎 Вы просили — мы сделали. Самый долгожданный анонс этого лета!

Мы открываем набор на второй поток курса «AI-агенты для DS-специалистов»!

На курсе мы учим главному навыку 2025 года: не просто «болтать» с LLM, а строить из них рабочие системы с помощью Ollama, RAG, LangChain и crew.ai.

📆 Старт потока — 15 сентября.

💸 Цена 49 000 ₽ действует только в эти выходные — до 17 августа. С понедельника будет дороже.

👉 Занять место
😢2