Библиотека собеса по Data Science | вопросы с собеседований
4.31K subscribers
439 photos
10 videos
1 file
442 links
Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://t.me/proglibrary/9197
Download Telegram
🤖 Знаете, чем настоящий AI отличается от чат-бота?

Чат-бот просит перезагрузить роутер, а настоящий AI уже умеет читать ваши эмоции в чате, включать музыку под ваше настроение, контролировать погрузку руды с точностью Терминатора и даже находить на КТ-снимках то, чего не заметит человеческий глаз.

Современные компании для таких задач всё чаще используют Deep Learning — алгоритмы на основе нейросетей. Но чтобы попасть в эту лигу, нужен фундамент. И имя ему — Machine Learning.

Наш новый курс по ML — это не волшебная таблетка. Это честный и структурированный путь в мир Data Science. Мы дадим вам базу, с которой вы:

разберётесь, как мыслят машины (спойлер: матрицами!);

научитесь строить работающие модели, а не карточные домики;

получите трамплин для прыжка в Deep Learning.

Хватит смотреть, как другие запускают ракеты. Пора строить свой собственный космодром.

Начните с фундамента на нашем курсе по Machine Learning!
➡️ Почему при обучении моделей иногда используют так называемый «teacher forcing», и какие у этого метода есть недостатки

«Teacher forcing» — это техника, часто применяемая при обучении рекуррентных моделей, например, в задачах генерации текста или перевода. Во время обучения модель получает на вход правильные предыдущие шаги (правильные слова или символы), а не свои собственные предсказания. Это помогает быстрее учиться, так как модель не накапливает ошибки.

Однако у этого подхода есть проблема:
на этапе генерации (инференса) модель уже не видит правильных ответов, а опирается только на свои предыдущие предсказания. Если где-то ошибка — она может нарастать и «вести» модель в неверное состояние, что снижает качество результатов.

Это называется «рассогласованием» между тренировкой и тестом (train-test mismatch). Чтобы его уменьшить, используют разные техники, например, постепенный переход от teacher forcing к использованию собственных предсказаний модели (scheduled sampling).

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
1
🔥 Знакомьтесь, преподаватель нашего нового курса по ML — Мария Жарова.

В карточках рассказали, чем Мария занимается и какие советы даёт тем, кто хочет расти в IT и Data Science ☝️

А если вы уже поняли, что тянуть нечего, начните свой путь в ML правильно: с реальной практикой, поддержкой ментора и видимым результатом.

👉 Записывайтесь на курс
👉 Почему при работе с большими языковыми моделями иногда полезно использовать «температуру» (temperature) в генерации текста

Температура — это параметр, который регулирует степень случайности в выборе следующего слова. Изменяя её, можно балансировать между креативностью и предсказуемостью модели.

Что даёт изменение температуры:

➡️ Низкая температура (близко к 0)
Модель становится более «консервативной», выбирает наиболее вероятные слова. Текст получается более логичным и связным, но может быть скучным и повторяющимся.

➡️ Высокая температура (выше 1)
Модель начинает экспериментировать, выбирает менее вероятные слова. Это повышает разнообразие и креативность, но иногда приводит к бессмысленным или нестыковочным фразам.

➡️ Средняя температура (~0.7)
Часто используется как компромисс — текст остаётся интересным, но не теряет смысла.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍74
💻 Почему в распределённых системах обучения нейросетей (например, на десятках GPU) важно следить за синхронизацией градиентов

В распределённом обучении модели параллельно обновляются на нескольких устройствах, и если синхронизация градиентов между ними происходит неправильно или с задержками, это может привести к неустойчивому обучению, рассинхронизации весов и даже ухудшению сходимости.

Вот что может пойти не так:

➡️ Градиенты отстают во времени
Если одна из машин медленнее (straggler), она может прислать устаревшие градиенты. Модель уже изменилась, а она получает запоздалые обновления — возникает эффект «шага назад».

➡️ Асинхронные ошибки и гонки
При отсутствии блокировок возможны гонки состояний — разные устройства обновляют веса на основе разной версии параметров, что разрушает стабильность обучения.

➡️ Разный масштаб градиентов
Если используется несогласованное масштабирование (например, из-за разных batch size на узлах), градиенты могут складываться некорректно, что влияет на скорость и направление оптимизации.

➡️ Silent divergence
Иногда обучение продолжает идти «как будто бы нормально», но модель просто перестаёт чему-либо учиться, потому что синхронизация нарушена — и это трудно отследить без специальных логов.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1
🔥 Вы ещё можете застать старый добрый Proglib — с вечным доступом к курсам.

С 1 августа всё меняется: навсегда — останутся только те, кто успел купить сейчас.

-40% на все курсы. Включая обновлённый Python (кроме курса по AI-агентам)

Это не просто распродажа. Это — последняя точка входа в Proglib Academy по старым правилам.

📚 Выбрать и забрать свой курс навсегда → https://clc.to/TBtqYA
Почему некоторые исследователи считают, что предсказуемость модели может вредить пользовательскому доверию, даже если её точность объективно высока

Парадоксально, но если модель ведёт себя слишком «предсказуемо» или «механически», люди могут терять к ней доверие — особенно если они чувствуют, что она не учитывает нюансы ситуации. Это проявляется в системах рекомендаций, медицинских ассистентах и даже чат-ботах. Люди ожидают от ИИ не только точности, но и понимания контекста и эмпатии.

Конкретные примеры:

➡️ Медицинские системы:
Если пациент видит, что система всегда даёт один и тот же совет независимо от деталей, он решит, что ей нельзя доверять — даже если совет корректный.


➡️ Рекомендательные алгоритмы:
Чрезмерно логичные или зацикленные рекомендации (например, «ты посмотрел фильм про космос — вот ещё 50 таких») вызывают раздражение и ощущение, что «модель тупит».


➡️ Диалоговые агенты:
Если ответы слишком шаблонны, люди не верят, что модель действительно "понимает". Лучше меньше точности, но больше контекстуальности.


Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1
⚡️ Мы запускаем онлайн-курс по машинному обучению для Data Science.

Хочешь войти в Data Science, но не знаешь, с чего начать?
А может, ты уже в теме, но чувствуешь, что знаний не хватает?

Старт курса — 12 августа, и это отличный шанс пройти весь путь — от теории до уверенного применения.

Что внутри:
— от линейных моделей и градиентного спуска до бустинга и рекомендательных систем
— реальные примеры, практика, задачи и живая менторская поддержка
— всё, что нужно, чтобы не просто разобраться, а применять ML в реальных проектах

Ведет курс Мария Жарова:
ML-инженер в Wildberries, преподаватель МФТИ, ТГУ и МИФИ, практик и автор канала @data_easy

🎁 По промокоду Earlybird — скидка 10.000 рублей, только до 27 июля.

Для первых 10 студентов мы подготовили эксклюзивный лонгрид по теме курса, который позволит начать учиться уже сейчас.

👉 Записаться на курс
Зачем в машинном обучении изучают и моделируют враждебные воздействия (adversarial attacks), если в реальной жизни никто не «рисует шум» на картинки

Adversarial-примеры показывают, насколько модель может быть уязвима: малозаметный шум для человека способен полностью изменить её решение. Это значит, что модель не «понимает» суть, а опирается на хрупкие паттерны.

Анализ таких атак помогает выявлять слабые места и делать ИИ более надёжным — особенно там, где ошибка критична: в медицине, транспорте, безопасности.


Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
2
Почему важно учитывать поведение пользователей при обучении рекомендательных моделей, даже если метрики кликов растут

Потому что модели могут усиливать нежелательные паттерны: подсаживать на бесконечный скролл, закреплять «информационные пузыри» или продвигать токсичный контент, если это даёт больше кликов. Поведение пользователей — не всегда признак того, что им полезно. Модель может подталкивать к действиям, которые в долгосрочной перспективе вредны. Поэтому важно учитывать не только CTR, но и долгосрочное влияние на пользователя и среду.

Библиотека собеса по Data Science
2👍1
🔥 Хороший ML-разработчик не начинает с нейросетей

На собеседовании по ML System Design кандидату дают задачу «предсказать отток», а он сразу лезет в нейросети. Красиво, модно, дорого.

Но профи думает иначе:

💭 Логрегрессия? Градиентный бустинг?
💭 А сколько у нас данных и времени?
💭 Что с интерпретируемостью?

Потому что не выбрать адекватную модель — это уже ошибка.

Нейросети — это круто. Но без понимания классического ML вы просто «подключаете модельку», а не строите решения.

➡️ На курсе разберём:

— линейные модели, деревья, PCA, кластеризацию
— метрики, переобучение, bias vs variance
— инженерные подводные камни, которые идут сразу после fit()

🎁 Скидка 10 000₽ по промокоду Earlybird, только до 27 июля.

А ещё — подарок для первых 10 участников: специальный лонгрид по теме курса, чтобы вы могли начать погружение в материал уже сегодня.

🔗 Успей записаться — и начни карьеру в Data Science уже через 3 месяца!
📍 Почему выбор тестовой выборки может сильнее повлиять на выводы о модели, чем архитектура или гиперпараметры

Потому что если тестовая выборка не отражает реальные условия, любые выводы о «качестве модели» будут ложными.

Даже идеальная модель может провалиться, если тест не покрывает важные кейсы — например, редкие классы, пограничные случаи или будущие изменения среды.

В машинном обучении качество модели — это качество вывода о ней, и тестовая выборка — его основа. Это особенно критично в задачах с перекосом классов, изменяющейся средой и высокой ценой ошибки.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1
😤 Устал листать туториалы, которые не складываются в картину

У тебя в голове уже есть логрегрессии, деревья, метрики и какая-то PCA, но системного понимания всё нет?

Пора с этим разобраться!

Наш курс по классическому ML:

— научит выбирать адекватные модели под задачу
— разложит метрики, переобучение и bias по полочкам
— покажет, что скрывается за fit/predict, и что с этим делать

🔔 До 27 июля по промокоду Earlybird минус 10.000₽

P.S. Первые 10 участников получат эксклюзивный лонгрид, чтобы начать изучать тему ещё до старта курса.

👉 Поменяй свою жизнь: старт карьеры в AI — успей до закрытия набора!
👉 Зачем оценивать не только точность модели, но и её задержку (latency) и потребление ресурсов

Потому что модель — это не только алгоритм, но и часть живой системы, где важно, насколько быстро и стабильно она работает.

Даже самая точная модель может быть бесполезной, если отвечает медленно, не помещается в память устройства или «кладёт» сервер под нагрузкой. В реальных приложениях ценность — это баланс между качеством, скоростью и стоимостью.

Особенно критично это в мобильных, embedded-устройствах и real-time сервисах.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
🤔 «Начни сразу с нейросетей — зачем тебе логрегрессия?»

Это один из худших советов для начинающего ML-разработчика. Зрелость — это понимать, где простого достаточно, а не тянуть трансформеры на любую задачу из-за хайпа.

Классика ML — это не допотопная теория, а база (bias/variance, деревья, метрики), без которой не понять Deep Learning.

⚡️ Хотите освоить этот фундамент на реальных задачах? Приходите на наш курс по классическому ML. Только хардкор, только продовые задачи!

📆 Старт — 12 августа.

Для первых 10 участников бонус — специальный лонгрид по теме курса, чтобы вы могли начать разбираться уже сейчас.

🎁 Последний день промокода Earlybird на скидку 10.000₽.

👉 Не упустите шанс!