Библиотека собеса по Data Science | вопросы с собеседований
4.31K subscribers
438 photos
10 videos
1 file
437 links
Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://t.me/proglibrary/9197
Download Telegram
🔥 Знакомьтесь, преподаватель нашего нового курса по ML — Мария Жарова.

В карточках рассказали, чем Мария занимается и какие советы даёт тем, кто хочет расти в IT и Data Science ☝️

А если вы уже поняли, что тянуть нечего, начните свой путь в ML правильно: с реальной практикой, поддержкой ментора и видимым результатом.

👉 Записывайтесь на курс
👉 Почему при работе с большими языковыми моделями иногда полезно использовать «температуру» (temperature) в генерации текста

Температура — это параметр, который регулирует степень случайности в выборе следующего слова. Изменяя её, можно балансировать между креативностью и предсказуемостью модели.

Что даёт изменение температуры:

➡️ Низкая температура (близко к 0)
Модель становится более «консервативной», выбирает наиболее вероятные слова. Текст получается более логичным и связным, но может быть скучным и повторяющимся.

➡️ Высокая температура (выше 1)
Модель начинает экспериментировать, выбирает менее вероятные слова. Это повышает разнообразие и креативность, но иногда приводит к бессмысленным или нестыковочным фразам.

➡️ Средняя температура (~0.7)
Часто используется как компромисс — текст остаётся интересным, но не теряет смысла.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍74
💻 Почему в распределённых системах обучения нейросетей (например, на десятках GPU) важно следить за синхронизацией градиентов

В распределённом обучении модели параллельно обновляются на нескольких устройствах, и если синхронизация градиентов между ними происходит неправильно или с задержками, это может привести к неустойчивому обучению, рассинхронизации весов и даже ухудшению сходимости.

Вот что может пойти не так:

➡️ Градиенты отстают во времени
Если одна из машин медленнее (straggler), она может прислать устаревшие градиенты. Модель уже изменилась, а она получает запоздалые обновления — возникает эффект «шага назад».

➡️ Асинхронные ошибки и гонки
При отсутствии блокировок возможны гонки состояний — разные устройства обновляют веса на основе разной версии параметров, что разрушает стабильность обучения.

➡️ Разный масштаб градиентов
Если используется несогласованное масштабирование (например, из-за разных batch size на узлах), градиенты могут складываться некорректно, что влияет на скорость и направление оптимизации.

➡️ Silent divergence
Иногда обучение продолжает идти «как будто бы нормально», но модель просто перестаёт чему-либо учиться, потому что синхронизация нарушена — и это трудно отследить без специальных логов.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1
🔥 Вы ещё можете застать старый добрый Proglib — с вечным доступом к курсам.

С 1 августа всё меняется: навсегда — останутся только те, кто успел купить сейчас.

-40% на все курсы. Включая обновлённый Python (кроме курса по AI-агентам)

Это не просто распродажа. Это — последняя точка входа в Proglib Academy по старым правилам.

📚 Выбрать и забрать свой курс навсегда → https://clc.to/TBtqYA
Почему некоторые исследователи считают, что предсказуемость модели может вредить пользовательскому доверию, даже если её точность объективно высока

Парадоксально, но если модель ведёт себя слишком «предсказуемо» или «механически», люди могут терять к ней доверие — особенно если они чувствуют, что она не учитывает нюансы ситуации. Это проявляется в системах рекомендаций, медицинских ассистентах и даже чат-ботах. Люди ожидают от ИИ не только точности, но и понимания контекста и эмпатии.

Конкретные примеры:

➡️ Медицинские системы:
Если пациент видит, что система всегда даёт один и тот же совет независимо от деталей, он решит, что ей нельзя доверять — даже если совет корректный.


➡️ Рекомендательные алгоритмы:
Чрезмерно логичные или зацикленные рекомендации (например, «ты посмотрел фильм про космос — вот ещё 50 таких») вызывают раздражение и ощущение, что «модель тупит».


➡️ Диалоговые агенты:
Если ответы слишком шаблонны, люди не верят, что модель действительно "понимает". Лучше меньше точности, но больше контекстуальности.


Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1
⁉️ Хотите узнать, как устроен рабочий процесс в ML и получить базовые навыки работы с данными?

23 июля в 20:00 МСК OTUS проводит открытый урок «ML для начинающих – первые шаги с Jupyter Notebook». Вас ждёт:

– Обзор этапов машинного обучения: от подготовки данных до первой модели.
– Настройка виртуального окружения для изоляции экспериментов.
– Знакомство с Jupyter Notebook: анализ, визуализация, код и Markdown вместе.

Этот урок — идеальная отправная точка перед стартом курса «Специализация Machine Learning». Все участники получат скидку на обучение.

➡️ Зарегистрироваться

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
👍2👾1
⚡️ Мы запускаем онлайн-курс по машинному обучению для Data Science.

Хочешь войти в Data Science, но не знаешь, с чего начать?
А может, ты уже в теме, но чувствуешь, что знаний не хватает?

Старт курса — 12 августа, и это отличный шанс пройти весь путь — от теории до уверенного применения.

Что внутри:
— от линейных моделей и градиентного спуска до бустинга и рекомендательных систем
— реальные примеры, практика, задачи и живая менторская поддержка
— всё, что нужно, чтобы не просто разобраться, а применять ML в реальных проектах

Ведет курс Мария Жарова:
ML-инженер в Wildberries, преподаватель МФТИ, ТГУ и МИФИ, практик и автор канала @data_easy

🎁 По промокоду Earlybird — скидка 10.000 рублей, только до 27 июля.

Для первых 10 студентов мы подготовили эксклюзивный лонгрид по теме курса, который позволит начать учиться уже сейчас.

👉 Записаться на курс
Зачем в машинном обучении изучают и моделируют враждебные воздействия (adversarial attacks), если в реальной жизни никто не «рисует шум» на картинки

Adversarial-примеры показывают, насколько модель может быть уязвима: малозаметный шум для человека способен полностью изменить её решение. Это значит, что модель не «понимает» суть, а опирается на хрупкие паттерны.

Анализ таких атак помогает выявлять слабые места и делать ИИ более надёжным — особенно там, где ошибка критична: в медицине, транспорте, безопасности.


Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
2
Почему важно учитывать поведение пользователей при обучении рекомендательных моделей, даже если метрики кликов растут

Потому что модели могут усиливать нежелательные паттерны: подсаживать на бесконечный скролл, закреплять «информационные пузыри» или продвигать токсичный контент, если это даёт больше кликов. Поведение пользователей — не всегда признак того, что им полезно. Модель может подталкивать к действиям, которые в долгосрочной перспективе вредны. Поэтому важно учитывать не только CTR, но и долгосрочное влияние на пользователя и среду.

Библиотека собеса по Data Science
🔥 Хороший ML-разработчик не начинает с нейросетей

На собеседовании по ML System Design кандидату дают задачу «предсказать отток», а он сразу лезет в нейросети. Красиво, модно, дорого.

Но профи думает иначе:

💭 Логрегрессия? Градиентный бустинг?
💭 А сколько у нас данных и времени?
💭 Что с интерпретируемостью?

Потому что не выбрать адекватную модель — это уже ошибка.

Нейросети — это круто. Но без понимания классического ML вы просто «подключаете модельку», а не строите решения.

➡️ На курсе разберём:

— линейные модели, деревья, PCA, кластеризацию
— метрики, переобучение, bias vs variance
— инженерные подводные камни, которые идут сразу после fit()

🎁 Скидка 10 000₽ по промокоду Earlybird, только до 27 июля.

А ещё — подарок для первых 10 участников: специальный лонгрид по теме курса, чтобы вы могли начать погружение в материал уже сегодня.

🔗 Успей записаться — и начни карьеру в Data Science уже через 3 месяца!