Библиотека собеса по Data Science | вопросы с собеседований

✅

Как алгоритм EM оценивает параметры

Алгоритм EM (Expectation-Maximization) оценивает параметры модели в два чередующихся шага:

🔍 E-шаг (шаг ожидания):

— Рассчитывает апостериорные вероятности принадлежности каждой точки к каждому скрытому компоненту.
— То есть, на этом этапе мы «угадываем», как могла бы распределиться скрытая структура данных при текущих параметрах модели.

🔧 M-шаг (шаг максимизации):
— Обновляет параметры модели (например, средние, ковариационные матрицы, веса компонентов) так, чтобы максимизировать логарифмическую вероятность наблюдаемых данных, учитывая ожидания из E-шага.

🔁 Эти шаги повторяются поочерёдно до тех пор, пока логарифмическая правдоподобность не перестанет значительно меняться — то есть, пока не будет достигнута сходимость.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

675 views17:51

Библиотека собеса по Data Science | вопросы с собеседований

🥴 Средний разработчик меняет работу каждые 1,5 года

И это не потому, что мы такие непостоянные. Просто рынок показывает свое истинное лицо быстрее, чем успевают напечатать визитки.

Поэтому мы собираем инсайды от тех, кто находится в окопах digital-трансформации каждый день. От джуниоров, которые только въезжают в профессию, до сеньоров, повидавших всякого.

😳 О чем говорим откровенно:
— Job-hopping и что за этим стоит
— Red flags, которые мгновенно убивают мотивацию
— Реальные источники вакансий (не те, что рекламируют)
— Боль от общения с рекрутерами
— Сколько этапов отбора — норма, а сколько — издевательство

Когда мы объединим опыт сотен IT-специалистов, получится настоящая карта того, как устроена индустрия. Не по версии HR-отделов, а по версии тех, кто пишет код, тестирует продукты и двигает технологии вперед.

🚀 Участвовать в исследовании → https://clc.to/9aaXVg

👍3

714 views07:01

Библиотека собеса по Data Science | вопросы с собеседований

🤔 Можно ли задать одинаковые веса всем скрытым нейронам

На практике — почти никогда. В современных нейросетях это мешает обучению: все нейроны начинают вычислять одно и то же, градиенты одинаковы, и сеть не учится различать признаки. Такое поведение разрушает всю идею глубокого обучения.

Исключения есть:

• Смещения (bias) часто инициализируют нулём или 0.01
• Параметры нормализации (например, γ в BatchNorm) могут начинаться с 1

Но сами веса сети — всегда инициализируются случайно (например, Xavier или He), чтобы нарушить симметрию и позволить сети учиться.

Библиотека собеса по Data Science

👍3❤1

691 views18:06

Библиотека собеса по Data Science | вопросы с собеседований

❗Вакансии «Библиотеки программиста»

Привет! Мы ищем контент-менеджеров, которые будут вести наши телеграм-каналы о разработке.

👾 Требования:
— знать принципы залетающего контента
— разбираться в темах, связанных с разработкой

Большим плюсом будет навык программирования на каких-либо языках.

✨ Условия:
— удаленка
— частичная занятость
— сдельная оплата в зависимости от количества задач

🔥 Оставляйте отклик, и мы свяжемся с вами: https://forms.gle/o4BZnsQ526JoqsCq9

❤2

734 views16:02

Библиотека собеса по Data Science | вопросы с собеседований

▶️

Можно ли использовать Tanh и ReLU в одной нейросетевой архитектуре

Да, в архитектурах нейросетей иногда смешивают Tanh и ReLU — и это может быть вполне оправдано.

🔹 ReLU хорошо работает в ранних слоях, способствуя разреженности и предотвращая затухание градиентов.

🔹 Tanh может быть полезен в более глубоких или специализированных частях сети — например, в рекуррентных слоях или на выходе генератора GAN, где нужно получить значения в пределах −1,1.

📌 Пример: в GAN’ах часто используют ReLU внутри генератора и Tanh на выходе — чтобы итоговые изображения были нормализованы.

Но без конкретной цели смешивать активации не стоит: это может запутать архитектуру и усложнить отладку. Всегда держите в уме, зачем вы используете каждую функцию активации.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1

793 views18:03

Библиотека собеса по Data Science | вопросы с собеседований

👉 Почему обычно применяют dropout к выходам нейронов, а не к весам

Потому что отключение выходов нейронов (стандартный dropout) полностью исключает вклад этих нейронов в расчёты, что делает регуляризацию более надёжной и управляемой.

Альтернативный подход — занулять случайные веса (DropConnect) — может быть полезен в некоторых случаях, но он более сложен в реализации и менее распространён.

Dropout проще применить на практике и он стабильно работает во многих нейросетевых задачах.

Библиотека собеса по Data Science

❤2👍1

729 views17:58

Библиотека собеса по Data Science | вопросы с собеседований

😡 А вас тоже бесят облачные сервисы?

Согласитесь, статус отношений с облаками — все сложно. Но что, если можно изменить правила игры?

Мы готовим нечто особенное в мире облачных технологий, но сначала хотим услышать правду от тех, кто реально работает с облаками каждый день.

❓Что мы хотим узнать:
— Для чего вы реально используете облако?
— Чего катастрофически не хватает прямо сейчас?
— Что бесит больше всего? (можно материться)
— Как выбираете провайдера — по цене или по любви?
— и тому подобное

По результатам опроса мы подготовим исследование без маркетингового мусора и вы узнаете, как обстоят дела у коллег.

⚡️Время на опрос: меньше, чем на кофе-брейк. Жмите → https://clc.to/nboYDA

751 views10:01

Библиотека собеса по Data Science | вопросы с собеседований

❓ Если признаки сильно коррелируют, как это влияет на Наивный Байес

Наивный Байес предполагает условную независимость признаков при заданном классе. При сильной корреляции между признаками это предположение нарушается, и модель может завышать или занижать оценки вероятностей, так как она фактически «считает» одинаковую информацию несколько раз. В результате вероятности могут быть переоценены, что снижает точность.

Тем не менее, на практике Наивный Байес часто работает достаточно устойчиво, если корреляции не слишком сильные и не искажают произведение вероятностей слишком сильно. Если известно, что признаки сильно связаны, лучше использовать более гибкие модели — например, логистическую регрессию или случайный лес. Также можно рассмотреть байесовские сети, которые позволяют явно моделировать зависимости между признаками.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍1

651 views18:04

Библиотека собеса по Data Science | вопросы с собеседований

😎 Пока все говорят об AI — мы учим строить системы, которые работают за вас

Что отличает топового дата-сайентиста от новичка? Умение не просто обучать модели, а создавать системы, которые принимают решения автономно. AI-агенты — это следующий уровень в DS, и мы запускаем курс по их разработке!

⚡️Если вы давно думали о прокачке скиллов или повышении грейда — сейчас самое время, потому что цена на курс вырастет уже 14 июня.

Спикер нашего нового курса — Никита Зелинский, Chief Data Scientist МТС. Его посты в канале @datarascals бьют в актуальные проблемы дата-спецов:

— Как за неделю окупить годовую зарплату одним COALESCE и получить свой quick win
— Разбор катастрофы с Precision@K или почему ваши метрики врут
— Комплексный гайд по антифроду

Поэтому на курсе «AI-агенты для DS» мы научим вас строить системы, которые не просто работают в демо, а выдерживают нагрузку реального бизнеса.

❗До повышения цены осталось 3 дня — забронируйте место сейчас

713 views13:31

Библиотека собеса по Data Science | вопросы с собеседований

👍

Когда стоит использовать логарифмирование признаков перед обучением модели

Логарифмирование признаков полезно, когда значения признаков распределены неравномерно или имеют сильную положительную асимметрию — например, в задачах с финансовыми, кликовыми или биомедицинскими данными, где часто встречаются очень большие значения рядом с малыми.

Такое преобразование:

📌

Снижает влияние выбросов, «сжимая» масштаб больших значений;

📌

Помогает сделать распределение более похожим на нормальное, что улучшает работу моделей, чувствительных к распределению данных (например, линейная регрессия);

📌

Выравнивает важность признаков, особенно если признаки входят в модель в виде произведений или степеней.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2

732 views18:03

Библиотека собеса по Data Science | вопросы с собеседований

👀 Почему one-hot encoding может быть неэффективен при большом количестве категорией

One-hot encoding создает по одному бинарному признаку на каждое уникальное значение категориальной переменной. Когда количество категорий очень велико (например, тысячи ID товаров или пользователей), возникают несколько проблем:

📍

Взрыв размерности: матрица признаков становится разреженной и очень широкой, что увеличивает требования к памяти и может замедлить обучение.

📍

Переобучение: модель может начать подгоняться под шум, если некоторые категории редко встречаются.

📍

Потеря семантической связи: one-hot не учитывает близость между категориями — все они считаются равными и независимыми.

В таких случаях лучше использовать альтернативы:

📍

Target encoding / mean encoding — замена категории на среднее значение целевой переменной для этой категории;

📍

Embedding-слои — обучаемые векторные представления категорий, особенно популярны в нейросетях;

📍

Frequency encoding — замена категории на частоту её появления.

Выбор метода зависит от модели и объема данных, но при большом количестве уникальных значений one-hot часто оказывается неоптимальным.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍1

733 views18:20

Библиотека собеса по Data Science | вопросы с собеседований

🏃‍♀️ 1 день до конца спец предложения

Успей впрыгнуть на курс «AI-агенты для DS» до завтрашнего повышения цены: 59.000 р. вместо ~~69.000 р.~~

🎙 Наш спикер — Никита Зелинский, Chief Data Scientist МТС, в своем канале рассказывает о RAG:

Про RAG слышали все — это уже два года самый массовый способ применения LLM в проде для бизнеса.

Это значит, что точность и надёжность такого решения достаточно предсказуемы для того, чтобы исключить человека из процесса аппрува выдачи LLM,
а связка «локально развернутая LLM + RAG над корпоративными документами» обеспечивает достаточную конфиденциальность, чтобы снять тревожность
«что наши данные попадут в OpenAI».

Эта история настолько популярна, что на рынке есть готовые RAG-решения,
а даже «маленькие» опенсорс-модели (до 5B) уже обзавелись своей RAG-ареной:
👉 https://huggingface.co/spaces/aizip-dev/SLM-RAG-Arena

Во время обучения на курсе «AI-агенты для DS» научим собирать автономные системы под реальные бизнес-задачи. На прошлой неделе мы рассказали о первом занятии.

➡️ вот что ждет слушателей курса на втором:

— Собираем свой RAG-пайплайн на своих данных
— Обсуждаем, почему качество такой системы нельзя измерять «на глаз»
— Разбираем схему LLM as a Judge и как подготовить для неё датасет
— Что такое guardrails и как они спасают от бреда
— Что делать, когда LLM не знает ответа
— Смотрим на агентский RAG и обсуждаем, можно ли использовать RAG как память агента

Если пропустили первое занятие, то вот ссылочка

❗️До повышения цены остался последний день — бронируйте место сейчас

Please open Telegram to view this post

VIEW IN TELEGRAM

762 views09:01

Библиотека собеса по Data Science | вопросы с собеседований

🔎

В чём разница между доверительным интервалом и байесовским (достоверным) интервалом

Доверительный интервал (confidence interval) — это концепция из частотной статистики, где параметр считается фиксированным, а вариативность связана с данными. Например, 95% доверительный интервал означает, что при многократном повторении эксперимента 95% таких интервалов будут содержать истинное значение. Однако нельзя сказать, что с 95% вероятностью параметр лежит в этом конкретном интервале.

Байесовский достоверный интервал (credible interval) исходит из идеи, что параметр — это случайная величина. После наблюдений мы имеем апостериорное распределение, и 95% интервал означает, что с 95% вероятностью параметр лежит в этом интервале.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍1

719 views18:03

Библиотека собеса по Data Science | вопросы с собеседований

😱 Завтра цена на курс «AI-агенты для DS» вырастет

Пока вы думаете — другие уже покупают. Что вы теряете, откладывая решение? Как минимум — 10 000 рублей, именно столько вы переплатите завтра. Как максимум — шанс войти в топ-1% дата-сайентистов, которые умеют строить AI-агенты.

🎓 Чему вы научитесь на курсе:
— адаптировать LLM под разные предметные области и данные
— собирать свою RAG-систему: от ретривера и реранкера до генератора и оценки качества
— строить AI-агентов с нуля — на основе сценариев, функций и взаимодействия с внешней средой

Решение за вами.

👉 Купить курс по старой цене

proglib.academy

Курс|AI-агенты для DS-специалистов

На курсе ты разберёшься, как работают AI-агенты и как их применять в работе — от текстовых помощников до систем, помогающих принимать решения. Разберем архитектуру агентов, связку с внешними API, пайплайны действий и популярные библиотеки. Курс включает реальные…

817 views07:01

Библиотека собеса по Data Science | вопросы с собеседований

➡️

Как batch normalization и dropout связаны с предположением о независимых и одинаково распределённых (i.i.d.) данных

Batch normalization рассчитывает среднее и дисперсию по мини-батчу, предполагая, что данные в нём отражают общее распределение. Если данные в батче не являются i.i.d. (например, временные зависимости или перекос по классам), то оценки могут быть неточными.

Dropout случайно отключает нейроны, предполагая независимость примеров между собой. При сильной корреляции в данных dropout может всё ещё помогать как регуляризация, но эффективность зависит от характера зависимости между примерами.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

864 views18:04

Библиотека собеса по Data Science | вопросы с собеседований

🤔 Как сбалансировать уровень детализации данных и приватность пользователя, если хочется отслеживать каждое действие на сайте

Сбор очень детальных данных (например, движений мыши или всех кликов) может дать точную картину вовлечённости, но это часто противоречит ожиданиям пользователей и законам.

Чтобы найти баланс, можно:
— Использовать агрегированные или анонимизированные метрики — например, сохранять данные на уровне сессии без личных идентификаторов.
— Получать явное согласие пользователей и чётко объяснять, какие данные собираются и зачем.
— Применять методы дифференциальной приватности, чтобы нельзя было определить конкретного пользователя даже в больших массивах данных.

Важно помнить: слишком грубые метрики могут скрыть полезные детали, а избыточный сбор личной информации без чёткого плана её использования может обернуться юридическими или имиджевыми проблемами.

Библиотека собеса по Data Science

❤1

884 views18:02

Библиотека собеса по Data Science | вопросы с собеседований

🖼 Какие методы помогают визуализировать компромисс между точностью (precision) и полнотой (recall)

Наиболее распространённый способ — Precision-Recall кривая. Она показывает, как меняются precision и recall при изменении порога классификации от 0 до 1.

📝 Если модель удерживает высокую точность при высокой полноте — это хороший признак.
📝 Если precision резко падает при увеличении recall, значит модель плохо справляется с определением положительных примеров при более мягких порогах.

Также можно использовать ROC-кривую (True Positive Rate против False Positive Rate), но при сильной дисбалансировке классов Precision-Recall кривая информативнее, особенно при анализе качества на миноритарном классе.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍2

841 views18:40

Библиотека собеса по Data Science | вопросы с собеседований

🔗

Как понять, что пора перейти на более крупную AI модель

Пора задуматься о более сложной модели, если:

1️⃣

Текущая модель стабильно ошибается или показывает смещение, особенно на сложных или явно нелинейных задачах (например, временные ряды, изображения).

2️⃣

Небольшой прирост точности имеет большую ценность — например, +2% точности могут существенно повлиять на прибыль, снизить риски или повысить безопасность.

3️⃣

При этом нужно учитывать стоимость усложнения: снижение интерпретируемости, рост вычислительных затрат и возможные регуляторные ограничения.

Решение всегда должно быть балансом между выигрышем в качестве и ценой усложнения.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

736 views18:04

Библиотека собеса по Data Science | вопросы с собеседований

🔥 Не пропустите событие лета для DS-комьюнити

23 июня, 19:00 Мск — бесплатный вебинар с Никитой Зелинским «AI-агенты для DS: обзор курса и практические кейсы»

😤 Пока все обсуждают, «как бы внедрить LLM», мы покажем, как строить полноценных AI-агентов, которые делают работу вместо тебя. За час Никита разложит по полочкам:
— архитектуру курса и ключевые модули
— частые ошибки студентов, о которых не принято говорить вслух
— реальные юзкейсы: от чат-ассистентов до систем поддержки решений в проде

➡️ Что почитать от Никиты до Веба:

— Как adversarial-атаки живут даже при смене модели (и почему «подвинуть кровати в борделе» не спасёт)
— Самый быстрый пакетный менеджер uv и эксперимент «pip vs uv»
— 17 методов XAI и 20 метрик на NIPS’24: как не утонуть в «объяснимости»

⚡️ Хотели задать Никите свой каверзный вопрос? Ловите шанс: только в прямом эфире — отвечаем на всё, что обычно «остаётся за кадром».

⏰ МЕСТ МАЛО регистрация закроется, как только забьём комнату. Действуй сейчас → https://clc.to/1iGw6Q

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

747 views16:58

Библиотека собеса по Data Science | вопросы с собеседований

👌

Как оценить качество латентного представления

Один из способов — проверить, насколько хорошо латентные признаки работают в задачах классификации или регрессии. Если они позволяют добиться высокой точности, это признак качественного представления.

Также полезен анализ понижения размерности: можно визуализировать латентное пространство с помощью t-SNE или UMAP. Если похожие объекты из исходных данных остаются близко друг к другу в латентном пространстве, а разные классы — чётко разделены, это тоже говорит о его качестве.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

775 views18:24

Библиотека собеса по Data Science | вопросы с собеседований

➕ Как выбрать пороги бинов при преобразовании непрерывной целевой переменной в классы

Выбор порогов зависит от контекста и распределения данных. Один из подходов — использовать квантильное разбиение, чтобы классы были сбалансированы по числу примеров. Это полезно для предотвращения дисбаланса классов.

Если в данных видны естественные скопления значений или есть доменные границы (например, определённые температуры, при которых человеку комфортно), то лучше использовать именно их. Главное — избегать произвольных порогов, которые могут привести к крайне несбалансированным классам.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

744 views18:04

About

Blog

Apps

Platform