Библиотека собеса по Data Science | вопросы с собеседований – Telegram

Библиотека собеса по Data Science | вопросы с собеседований

@ds_interview_lib

4.26K subscribers

467 photos

15 videos

1 file

564 links

Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://t.me/proglibrary/9197

Download Telegram

About

Blog

Apps

Platform

Библиотека собеса по Data Science | вопросы с собеседований

4.26K subscribers

Библиотека собеса по Data Science | вопросы с собеседований

🏃‍♀️ 1 день до конца спец предложения

Успей впрыгнуть на курс «AI-агенты для DS» до завтрашнего повышения цены: 59.000 р. вместо ~~69.000 р.~~

🎙 Наш спикер — Никита Зелинский, Chief Data Scientist МТС, в своем канале рассказывает о RAG:

Про RAG слышали все — это уже два года самый массовый способ применения LLM в проде для бизнеса.

Это значит, что точность и надёжность такого решения достаточно предсказуемы для того, чтобы исключить человека из процесса аппрува выдачи LLM,
а связка «локально развернутая LLM + RAG над корпоративными документами» обеспечивает достаточную конфиденциальность, чтобы снять тревожность
«что наши данные попадут в OpenAI».

Эта история настолько популярна, что на рынке есть готовые RAG-решения,
а даже «маленькие» опенсорс-модели (до 5B) уже обзавелись своей RAG-ареной:
👉 https://huggingface.co/spaces/aizip-dev/SLM-RAG-Arena

Во время обучения на курсе «AI-агенты для DS» научим собирать автономные системы под реальные бизнес-задачи. На прошлой неделе мы рассказали о первом занятии.

➡️ вот что ждет слушателей курса на втором:

— Собираем свой RAG-пайплайн на своих данных
— Обсуждаем, почему качество такой системы нельзя измерять «на глаз»
— Разбираем схему LLM as a Judge и как подготовить для неё датасет
— Что такое guardrails и как они спасают от бреда
— Что делать, когда LLM не знает ответа
— Смотрим на агентский RAG и обсуждаем, можно ли использовать RAG как память агента

Если пропустили первое занятие, то вот ссылочка

❗️До повышения цены остался последний день — бронируйте место сейчас

Please open Telegram to view this post

VIEW IN TELEGRAM

762 views09:01

Библиотека собеса по Data Science | вопросы с собеседований

🔎

В чём разница между доверительным интервалом и байесовским (достоверным) интервалом

Доверительный интервал (confidence interval) — это концепция из частотной статистики, где параметр считается фиксированным, а вариативность связана с данными. Например, 95% доверительный интервал означает, что при многократном повторении эксперимента 95% таких интервалов будут содержать истинное значение. Однако нельзя сказать, что с 95% вероятностью параметр лежит в этом конкретном интервале.

Байесовский достоверный интервал (credible interval) исходит из идеи, что параметр — это случайная величина. После наблюдений мы имеем апостериорное распределение, и 95% интервал означает, что с 95% вероятностью параметр лежит в этом интервале.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍1

719 views18:03

Библиотека собеса по Data Science | вопросы с собеседований

😱 Завтра цена на курс «AI-агенты для DS» вырастет

Пока вы думаете — другие уже покупают. Что вы теряете, откладывая решение? Как минимум — 10 000 рублей, именно столько вы переплатите завтра. Как максимум — шанс войти в топ-1% дата-сайентистов, которые умеют строить AI-агенты.

🎓 Чему вы научитесь на курсе:
— адаптировать LLM под разные предметные области и данные
— собирать свою RAG-систему: от ретривера и реранкера до генератора и оценки качества
— строить AI-агентов с нуля — на основе сценариев, функций и взаимодействия с внешней средой

Решение за вами.

👉 Купить курс по старой цене

proglib.academy

Курс|AI-агенты для DS-специалистов

На курсе ты разберёшься, как работают AI-агенты и как их применять в работе — от текстовых помощников до систем, помогающих принимать решения. Разберем архитектуру агентов, связку с внешними API, пайплайны действий и популярные библиотеки. Курс включает реальные…

817 views07:01

Библиотека собеса по Data Science | вопросы с собеседований

➡️

Как batch normalization и dropout связаны с предположением о независимых и одинаково распределённых (i.i.d.) данных

Batch normalization рассчитывает среднее и дисперсию по мини-батчу, предполагая, что данные в нём отражают общее распределение. Если данные в батче не являются i.i.d. (например, временные зависимости или перекос по классам), то оценки могут быть неточными.

Dropout случайно отключает нейроны, предполагая независимость примеров между собой. При сильной корреляции в данных dropout может всё ещё помогать как регуляризация, но эффективность зависит от характера зависимости между примерами.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

864 views18:04

Библиотека собеса по Data Science | вопросы с собеседований

🤔 Как сбалансировать уровень детализации данных и приватность пользователя, если хочется отслеживать каждое действие на сайте

Сбор очень детальных данных (например, движений мыши или всех кликов) может дать точную картину вовлечённости, но это часто противоречит ожиданиям пользователей и законам.

Чтобы найти баланс, можно:
— Использовать агрегированные или анонимизированные метрики — например, сохранять данные на уровне сессии без личных идентификаторов.
— Получать явное согласие пользователей и чётко объяснять, какие данные собираются и зачем.
— Применять методы дифференциальной приватности, чтобы нельзя было определить конкретного пользователя даже в больших массивах данных.

Важно помнить: слишком грубые метрики могут скрыть полезные детали, а избыточный сбор личной информации без чёткого плана её использования может обернуться юридическими или имиджевыми проблемами.

Библиотека собеса по Data Science

❤1

884 views18:02

Библиотека собеса по Data Science | вопросы с собеседований

🖼 Какие методы помогают визуализировать компромисс между точностью (precision) и полнотой (recall)

Наиболее распространённый способ — Precision-Recall кривая. Она показывает, как меняются precision и recall при изменении порога классификации от 0 до 1.

📝 Если модель удерживает высокую точность при высокой полноте — это хороший признак.
📝 Если precision резко падает при увеличении recall, значит модель плохо справляется с определением положительных примеров при более мягких порогах.

Также можно использовать ROC-кривую (True Positive Rate против False Positive Rate), но при сильной дисбалансировке классов Precision-Recall кривая информативнее, особенно при анализе качества на миноритарном классе.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍2

841 views18:40

Библиотека собеса по Data Science | вопросы с собеседований

🔗

Как понять, что пора перейти на более крупную AI модель

Пора задуматься о более сложной модели, если:

1️⃣

Текущая модель стабильно ошибается или показывает смещение, особенно на сложных или явно нелинейных задачах (например, временные ряды, изображения).

2️⃣

Небольшой прирост точности имеет большую ценность — например, +2% точности могут существенно повлиять на прибыль, снизить риски или повысить безопасность.

3️⃣

При этом нужно учитывать стоимость усложнения: снижение интерпретируемости, рост вычислительных затрат и возможные регуляторные ограничения.

Решение всегда должно быть балансом между выигрышем в качестве и ценой усложнения.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

736 views18:04

Библиотека собеса по Data Science | вопросы с собеседований

🔥 Не пропустите событие лета для DS-комьюнити

23 июня, 19:00 Мск — бесплатный вебинар с Никитой Зелинским «AI-агенты для DS: обзор курса и практические кейсы»

😤 Пока все обсуждают, «как бы внедрить LLM», мы покажем, как строить полноценных AI-агентов, которые делают работу вместо тебя. За час Никита разложит по полочкам:
— архитектуру курса и ключевые модули
— частые ошибки студентов, о которых не принято говорить вслух
— реальные юзкейсы: от чат-ассистентов до систем поддержки решений в проде

➡️ Что почитать от Никиты до Веба:

— Как adversarial-атаки живут даже при смене модели (и почему «подвинуть кровати в борделе» не спасёт)
— Самый быстрый пакетный менеджер uv и эксперимент «pip vs uv»
— 17 методов XAI и 20 метрик на NIPS’24: как не утонуть в «объяснимости»

⚡️ Хотели задать Никите свой каверзный вопрос? Ловите шанс: только в прямом эфире — отвечаем на всё, что обычно «остаётся за кадром».

⏰ МЕСТ МАЛО регистрация закроется, как только забьём комнату. Действуй сейчас → https://clc.to/1iGw6Q

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

747 views16:58

Библиотека собеса по Data Science | вопросы с собеседований

👌

Как оценить качество латентного представления

Один из способов — проверить, насколько хорошо латентные признаки работают в задачах классификации или регрессии. Если они позволяют добиться высокой точности, это признак качественного представления.

Также полезен анализ понижения размерности: можно визуализировать латентное пространство с помощью t-SNE или UMAP. Если похожие объекты из исходных данных остаются близко друг к другу в латентном пространстве, а разные классы — чётко разделены, это тоже говорит о его качестве.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

775 views18:24

Библиотека собеса по Data Science | вопросы с собеседований

➕ Как выбрать пороги бинов при преобразовании непрерывной целевой переменной в классы

Выбор порогов зависит от контекста и распределения данных. Один из подходов — использовать квантильное разбиение, чтобы классы были сбалансированы по числу примеров. Это полезно для предотвращения дисбаланса классов.

Если в данных видны естественные скопления значений или есть доменные границы (например, определённые температуры, при которых человеку комфортно), то лучше использовать именно их. Главное — избегать произвольных порогов, которые могут привести к крайне несбалансированным классам.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

745 views18:04

Библиотека собеса по Data Science | вопросы с собеседований

😤 «AI-агенты — это всё игрушки, зачем на это курс покупать, когда всё есть в интернете?!»

Ага, конечно. Вот только на YouTube никто не:

• Разберет твои вопросы вживую
• Не покажет, как применять AI-агентов на практике
• Не поможет встроить это в реальную работу DS-специалиста

Уже 23 июня в 19:00 по МСК ты можешь сам всё узнать на бесплатном вебинаре с экспертом Никитой Зелинским.

👉 Что будет на вебинаре:

— Разбор структуры курса
— Ответы на частые вопросы студентов
— Примеры из реальных проектов с AI-агентами
— И, конечно, как это всё можно использовать в работе прямо сейчас

А если уже всё понял и хочешь идти учиться — лови промокод lucky на 5.000₽

🔗 Ссылка на курс

P.s. Ждем тебя!

715 views15:00

Библиотека собеса по Data Science | вопросы с собеседований

❓

Как проводить кросс-валидацию, если у вас многоклассовая задача, а некоторые классы крайне редки

Работа с многоклассовыми наборами данных, где некоторые классы сильно недопредставлены, может быть сложной, даже при использовании стратифицированных методов. StratifiedKFold и StratifiedShuffleSplit стараются сохранить пропорции классов в каждом сплите, но если у некоторых классов слишком мало примеров, они могут не попасть в некоторые тестовые выборки. Это происходит просто потому, что данных недостаточно, чтобы обеспечить их равномерное распределение.

Возможные решения:

📝

Убедитесь, что у каждого класса достаточно примеров, чтобы он мог попасть в каждый fold.

📝

Используйте дополнительные техники, например, oversampling редких классов внутри каждого fold-а.

📝

Если возможно, соберите больше данных для малочисленных классов.

📝

В случаях, когда невозможно увеличить объём данных, можно использовать метрики, устойчивые к отсутствию класса в тесте (например, macro F1-score).

📝

Либо реализовать собственную стратегию разбиения, которая будет гарантировать присутствие всех классов в каждом fold-е.

Частные случаи:

📝

Если класс встречается всего несколько раз, он может отсутствовать в части разбиений — даже при стратификации.

📝

При сильной диспропорции классов даже стратифицированные выборки могут иметь искажённое распределение, что потребует аккуратной интерпретации результатов и использования специальных метрик (precision, recall и др.).

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

754 viewsedited 18:04

Библиотека собеса по Data Science | вопросы с собеседований

🌥

Есть ли отраслевые причины сохранять коррелированные признаки

Да, в регулируемых или специализированных отраслях — таких как здравоохранение, страхование или финансы — коррелированные признаки могут быть обязательны для соблюдения требований законодательства или для обеспечения интерпретируемости модели. Даже если признаки статистически избыточны, их нельзя удалять без согласования с доменной экспертизой.

📌 Пример:

В модели кредитного скоринга может использоваться несколько показателей кредитоспособности заемщика (например, кредитные рейтинги от разных агентств). Несмотря на высокую корреляцию, удаление одного из них может ухудшить прозрачность модели или вызвать недоверие со стороны регуляторов.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

786 views17:59

Библиотека собеса по Data Science | вопросы с собеседований

😱 Уже завтра — вебинар про AI-агентов! Мест почти не осталось

На вебинаре вы получите то, чего нет в открытых источниках — живой разбор, примеры и прямой диалог с экспертом. Но только если придёте.

➡️ Что будет:
— покажем структуру курса и ключевые модули
— обсудим вопросы, которые обычно остаются за кадром
— разберём реальные кейсы: как применять AI-агентов — от чат-ботов до систем поддержки решений

📅 Уже 23 июня в 19:00 МСК
🎙️ Ведёт Никита Зелинский — эксперт в AI и DS

👉 Зарегистрируйтесь заранее, чтобы не забыть:
https://clc.to/_lDV0Q

🫢 Для тех, кто дочитал до конца → промокод lucky, он даст −5.000₽ на курс

805 views09:00

Библиотека собеса по Data Science | вопросы с собеседований

❔

Как понижение размерности может помочь SVM и логистической регрессии справляться с выбросами

Понижение размерности (например, с помощью PCA, ICA или автоэнкодеров) сжимает признаки в более компактное представление. Это может выделить выбросы или уменьшить их влияние, особенно если применяются устойчивые методы. Например, в PCA выбросы могут проявляться как точки с аномально высокой дисперсией вдоль главных компонент, что позволяет их легче заметить и учесть до обучения модели.

Однако стоит быть осторожным: обычный PCA чувствителен к выбросам и может построить искажённые компоненты, подстраиваясь под аномалии. Поэтому лучше использовать робастные методы понижения размерности, которые отделяют выбросы от основного (низкорангового) представления данных. После этого SVM и логистическая регрессия обучаются уже на «очищенном» пространстве признаков.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

790 views18:12

Библиотека собеса по Data Science | вопросы с собеседований

🤔

Что делать, если редкий класс встречается менее 1% случаев и обычное увеличение выборки не помогает

Когда редкий класс очень мал (например, менее 1%), простое увеличение выборки (oversampling) может не решить проблему. В некоторых областях, таких как обнаружение мошенничества или аномалий, редкий класс по своей природе сильно отличается от обычных данных. Традиционные методы создания синтетических примеров могут не передавать сложные «аномальные» паттерны.

В таких случаях лучше использовать методы обнаружения аномалий, которые учатся распознавать нормальное поведение и отмечают отклонения. Если всё же применяете увеличение выборки, важно не создавать искусственные данные, слишком похожие на обычные, чтобы не запутать модель.

Также помогает обучение с учётом стоимости ошибок (cost-sensitive learning), которое сильнее штрафует ошибки на редком классе. Для оценки результатов полезно смотреть специальные метрики, например, количество ложных срабатываний и пропусков именно для редкого класса.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3

784 views18:01

Библиотека собеса по Data Science | вопросы с собеседований

📍

Зачем использовать log-loss вместо accuracy для оценки качества классификатора

Log-loss (логарифмическая функция потерь) учитывает не только правильность предсказания, но и уверенность модели. Если модель предсказывает правильный класс с низкой уверенностью, log-loss будет наказывать её сильнее, чем accuracy.

Например, если модель предсказывает класс A с вероятностью 0.51, а правильный ответ — A, то accuracy посчитает это успешным предсказанием. Log-loss же зафиксирует, что модель не была уверена. Это особенно важно в задачах, где требуется хорошо откалиброванная вероятность (например, в медицине или при принятии финансовых решений).

Таким образом, log-loss — более строгий критерий, который помогает отбирать не просто «угаданные» модели, а те, которые правильно оценивают свои предсказания.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤3

779 viewsedited 18:59

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤖 Нейросети для дата-сайентиста: свежий гид по инструментам

Мир нейросетей меняется каждый день — выбрать подходящий инструмент для задач Data Science непросто.

Мы собрали в статье то, что действительно работает: какие модели помогают автоматизировать рутину, ускоряют кодинг и дают ощутимый буст продуктивности.

📊 Что выбрать под вашу задачу — читайте в обзоре!

📌 Подробнее: https://proglib.io/sh/yq0MaQtHrn

Библиотека дата-сайентиста #буст

671 views09:38

Библиотека собеса по Data Science | вопросы с собеседований

📝

Немного инсайтов из третьего модуля курса

Сейчас большинство представлений об ИИ ограничиваются одним агентом — моделькой, которая что-то предсказывает, генерирует или классифицирует.

Но реальный прорыв начинается, когда этих агентов становится несколько.
Когда они начинают взаимодействовать друг с другом.
Когда появляется координация, распределение ролей, память, планирование — всё это и есть мультиагентные системы (MAS).

➡️ Пока кто-то думает, что это звучит как научная фантастика, индустрия уже переходит к новым уровням сложности:
— Microsoft делает язык DroidSpeak для общения между LLM
— Open Source-фреймворки вроде LangChain, AutoGen, CrewAI, LangGraph — бурно развиваются
— компании, включая МТС, уже применяют MAS в боевых задачах

🎓 На курсе мы подходим к этому практично:
🔵 разбираем, как устроены MAS
🔵 пишем агентов с нуля
🔵 учимся выстраивать взаимодействие: конкуренцию, кооперацию, планирование

Именно на третьем уроке вы впервые собираете не просто «умного бота», а живую систему из агентов, которая работает вместе — как команда.

Причём по-настоящему: врач, SQL-аналитик, travel-планировщик, Python-генератор, поисковик.

🙂 Если хочется не просто использовать ИИ, а проектировать системы, которые думают, планируют и сотрудничают → тогда забирайте курс по ИИ-агентам

Please open Telegram to view this post

VIEW IN TELEGRAM

647 views11:03

Библиотека собеса по Data Science | вопросы с собеседований

👇 Когда стоит рассмотреть использование специализированных решателей вместо стандартных градиентных фреймворков глубокого обучения

Хотя PyTorch или TensorFlow способны справляться со многими задачами с ограничениями, есть ситуации, когда специализированные решатели оказываются более подходящими:

• Комбинаторные или целочисленные ограничения: если необходимо обеспечить дискретность выходных данных или комбинаторную допустимость (например, в задачах планирования или маршрутизации), более эффективными могут быть методы смешанного целочисленного программирования.

• Жёсткие физические или операционные ограничения: в инженерном проектировании или исследовании операций ограничения часто настолько строгие, что естественнее использовать методы вроде ветвей и границ или внутренней точки.

• Высокомерные и связанные между собой ограничения: если ограничения затрагивают множество взаимодействующих переменных (например, потоки в сетях, многопериодное планирование), общие решатели, способные обрабатывать крупномасштабные задачи с ограничениями, могут быть быстрее или надёжнее.

Потенциальные сложности и крайние случаи:

• Сложная интеграция: связать параметры нейросети с внешним решателем требует дополнительных усилий для организации связи или передачи градиентов (некоторые решатели не являются полностью дифференцируемыми).

• Ограниченная масштабируемость: некоторые специализированные решатели могут не справляться с задачами, где размерность проблем или сети очень велика.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

757 views18:04