Библиотека собеса по Data Science | вопросы с собеседований

Библиотека собеса по Data Science | вопросы с собеседований pinned a photo

11:01

🔺

Как можно интегрировать экспертные знания в методы обнаружения аномалий на основе плотности

Хотя методы, основанные на оценке плотности, чаще всего являются полностью безнадзорными, в реальных задачах часто доступна частичная информация от экспертов. Это могут быть:

1️⃣

известные валидные диапазоны значений (например, «датчик не может показывать ниже 0»),

2️⃣

примеры аномалий или нормальных состояний, собранные вручную,

3️⃣

логические правила или бизнес-ограничения.

🚩

Как использовать эту информацию

1. Полунадзорная плотностная оценка
— Задать «якорные» точки: явно указать, какие объекты точно нормальные, а какие — аномальные. Это влияет на локальные оценки плотности вокруг них.

2. Постобработка результатов модели
— После работы алгоритма можно применять экспертные правила для фильтрации или повторной оценки найденных аномалий. Например, игнорировать точки, попавшие в известные допустимые диапазоны, даже если модель посчитала их подозрительными.

3. Обогащение признаков
— Добавить признаки, отражающие экспертные соображения (например, флаги «значение превышает допустимый уровень»), которые помогут алгоритму выявлять аномалии более осознанно.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

752 views17:51

Библиотека собеса по Data Science | вопросы с собеседований

👾 AI-агенты — настоящее, о котором все говорят

На днях мы анонсировали наш новый курс AI-агенты для DS-специалистов 🎉

Это продвинутая программа для тех, кто хочет получить прикладной опыт с LLM и решать сложные задачи!

На обучении вы соберете полноценные LLM-системы с учётом особенностей доменных областей, получите hands-on навыки RAG, Crew-AI / Autogen / LangGraph и агентов.

🎓 В рамках курса вы научитесь:
— адаптировать LLM под разные предметные области и данные
— собирать свою RAG-систему: от ретривера и реранкера до генератора и оценки качества
— строить AI-агентов с нуля — на основе сценариев, функций и взаимодействия с внешней средой

Разберете реальные кейсы и научитесь применять похожие подходы в разных доменных областях, получите фундамент для уверенного прохождения NLP system design интервью и перехода на следующий грейд.

Старт 5 июля, а при оплате до 1 июня действует дополнительная скидка и бонус — эксклюзивный лонгрид по API и ML от Proglib.

Начните осваивать тему уже сейчас 👉 https://clc.to/Cttu7A

proglib.academy

Курс|AI-агенты для DS-специалистов

На курсе ты разберёшься, как работают AI-агенты и как их применять в работе — от текстовых помощников до систем, помогающих принимать решения. Разберем архитектуру агентов, связку с внешними API, пайплайны действий и популярные библиотеки. Курс включает реальные…

❤1

937 views13:58

Библиотека собеса по Data Science | вопросы с собеседований

Библиотека собеса по Data Science | вопросы с собеседований pinned «👾 AI-агенты — настоящее, о котором все говорят На днях мы анонсировали наш новый курс AI-агенты для DS-специалистов 🎉 Это продвинутая программа для тех, кто хочет получить прикладной опыт с LLM и решать сложные задачи! На обучении вы соберете полноценные…»

13:58

Библиотека собеса по Data Science | вопросы с собеседований

🔴

Как системно оценить качество предобработанных данных перед обучением большой языковой модели (LLM)

Перед тем как запускать дорогостоящий процесс обучения LLM, важно убедиться, что ваши данные чисты, релевантны и структурированы.

Оценка должна включать как количественные, так и качественные метрики.

➡️

Количественные метрики:

😶

Распределение токенов

Проверьте, не доминируют ли специальные токены, мусорные фрагменты или нерелевантные конструкции. Ожидаемые токены (например, ключевые слова доменной области) должны иметь разумную частоту.

😶

Покрытие словаря

Оцените, насколько хорошо охвачены часто встречающиеся слова и сабворды в вашей предметной области. Можно использовать частотный анализ на корпусе.

😶

Статистика по длине документов

Сравните среднюю и медианную длину документов с ожидаемыми значениями. Аномально короткие или длинные тексты могут быть ошибками разметки или дубликатами.

😶

Языковое распределение

В мультиязычном корпусе важно убедиться, что каждый язык представлен в правильной пропорции. Используйте модель определения языка (например, fastText или

langid.py

➡️

Качественные проверки:

😶

Ручная выборка документов

Просмотрите случайные примеры: содержимое должно быть осмысленным, без мусора, персональных данных или несоответствий тематике.

😶

Проверка дубликатов и шаблонов

Автоматически найдите повторяющиеся документы или шаблонные страницы (например, элементы веб-навигации).

😶

Оценка перплексии на тестовой модели

Можно применить небольшую предварительно обученную LLM к данным, чтобы вычислить перплексию. Высокая перплексия может сигнализировать о шуме или нерелевантности.

😶

Автоматическое обнаружение аномалий

Используйте кластеризацию или модели выявления аномалий, чтобы найти подозрительные группы документов.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍1

813 views20:02

Библиотека собеса по Data Science | вопросы с собеседований

👍 Как можно снизить нагрузку на инференс при использовании ансамблей глубоких нейронных сетей

Возможные стратегии:

1️⃣

Дистилляция модели: обучите более компактную «студенческую» нейросеть, которая имитирует выходы ансамбля. Это позволяет значительно сократить время инференса, сохранив при этом качество.

2️⃣

Снижение точности / квантизация: уменьшите разрядность весов и активаций (например, до 8 бит), чтобы ускорить вычисления и уменьшить использование памяти.

3️⃣

Производительное оборудование и параллелизация: если позволяют ресурсы, можно запускать модели параллельно на нескольких GPU или специализированных ускорителях (например, TPU или нейромодулях).

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

725 views17:51

Библиотека собеса по Data Science | вопросы с собеседований

⏰ Последние 2 дня скидки на курс «AI-агенты для DS-специалистов»

Пока большинство дата-сайентистов строят модели и делают аналитику, рынок уже требует специалистов, которые создают автономные системы на базе ИИ-агентов.

Для этого мы подготовили специальный курс и собрали кучу дополнительного контента, который поможет погрузиться в тему еще глубже. Но чтобы получить все плюшки, успевайте до 1 июня.

🎁 Что вы получите при оплате курса до 1 июня:
— Промокод PROGLIBAIна 10 000 ₽ на курс, чтобы изучать AI-агентов еще выгоднее
— Эксклюзивный лонгрид по API и ML от Proglib

💡Что разберем на курсе «AI-агенты для DS-специалистов»:
— Реализацию памяти в цепочках langchain
— Полный пайплайн RAG-системы с оценкой качества
— Основы мультиагентных систем (MAS)
— Протокол MCP и фреймворк FastMCP

Промокод также действует на курсы «Математика для Data Science» и «Алгоритмы и структуры данных».

👉 Успейте до 1 июня: https://clc.to/Cttu7A

761 views05:41

Библиотека собеса по Data Science | вопросы с собеседований

Библиотека собеса по Data Science | вопросы с собеседований pinned a photo

05:41

Библиотека собеса по Data Science | вопросы с собеседований

✅

Как понять, какие задачи можно эффективно объединить в мультизадачную модель

Ключевой критерий — наличие общей структуры или схожих признаков между задачами.

🔍 Хорошие кандидаты для мультизадачного обучения:
— Задачи, основанные на одинаковых входных данных (например, текст, изображения).
— Задачи, требующие похожего понимания структуры (например, синтаксического или семантического анализа в NLP).
— Задачи, где одна может обогащать представление для другой (например, часть речи ↔️ определение сущностей).

📌 Пример:
В NLP можно объединить задачи классификации тональности, распознавания именованных сущностей и анализа зависимостей — они все используют текст и извлекают структурированную информацию.

🚫 Плохие кандидаты — риск негативного переноса:
— Задачи с разными типами данных и отдельными признаковыми пространствами (например, изображение + аудио без общего контекста).
— Задачи с конфликтующими целями (например, одна требует обобщения, другая — запоминания деталей).

На что ещё обратить внимание:

➡️

Размер и баланс подзадач — мелкие задачи могут быть подавлены.

➡️

Возможность общей архитектуры (shared encoder + task-specific heads).

➡️

Наличие метрик для оценки взаимного влияния задач.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

778 views17:53

Библиотека собеса по Data Science | вопросы с собеседований

🚨 Что на самом деле происходит с увольнениями в ИТ

Каждый день в чатах разработчиков появляются сообщения «ищу работу», «команду сократили», «проект закрыли». Но никто не говорит о причинах и масштабах катастрофы. Мы запустили большое исследование, чтобы раскрыть правду!

🎯 Что мы выясним:
→ Реальные причины увольнений
→ Сколько времени нужно на поиск работы
→ Самые безумные истории смены работы

Понимая реальную ситуацию, мы сможем принимать взвешенные решения о карьере и не попасться на удочку HR-сказок.

👉 Пройдите опрос за 3 минуты и помогите всему сообществу: https://clc.to/yJ5krg

733 views11:01

Библиотека собеса по Data Science | вопросы с собеседований

❓

Почему кто-то может предпочесть иерархическую кластеризацию вместо кластеризации на основе разбиения

1. Многоуровневая структура кластеров
Иерархические методы способны выявлять вложенные структуры: можно увидеть, как малые кластеры объединяются в более крупные. Это особенно полезно, если данные имеют естественную иерархию.

2. Гибкость при выборе количества кластеров
В отличие от методов типа K-средних, где нужно заранее задать число кластеров, иерархическая кластеризация позволяет определить их после построения, анализируя дендрограмму (древовидное представление).

3. Хороша для анализа и интерпретации
Иерархическая кластеризация часто применяется в задачах, где важно понять структуру и взаимосвязи между объектами — например, в биоинформатике (кластеризация генов), лингвистике (группировка слов), маркетинге (иерархия клиентов).

⚠️ Ограничения:

➡️ Сложность по вычислениям: стандартные алгоритмы имеют сложность

(n^2)$ по памяти и времени, что делает их неэффективными для больших наборов данных.

➡️ Чувствительность к шуму и выбросам: особенно при использовании метрик расстояния без устойчивости к выбросам.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

740 views17:52

Библиотека собеса по Data Science | вопросы с собеседований

🌸

Как признаки, извлечённые автоэнкодером, соотносятся с другими методами выделения признаков

Признаки, полученные с помощью автоэнкодера, обладают рядом преимуществ и недостатков по сравнению с традиционными методами:

🛠 По сравнению с вручную созданными признаками (handcrafted features)

Преимущества:
✔️ Автоэнкодеры автоматически извлекают признаки из данных, без необходимости ручного проектирования.
✔️ Могут адаптивно подстраиваться под специфические закономерности в данных, что особенно ценно в сложных или плохо изученных предметных областях.
✔️ Хорошо работают с высокомерными и шумными данными.

Недостатки:
🙅‍♂️ Требуют большого объёма данных для эффективного обучения.
🙅‍♂️ Полученные признаки зачастую трудно интерпретировать, особенно без специальных визуализаций или декодеров.

📉 По сравнению с линейными методами, такими как PCA (анализ главных компонент)

Преимущества:
✔️ Автоэнкодеры способны выявлять нелинейные зависимости, в то время как PCA ограничен линейными проекциями.
✔️ Гибкость архитектуры позволяет моделировать сложные структуры данных, выходящие за пределы линейных подпространств.
✔️ Возможность применения модификаций (например, вариационных, спарс-, денойзинг автоэнкодеров).

Недостатки:
🙅‍♂️ Более трудоёмкие вычислительно, требуют настройки гиперпараметров и структуры сети.
🙅‍♂️ Чувствительны к переобучению и ошибкам в архитектуре.
🙅‍♂️ Могут запоминать вход, не извлекая полезных обобщённых признаков, если плохо обучены.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍1

731 views17:53

Библиотека собеса по Data Science | вопросы с собеседований

🤔 Почему ИИ-агенты — технологический тренд №1 в 2025 году?

Так заявил сам Gartner, а эксперт нашего курса по AI-агентам Никита Зелинский @datarascals объяснил, почему:

Агентские системы известны с прошлого века, и все это время применялись в производстве и логистике. Но широкое распространение LLM дало новый импульс этой технологии в двух направлениях.

Во-первых, LLM стали использовать как универсальный оркестратор агентов. Это означает, что под каждый входящий запрос система составляет последовательность действий — планирует пайплайн, который состоит из применения различных инструментов или обращения к другим агентам, с возможными циклами и обращениями к общей памяти (с возможностью не только чтения но и записи / удаления).

Во-вторых, LLM служат инструментом, который позволяет легко настраивать системы на тысячи агентов на естественном языке.

Поэтому на первом занятии курса «AI-агенты для DS-специалистов» мы рассмотрим, как выбрать конкретную LLM с учетом имеющихся ограничений и как оценить стоимость такого решения.

Остаться без денег неожиданно легко — Никита сам столкнулся с тем, что генерация всего 70 тестовых вопросов для RAG-системы через GPT-4o обошлась в 30 долларов... Будем разбираться, как этого избежать и не только!

🤓 В следующем посте расскажем, как правильно выбрать LLM для использования в агентских системах.

👉 А пока — приходите на наш курс по AI-агентам. Приятная цена действует до 14 июня!

❤1

648 views15:45

Библиотека собеса по Data Science | вопросы с собеседований

👇

Как обрабатывать крупномасштабные датасеты с иерархической кластеризацией, учитывая её высокую вычислительную стоимость

Иерархическая кластеризация в наивной реализации плохо масштабируется и становится крайне ресурсоёмкой при работе с большими объёмами данных. Однако существуют эффективные стратегии:

🔧 Приближённые или гибридные методы:
1️⃣ Использование mini-batch иерархической кластеризации, где анализируется не весь набор данных, а его небольшие случайные подвыборки.
2️⃣ Применение предварительной кластеризации (например, алгоритмом k-Means), чтобы разбить данные на подгруппы, а затем применить иерархическую кластеризацию только к центроидам этих кластеров. Это снижает объем вычислений, сохраняя структуру на высоком уровне.

⚙️ Оптимизированные структуры данных:
1️⃣ Использование KD-деревьев или Ball-деревьев может ускорить операции поиска ближайших соседей, особенно при агломеративной кластеризации.
2️⃣ Некоторые библиотеки, такие как Scipy или fastcluster, используют улучшенные алгоритмы и эффективное хранение расстояний, чтобы ускорить вычисления.

📉 Снижение размерности данных:
1️⃣ Применение методов снижения размерности (например, PCA, t-SNE, UMAP) перед кластеризацией может значительно уменьшить вычислительные издержки и упростить структуру данных.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍1

697 views18:08

Библиотека собеса по Data Science | вопросы с собеседований

🫣 Устали от HR-сказок про «дружный коллектив» и «печеньки в офисе»?

Давайте честно поговорим о том, что действительно происходит на IT-рынке. Не в розовых презентациях, а в реальной жизни разработчиков, тестировщиков, аналитиков и всех, кто живет кодом.

🧐 Мы проводим исследование, чтобы выяснить:

— Как часто мы прыгаем между компаниями (и почему)
— Какие красные флаги заставляют бежать без оглядки
— Где реально находят работу
— Что бесит в HR больше всего
— Сколько кругов собеседований — это уже перебор

Результаты покажут реальную картину рынка. Без приукрашиваний. Может, компании поймут, что нужно менять, а специалисты — куда двигаться дальше.

😈 Опрос займет 5 минут, но результаты будут работать на всех нас → https://clc.to/9aaXVg

641 views10:02

Библиотека собеса по Data Science | вопросы с собеседований

🗑

Нужно ли автоматически удалять один из признаков, если они сильно коррелируют

Не всегда — всё зависит от цели вашей модели.

🎯 Если важна точность предсказаний:
— Современные алгоритмы машинного обучения (например, Random Forest, градиентный бустинг, нейросети) достаточно устойчивы к мультиколлинеарности.
— Если оба признака способствуют улучшению метрик — удалять не обязательно.

🧠 Если важна интерпретируемость (например, в линейной регрессии):
— Сильно коррелирующие признаки могут делать модель нестабильной и затруднять интерпретацию коэффициентов.
— В этом случае удаление одного признака может упростить модель и сделать её более надёжной.

🔎

Как подойти на практике:
1. Проверьте через кросс-валидацию, ухудшается ли качество модели при удалении одного признака.
2. Используйте предметные знания, чтобы определить, не измеряют ли оба признака одно и то же.
3. Вместо удаления можно применить регуляризацию (например, L1 или L2), чтобы модель автоматически уменьшала влияние избыточных признаков.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍2

721 views17:49

Библиотека собеса по Data Science | вопросы с собеседований

😵‍💫 Как правильно выбрать LLM для использования в агентских системах

Модели могут выдумывать факты, ссылаться на несуществующие источники и уверенно врать. Особенно часто это происходит при работе с редкими языками или специфическими тематиками.

Поэтому на первом занятии курса «AI-агенты для DS-специалистов» разберем, как с этим бороться. И это только первый из пяти уроков!

🔍 Выбор правильной модели
Не все LLM одинаково полезны. Обсудим квантизованные модели, instruct-версии и мультилингвальные решения. Узнаем, где больше галлюцинаций — в базовых моделях или после дообучения.

💰 Токенизация и стоимость
Разные языки «съедают» разное количество токенов. Покажем, как это влияет на цену API и почему русский текст может стоить дороже английского.

⚡️ Температура и Guardrails
Настройка temperature помогает контролировать креативность модели. А системы Guardrails — отсекать неподходящие ответы еще до генерации.

🧠 Память vs контекст
Казалось бы, зачем RAG, если есть модели с контекстом более 10М токенов? Но не все токены равнозначны. Разберем, когда внешние источники все еще нужны.

В конце создадим простых агентов на LangChain с подключением к внешним источникам и инструментам поиска — и у вас уже будет кейс по созданию собственного AI-агента.

👉 Присоединяйтесь к курсу — приятная цена действует до 14 июня!

713 views09:06

Библиотека собеса по Data Science | вопросы с собеседований

✅

Как алгоритм EM оценивает параметры

Алгоритм EM (Expectation-Maximization) оценивает параметры модели в два чередующихся шага:

🔍 E-шаг (шаг ожидания):

— Рассчитывает апостериорные вероятности принадлежности каждой точки к каждому скрытому компоненту.
— То есть, на этом этапе мы «угадываем», как могла бы распределиться скрытая структура данных при текущих параметрах модели.

🔧 M-шаг (шаг максимизации):
— Обновляет параметры модели (например, средние, ковариационные матрицы, веса компонентов) так, чтобы максимизировать логарифмическую вероятность наблюдаемых данных, учитывая ожидания из E-шага.

🔁 Эти шаги повторяются поочерёдно до тех пор, пока логарифмическая правдоподобность не перестанет значительно меняться — то есть, пока не будет достигнута сходимость.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

677 views17:51

Библиотека собеса по Data Science | вопросы с собеседований

🥴 Средний разработчик меняет работу каждые 1,5 года

И это не потому, что мы такие непостоянные. Просто рынок показывает свое истинное лицо быстрее, чем успевают напечатать визитки.

Поэтому мы собираем инсайды от тех, кто находится в окопах digital-трансформации каждый день. От джуниоров, которые только въезжают в профессию, до сеньоров, повидавших всякого.

😳 О чем говорим откровенно:
— Job-hopping и что за этим стоит
— Red flags, которые мгновенно убивают мотивацию
— Реальные источники вакансий (не те, что рекламируют)
— Боль от общения с рекрутерами
— Сколько этапов отбора — норма, а сколько — издевательство

Когда мы объединим опыт сотен IT-специалистов, получится настоящая карта того, как устроена индустрия. Не по версии HR-отделов, а по версии тех, кто пишет код, тестирует продукты и двигает технологии вперед.

🚀 Участвовать в исследовании → https://clc.to/9aaXVg

👍3

716 views07:01

Библиотека собеса по Data Science | вопросы с собеседований

🤔 Можно ли задать одинаковые веса всем скрытым нейронам

На практике — почти никогда. В современных нейросетях это мешает обучению: все нейроны начинают вычислять одно и то же, градиенты одинаковы, и сеть не учится различать признаки. Такое поведение разрушает всю идею глубокого обучения.

Исключения есть:

• Смещения (bias) часто инициализируют нулём или 0.01
• Параметры нормализации (например, γ в BatchNorm) могут начинаться с 1

Но сами веса сети — всегда инициализируются случайно (например, Xavier или He), чтобы нарушить симметрию и позволить сети учиться.

Библиотека собеса по Data Science

👍3❤1

693 views18:06

Библиотека собеса по Data Science | вопросы с собеседований

❗Вакансии «Библиотеки программиста»

Привет! Мы ищем контент-менеджеров, которые будут вести наши телеграм-каналы о разработке.

👾 Требования:
— знать принципы залетающего контента
— разбираться в темах, связанных с разработкой

Большим плюсом будет навык программирования на каких-либо языках.

✨ Условия:
— удаленка
— частичная занятость
— сдельная оплата в зависимости от количества задач

🔥 Оставляйте отклик, и мы свяжемся с вами: https://forms.gle/o4BZnsQ526JoqsCq9

❤2

737 views16:02

About

Blog

Apps

Platform