Библиотека собеса по Data Science | вопросы с собеседований

Почему трансформеры справляются с большими объемами данных лучше, чем рекуррентные нейронные сети

Это связано с их возможностями параллельной обработки, лучшим моделированием дальнодействующих зависимостей и устойчивостью к исчезающим и взрывающимся градиентам.

Дополнительно, слой нормализации в трансформерах помогает справляться с проблемой взрыва градиента, что делает их еще более надежными для работы с крупными наборами данных.

Библиотека собеса по Data Science

❤3👍1🔥1

1.14K viewsedited 18:39

Библиотека собеса по Data Science | вопросы с собеседований

Как можно разбить непрерывные признаки на интервалы на основе распределения данных, и каковы плюсы и минусы такого подхода

Один из распространенных методов — разбиение на интервалы по квантилям. Такой способ обеспечивает равномерное распределение наблюдений по группам, но при этом границы интервалов могут быть нецелыми числами, а также метод чувствителен к изменению распределения данных со временем.

Библиотека собеса по Data Science

❤5❤‍🔥1

1.08K views18:20

Библиотека собеса по Data Science | вопросы с собеседований

Какие методы сбора данных вам приходилось использовать в работе

Некоторые распространенные методы:

🔹 Транзакционные данные — сбор информации с терминалов и платежных систем.

🔹 Веб-скрейпинг — извлечение данных из открытых интернет-источников.

🔹 Логирование пользовательских действий — анализ поведения в приложениях и на сайтах.

🔹 Данные с датчиков — отслеживание параметров работы устройств, автомобилей, IoT-систем.

Библиотека собеса по Data Science

👍3❤1

1.1K viewsedited 18:04

Библиотека собеса по Data Science | вопросы с собеседований

Какие методы выборки чаще всего используются для отбора подмножества из конечной популяции

🔹 Выборка с возвращением — каждый элемент может быть выбран несколько раз.
🔹 Выборка без возвращения — элемент может быть выбран только один раз.
🔹 Стратифицированная выборка — данные делятся на группы (страты), из которых берутся случайные образцы.
🔹 Многоступенчатая выборка — отбор проводится в несколько этапов, последовательно уменьшая выборку.
🔹 Систематическая выборка — отбор элементов через равные интервалы в отсортированном списке.

Библиотека собеса по Data Science

👍4

1.04K views18:02

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Proglib.academy | IT-курсы

➕➖ Нужна ли математика программисту

Можно ли стать разработчиком, если в школе ненавидел математику? А если наоборот — тащился от алгебры и геометрии, но кодить не умеешь? Эта статья раскладывает всё по полочкам: где без математики никуда, а где можно и без неё.

➡️

Что внутри:

✓ Почему все считают, что программисты — математики

✓ В каких сферах разработки можно вообще не знать математику

✓ Где хватит готовых библиотек, а где придётся разбираться в формулах

✓ Какие области программирования требуют мощного математического бэкграунда

✓ Что делать, если математика — это боль, но хочется освоить ML или Data Science

✓ Топ книг, которые помогут понять и даже полюбить математику

🔵 Чтобы знать математику, забирайте наш курс → «Математика для Data Science»

📎 Читать статью

Proglib Academy

Please open Telegram to view this post

VIEW IN TELEGRAM

752 views09:41

Библиотека собеса по Data Science | вопросы с собеседований

Какие существуют методы обнаружения выбросов

Методы делятся на статистические и плотностные.

📊 Статистические методы:
✓ Правило 3σ — предполагает нормальное распределение, выбросы находятся за границами ±3 стандартных отклонений.
✓ Метод box-plot — выбросы определяются на основе квартилей и 1.5 межквартильного размаха.
✓ Z-оценка — стандартизация данных, точки с высоким Z-score считаются выбросами.

📈 Плотностные методы:
✓ DBSCAN — алгоритм кластеризации, который помечает шумовые точки как выбросы.
✓ LOF (Local Outlier Factor) — анализирует локальную плотность точки и её отличие от соседей.

Библиотека собеса по Data Science

👍2

1.1K viewsedited 18:21

Библиотека собеса по Data Science | вопросы с собеседований

Как выбрать между ручным и автоматизированным созданием признаков

Выбор зависит от количества признаков и уровня знания предметной области.

🔹 Когда лучше использовать ручное создание признаков?

✔ Понимание области исследований и данных.

✔ Количество признаков управляемо.

✔ Важна интерпретируемость модели.

🔹 Когда предпочтительнее автоматизированное создание признаков?

✔️ Ограниченные знания о данных.

✔️ Большие наборы данных с высокой размерностью.

✔️ Дорого разрабатывать признаки вручную.

✔️ Интерпретируемость модели не является ключевым фактором.

Библиотека собеса по Data Science

❤2

1.06K views19:34

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Библиотека питониста | Python, Django, Flask

🐍 Твой Python-код жрёт память? 11 способов это исправить!

Высокая производительность и масштабируемость невозможны, если приложение неэффективно расходует RAM. Разберём лучшие техники оптимизации памяти в Python, которые помогут сократить потребление ресурсов и ускорить работу кода.

👉 Читать статью

Библиотека питониста

865 views11:12

Библиотека собеса по Data Science | вопросы с собеседований

Зачем использовать векторную базу данных, если есть пакеты для векторного поиска

Векторные пакеты и базы данных решают похожие задачи, но ориентированы на разные сценарии использования.

📌 Ключевые различия:
🔹 Векторные пакеты — подходят для локального поиска на небольших объемах данных, но не обеспечивают долговременное хранение и масштабируемость.
🔹 Векторные базы данных — разработаны для работы с большими объемами данных, поддерживают хранение, быстрый поиск и обработку в распределенной среде.

⚡ Когда что использовать:
🔹 Если данных мало и важна простота — подойдет векторный пакет.
🔹 Если требуется хранение, высокая скорость поиска и масштабируемость — нужна векторная база.

Библиотека собеса по Data Science

👍2❤1

1.24K views18:03

Библиотека собеса по Data Science | вопросы с собеседований

Как развернуть модель XGBoost в продакшн

1. Сериализация модели — сохранение модели с помощью XGBoost, Pickle или Joblib.

2. Загрузка модели — использование соответствующей библиотеки для загрузки модели в продакшн-среду.

3. Выбор платформы — развертывание модели локально, в облаке или в контейнере.

4. Обслуживание модели — настройка API (REST, gRPC) для предоставления предсказаний.

Библиотека собеса по Data Science

❤1

1.22K views18:03

Библиотека собеса по Data Science | вопросы с собеседований

Какие типы галлюцинаций бывают в LLM и как их можно минимизировать

Существует два основных типа галлюцинаций в больших языковых моделях (LLM):

1. Intrinsic Hallucinations:

Модель генерирует текст, который противоречит предоставленному вводу. Это может происходить, когда модель «выдумывает» факты или не следуют контексту.

2. Extrinsic Hallucinations:

Модель генерирует текст, который фактически неверен или не подтверждается входными данными. Например, создание неверных статистических данных или ссылок на несуществующие источники.

Как уменьшить галлюцинации?

1. Оптимизация стратегии декодирования:

Использование таких методов, как beam search или top-k sampling, может помочь улучшить качество вывода, избегая нелогичных или противоречивых утверждений.

2. Генерация с дополнительным поисковым механизмом (retrieval-augmented generation):

Этот подход использует внешние базы данных или поисковые системы для получения точной и релевантной информации перед тем, как сгенерировать окончательный ответ, что помогает избежать фактических ошибок.

Библиотека собеса по Data Science

👍6❤1

1.16K views18:03

Библиотека собеса по Data Science | вопросы с собеседований

Как работает Retrieval-Augmented Generation (RAG)

Процесс RAG включает в себя следующие этапы:

1. Создание индекса:

На первом этапе данные обрабатываются: текст делится на токены, создаются эмбеддинги для эффективного поиска.

2. Извлечение информации (Retrieval):

Релевантная информация извлекается из базы знаний с помощью таких техник, как поиск по ключевым словам, семантический поиск или поиск на основе графа знаний.

3. Генерация (Generation):

На основе извлеченной информации и входного запроса используется языковая модель для генерации текста.

Библиотека собеса по Data Science

👍5❤1

1.08K views18:03

Библиотека собеса по Data Science | вопросы с собеседований

❗ В чем недостатки методов обнаружения аномалий на основе плотности

Методы, такие как Local Outlier Factor (LOF), определяют аномалии по плотности данных, но сталкиваются с рядом проблем:

🔹 Проклятие размерности — в многомерных данных плотность теряет смысл.

🔹 Чувствительность к параметрам — требуется точная настройка гиперпараметров.

🔹 Сложности с разными кластерами — могут ошибаться при разной плотности данных.

🔹 Высокая вычислительная сложность — плохо масштабируются на больших данных.

🔹 Ограниченная интерпретируемость — трудно объяснить, почему точка считается выбросом.

Библиотека собеса по Data Science

❤1👍1

1.06K views18:02

Библиотека собеса по Data Science | вопросы с собеседований

Как получить эмбеддинги предложений из эмбеддингов слов

Для формирования эмбеддингов предложений используются следующие методы:

▪️ Среднее по словам — усреднение эмбеддингов всех слов в предложении.

▪️ Взвешенное усреднение — учет значимости слов с помощью весов (например, TF-IDF).

▪️ Модели для предложений — использование специализированных нейросетей, таких как Sentence-BERT или Sentence Transformers.

💡 Лучший подход зависит от задачи — простые методы подходят для базовых приложений, а нейросетевые модели обеспечивают более точное представление смысла.

Библиотека собеса по Data Science

👍6❤1

1.09K views18:02

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤖 IT-выживание 2025: как не вылететь с рынка труда в эпоху LLM

В 2025-м айтишникам приходится несладко: старые скиллы уже не в цене, LLM наступают на пятки, а работодатели хотят все и сразу.

👍 Делимся инсайдами, как выжить в новой реальности и не потерять работу в эпоху тотальной оптимизации.

👉 Ссылка на статью: https://proglib.io/sh/zEruLHxYno

Библиотека дата-сайентиста

798 views10:16

Библиотека собеса по Data Science | вопросы с собеседований

Что такое токен в NLP и какие существуют методы токенизации

🔹 Токен — это наименьшая единица текста, которая может быть словом, подсловом (например, «un-», «friend») или знаком препинания.

🔹 Популярные методы токенизации:

1. Токенизация на уровне слов — делит текст на отдельные слова.

2. Токенизация на уровне подслов — разбивает слова на более мелкие единицы (например, BPE, WordPiece).

3. Токенизация на уровне символов — превращает текст в последовательность отдельных символов.

⚡ Выбор метода зависит от задачи: для морфологически сложных языков часто используют подсловную токенизацию, а для обработки именованных сущностей — посимвольную.

Библиотека собеса по Data Science

❤1

3.12K views18:44

Библиотека собеса по Data Science | вопросы с собеседований

💬

Как оставлять комментарии в чате нашего канала

В нашем чате работает бот Shieldy — он защищает от спама, запрашивая у новых участников решение простой капчи.

⚠️ Проблема, с которой сталкиваются многие: вы нажимаете под постом «Прокомментировать», пишете что-то, а потом получаете бан и не можете писать комментарии.

❓Почему так: Shieldy отправляет капчу в сам чат, а не в комментарии под конкретный пост. Из-за этого капчу можно не увидеть, не отправить ответ на нее, и бот автоматически заблокирует вас.

✅

Как присоединиться к чату, чтобы бот вас не забанил

— Зайдите в описание канала с телефона и нажмите кнопку Discuss / Чат
— Нажмите Join / Присоединиться
— Сразу обратите внимание на сообщение от бота Shieldy
— Решите простой пример и отправьте ответ в чат

После этого бот отправит приветственное сообщение и вы сможете оставлять комментарии. Эту проверку нужно пройти только один раз при вступлении в чат.

❗️ Если вас все-таки забанили

— Это временная блокировка на несколько минут
— Подождите и попробуйте зайти позже, бот снова отправит вам капчу

Админы канала никак не могут ускорить процесс, бот автоматически снимает с вас блокировку через пару минут. Мы понимаем, что эта система неидеальна, и ищем более удобное решение.

👾 Спасибо, что активно участвуете в обсуждении наших постов!

Please open Telegram to view this post

VIEW IN TELEGRAM

👏1

1.08K viewsedited 10:44

Библиотека собеса по Data Science | вопросы с собеседований

Что такое аккумулирование градиентов и как оно влияет на Batch Normalization

🔹 Gradient Accumulation — это метод, при котором градиенты суммируются в течение нескольких шагов перед обновлением весов. Он полезен, когда память ограничена и нельзя использовать большие батчи.

Преимущества:

▪️ Позволяет эффективно обучать модели на малом объеме памяти.

▪️ Увеличивает эффективный размер батча, что стабилизирует градиенты.

Влияние на Batch Normalization:

▪️ Batch Normalization рассчитывает статистики (среднее и дисперсию) внутри одного батча. При аккумулировании градиентов батчи становятся меньше, что может привести к менее стабильному обучению.

Как решить проблему?
▪️

Использовать Layer Normalization, которая нормализует данные внутри каждого отдельного примера, а не по батчу.

Библиотека собеса по Data Science

👍5❤3

1.16K views18:01

Библиотека собеса по Data Science | вопросы с собеседований

📊 Собес по Data Science: 10 вопросов, которые разделяют джунов от мидлов

Готовишься к интервью? Мы собрали 10 каверзных вопросов, которые любят задавать тимлиды. Здесь нет банальных задач — только те, на которых спотыкаются 80% кандидатов. Проверь себя и узнай, готов ли ты к следующему собесу!

👌 Пройти тест

Библиотека собеса по Data #свежак

1.08K viewsedited 11:01

Библиотека собеса по Data Science | вопросы с собеседований

Подходит ли алгоритм K-Nearest Neighbors (KNN) для работы с большими данными

Проблемы KNN на больших данных:
🔹

Высокая вычислительная сложность: поиск ближайших соседей требует сравнения нового объекта со всеми точками обучающего набора, что занимает O(N m) операций (N — количество образцов, m — число признаков).

🔹 Большое потребление памяти: модель хранит весь обучающий набор, что создает проблемы со storage и обработкой.

Оптимизации для ускорения KNN:

🔹 Приближенный поиск (ANN) — использование KD-деревьев, Ball Tree или других структур данных для ускорения поиска.

🔹 Снижение размерности — применение PCA или автоэнкодеров для уменьшения числа признаков.

🔹 Гибридные методы — предварительная кластеризация перед применением KNN или сочетание с деревьями решений.

Альтернатива:
🔹

В продакшене чаще выбирают Random Forest, XGBoost или нейросети, которые после обучения работают быстрее.

Библиотека собеса по Data Science

❤3👍1

1.19K views17:59

Библиотека собеса по Data Science | вопросы с собеседований

Как DBSCAN справляется с разной плотностью кластеров

🔹 Проблема:

DBSCAN предполагает, что плотность кластеров относительно равномерна. Если кластеры имеют различную плотность, единое значение eps (радиус окрестности) может не подойти ко всем группам.

🔹 Решение:

1. Hierarchical DBSCAN — расширяет DBSCAN, позволяя находить кластеры с разной плотностью.

2. OPTICS — сортирует точки по плотности, выявляя структуру кластеров с разными масштабами.

🔹 Вывод:

Для данных с сильно различающейся плотностью DBSCAN можно заменить или дополнить OPTICS/Hierarchical DBSCAN.

Библиотека собеса по Data Science

❤4👍3

1.18K views18:05

About

Blog

Apps

Platform