Какие методы сбора данных вам приходилось использовать в работе
Некоторые распространенные методы:
🔹 Транзакционные данные — сбор информации с терминалов и платежных систем.
🔹 Веб-скрейпинг — извлечение данных из открытых интернет-источников.
🔹 Логирование пользовательских действий — анализ поведения в приложениях и на сайтах.
🔹 Данные с датчиков — отслеживание параметров работы устройств, автомобилей, IoT-систем.
Библиотека собеса по Data Science
Некоторые распространенные методы:
Библиотека собеса по Data Science
Какие методы выборки чаще всего используются для отбора подмножества из конечной популяции
🔹Выборка с возвращением — каждый элемент может быть выбран несколько раз.
🔹Выборка без возвращения — элемент может быть выбран только один раз.
🔹Стратифицированная выборка — данные делятся на группы (страты), из которых берутся случайные образцы.
🔹Многоступенчатая выборка — отбор проводится в несколько этапов, последовательно уменьшая выборку.
🔹Систематическая выборка — отбор элементов через равные интервалы в отсортированном списке.
Библиотека собеса по Data Science
🔹
🔹
🔹
🔹
🔹
Библиотека собеса по Data Science
Forwarded from Proglib.academy | IT-курсы
Можно ли стать разработчиком, если в школе ненавидел математику? А если наоборот — тащился от алгебры и геометрии, но кодить не умеешь? Эта статья раскладывает всё по полочкам: где без математики никуда, а где можно и без неё.
✓ Почему все считают, что программисты — математики
✓ В каких сферах разработки можно вообще не знать математику
✓ Где хватит готовых библиотек, а где придётся разбираться в формулах
✓ Какие области программирования требуют мощного математического бэкграунда
✓ Что делать, если математика — это боль, но хочется освоить ML или Data Science
✓ Топ книг, которые помогут понять и даже полюбить математику
Proglib Academy
Please open Telegram to view this post
VIEW IN TELEGRAM
Какие существуют методы обнаружения выбросов
Методы делятся настатистические и плотностные .
📊Статистические методы:
✓Правило 3σ — предполагает нормальное распределение, выбросы находятся за границами ±3 стандартных отклонений.
✓Метод box-plot — выбросы определяются на основе квартилей и 1.5 межквартильного размаха.
✓Z-оценка — стандартизация данных, точки с высоким Z-score считаются выбросами.
📈Плотностные методы:
✓DBSCAN — алгоритм кластеризации, который помечает шумовые точки как выбросы.
✓LOF (Local Outlier Factor) — анализирует локальную плотность точки и её отличие от соседей.
Библиотека собеса по Data Science
Методы делятся на
📊
✓
✓
✓
📈
✓
✓
Библиотека собеса по Data Science
Как выбрать между ручным и автоматизированным созданием признаков
Выбор зависит от количества признаков и уровня знания предметной области.
🔹 Когда лучше использовать ручное создание признаков?
✔ Понимание области исследований и данных.
✔ Количество признаков управляемо.
✔ Важна интерпретируемость модели.
🔹 Когда предпочтительнее автоматизированное создание признаков?
✔️ Ограниченные знания о данных.
✔️ Большие наборы данных с высокой размерностью.
✔️ Дорого разрабатывать признаки вручную.
✔️ Интерпретируемость модели не является ключевым фактором.
Библиотека собеса по Data Science
Выбор зависит от количества признаков и уровня знания предметной области.
🔹 Когда лучше использовать ручное создание признаков?
🔹 Когда предпочтительнее автоматизированное создание признаков?
Библиотека собеса по Data Science
Forwarded from Библиотека питониста | Python, Django, Flask
🐍 Твой Python-код жрёт память? 11 способов это исправить!
Высокая производительность и масштабируемость невозможны, если приложение неэффективно расходует RAM. Разберём лучшие техники оптимизации памяти в Python, которые помогут сократить потребление ресурсов и ускорить работу кода.
👉 Читать статью
Библиотека питониста
Высокая производительность и масштабируемость невозможны, если приложение неэффективно расходует RAM. Разберём лучшие техники оптимизации памяти в Python, которые помогут сократить потребление ресурсов и ускорить работу кода.
👉 Читать статью
Библиотека питониста
Зачем использовать векторную базу данных, если есть пакеты для векторного поиска
Векторные пакеты и базы данных решают похожие задачи, но ориентированы на разные сценарии использования.
📌 Ключевые различия:
🔹 Векторные пакеты —подходят для локального поиска на небольших объемах данных, но не обеспечивают долговременное хранение и масштабируемость.
🔹 Векторные базы данных — разработаны для работы с большими объемами данных, поддерживают хранение, быстрый поиск и обработку в распределенной среде.
⚡ Когда что использовать:
🔹 Если данных мало и важна простота —подойдет векторный пакет .
🔹 Если требуется хранение, высокая скорость поиска и масштабируемость —нужна векторная база .
Библиотека собеса по Data Science
Векторные пакеты и базы данных решают похожие задачи, но ориентированы на разные сценарии использования.
📌 Ключевые различия:
🔹 Векторные пакеты —
🔹 Векторные базы данных — разработаны для работы с большими объемами данных, поддерживают хранение, быстрый поиск и обработку в распределенной среде.
⚡ Когда что использовать:
🔹 Если данных мало и важна простота —
🔹 Если требуется хранение, высокая скорость поиска и масштабируемость —
Библиотека собеса по Data Science
Как развернуть модель XGBoost в продакшн
1.Сериализация модели — сохранение модели с помощью XGBoost, Pickle или Joblib.
2.Загрузка модели — использование соответствующей библиотеки для загрузки модели в продакшн-среду.
3.Выбор платформы — развертывание модели локально, в облаке или в контейнере.
4.Обслуживание модели — настройка API (REST, gRPC) для предоставления предсказаний.
Библиотека собеса по Data Science
1.
2.
3.
4.
Библиотека собеса по Data Science
Какие типы галлюцинаций бывают в LLM и как их можно минимизировать
Существует два основных типа галлюцинаций в больших языковых моделях (LLM):
1. Intrinsic Hallucinations:
Модель генерирует текст, который противоречит предоставленному вводу. Это может происходить, когда модель «выдумывает» факты или не следуют контексту.
2. Extrinsic Hallucinations:
Модель генерирует текст, который фактически неверен или не подтверждается входными данными. Например, создание неверных статистических данных или ссылок на несуществующие источники.
Как уменьшить галлюцинации?
1. Оптимизация стратегии декодирования:
Использование таких методов, как beam search или top-k sampling, может помочь улучшить качество вывода, избегая нелогичных или противоречивых утверждений.
2. Генерация с дополнительным поисковым механизмом (retrieval-augmented generation):
Этот подход использует внешние базы данных или поисковые системы для получения точной и релевантной информации перед тем, как сгенерировать окончательный ответ, что помогает избежать фактических ошибок.
Библиотека собеса по Data Science
Существует два основных типа галлюцинаций в больших языковых моделях (LLM):
1. Intrinsic Hallucinations:
2. Extrinsic Hallucinations:
Как уменьшить галлюцинации?
1. Оптимизация стратегии декодирования:
2. Генерация с дополнительным поисковым механизмом (retrieval-augmented generation):
Библиотека собеса по Data Science
Как работает Retrieval-Augmented Generation (RAG)
Процесс RAG включает в себя следующие этапы:
1. Создание индекса:
На первом этапе данные обрабатываются: текст делится на токены, создаются эмбеддинги для эффективного поиска.
2. Извлечение информации (Retrieval):
Релевантная информация извлекается из базы знаний с помощью таких техник, как поиск по ключевым словам, семантический поиск или поиск на основе графа знаний.
3. Генерация (Generation):
На основе извлеченной информации и входного запроса используется языковая модель для генерации текста.
Библиотека собеса по Data Science
Процесс RAG включает в себя следующие этапы:
1. Создание индекса:
2. Извлечение информации (Retrieval):
3. Генерация (Generation):
Библиотека собеса по Data Science
❗ В чем недостатки методов обнаружения аномалий на основе плотности
Методы, такие как Local Outlier Factor (LOF), определяют аномалии по плотности данных, но сталкиваются с рядом проблем:
🔹 Проклятие размерности — в многомерных данных плотность теряет смысл.
🔹 Чувствительность к параметрам — требуется точная настройка гиперпараметров.
🔹 Сложности с разными кластерами — могут ошибаться при разной плотности данных.
🔹 Высокая вычислительная сложность — плохо масштабируются на больших данных.
🔹 Ограниченная интерпретируемость — трудно объяснить, почему точка считается выбросом.
Библиотека собеса по Data Science
Методы, такие как Local Outlier Factor (LOF), определяют аномалии по плотности данных, но сталкиваются с рядом проблем:
Библиотека собеса по Data Science
Как получить эмбеддинги предложений из эмбеддингов слов
Для формирования эмбеддингов предложений используются следующие методы:
▪️ Среднее по словам — усреднение эмбеддингов всех слов в предложении.
▪️ Взвешенное усреднение — учет значимости слов с помощью весов (например, TF-IDF).
▪️ Модели для предложений — использование специализированных нейросетей, таких как Sentence-BERT или Sentence Transformers.
💡 Лучший подход зависит от задачи — простые методы подходят для базовых приложений, а нейросетевые модели обеспечивают более точное представление смысла.
Библиотека собеса по Data Science
Для формирования эмбеддингов предложений используются следующие методы:
💡 Лучший подход зависит от задачи — простые методы подходят для базовых приложений, а нейросетевые модели обеспечивают более точное представление смысла.
Библиотека собеса по Data Science
Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
🤖 IT-выживание 2025: как не вылететь с рынка труда в эпоху LLM
В 2025-м айтишникам приходится несладко: старые скиллы уже не в цене, LLM наступают на пятки, а работодатели хотят все и сразу.
👍 Делимся инсайдами, как выжить в новой реальности и не потерять работу в эпоху тотальной оптимизации.
👉 Ссылка на статью: https://proglib.io/sh/zEruLHxYno
Библиотека дата-сайентиста
В 2025-м айтишникам приходится несладко: старые скиллы уже не в цене, LLM наступают на пятки, а работодатели хотят все и сразу.
👍 Делимся инсайдами, как выжить в новой реальности и не потерять работу в эпоху тотальной оптимизации.
👉 Ссылка на статью: https://proglib.io/sh/zEruLHxYno
Библиотека дата-сайентиста
Что такое токен в NLP и какие существуют методы токенизации
🔹 Токен —это наименьшая единица текста, которая может быть словом, подсловом (например, «un-», «friend») или знаком препинания.
🔹 Популярные методы токенизации:
1. Токенизация на уровне слов — делит текст на отдельные слова.
2. Токенизация на уровне подслов — разбивает слова на более мелкие единицы (например, BPE, WordPiece).
3. Токенизация на уровне символов — превращает текст в последовательность отдельных символов.
⚡ Выбор метода зависит от задачи:для морфологически сложных языков часто используют подсловную токенизацию, а для обработки именованных сущностей — посимвольную.
Библиотека собеса по Data Science
🔹 Токен —
🔹 Популярные методы токенизации:
⚡ Выбор метода зависит от задачи:
Библиотека собеса по Data Science
В нашем чате работает бот Shieldy — он защищает от спама, запрашивая у новых участников решение простой капчи.
⚠️ Проблема, с которой сталкиваются многие: вы нажимаете под постом «Прокомментировать», пишете что-то, а потом получаете бан и не можете писать комментарии.
❓Почему так: Shieldy отправляет капчу в сам чат, а не в комментарии под конкретный пост. Из-за этого капчу можно не увидеть, не отправить ответ на нее, и бот автоматически заблокирует вас.
— Зайдите в описание канала с телефона и нажмите кнопку Discuss / Чат
— Нажмите Join / Присоединиться
— Сразу обратите внимание на сообщение от бота Shieldy
— Решите простой пример и отправьте ответ в чат
После этого бот отправит приветственное сообщение и вы сможете оставлять комментарии. Эту проверку нужно пройти только один раз при вступлении в чат.
❗️ Если вас все-таки забанили
— Это временная блокировка на несколько минут
— Подождите и попробуйте зайти позже, бот снова отправит вам капчу
Админы канала никак не могут ускорить процесс, бот автоматически снимает с вас блокировку через пару минут. Мы понимаем, что эта система неидеальна, и ищем более удобное решение.
👾 Спасибо, что активно участвуете в обсуждении наших постов!
Please open Telegram to view this post
VIEW IN TELEGRAM
Что такое аккумулирование градиентов и как оно влияет на Batch Normalization
🔹 Gradient Accumulation — это метод, при котором градиенты суммируются в течение нескольких шагов перед обновлением весов. Он полезен, когда память ограничена и нельзя использовать большие батчи.
Преимущества:
▪️ Позволяет эффективно обучать модели на малом объеме памяти.
▪️ Увеличивает эффективный размер батча, что стабилизирует градиенты.
Влияние на Batch Normalization:
▪️ Batch Normalization рассчитывает статистики (среднее и дисперсию) внутри одного батча. При аккумулировании градиентов батчи становятся меньше, что может привести к менее стабильному обучению.
Как решить проблему?
▪️ Использовать Layer Normalization, которая нормализует данные внутри каждого отдельного примера, а не по батчу.
Библиотека собеса по Data Science
🔹 Gradient Accumulation — это метод, при котором градиенты суммируются в течение нескольких шагов перед обновлением весов. Он полезен, когда память ограничена и нельзя использовать большие батчи.
Преимущества:
Влияние на Batch Normalization:
Как решить проблему?
▪️
Библиотека собеса по Data Science
📊 Собес по Data Science: 10 вопросов, которые разделяют джунов от мидлов
Готовишься к интервью? Мы собрали 10 каверзных вопросов, которые любят задавать тимлиды. Здесь нет банальных задач — только те, на которых спотыкаются 80% кандидатов. Проверь себя и узнай, готов ли ты к следующему собесу!
👌 Пройти тест
Библиотека собеса по Data #свежак
Готовишься к интервью? Мы собрали 10 каверзных вопросов, которые любят задавать тимлиды. Здесь нет банальных задач — только те, на которых спотыкаются 80% кандидатов. Проверь себя и узнай, готов ли ты к следующему собесу!
👌 Пройти тест
Библиотека собеса по Data #свежак
Подходит ли алгоритм K-Nearest Neighbors (KNN) для работы с большими данными
Проблемы KNN на больших данных:
🔹 Высокая вычислительная сложность: поиск ближайших соседей требует сравнения нового объекта со всеми точками обучающего набора, что занимает O(N m) операций (N — количество образцов, m — число признаков).
🔹 Большое потребление памяти: модель хранит весь обучающий набор, что создает проблемы со storage и обработкой.
Оптимизации для ускорения KNN:
🔹 Приближенный поиск (ANN) — использование KD-деревьев, Ball Tree или других структур данных для ускорения поиска.
🔹 Снижение размерности — применение PCA или автоэнкодеров для уменьшения числа признаков.
🔹 Гибридные методы — предварительная кластеризация перед применением KNN или сочетание с деревьями решений.
Альтернатива:
🔹В продакшене чаще выбирают Random Forest, XGBoost или нейросети, которые после обучения работают быстрее.
Библиотека собеса по Data Science
Проблемы KNN на больших данных:
🔹
Оптимизации для ускорения KNN:
Альтернатива:
🔹
Библиотека собеса по Data Science
Как DBSCAN справляется с разной плотностью кластеров
🔹 Проблема:
DBSCAN предполагает, что плотность кластеров относительно равномерна. Если кластеры имеют различную плотность, единое значение eps (радиус окрестности) может не подойти ко всем группам.
🔹 Решение:
1. Hierarchical DBSCAN — расширяет DBSCAN, позволяя находить кластеры с разной плотностью.
2. OPTICS — сортирует точки по плотности, выявляя структуру кластеров с разными масштабами.
🔹 Вывод:
Для данных с сильно различающейся плотностью DBSCAN можно заменить или дополнить OPTICS/Hierarchical DBSCAN.
Библиотека собеса по Data Science
🔹 Проблема:
🔹 Решение:
🔹 Вывод:
Библиотека собеса по Data Science
Зимний режим OFF. Весна начинается с апгрейда.
Если чувствуешь, что за зиму навыки подзастыли — пора их разморозить.
📦 Включили весеннюю распродажу: скидка –35% на курсы до конца марта.
Выбирай направление и выходи из спячки:
— Алгоритмы и структуры данных — чтобы собеседования в Яндекс, Ozon и другие были как уровень easy
— Математика для Data Science — для тех, кто не хочет просто «жать на кнопки», а понимать, что под капотом
— Архитектуры и шаблоны — если хочется мыслить как senior и прокачать системное мышление
— Python, Frontend, основы IT — для тех, кто стартует путь в разработке
👾 Proglib Academy — это как старая добрая 8-битная игра, но вместо врагов — практические задачи и собеседования.
Мы просто упаковали сложное обучение в пиксельную обёртку, чтобы тебе было чуть веселее прокачиваться.
🧠 Отогревай мозги, прокачивай скиллы и хватай свой power-up до конца марта.
👉 Выбрать курс
Если чувствуешь, что за зиму навыки подзастыли — пора их разморозить.
📦 Включили весеннюю распродажу: скидка –35% на курсы до конца марта.
Выбирай направление и выходи из спячки:
— Алгоритмы и структуры данных — чтобы собеседования в Яндекс, Ozon и другие были как уровень easy
— Математика для Data Science — для тех, кто не хочет просто «жать на кнопки», а понимать, что под капотом
— Архитектуры и шаблоны — если хочется мыслить как senior и прокачать системное мышление
— Python, Frontend, основы IT — для тех, кто стартует путь в разработке
👾 Proglib Academy — это как старая добрая 8-битная игра, но вместо врагов — практические задачи и собеседования.
Мы просто упаковали сложное обучение в пиксельную обёртку, чтобы тебе было чуть веселее прокачиваться.
🧠 Отогревай мозги, прокачивай скиллы и хватай свой power-up до конца марта.
👉 Выбрать курс
Всегда ли проклятие размерности влияет на высокоразмерные данные
🔹 Проклятие размерности обычно проявляется в данных, которые не являются разреженными или не имеют структуры в виде низкоразмерного многообразия.
🔹 Если данные лежат на низкоразмерном многообразии или содержат взаимосвязанные признаки, методы вроде отбора признаков или обучения многообразий могут уменьшить его влияние.
🔹 Однако, если все измерения значимы и некоррелированы, задачи анализа данных, такие как кластеризация, становятся значительно сложнее.
Библиотека собеса по Data Science
Библиотека собеса по Data Science