Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔄 Изменения в схеме данных: как избежать проблем для дата-команд

Мы рассмотрим четыре стратегии адаптации к изменениям и их возможные комбинации.

1. Встречи — самый простой подход

📌 Только коммуникация: команды источника данных и аналитики заранее обсуждают изменения, согласовывают сроки и схему данных перед внесением изменений в исходные наборы данных.

▪️ Плюсы:
— Самый простой подход
— Документирование в Confluence, Google Docs и т. д.
— Договоренность между командами

▪️ Минусы:
— Подвержен ошибкам
— Встречи замедляют процесс разработки
— Невозможно учесть все нюансы данных

🎯 Как реализовать:
— Фиксируйте договоренности в Confluence или Google Docs
— Включайте конкретные задачи и шаги для реализации изменений

2. Источник просто сбрасывает данные, а дата-команда разбирается

📌 Dump & Forget: команда источника просто выгружает данные, а дата-команда работает с тем, что получает. Этот метод наиболее распространен в индустрии.

▪️Плюсы:
— Самый удобный способ для команды источника
— Позволяет источнику работать быстро
— Достаточно для большинства бизнес-кейсов

▪️Минусы:
— Дата-команда постоянно догоняет изменения
— Плохие данные, сбои конвейеров и технический долг
— Дата-команда теряет концептуальное понимание данных

🎯 Как реализовать:
— Используйте Apache Iceberg и Spark’s mergeSchema
— Для инструментов типа dbt включайте on_schema_change

3. Дата-команда участвует в ревью изменений схемы данных

📌 Upstream Review: дата-команда участвует в моделировании данных источником. Как правило, дата-команды более внимательно относятся к проработке моделей данных.

▪️Плюсы:
— Предотвращает появление плохих данных
— Обеспечивает качественную схему данных
— Улучшает понимание данных между командами

▪️Минусы:
— Замедляет работу команды источника
— Не позволяет предотвратить агрегированные ошибки (например, несоответствие средней выручки за разные дни)

🎯 Как реализовать:
— Ускорьте процесс с помощью data contracts
— Используйте CODEOWNERS в GitHub, чтобы дата-команды участвовали в ревью

4. Валидация входных данных перед обработкой

📌 Input Validation: дата-команда проверяет входные данные перед их использованием. Если обнаруживается проблема, необходимо взаимодействовать с командой источника, чтобы исправить данные и повторно их обработать.

▪️ Плюсы:
— Быстрое обнаружение проблем
— Автоматизация отладки ошибок и уведомление команды источника

▪️ Минусы:
— Необходимо согласовывать проверки данных между командами
— Множественные проверки увеличивают время обработки данных

🎯 Как реализовать:
— Используйте любой инструмент контроля качества данных
— В потоковых системах применяйте DLQ (Dead Letter Queue) и реконсиляционные паттерны

Библиотека дата-сайентиста #буст

1.8K views07:06

🧑‍💻

Собес по Data Science: 10 вопросов, которые разделяют джунов от мидлов

Готовишься к интервью? Мы собрали 10 каверзных вопросов, которые любят задавать тимлиды. Здесь нет банальных задач — только те, на которых спотыкаются 80% кандидатов. Проверь себя и узнай, готов ли ты к следующему собесу!

✅

Пройти тест

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

1.8K viewsedited 11:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Зимний режим OFF. Весна начинается с апгрейда.

Если чувствуешь, что за зиму навыки подзастыли — пора их разморозить.

📦 Включили весеннюю распродажу: скидка –35% на курсы до конца марта.

Выбирай направление и выходи из спячки:

— Алгоритмы и структуры данных — чтобы собеседования в Яндекс, Ozon и другие были как уровень easy

— Математика для Data Science — для тех, кто не хочет просто «жать на кнопки», а понимать, что под капотом

— Архитектуры и шаблоны — если хочется мыслить как senior и прокачать системное мышление

— Python, Frontend, основы IT — для тех, кто стартует путь в разработке

👾 Proglib Academy — это как старая добрая 8-битная игра, но вместо врагов — практические задачи и собеседования.

Мы просто упаковали сложное обучение в пиксельную обёртку, чтобы тебе было чуть веселее прокачиваться.

🧠 Отогревай мозги, прокачивай скиллы и хватай свой power-up до конца марта.

👉 Выбрать курс

1.8K views15:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека шарписта | C#, F#, .NET, ASP.NET

💾 Как выбрать стратегию кэширования: разбор 7 популярных алгоритмов

Кешировать нужно с умом. И нет, LRU — не серебряная пуля.

В статье вас ждёт разбор алгоритмов: LRU, LFU, FIFO и другие
– Примеры, где каждый работает лучше
– Плюсы и минусы подходов
– Практические советы по выбору стратегии

Если проектируете систему с большими нагрузками или оптимизируете производительность — материал будет как раз.

➡️

Читать статью

🐸

Библиотека шарписта

Please open Telegram to view this post

VIEW IN TELEGRAM

1.6K views18:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔔

AI-лаборатории договорились за нашей спиной

Иначе как объяснить, что все релизы случились вчера?

1. OpenAI обновили GPT-4o — теперь нейросеть не только распознаёт изображения, но и может редактировать их по любому запросу.

🌳 «Свежие зелёные луга» теперь в каждом районе страны...

2. DeepSeek V3 обновился, обогнав на бенчмарках все нерезонящие модели, включая GPT-4.5.

3. Gemini 2.5 Pro рванул вперёд, взяв лидерство почти во всём.

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

2.0K viewsedited 07:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⭐ Инструмент недели: Shapash

Shapash — это библиотека для Python, предназначенная для интерпретируемого и понятного машинного обучения. Она предлагает различные визуализации с четкими и понятными метками, которые легко воспринимаются как специалистами по данным, так и пользователями без технического бэкграунда.

▪️ Что умеет Shapash?
— Генерирует Web-приложение для анализа взаимодействий между признаками модели.
— Позволяет переключаться между локальной и глобальной интерпретируемостью модели.
— Упрощает аудит моделей и данных, создавая подробные отчеты.

▪️ Shapash подходит для:
— Регрессии
— Бинарной классификации
— Мультиклассовой классификации

▪️ Совместим с моделями:
— CatBoost, XGBoost, LightGBM
— Sklearn Ensemble, линейные модели, SVM
— Другие модели также можно интегрировать (подробности в документации).

✔️ Ссылка на репозиторий: https://clc.to/Y1mkYA

Библиотека дата-сайентиста #буст

1.9K views10:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Каждый раз 😆

Библиотека дата-сайентиста #развлекалово

1.8K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

☕ Что посмотреть: Fabric Espresso

Команда Microsoft Fabric запускает новую серию блог-постов о Data Science и Machine Learning в Microsoft Fabric.

За последние 1,5 года продакт-менеджеры выпустили 80+ эпизодов на YouTube, где:
▪️ разбирают фичи продукта,
▪️ делятся дорожной картой,
▪️ показывают реальные кейсы.

Теперь следить за новинками стало еще проще! Они начали публиковать тематические подборки эпизодов с ключевыми инсайтами и пояснениями.

📌 В фокусе этой недели: данные, модели, AutoML и возможности ML в Fabric.

🎥 Смотреть плейлист: https://clc.to/NAT8FQ

Библиотека дата-сайентиста #буст

1.9K views07:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека девопса | DevOps, SRE, Sysadmin

☸️ CKAD 2025. Самый свежий гайд по сдаче сертификации Certified Kubernetes Application Developer

CKAD стал более строгим к деталям — без системной подготовки можно завалить даже на банальных заданиях. Если хочется разобраться, что важно для получения сертификации — эта статья сэкономит часы.

➡️ Читать статью

🐸

Библиотека devops'a

Please open Telegram to view this post

VIEW IN TELEGRAM

1.4K views08:55

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

❓

Вопросы подписчиков: как прокачать ML-навыки для карьерного роста?

Сегодня делимся вопросом от нашего подписчика, который уже 3,5 года работает Data Scientist, но хочет выйти на новый уровень и попасть в топовые компании.

💬 Вот что он пишет:

Общаясь с опытными DS, я получил важный фидбэк по своему резюме:— У меня недостаточно опыта в NLP, Deep Learning и LLMs.— У меня нет проектов, которые демонстрируют эти навыки.— По оформлению резюме мнения сильно разнятся.

Теперь передо мной стоит вопрос: как эффективно прокачать эти навыки и повысить шансы на новую работу?

🔹 Как развить понимание NLP, DL и LLMs на уровне, достаточном для перехода в новую компанию?

🔹 Из-за разных форматов обучения (курсы, проекты и т. д.) ощущаю перегруз. Как организовать процесс, чтобы не распыляться?

🔹 Как объективно оценить свою подготовку перед собеседованием?

💡 Делитесь своими советами и личным опытом в комментариях!

P.S. Если хотите задать вопрос, заполните нашу гугл-форму. Это займет 5 минут.

Библиотека дата-сайентиста #междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

1.7K viewsedited 18:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⚡️

Команда дня: aiopandas — асинхронная магия для Pandas

Теперь обработка данных в Pandas может быть асинхронной! aiopandas — это лёгкий monkey-patch, который добавляет поддержку async в map, apply, applymap, aggregate и transform. Это позволяет параллельно выполнять асинхронные функции без лишних сложностей.

🔺 Что умеет aiopandas?

— Поддерживает асинхронные функции без изменений в коде
— Управляет количеством параллельных задач через max_parallel
— Встроенная обработка ошибок: можно прерывать, игнорировать или логировать
— Поддержка tqdm для отслеживания прогресса

🔺 Быстрый старт:

import aiopandas as pd  # Monkey-патчим Pandas
import asyncio

df = pd.DataFrame({'x': range(10)})

async def f(x):
    await asyncio.sleep(0.1  x)  # Симуляция асинхронной задачи
    return x  2  # Преобразование данных

df['y'] = await df.x.amap(f, max_parallel=5)  # Асинхронный map
print(df)

🔺 Кому пригодится aiopandas?

— Запросы к API (LLMs, веб-скрапинг, базы данных)
— Ускорение работы с асинхронными задачами в Pandas
— Минимальные изменения кода: .map() → .amap(), .apply() → .aapply()

Ссылка на репозиторий aiopandas: https://clc.to/Pf_xow

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

1.9K views07:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💪 Прокачай Power BI: создаем bullet-chart для наглядного сравнения данных

🎯 Устали от вопросов типа «Ну и что это значит для бизнеса?» после презентации отчетов?

Bullet-chart — мощный инструмент, который сразу показывает, насколько фактические показатели соответствуют целевым. В этой статье разберем, как правильно читать такой график и шаг за шагом создадим его в Power BI.

Готовы визуализировать данные так, чтобы они говорили сами за себя?

🔗 Тогда поехали, ссылка на статью: https://proglib.io/sh/hcrRdAuqT5

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

10.1K viewsedited 18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Мемы о машинном обучении — в самое сердечко... 🖤

Библиотека дата-сайентиста #развлекалово

1.8K views09:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👋

Холивар: аугментация или сбор данных — что лучше?

Качество и количество данных — ключ к успеху в машинном обучении. Но что эффективнее, дешевле и «правильнее» для улучшения модели?

🔵

Аугментация данных:
• Экономия времени: повороты, отражения, шумы (например, с помощью библиотеки Albumentations) создают тысячи новых примеров за минуты.
• Борется с переобучением: модель учится на разнообразных вариациях данных.
• Доступно даже с маленьким датасетом: из 1000 изображений можно сделать 10 000.
• Аугментация не всегда отражает реальные сценарии, и модель может «выучить» искусственные артефакты.

🔵

Сбор большого объёма данных:
• Реалистичность: модель видит настоящие данные, а не сгенерированные вариации.
• Лучше для сложных задач: например, в медицинском ML синтетические данные могут быть недостаточно точными.
• Долгосрочная выгода: качественный датасет можно использовать для разных проектов.
• Сбор данных дорогой (например, разметка изображений может стоить $1–5 за пример) и занимает много времени.

🔵

Гибридный подход — комбинируем аугментацию и сбор данных:
• Начало: использование аугментации для быстрого наращивания объёма данных.
• Со временем: добавление реальных данных для улучшения качества модели.
• Баланс: экономия на разметке при сохранении реалистичности.
• Риски: необходимость грамотного балансирования, чтобы избежать перегрузки модели «фальшивыми» данными.

Давайте обсудим в комментариях!

👍 Аугментация — потому что быстро и дёшево
❤️ Сбор данных — реальные данные рулят
🔥 Гибрид — зачем выбирать, если можно всё?

Библиотека дата-сайентиста #междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

1.8K viewsedited 13:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥

Свежие новости AI

🚀 Модели и релизы:
— NemoTron-H — новые гибридные Mamba-модели от NVIDIA, обученные на 20T токенов
— Google DeepMind представил Gemini 2.5 Pro Experimental — доступен в Google AI Studio и приложении Gemini
— Google DeepMind опубликовал технический отчёт о Gemma 3 — 27B параметров, оптимизирован для многозадачности и многозначности
— OpenAI добавил генерацию изображений в GPT-4o и Sora — интеграция текстового и визуального AI

📊 Аналитика и исследования:
— Hugging Face Real-Time Endpoint Analytics — теперь с обновлениями в реальном времени для мониторинга AI-инференса
— OpenAI и MIT исследовали эмоциональное влияние ChatGPT — редкие, но глубокие взаимодействия, снижение благополучия у активных пользователей.
— Как дистилляция меняет AI-индустрию — ускорение моделей без потери качества
— Галлюцинации в языковых моделях — причины, типы и способы борьбы

🔒 Безопасность и интеграция:
— NIST выпустил финальное руководство по безопасности AI — рекомендации по защите AI-систем от атак
— OpenAI внедрил Anthropic MCP в Agents SDK — упрощает интеграцию сторонних инструментов

📚 Что почитать:
— Модели машинного обучения: что могут спросить на интервью
— Частые ловушки в ML-экспериментах
— От скриптов к сервисам: 10 книг для Data Science-разработки
— Подборка книг по нейросетям и рекомендательным системам
— Советы по эффективному обучению ML-моделей
— Reinforcement Learning: детальный обзор

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

1.8K viewsedited 13:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✍️

Шпаргалка: как генерировать текст с LLM

Генерация текста — это не просто предсказание следующего токена! LLM оценивает вероятность появления каждого слова, но как выбрать, какие слова вставлять в текст?

Давайте разберём основные методы:

🔵

Жадный поиск (Greedy Search) — выбираем слово с наивысшей вероятностью и продолжаем. Проблема: тексты становятся предсказуемыми и повторяются.

🔵

Случайный отбор (Sampling) — выбираем слова случайно с учётом вероятностей. Регулируется параметром temperature:
🔥 Высокая температура → креативный, но хаотичный текст.
❄️ Низкая температура → логичный, но скучный текст.

🔵

Лучевой поиск (Beam Search) — выбираем k лучших вариантов, продолжаем развивать их и выбираем последовательность с наибольшей вероятностью. Это баланс между качеством и скоростью.

🔵

Контрастный поиск (Contrastive Search) — улучшенный вариант, который оценивает гладкость и разнообразие текста. Слова с высокой вероятностью, но слишком похожие на предыдущие, могут быть наказаны и заменены более разнообразными.

💡 Какой метод лучше?
✓ Если нужен фактологичный ответ — лучше beam search
✓Для творческих текстов — sampling
✓ Для баланса между качеством и разнообразием — contrastive search

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

1.9K views07:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

1.7K views11:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

158 voters1.7K views11:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔝

Апрель 2025: важные события в мире ИИ и машинного обучения

🔹 Конференции:

• ECIR 2025 — Европейская конференция по информационному поиску
6–10 апреля | Лукка, Италия

• CHI 2025 — Конференция по взаимодействию человека и компьютера
26 апреля — 1 мая | Иокогама, Япония

• ICLR 2025 — Международная конференция по представлениям обучения
24–28 апреля | Сингапур

🔹 Релизы фреймворков для ИИ:

• TensorFlow 2.20.0 — ожидается около 12 апреля

• PyTorch 2.7 — запланирован на апрель

🤔

Какое из этих событий вам наиболее интересно?

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

1.9K viewsedited 18:07

About

Blog

Apps

Platform