🔄 Изменения в схеме данных: как избежать проблем для дата-команд
Мы рассмотрим четыре стратегии адаптации к изменениям и их возможные комбинации.
1. Встречи — самый простой подход
📌 Только коммуникация: команды источника данных и аналитики заранее обсуждают изменения, согласовывают сроки и схему данных перед внесением изменений в исходные наборы данных.
▪️ Плюсы:
— Самый простой подход
— Документирование в Confluence, Google Docs и т. д.
— Договоренность между командами
▪️ Минусы:
— Подвержен ошибкам
— Встречи замедляют процесс разработки
— Невозможно учесть все нюансы данных
🎯 Как реализовать:
— Фиксируйте договоренности в Confluence или Google Docs
— Включайте конкретные задачи и шаги для реализации изменений
2. Источник просто сбрасывает данные, а дата-команда разбирается
📌 Dump & Forget: команда источника просто выгружает данные, а дата-команда работает с тем, что получает. Этот метод наиболее распространен в индустрии.
▪️Плюсы:
— Самый удобный способ для команды источника
— Позволяет источнику работать быстро
— Достаточно для большинства бизнес-кейсов
▪️Минусы:
— Дата-команда постоянно догоняет изменения
— Плохие данные, сбои конвейеров и технический долг
— Дата-команда теряет концептуальное понимание данных
🎯 Как реализовать:
— Используйте Apache Iceberg и Spark’s mergeSchema
— Для инструментов типа dbt включайте on_schema_change
3. Дата-команда участвует в ревью изменений схемы данных
📌 Upstream Review: дата-команда участвует в моделировании данных источником. Как правило, дата-команды более внимательно относятся к проработке моделей данных.
▪️Плюсы:
— Предотвращает появление плохих данных
— Обеспечивает качественную схему данных
— Улучшает понимание данных между командами
▪️Минусы:
— Замедляет работу команды источника
— Не позволяет предотвратить агрегированные ошибки (например, несоответствие средней выручки за разные дни)
🎯 Как реализовать:
— Ускорьте процесс с помощью data contracts
— Используйте CODEOWNERS в GitHub, чтобы дата-команды участвовали в ревью
4. Валидация входных данных перед обработкой
📌 Input Validation: дата-команда проверяет входные данные перед их использованием. Если обнаруживается проблема, необходимо взаимодействовать с командой источника, чтобы исправить данные и повторно их обработать.
▪️ Плюсы:
— Быстрое обнаружение проблем
— Автоматизация отладки ошибок и уведомление команды источника
▪️ Минусы:
— Необходимо согласовывать проверки данных между командами
— Множественные проверки увеличивают время обработки данных
🎯 Как реализовать:
— Используйте любой инструмент контроля качества данных
— В потоковых системах применяйте DLQ (Dead Letter Queue) и реконсиляционные паттерны
Библиотека дата-сайентиста #буст
Мы рассмотрим четыре стратегии адаптации к изменениям и их возможные комбинации.
1. Встречи — самый простой подход
📌 Только коммуникация: команды источника данных и аналитики заранее обсуждают изменения, согласовывают сроки и схему данных перед внесением изменений в исходные наборы данных.
▪️ Плюсы:
— Самый простой подход
— Документирование в Confluence, Google Docs и т. д.
— Договоренность между командами
▪️ Минусы:
— Подвержен ошибкам
— Встречи замедляют процесс разработки
— Невозможно учесть все нюансы данных
🎯 Как реализовать:
— Фиксируйте договоренности в Confluence или Google Docs
— Включайте конкретные задачи и шаги для реализации изменений
2. Источник просто сбрасывает данные, а дата-команда разбирается
📌 Dump & Forget: команда источника просто выгружает данные, а дата-команда работает с тем, что получает. Этот метод наиболее распространен в индустрии.
▪️Плюсы:
— Самый удобный способ для команды источника
— Позволяет источнику работать быстро
— Достаточно для большинства бизнес-кейсов
▪️Минусы:
— Дата-команда постоянно догоняет изменения
— Плохие данные, сбои конвейеров и технический долг
— Дата-команда теряет концептуальное понимание данных
🎯 Как реализовать:
— Используйте Apache Iceberg и Spark’s mergeSchema
— Для инструментов типа dbt включайте on_schema_change
3. Дата-команда участвует в ревью изменений схемы данных
📌 Upstream Review: дата-команда участвует в моделировании данных источником. Как правило, дата-команды более внимательно относятся к проработке моделей данных.
▪️Плюсы:
— Предотвращает появление плохих данных
— Обеспечивает качественную схему данных
— Улучшает понимание данных между командами
▪️Минусы:
— Замедляет работу команды источника
— Не позволяет предотвратить агрегированные ошибки (например, несоответствие средней выручки за разные дни)
🎯 Как реализовать:
— Ускорьте процесс с помощью data contracts
— Используйте CODEOWNERS в GitHub, чтобы дата-команды участвовали в ревью
4. Валидация входных данных перед обработкой
📌 Input Validation: дата-команда проверяет входные данные перед их использованием. Если обнаруживается проблема, необходимо взаимодействовать с командой источника, чтобы исправить данные и повторно их обработать.
▪️ Плюсы:
— Быстрое обнаружение проблем
— Автоматизация отладки ошибок и уведомление команды источника
▪️ Минусы:
— Необходимо согласовывать проверки данных между командами
— Множественные проверки увеличивают время обработки данных
🎯 Как реализовать:
— Используйте любой инструмент контроля качества данных
— В потоковых системах применяйте DLQ (Dead Letter Queue) и реконсиляционные паттерны
Библиотека дата-сайентиста #буст
Готовишься к интервью? Мы собрали 10 каверзных вопросов, которые любят задавать тимлиды. Здесь нет банальных задач — только те, на которых спотыкаются 80% кандидатов. Проверь себя и узнай, готов ли ты к следующему собесу!
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
Зимний режим OFF. Весна начинается с апгрейда.
Если чувствуешь, что за зиму навыки подзастыли — пора их разморозить.
📦 Включили весеннюю распродажу: скидка –35% на курсы до конца марта.
Выбирай направление и выходи из спячки:
— Алгоритмы и структуры данных — чтобы собеседования в Яндекс, Ozon и другие были как уровень easy
— Математика для Data Science — для тех, кто не хочет просто «жать на кнопки», а понимать, что под капотом
— Архитектуры и шаблоны — если хочется мыслить как senior и прокачать системное мышление
— Python, Frontend, основы IT — для тех, кто стартует путь в разработке
👾 Proglib Academy — это как старая добрая 8-битная игра, но вместо врагов — практические задачи и собеседования.
Мы просто упаковали сложное обучение в пиксельную обёртку, чтобы тебе было чуть веселее прокачиваться.
🧠 Отогревай мозги, прокачивай скиллы и хватай свой power-up до конца марта.
👉 Выбрать курс
Если чувствуешь, что за зиму навыки подзастыли — пора их разморозить.
📦 Включили весеннюю распродажу: скидка –35% на курсы до конца марта.
Выбирай направление и выходи из спячки:
— Алгоритмы и структуры данных — чтобы собеседования в Яндекс, Ozon и другие были как уровень easy
— Математика для Data Science — для тех, кто не хочет просто «жать на кнопки», а понимать, что под капотом
— Архитектуры и шаблоны — если хочется мыслить как senior и прокачать системное мышление
— Python, Frontend, основы IT — для тех, кто стартует путь в разработке
👾 Proglib Academy — это как старая добрая 8-битная игра, но вместо врагов — практические задачи и собеседования.
Мы просто упаковали сложное обучение в пиксельную обёртку, чтобы тебе было чуть веселее прокачиваться.
🧠 Отогревай мозги, прокачивай скиллы и хватай свой power-up до конца марта.
👉 Выбрать курс
Forwarded from Библиотека шарписта | C#, F#, .NET, ASP.NET
💾 Как выбрать стратегию кэширования: разбор 7 популярных алгоритмов
Кешировать нужно с умом. И нет, LRU — не серебряная пуля.
В статье вас ждёт разбор алгоритмов: LRU, LFU, FIFO и другие
– Примеры, где каждый работает лучше
– Плюсы и минусы подходов
– Практические советы по выбору стратегии
Если проектируете систему с большими нагрузками или оптимизируете производительность — материал будет как раз.
➡️ Читать статью
🐸 Библиотека шарписта
Кешировать нужно с умом. И нет, LRU — не серебряная пуля.
В статье вас ждёт разбор алгоритмов: LRU, LFU, FIFO и другие
– Примеры, где каждый работает лучше
– Плюсы и минусы подходов
– Практические советы по выбору стратегии
Если проектируете систему с большими нагрузками или оптимизируете производительность — материал будет как раз.
Please open Telegram to view this post
VIEW IN TELEGRAM
Иначе как объяснить, что все релизы случились вчера?
1. OpenAI обновили GPT-4o — теперь нейросеть не только распознаёт изображения, но и может редактировать их по любому запросу.
🌳 «Свежие зелёные луга» теперь в каждом районе страны...
2. DeepSeek V3 обновился, обогнав на бенчмарках все нерезонящие модели, включая GPT-4.5.
3. Gemini 2.5 Pro рванул вперёд, взяв лидерство почти во всём.
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
⭐ Инструмент недели: Shapash
Shapash — это библиотека для Python, предназначенная для интерпретируемого и понятного машинного обучения. Она предлагает различные визуализации с четкими и понятными метками, которые легко воспринимаются как специалистами по данным, так и пользователями без технического бэкграунда.
▪️ Что умеет Shapash?
— Генерирует Web-приложение для анализа взаимодействий между признаками модели.
— Позволяет переключаться между локальной и глобальной интерпретируемостью модели.
— Упрощает аудит моделей и данных, создавая подробные отчеты.
▪️ Shapash подходит для:
— Регрессии
— Бинарной классификации
— Мультиклассовой классификации
▪️ Совместим с моделями:
— CatBoost, XGBoost, LightGBM
— Sklearn Ensemble, линейные модели, SVM
— Другие модели также можно интегрировать (подробности в документации).
✔️ Ссылка на репозиторий: https://clc.to/Y1mkYA
Библиотека дата-сайентиста #буст
Shapash — это библиотека для Python, предназначенная для интерпретируемого и понятного машинного обучения. Она предлагает различные визуализации с четкими и понятными метками, которые легко воспринимаются как специалистами по данным, так и пользователями без технического бэкграунда.
▪️ Что умеет Shapash?
— Генерирует Web-приложение для анализа взаимодействий между признаками модели.
— Позволяет переключаться между локальной и глобальной интерпретируемостью модели.
— Упрощает аудит моделей и данных, создавая подробные отчеты.
▪️ Shapash подходит для:
— Регрессии
— Бинарной классификации
— Мультиклассовой классификации
▪️ Совместим с моделями:
— CatBoost, XGBoost, LightGBM
— Sklearn Ensemble, линейные модели, SVM
— Другие модели также можно интегрировать (подробности в документации).
✔️ Ссылка на репозиторий: https://clc.to/Y1mkYA
Библиотека дата-сайентиста #буст
☕ Что посмотреть: Fabric Espresso
Команда Microsoft Fabric запускает новую серию блог-постов о Data Science и Machine Learning в Microsoft Fabric.
За последние 1,5 года продакт-менеджеры выпустили 80+ эпизодов на YouTube, где:
▪️ разбирают фичи продукта,
▪️ делятся дорожной картой,
▪️ показывают реальные кейсы.
Теперь следить за новинками стало еще проще! Они начали публиковать тематические подборки эпизодов с ключевыми инсайтами и пояснениями.
📌 В фокусе этой недели: данные, модели, AutoML и возможности ML в Fabric.
🎥 Смотреть плейлист: https://clc.to/NAT8FQ
Библиотека дата-сайентиста #буст
Команда Microsoft Fabric запускает новую серию блог-постов о Data Science и Machine Learning в Microsoft Fabric.
За последние 1,5 года продакт-менеджеры выпустили 80+ эпизодов на YouTube, где:
▪️ разбирают фичи продукта,
▪️ делятся дорожной картой,
▪️ показывают реальные кейсы.
Теперь следить за новинками стало еще проще! Они начали публиковать тематические подборки эпизодов с ключевыми инсайтами и пояснениями.
📌 В фокусе этой недели: данные, модели, AutoML и возможности ML в Fabric.
🎥 Смотреть плейлист: https://clc.to/NAT8FQ
Библиотека дата-сайентиста #буст
Forwarded from Библиотека девопса | DevOps, SRE, Sysadmin
☸️ CKAD 2025. Самый свежий гайд по сдаче сертификации Certified Kubernetes Application Developer
CKAD стал более строгим к деталям — без системной подготовки можно завалить даже на банальных заданиях. Если хочется разобраться, что важно для получения сертификации — эта статья сэкономит часы.
➡️ Читать статью
🐸 Библиотека devops'a
CKAD стал более строгим к деталям — без системной подготовки можно завалить даже на банальных заданиях. Если хочется разобраться, что важно для получения сертификации — эта статья сэкономит часы.
Please open Telegram to view this post
VIEW IN TELEGRAM
Сегодня делимся вопросом от нашего подписчика, который уже 3,5 года работает Data Scientist, но хочет выйти на новый уровень и попасть в топовые компании.
Общаясь с опытными DS, я получил важный фидбэк по своему резюме:— У меня недостаточно опыта в NLP, Deep Learning и LLMs.— У меня нет проектов, которые демонстрируют эти навыки.— По оформлению резюме мнения сильно разнятся.
Теперь передо мной стоит вопрос: как эффективно прокачать эти навыки и повысить шансы на новую работу?
🔹 Как развить понимание NLP, DL и LLMs на уровне, достаточном для перехода в новую компанию?
🔹 Из-за разных форматов обучения (курсы, проекты и т. д.) ощущаю перегруз. Как организовать процесс, чтобы не распыляться?
🔹 Как объективно оценить свою подготовку перед собеседованием?
💡 Делитесь своими советами и личным опытом в комментариях!
P.S. Если хотите задать вопрос, заполните нашу гугл-форму. Это займет 5 минут.
Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
aiopandas
— асинхронная магия для PandasТеперь обработка данных в Pandas может быть асинхронной!
aiopandas
— это лёгкий monkey-patch, который добавляет поддержку async в map
, apply
, applymap
, aggregate
и transform
. Это позволяет параллельно выполнять асинхронные функции без лишних сложностей. 🔺 Что умеет aiopandas?
— Поддерживает асинхронные функции без изменений в коде
— Управляет количеством параллельных задач через
max_parallel
— Встроенная обработка ошибок: можно прерывать, игнорировать или логировать
— Поддержка
tqdm
для отслеживания прогресса 🔺 Быстрый старт:
import aiopandas as pd # Monkey-патчим Pandas
import asyncio
df = pd.DataFrame({'x': range(10)})
async def f(x):
await asyncio.sleep(0.1 x) # Симуляция асинхронной задачи
return x 2 # Преобразование данных
df['y'] = await df.x.amap(f, max_parallel=5) # Асинхронный map
print(df)
🔺 Кому пригодится aiopandas?
— Запросы к API (LLMs, веб-скрапинг, базы данных)
— Ускорение работы с асинхронными задачами в Pandas
— Минимальные изменения кода:
.map()
→ .amap()
, .apply()
→ .aapply()
Ссылка на репозиторий aiopandas: https://clc.to/Pf_xow
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🎯 Устали от вопросов типа «Ну и что это значит для бизнеса?» после презентации отчетов?
Bullet-chart — мощный инструмент, который сразу показывает, насколько фактические показатели соответствуют целевым. В этой статье разберем, как правильно читать такой график и шаг за шагом создадим его в Power BI.
Готовы визуализировать данные так, чтобы они говорили сами за себя?
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
Качество и количество данных — ключ к успеху в машинном обучении. Но что эффективнее, дешевле и «правильнее» для улучшения модели?
• Экономия времени: повороты, отражения, шумы (например, с помощью библиотеки Albumentations) создают тысячи новых примеров за минуты.
• Борется с переобучением: модель учится на разнообразных вариациях данных.
• Доступно даже с маленьким датасетом: из 1000 изображений можно сделать 10 000.
• Аугментация не всегда отражает реальные сценарии, и модель может «выучить» искусственные артефакты.
• Реалистичность: модель видит настоящие данные, а не сгенерированные вариации.
• Лучше для сложных задач: например, в медицинском ML синтетические данные могут быть недостаточно точными.
• Долгосрочная выгода: качественный датасет можно использовать для разных проектов.
• Сбор данных дорогой (например, разметка изображений может стоить $1–5 за пример) и занимает много времени.
• Начало: использование аугментации для быстрого наращивания объёма данных.
• Со временем: добавление реальных данных для улучшения качества модели.
• Баланс: экономия на разметке при сохранении реалистичности.
• Риски: необходимость грамотного балансирования, чтобы избежать перегрузки модели «фальшивыми» данными.
Давайте обсудим в комментариях!
👍 Аугментация — потому что быстро и дёшево
❤️ Сбор данных — реальные данные рулят
🔥 Гибрид — зачем выбирать, если можно всё?
Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Модели и релизы:
— NemoTron-H — новые гибридные Mamba-модели от NVIDIA, обученные на 20T токенов
— Google DeepMind представил Gemini 2.5 Pro Experimental — доступен в Google AI Studio и приложении Gemini
— Google DeepMind опубликовал технический отчёт о Gemma 3 — 27B параметров, оптимизирован для многозадачности и многозначности
— OpenAI добавил генерацию изображений в GPT-4o и Sora — интеграция текстового и визуального AI
📊 Аналитика и исследования:
— Hugging Face Real-Time Endpoint Analytics — теперь с обновлениями в реальном времени для мониторинга AI-инференса
— OpenAI и MIT исследовали эмоциональное влияние ChatGPT — редкие, но глубокие взаимодействия, снижение благополучия у активных пользователей.
— Как дистилляция меняет AI-индустрию — ускорение моделей без потери качества
— Галлюцинации в языковых моделях — причины, типы и способы борьбы
🔒 Безопасность и интеграция:
— NIST выпустил финальное руководство по безопасности AI — рекомендации по защите AI-систем от атак
— OpenAI внедрил Anthropic MCP в Agents SDK — упрощает интеграцию сторонних инструментов
📚 Что почитать:
— Модели машинного обучения: что могут спросить на интервью
— Частые ловушки в ML-экспериментах
— От скриптов к сервисам: 10 книг для Data Science-разработки
— Подборка книг по нейросетям и рекомендательным системам
— Советы по эффективному обучению ML-моделей
— Reinforcement Learning: детальный обзор
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
Генерация текста — это не просто предсказание следующего токена! LLM оценивает вероятность появления каждого слова, но как выбрать, какие слова вставлять в текст?
Давайте разберём основные методы:
🔥 Высокая температура → креативный, но хаотичный текст.
❄️ Низкая температура → логичный, но скучный текст.
💡 Какой метод лучше?
✓ Если нужен фактологичный ответ — лучше beam search
✓Для творческих текстов — sampling
✓ Для баланса между качеством и разнообразием — contrastive search
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Библиотека задач по Data Science | тесты, код, задания
🔹 Конференции:
• ECIR 2025 — Европейская конференция по информационному поиску
6–10 апреля | Лукка, Италия
• CHI 2025 — Конференция по взаимодействию человека и компьютера
26 апреля — 1 мая | Иокогама, Япония
• ICLR 2025 — Международная конференция по представлениям обучения
24–28 апреля | Сингапур
🔹 Релизы фреймворков для ИИ:
• TensorFlow 2.20.0 — ожидается около 12 апреля
• PyTorch 2.7 — запланирован на апрель
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM