🧵 Кросс-валидация на временных рядах: как не перемешать время
🔹 Неправильная кросс-валидация — главный враг моделей для временных рядов.
Почему
❌ Он нарушает порядок данных, вызывая утечку будущего (future leakage).
Как валидировать правильно?
✅ Используйте специальные сплиттеры, учитывающие временную структуру:
-
- Ручное разбиение по временным блокам
🔎 Особое внимание — фичам с лагами и агрегатами: их тоже нужно валидировать в хронологическом порядке, иначе модель будет "подглядывать" в будущее.
Читайте подробный разбор с примерами кода 👇
Читать на Habr
#DataScience #ВременныеРяды #МашинноеОбучение
🔹 Неправильная кросс-валидация — главный враг моделей для временных рядов.
Почему
KFold не подходит? ❌ Он нарушает порядок данных, вызывая утечку будущего (future leakage).
Как валидировать правильно?
✅ Используйте специальные сплиттеры, учитывающие временную структуру:
-
TimeSeriesSplit из sklearn - Ручное разбиение по временным блокам
🔎 Особое внимание — фичам с лагами и агрегатами: их тоже нужно валидировать в хронологическом порядке, иначе модель будет "подглядывать" в будущее.
Читайте подробный разбор с примерами кода 👇
Читать на Habr
#DataScience #ВременныеРяды #МашинноеОбучение
🔍 DuckDB: мощная альтернатива pandas для работы с данными
💡 В ML-проектах большая часть времени уходит не на моделирование, а на подготовку данных. Разбираемся, как ускорить этот процесс с помощью DuckDB.
📌 О чем статья?
— Почему очистка и трансформация данных — это bottleneck в ML.
— Обзор DuckDB: легкость, производительность и SQL-подход.
— Сравнение с pandas и примеры эффективного использования.
📖 Читать полностью →
#DataScience #ML #DuckDB #Аналитика
💡 В ML-проектах большая часть времени уходит не на моделирование, а на подготовку данных. Разбираемся, как ускорить этот процесс с помощью DuckDB.
📌 О чем статья?
— Почему очистка и трансформация данных — это bottleneck в ML.
— Обзор DuckDB: легкость, производительность и SQL-подход.
— Сравнение с pandas и примеры эффективного использования.
📖 Читать полностью →
#DataScience #ML #DuckDB #Аналитика
🔍 Кластерные A/B-тесты: как победить эффект соседа
Привет! 👋
В классических A/B-тестах есть допущение: поведение пользователя зависит только от его группы (treatment/control). Но в реальности всё сложнее — соцсети, реферальные программы и даже курьеры создают эффект соседа, искажая результаты.
⚡ Проблема:
- Network interference — влияние пользователей друг на друга ломает независимость наблюдений.
- Чем плотнее связи (например, в соцсетях), тем сильнее «протекание» эффекта между группами.
💡 Решение:
Кластерные A/B-тесты — когда рандомизируются не отдельные юзеры, а целые группы (кластеры) с общими связями. Например, сообщества или зоны доставки.
📌 Когда применять?
- Если пользователи взаимодействуют между собой (мессенджеры, игры).
- Если есть географическая или социальная кластеризация.
👉 Подробности — в статье на Хабре:
Читать далее
#ABтестирование #DataScience #Аналитика
Привет! 👋
В классических A/B-тестах есть допущение: поведение пользователя зависит только от его группы (treatment/control). Но в реальности всё сложнее — соцсети, реферальные программы и даже курьеры создают эффект соседа, искажая результаты.
⚡ Проблема:
- Network interference — влияние пользователей друг на друга ломает независимость наблюдений.
- Чем плотнее связи (например, в соцсетях), тем сильнее «протекание» эффекта между группами.
💡 Решение:
Кластерные A/B-тесты — когда рандомизируются не отдельные юзеры, а целые группы (кластеры) с общими связями. Например, сообщества или зоны доставки.
📌 Когда применять?
- Если пользователи взаимодействуют между собой (мессенджеры, игры).
- Если есть географическая или социальная кластеризация.
👉 Подробности — в статье на Хабре:
Читать далее
#ABтестирование #DataScience #Аналитика
🚀 Оживляем данные Strava: от парсинга GPX до интерактивной карты на Python и JS
👨💻 Разработчик Александр превратил свою потребность в детальном анализе тренировочных данных в проект Peakline — альтернативу платным функциям Strava.
🔋 Проблема:
Dатчики мощности собирают данные, но Strava прячет их глубокий анализ за подпиской.
💡 Решение:
Создание собственной системы разбора GPX-файлов с визуализацией на Python (NumPy) и интерактивными картами на JS.
📌 Что внутри статьи:
✔️ Философия открытых данных и «спортивного хакерства»
✔️ Реальные фрагменты кода для работы с треками
✔️ Альтернатива премиум-фичам без замков
👉 Читайте, как превратить сырые данные в мощный аналитический инструмент: Habr
#Программирование #DataScience #Велоспорт #OpenSource
👨💻 Разработчик Александр превратил свою потребность в детальном анализе тренировочных данных в проект Peakline — альтернативу платным функциям Strava.
🔋 Проблема:
Dатчики мощности собирают данные, но Strava прячет их глубокий анализ за подпиской.
💡 Решение:
Создание собственной системы разбора GPX-файлов с визуализацией на Python (NumPy) и интерактивными картами на JS.
📌 Что внутри статьи:
✔️ Философия открытых данных и «спортивного хакерства»
✔️ Реальные фрагменты кода для работы с треками
✔️ Альтернатива премиум-фичам без замков
👉 Читайте, как превратить сырые данные в мощный аналитический инструмент: Habr
#Программирование #DataScience #Велоспорт #OpenSource
🔍 Сравнение Excel и CSV без лишних хлопот — новый инструмент MaksPilot
📌 Кто автор?
Максим, Senior Data Engineer, который любит автоматизировать рутину. Работает с SAS, Databricks и теперь — с удобными инструментами для сравнения таблиц.
💡 В чём проблема?
Часто нужно сравнить данные из Excel и CSV, но готовые решения либо неудобные, либо требуют глубоких технических знаний.
🚀 Решение — MaksPilot
Простой онлайн-инструмент, который:
✔ Сравнивает Excel ↔ Excel и Excel ↔ CSV
✔ Поддерживает файлы с несколькими вкладками
✔ Не требует загрузки и сложных настроек
🔗 Попробуйте: MaksPilot
📖 Подробнее о разработке: Читать на Хабре
#Автоматизация #DataScience #Excel #CSV
📌 Кто автор?
Максим, Senior Data Engineer, который любит автоматизировать рутину. Работает с SAS, Databricks и теперь — с удобными инструментами для сравнения таблиц.
💡 В чём проблема?
Часто нужно сравнить данные из Excel и CSV, но готовые решения либо неудобные, либо требуют глубоких технических знаний.
🚀 Решение — MaksPilot
Простой онлайн-инструмент, который:
✔ Сравнивает Excel ↔ Excel и Excel ↔ CSV
✔ Поддерживает файлы с несколькими вкладками
✔ Не требует загрузки и сложных настроек
🔗 Попробуйте: MaksPilot
📖 Подробнее о разработке: Читать на Хабре
#Автоматизация #DataScience #Excel #CSV
🔷 4 бесплатных часа GPU в день: JupyterLab на PrimeWay за пару кликов
📌 Полноценный JupyterLab-сервер на A100 / A40 с 4 часами бесплатной работы в сутки теперь доступен каждому!
🚀 Как получить?
✔️ Быстрая настройка
✔️ Простая регистрация
✔️ Мощные GPU для задач ML и анализа данных
🔗 Читать инструкцию
#GPU #JupyterLab #Бесплатно #DataScience #ML
📌 Полноценный JupyterLab-сервер на A100 / A40 с 4 часами бесплатной работы в сутки теперь доступен каждому!
🚀 Как получить?
✔️ Быстрая настройка
✔️ Простая регистрация
✔️ Мощные GPU для задач ML и анализа данных
🔗 Читать инструкцию
#GPU #JupyterLab #Бесплатно #DataScience #ML
🔍 Многомерный анализ данных временных рядов
📊 Попробуем разобраться, как применять многомерный анализ к временным рядам, используя интерактивные методы визуализации данных и их взаимосвязей.
📌 Подробнее: Читать на Habr
#АнализДанных #ВременныеРяды #DataScience #Визуализация
📊 Попробуем разобраться, как применять многомерный анализ к временным рядам, используя интерактивные методы визуализации данных и их взаимосвязей.
📌 Подробнее: Читать на Habr
#АнализДанных #ВременныеРяды #DataScience #Визуализация
🚀 18 лет эволюции: как устроена T Data Platform в Т-Банке
Привет, подписчики! 👋 Сегодня разбираем, как менялась платформа для работы с данными в Т-Банке — от классических хранилищ до современных решений.
🔹 О чём речь?
Платформа обрабатывает данные для 17 000+ пользователей и прошла путь от «озёр» (Data Lake) до гибридных Lakehouse-решений.
🔹 Почему это важно?
Опыт Т-Банка показывает, как подходы к данным трансформируются с развитием технологий — без лишнего технарского жаргона.
📌 Что внутри статьи?
✔ История развития платформы
✔ Текущая архитектура (без сложных деталей)
✔ Ссылки на детальные материалы для любопытных
👉 Читать подробнее → Habr
#Банкинг #DataScience #BigData #Технологии
Привет, подписчики! 👋 Сегодня разбираем, как менялась платформа для работы с данными в Т-Банке — от классических хранилищ до современных решений.
🔹 О чём речь?
Платформа обрабатывает данные для 17 000+ пользователей и прошла путь от «озёр» (Data Lake) до гибридных Lakehouse-решений.
🔹 Почему это важно?
Опыт Т-Банка показывает, как подходы к данным трансформируются с развитием технологий — без лишнего технарского жаргона.
📌 Что внутри статьи?
✔ История развития платформы
✔ Текущая архитектура (без сложных деталей)
✔ Ссылки на детальные материалы для любопытных
👉 Читать подробнее → Habr
#Банкинг #DataScience #BigData #Технологии
🚀 Масштабирование AI/ML-инфраструктуры в Uber: 8 лет эволюции
Компания Uber уже 8 лет активно применяет технологии машинного обучения (ML), начиная с 2016 года, когда первые сложные ML-модели внедрялись для подбора водителей, пассажиров и ценообразования. Сегодня глубокое обучение стало основой критически важных сервисов, а генеративный ИИ открывает новые горизонты.
🔹 Что изменилось за эти годы?
- Переход от rule-based моделей к нейросетям и генеративным AI-решениям.
- Развитие инфраструктуры: CPU/GPU, программные библиотеки, фреймворки распределённого обучения.
- Усовершенствование платформы Michelangelo для полного цикла работы с моделями.
💡 Цель: Гибкое масштабирование для растущих запросов ИИ и ML в реальном времени.
📌 Узнайте подробности в статье на Habr.
#AI #ML #Uber #Технологии #DataScience
Компания Uber уже 8 лет активно применяет технологии машинного обучения (ML), начиная с 2016 года, когда первые сложные ML-модели внедрялись для подбора водителей, пассажиров и ценообразования. Сегодня глубокое обучение стало основой критически важных сервисов, а генеративный ИИ открывает новые горизонты.
🔹 Что изменилось за эти годы?
- Переход от rule-based моделей к нейросетям и генеративным AI-решениям.
- Развитие инфраструктуры: CPU/GPU, программные библиотеки, фреймворки распределённого обучения.
- Усовершенствование платформы Michelangelo для полного цикла работы с моделями.
💡 Цель: Гибкое масштабирование для растущих запросов ИИ и ML в реальном времени.
📌 Узнайте подробности в статье на Habr.
#AI #ML #Uber #Технологии #DataScience
📊 Matrix Reloaded: зачем дата-сайентисту линейная алгебра?
🔹 Векторы, матрицы и собственные числа — не просто абстракции, а ключевые инструменты для понимания работы ML-моделей.
🔹 В статье Марии Жаровой (ML-инженер Wildberries) — без сложных доказательств, только наглядные примеры и практические кейсы.
🔹 Узнайте, как линейная алгебра помогает "заглянуть внутрь" алгоритмов и интерпретировать их результаты.
📌 Читать статью: Habr
#DataScience #MachineLearning #ЛинейнаяАлгебра #Wildberries
🔹 Векторы, матрицы и собственные числа — не просто абстракции, а ключевые инструменты для понимания работы ML-моделей.
🔹 В статье Марии Жаровой (ML-инженер Wildberries) — без сложных доказательств, только наглядные примеры и практические кейсы.
🔹 Узнайте, как линейная алгебра помогает "заглянуть внутрь" алгоритмов и интерпретировать их результаты.
📌 Читать статью: Habr
#DataScience #MachineLearning #ЛинейнаяАлгебра #Wildberries
🚀 Canvas for Data as a Product: структура и примеры
📌 Статья подробно разбирает обновлённый шаблон Canvas для продуктов, основанных на данных. В основе — идея профессора Леонардо Карвало, дополненная практическими советами.
🔵 Как устроен Canvas?
- Разделён на цветные зоны, каждая отражает ключевую область (клиенты, данные, ценность и т. д.).
- Блоки пронумерованы — от определения проблемы до метрик успеха.
- В каждом: пояснение, наводящие вопросы и примеры заполнения.
💡 Зачем это нужно?
Помогает структурировать работу с data-продуктами: от идеи до реализации, минимизируя риски и фокусируясь на реальной пользе.
👉 Читать подробнее с примерами
#DataScience #ProductManagement #Аналитика
📌 Статья подробно разбирает обновлённый шаблон Canvas для продуктов, основанных на данных. В основе — идея профессора Леонардо Карвало, дополненная практическими советами.
🔵 Как устроен Canvas?
- Разделён на цветные зоны, каждая отражает ключевую область (клиенты, данные, ценность и т. д.).
- Блоки пронумерованы — от определения проблемы до метрик успеха.
- В каждом: пояснение, наводящие вопросы и примеры заполнения.
💡 Зачем это нужно?
Помогает структурировать работу с data-продуктами: от идеи до реализации, минимизируя риски и фокусируясь на реальной пользе.
👉 Читать подробнее с примерами
#DataScience #ProductManagement #Аналитика
🏆 Как я оптимизировал обработку спортивных коэффициентов
📍 Работа с сырыми спортивными коэффициентами — это как пытаться собрать модель корабля из разбросанных деталей конструктора. Без инструкции. И с половиной лишних запчастей.
🔗 Читать на Habr
#Аналитика #Прогнозирование #Спорт #DataScience
📍 Работа с сырыми спортивными коэффициентами — это как пытаться собрать модель корабля из разбросанных деталей конструктора. Без инструкции. И с половиной лишних запчастей.
🔗 Читать на Habr
#Аналитика #Прогнозирование #Спорт #DataScience
🚀 Фабрика данных 2030: от GAN-конвейеров до каузальных сетей — кто отвечает за рождение синтетической реальности?
<img src="https://habrastorage.org/getpro/habr/uploadfiles/ae2/f76/c10/ae2f76c106878eec3a518c78a4b58801.PNG" />
🌐 **Синтетические данные — новое топливо цифровой экономики**
Ещё недавно данные называли "новой нефтью", но к 2030 году всё изменилось. Синтетические данные стали основой для финансов, медицины и IoT, позволяя обходить юридические барьеры и ускорять разработку ИИ.
🔍 **Что внутри:**
✔️ **GAN-ы нового поколения** — соблюдают приватность и генерируют реалистичные данные
✔️ **Диффузионные модели** — находят сигнал в шуме лучше биржевых алгоритмов
✔️ **Каузальные графы** — учат базы данных "понимать" бизнес-логику
✔️ **SCM и агентные симуляции** — как искусственная реальность помогает предсказывать будущее
💡 **Вывод:**
Синтетические данные больше не просто копия реальности — это *песочница для инноваций*. Хотите заглянуть в будущее генеративного ИИ и ускорить свои ML-проекты?
📌 [**Читать статью на Хабре**](https://habr.com/ru/articles/930132/?utmcampaign=930132&utmsource=habrahabr&utmmedium=rss)
#ИИ #DataScience #GAN #ГенеративныеМодели #Будущее
<img src="https://habrastorage.org/getpro/habr/uploadfiles/ae2/f76/c10/ae2f76c106878eec3a518c78a4b58801.PNG" />
🌐 **Синтетические данные — новое топливо цифровой экономики**
Ещё недавно данные называли "новой нефтью", но к 2030 году всё изменилось. Синтетические данные стали основой для финансов, медицины и IoT, позволяя обходить юридические барьеры и ускорять разработку ИИ.
🔍 **Что внутри:**
✔️ **GAN-ы нового поколения** — соблюдают приватность и генерируют реалистичные данные
✔️ **Диффузионные модели** — находят сигнал в шуме лучше биржевых алгоритмов
✔️ **Каузальные графы** — учат базы данных "понимать" бизнес-логику
✔️ **SCM и агентные симуляции** — как искусственная реальность помогает предсказывать будущее
💡 **Вывод:**
Синтетические данные больше не просто копия реальности — это *песочница для инноваций*. Хотите заглянуть в будущее генеративного ИИ и ускорить свои ML-проекты?
📌 [**Читать статью на Хабре**](https://habr.com/ru/articles/930132/?utmcampaign=930132&utmsource=habrahabr&utmmedium=rss)
#ИИ #DataScience #GAN #ГенеративныеМодели #Будущее
📊 15 лучших библиотек для визуализации данных
Визуализация данных — это не просто красивые графики, а мощный инструмент для анализа и принятия решений.
В этой статье собраны ключевые библиотеки, которые помогут вам создавать:
✔ Быстрые и простые диаграммы
✔ Сложные интерактивные дашборды
✔ Профессиональные отчеты
У каждого инструмента — свои сильные стороны. Подберете идеальный вариант под ваш проект!
🔗 Читать подробный обзор на Habr
#Разработка #DataScience #Программирование #ВизуализацияДанных
Визуализация данных — это не просто красивые графики, а мощный инструмент для анализа и принятия решений.
В этой статье собраны ключевые библиотеки, которые помогут вам создавать:
✔ Быстрые и простые диаграммы
✔ Сложные интерактивные дашборды
✔ Профессиональные отчеты
У каждого инструмента — свои сильные стороны. Подберете идеальный вариант под ваш проект!
🔗 Читать подробный обзор на Habr
#Разработка #DataScience #Программирование #ВизуализацияДанных
🚀 Как мы съездили на Databricks Data + AI Summit в США и не разорились
Представьте: вы впервые выступаете на конференции, да ещё и на Data + AI Summit в Сан-Франциско! Это реальность для Жени Добрынина, Senior Data Engineer в Dodo Engineering.
🔹 Как всё начиналось?
🔹 Стоимость поездки: во сколько обошлось приключение?
🔹 Что нужно сделать, чтобы повторить этот опыт?
Подробности — в нашем материале от Dodo Engineering!
📌 Читать историю
#DataScience #Конференции #SanFrancisco #ДатаИнжиниринг
Представьте: вы впервые выступаете на конференции, да ещё и на Data + AI Summit в Сан-Франциско! Это реальность для Жени Добрынина, Senior Data Engineer в Dodo Engineering.
🔹 Как всё начиналось?
🔹 Стоимость поездки: во сколько обошлось приключение?
🔹 Что нужно сделать, чтобы повторить этот опыт?
Подробности — в нашем материале от Dodo Engineering!
📌 Читать историю
#DataScience #Конференции #SanFrancisco #ДатаИнжиниринг
Как я автоматизировал деплой аналитической платформы для спортивных данных на базе нестабильного API
📌 Разбираю кейс построения отказоустойчивого пайплайна для аналитики спортивных данных на базе API dingerodds.com.
🔹 Что сделано:
✅ Обёртка с ретраями и балансировкой
✅ Деплой в Kubernetes с автоскейлингом
✅ CI/CD через GitLab
✅ Хранение данных в Parquet (MinIO)
Результат: ненадёжный источник превратился в стабильную платформу для ML и аналитики.
📖 Читать полностью: Habr
#DevOps #DataScience #Kubernetes #Automation
📌 Разбираю кейс построения отказоустойчивого пайплайна для аналитики спортивных данных на базе API dingerodds.com.
🔹 Что сделано:
✅ Обёртка с ретраями и балансировкой
✅ Деплой в Kubernetes с автоскейлингом
✅ CI/CD через GitLab
✅ Хранение данных в Parquet (MinIO)
Результат: ненадёжный источник превратился в стабильную платформу для ML и аналитики.
📖 Читать полностью: Habr
#DevOps #DataScience #Kubernetes #Automation
🚀 Сегментация клиентов методом K-Means прямо в PostgreSQL
🔹 Что внутри?
- Нормализация фичей в
- PL/PythonU +
- Сохранение
- SQL-аналитика доходности кластеров
📊 Зачем?
Кастомная кластеризация на стороне БД — быстро, безопасно и без лишних движений данными.
👉 Читать разбор: habr.com/ru/companies/otus/articles/930506
#PostgreSQL #DataScience #KMeans #Аналитика
🔹 Что внутри?
- Нормализация фичей в
materialized view - PL/PythonU +
scikit-learn для работы с K-Means без выгрузки данных - Сохранение
cluster_id обратно в таблицу - SQL-аналитика доходности кластеров
📊 Зачем?
Кастомная кластеризация на стороне БД — быстро, безопасно и без лишних движений данными.
👉 Читать разбор: habr.com/ru/companies/otus/articles/930506
#PostgreSQL #DataScience #KMeans #Аналитика
🔍 Обновление онлайн-инструмента для сравнения Excel + добавлен экспорт
Разработчик доработал свой инструмент для сравнения Excel и CSV — теперь поддерживается вывод результатов в удобном формате.
📌 Что нового:
➕ Возможность экспорта данных
➕ Сравнение без конвертации файлов
➕ Улучшенный интерфейс
💡 Зачем это нужно?
Автор, инженер данных, часто сталкивается с необходимостью проверки результатов миграции скриптов (например, из SAS в Databricks). Раньше приходилось использовать сторонние решения или писать свои скрипты, но теперь есть удобная альтернатива.
🔗 Читать подробнее на Habr
#Excel #DataScience #Инструменты
Разработчик доработал свой инструмент для сравнения Excel и CSV — теперь поддерживается вывод результатов в удобном формате.
📌 Что нового:
➕ Возможность экспорта данных
➕ Сравнение без конвертации файлов
➕ Улучшенный интерфейс
💡 Зачем это нужно?
Автор, инженер данных, часто сталкивается с необходимостью проверки результатов миграции скриптов (например, из SAS в Databricks). Раньше приходилось использовать сторонние решения или писать свои скрипты, но теперь есть удобная альтернатива.
🔗 Читать подробнее на Habr
#Excel #DataScience #Инструменты