Linux | OpenSource | Tech
5 subscribers
1.47K links
Download Telegram
! Here’s how the post might look in a Telegram channel format:

---

🚀 Прокачаться в Data Science: лучшие блоги и каналы

<img src="https://habrastorage.org/getpro/habr/uploadfiles/0e6/9bc/36e/0e69bc36eade1c82ac224386b2aaf5a6.jpg" width="100%">

📌 Хотите глубже погрузиться в мир машинного обучения и анализа данных? В подборке — блоги от практикующих дата-сайентистов, программистов и даже биоинформатиков! Подойдет как новичкам, так и опытным специалистам.

🔗 [Читать на Habr](
https://habr.com/ru/articles/921596/?utmcampaign=921596&amp;utmsource=habrahabr&amp;utmmedium=rss#habracut)

#DataScience #MachineLearning #Программирование #Обучение

---

This keeps it concise, engaging, and optimized for mobile reading while maintaining the original content's intent. Let me know if you'd like any tweaks! 🚀
🔢 Регулярная отчетность. Цифры решают все

📌 В эпоху data driven подхода убивают уже не словом, а цифрой — будь то EBITDA, ROI или просто семёрка в отчёте.

💡 Автор делится опытом: 10 лет назад аналитика казалась красивым, но бесполезным фасадом, а теперь цифры правят миром — от распознавания лиц до корпоративных решений.

🙃 Ирония в том, что даже «цифровые шаманы» из McKinsey и PWC когда-то создавали отчеты, которые пылились на полках… но времена изменились.

🔗 Читать продолжение

#Аналитика #DataScience #БизнесТехнологии
🔹 Что делает shuffle=True и как не сломать порядок

Привет, Хабр! В этой статье разберёмся с параметром shuffle=True в train_test_split.

📌 Что значит "перемешать"?
Это применение псевдорандомного алгоритма (например, Fisher-Yates) к индексам выборки, чтобы добиться независимости и одинакового распределения данных в train и test (i.i.d.).

🔍 Важно:
В scikit-learn shuffle=True включён по умолчанию, и если не учесть порядок данных, можно получить некорректные выборки.

👉 Читать подробнее на Habr

#DataScience #MachineLearning #Python #scikitlearn
🎓 45 открытых уроков июля: возможности роста для каждого

<img src="https://habrastorage.org/getpro/habr/uploadfiles/d21/fec/9b4/d21fec9b44300225474d607bb42277b2.jpg" />

🔹 **Бесплатные онлайн-уроки** от преподавателей OTUS ждут всех, кто хочет прокачаться в IT. В программе — архитектура DWH, сетевые протоколы, работа с ML-моделями, DevOps и многое другое.

🔹 **Чем полезно:**
Разберёте ключевые темы с экспертами
Закроете пробелы в знаниях
Сможете задать вопросы в прямом эфире

Выбирайте интересное направление и регистрируйтесь!

🔗 [Подробнее и запись](
https://habr.com/ru/companies/otus/articles/922266/?utmcampaign=922266&utmsource=habrahabr&utmmedium=rss)

#IT #Обучение #Программирование #DataScience #DevOps
🔹 От сырого кликстрима к чистым датасетам: как в Lamoda Tech работают с данными

Команда Lamoda Tech рассказала о своём опыте построения эффективной инфраструктуры для обработки данных.

📌 Проблемы, с которыми столкнулись:
- Разрозненные подходы к подготовке данных среди команд
- Дублирование логики и вычислительных ресурсов
- Трудности с переиспользованием данных
- Рост времени на запуск новых ML-продуктов и экспериментов

💡 Решение:
👉 Feature Storage — фреймворк на базе Apache Spark для стандартизации работы с датасетами
👉 Action Storage — специализированное решение для кликстрим-данных

Эти инструменты теперь — стандарт в Lamoda, ускоряющий разработку ML-моделей и упрощающий взаимодействие между командами.

📖 Подробнее — в статье на Habr: Читать далее

#DataScience #ML #BigData #Lamoda
🧵 Кросс-валидация на временных рядах: как не перемешать время
🔹 Неправильная кросс-валидация — главный враг моделей для временных рядов.

Почему KFold не подходит?
Он нарушает порядок данных, вызывая утечку будущего (future leakage).

Как валидировать правильно?
Используйте специальные сплиттеры, учитывающие временную структуру:
- TimeSeriesSplit из sklearn
- Ручное разбиение по временным блокам

🔎 Особое внимание — фичам с лагами и агрегатами: их тоже нужно валидировать в хронологическом порядке, иначе модель будет "подглядывать" в будущее.

Читайте подробный разбор с примерами кода 👇
Читать на Habr

#DataScience #ВременныеРяды #МашинноеОбучение
🔍 DuckDB: мощная альтернатива pandas для работы с данными

💡 В ML-проектах большая часть времени уходит не на моделирование, а на подготовку данных. Разбираемся, как ускорить этот процесс с помощью DuckDB.

📌 О чем статья?
— Почему очистка и трансформация данных — это bottleneck в ML.
— Обзор DuckDB: легкость, производительность и SQL-подход.
— Сравнение с pandas и примеры эффективного использования.

📖 Читать полностью →

#DataScience #ML #DuckDB #Аналитика
🔍 Кластерные A/B-тесты: как победить эффект соседа

Привет! 👋

В классических A/B-тестах есть допущение: поведение пользователя зависит только от его группы (treatment/control). Но в реальности всё сложнее — соцсети, реферальные программы и даже курьеры создают эффект соседа, искажая результаты.

Проблема:
- Network interference — влияние пользователей друг на друга ломает независимость наблюдений.
- Чем плотнее связи (например, в соцсетях), тем сильнее «протекание» эффекта между группами.

💡 Решение:
Кластерные A/B-тесты — когда рандомизируются не отдельные юзеры, а целые группы (кластеры) с общими связями. Например, сообщества или зоны доставки.

📌 Когда применять?
- Если пользователи взаимодействуют между собой (мессенджеры, игры).
- Если есть географическая или социальная кластеризация.

👉 Подробности — в статье на Хабре:
Читать далее

#ABтестирование #DataScience #Аналитика
🚀 Оживляем данные Strava: от парсинга GPX до интерактивной карты на Python и JS

👨‍💻 Разработчик Александр превратил свою потребность в детальном анализе тренировочных данных в проект Peakline — альтернативу платным функциям Strava.

🔋 Проблема:
Dатчики мощности собирают данные, но Strava прячет их глубокий анализ за подпиской.

💡 Решение:
Создание собственной системы разбора GPX-файлов с визуализацией на Python (NumPy) и интерактивными картами на JS.

📌 Что внутри статьи:
✔️ Философия открытых данных и «спортивного хакерства»
✔️ Реальные фрагменты кода для работы с треками
✔️ Альтернатива премиум-фичам без замков

👉 Читайте, как превратить сырые данные в мощный аналитический инструмент: Habr

#Программирование #DataScience #Велоспорт #OpenSource
🔍 Сравнение Excel и CSV без лишних хлопот — новый инструмент MaksPilot

📌 Кто автор?
Максим, Senior Data Engineer, который любит автоматизировать рутину. Работает с SAS, Databricks и теперь — с удобными инструментами для сравнения таблиц.

💡 В чём проблема?
Часто нужно сравнить данные из Excel и CSV, но готовые решения либо неудобные, либо требуют глубоких технических знаний.

🚀 Решение — MaksPilot
Простой онлайн-инструмент, который:
Сравнивает Excel Excel и Excel CSV
Поддерживает файлы с несколькими вкладками
Не требует загрузки и сложных настроек

🔗 Попробуйте: MaksPilot

📖 Подробнее о разработке: Читать на Хабре

#Автоматизация #DataScience #Excel #CSV