Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.9K subscribers
2.07K photos
109 videos
64 files
4.49K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/f83f07f1

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
👊 Холивар: Kaggle или реальные проекты — где настоящий дата-сайенс?

«Kaggle — это песочница для студентов, а реальные проекты — для взрослых дата-сайентистов. Если ты только и делаешь, что гонишься за медальками, ты не профи, а геймер!»


🚶‍♂️ Kaggle:
• Обучение: сотни датасетов и задач — от регрессии до компьютерного зрения.
• Соревновательный дух: топ-1% на лидерборде — это как Олимпийская медаль.
• Сообщество: готовые ноутбуки, идеи и код от лучших умов.
• Но: идеальные датасеты и метрики часто далеки от реальных проблем, а переобучение ради 0.001 — это не про бизнес.

🚶‍♂️ Реальные проекты:
• Практика: данные грязные, требования меняются, а результат нужен вчера.
• Бизнес-ценность: модель не для галочки, а для прибыли или спасения жизней.
• Полный цикл: от сбора данных до деплоя — настоящий опыт.
• Но: рутина, дедлайны и отсутствие чистой «магии ML» могут выгореть.

Давайте спорить в комментариях! ⤵️
Инструкция о том, как оставить комментарий: https://t.me/dsproglib/6244

👍 Kaggle — лучший тренажёр для мозга
❤️ Реальные проекты — тут рождается настоящий DS

Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
🧐 Игра: испытайте свою наблюдательность в эпоху ИИ

На изображении два кинопостера: один — подлинная фотография, другой — продукт нейросети.

⬇️ Попробуйте определить, какой из них настоящий, и в комментариях расскажите, почему вы так решили и на какие детали обратили внимание.

🤫 Ответ раскрою в воскресенье. -> A
Инструкция о том, как оставить комментарий: https://t.me/dsproglib/6244

Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
Самые догадливые, пишите ответ в комментах 👇

Небольшая подсказка — это термин относится к AI или DS.

Прячем ответы под спойлер, чтобы не спалить остальным.

Библиотека дата-сайентиста #междусобойчик
🔥 Холивар: Jupyter Notebook — «мертв» или «живее всех живых»?

С каждым годом всё больше говорят, что Jupyter — «игрушка для новичков», «ад для reproducibility», «debug невозможен», и ему нет места в продакшне. Но с другой стороны — это удобство, интерактивность и быстрое прототипирование.

😡 Одна из проблем, с которой сталкиваются многие — это слияние ноутбуков и git-конфликты, которые могут превращать работу в настоящий кошмар. Если вам это знакомо, значит, вы просто ещё не попробовали nbdime.

Это набор утилит, которые делают сравнение и слияние ноутбуков человеческим:
nbdiff — сравнение ноутбуков прямо в терминале
nbdiff-web — визуальное сравнение с рендером ячеек
nbmerge — трёхсторонний merge с автоматическим разрешением конфликтов
nbmerge-web — тот же merge, но в браузере
nbshow — удобный просмотр ноутбука в консоли

📌 Если до этого вы просто коммитили .ipynb «как получится» — попробуйте, это может изменить ваше мнение о Jupyter.

А теперь по-честному: используете ли Jupyter в 2025?
Давайте обсужим в комментариях! ⤵️
Инструкция о том, как оставить комментарий: https://t.me/dsproglib/6244

❤️ — Без Jupyter не обойтись, он мой главный инструмент
👍 — Ушёл на другие решения, Jupyter — это прошлый век
🤔 — Не могу выбрать, использую и Jupyter, и другие инструменты

Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
Самые догадливые, пишите ответ в комментах 👇

Небольшая подсказка — это термин относится к AI или DS.

Прячем ответы под спойлер, чтобы не спалить остальным.

Библиотека дата-сайентиста #междусобойчик
📈 Холивар: NumPy против pandas против PySpark — кто рулит в данных

Дата-сайентисты, делитесь: чем копаете свои миллионы строк?

🐍 NumPy — минимализм и математика
• Основа всех ML-библиотек.
• Векторы, матрицы, broadcasting — строго, быстро, эффективно.
• Если ты знаешь np.dot и np.linalg, тебя зовут в глубины ML.

Но:
• Строгая типизация и отсутствие удобных табличек.
• Хотел сделать фильтр по колонке? Сначала reshape.
IndexError: too many indices — старая знакомая.

📊 pandas — король табличек
df.head() — и ты уже видишь суть.
• Гибкость, группировки, фильтрации — словно Excel на стероидах.
• Подходит и для EDA, и для препроцессинга.

Но:
• Большой датасет? Привет, out of memory.
• Интуитивно, но не всегда предсказуемо.
SettingWithCopyWarning — и ты не уверен, изменил ли что-то вообще.

🔥 PySpark — big data и кластеры
• Когда данных слишком много для pandas.
• Распределённые вычисления, lazy evaluation, Spark SQL.
• Подходит для продакшена, когда ноутбук уже плачет.

Но:
• Стартуем JVM… подождите немного.
• Написал три строчки — получил лог на 300 строк.
• Не для быстрых экспериментов.

А вы кто: numpy-ниндзя, pandas-мастер или spark-инженер? Или по чуть-чуть от каждого?
Инструкция о том, как оставить комментарий: https://t.me/dsproglib/6244

Библиотека дата-сайентиста #междусобойчик
Самые догадливые, пишите ответ в комментах 👇

Небольшая подсказка — это термин относится к AI или DS.

Прячем ответы под спойлер, чтобы не спалить остальным.

Библиотека дата-сайентиста #междусобойчик
🔥 Холивар: scikit-learn — мастодонт ML или пора переходить на что-то посвежее?

🎓 С одной стороны — стабильный и понятный scikit-learn:
• простота API,
• огромная документация,
• идеально подходит для обучения и базовых ML-пайплайнов.

💥 Но многие говорят: «Он уже не тянет продакшн»:
• нет GPU,
• нет удобной работы с пайплайнами в стиле TensorFlow/PyTorch,
• нет AutoML по умолчанию.

И начинают смотреть в сторону LightGBM, XGBoost, CatBoost, PyCaret, H2O, или даже Spark ML.

👀 А кто-то вообще считает, что Scikit-learn — это «велосипед прошлого десятилетия».

Делитесь своим стеком — кто чем пользуется в 2025?
Давайте обсужим в комментариях! ⤵️
Инструкция о том, как оставить комментарий: https://t.me/dsproglib/6244

❤️ — Scikit-learn forever: надёжный, понятный, любимый
👍 — Уже давно перешёл на градиентный бустинг и AutoML
🔥 — Я вообще на PyTorch/TensorFlow, мне склерн не нужен
🤔 — Использую всё понемногу, зависит от задачи

Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
🧠 Загадка для AI/DS-гиков

🤓 Давайте проверим вашу интуицию и знание терминов.

Подсказка: термин связан с искусственным интеллектом или data science.

Самые догадливые — пишите ответ в комментариях 👇
Не забудьте спрятать его под спойлер, чтобы не подсказывать другим.

Библиотека дата-сайентиста #междусобойчик