«Kaggle — это песочница для студентов, а реальные проекты — для взрослых дата-сайентистов. Если ты только и делаешь, что гонишься за медальками, ты не профи, а геймер!»
• Обучение: сотни датасетов и задач — от регрессии до компьютерного зрения.
• Соревновательный дух: топ-1% на лидерборде — это как Олимпийская медаль.
• Сообщество: готовые ноутбуки, идеи и код от лучших умов.
• Но: идеальные датасеты и метрики часто далеки от реальных проблем, а переобучение ради 0.001 — это не про бизнес.
• Практика: данные грязные, требования меняются, а результат нужен вчера.
• Бизнес-ценность: модель не для галочки, а для прибыли или спасения жизней.
• Полный цикл: от сбора данных до деплоя — настоящий опыт.
• Но: рутина, дедлайны и отсутствие чистой «магии ML» могут выгореть.
Давайте спорить в комментариях!
Инструкция о том, как оставить комментарий: https://t.me/dsproglib/6244
👍 Kaggle — лучший тренажёр для мозга
❤️ Реальные проекты — тут рождается настоящий DS
Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
🧐 Игра: испытайте свою наблюдательность в эпоху ИИ
На изображении два кинопостера: один — подлинная фотография, другой — продукт нейросети.
⬇️ Попробуйте определить, какой из них настоящий, и в комментариях расскажите, почему вы так решили и на какие детали обратили внимание.
🤫 Ответ раскрою в воскресенье. -> A
Инструкция о том, как оставить комментарий: https://t.me/dsproglib/6244
Библиотека дата-сайентиста #междусобойчик
На изображении два кинопостера: один — подлинная фотография, другой — продукт нейросети.
⬇️ Попробуйте определить, какой из них настоящий, и в комментариях расскажите, почему вы так решили и на какие детали обратили внимание.
Инструкция о том, как оставить комментарий: https://t.me/dsproglib/6244
Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
Самые догадливые, пишите ответ в комментах 👇
Небольшая подсказка — это термин относится к AI или DS.
Прячем ответы под спойлер, чтобы не спалить остальным.
Библиотека дата-сайентиста #междусобойчик
Небольшая подсказка — это термин относится к AI или DS.
Прячем ответы под спойлер, чтобы не спалить остальным.
Библиотека дата-сайентиста #междусобойчик
🔥 Холивар: Jupyter Notebook — «мертв» или «живее всех живых»?
С каждым годом всё больше говорят, что Jupyter — «игрушка для новичков», «ад для reproducibility», «debug невозможен», и ему нет места в продакшне. Но с другой стороны — это удобство, интерактивность и быстрое прототипирование.
😡 Одна из проблем, с которой сталкиваются многие — это слияние ноутбуков и git-конфликты, которые могут превращать работу в настоящий кошмар. Если вам это знакомо, значит, вы просто ещё не попробовали nbdime.
Это набор утилит, которые делают сравнение и слияние ноутбуков человеческим:
•
•
•
•
•
📌 Если до этого вы просто коммитили
А теперь по-честному: используете ли Jupyter в 2025?
Давайте обсужим в комментариях!⤵️
Инструкция о том, как оставить комментарий: https://t.me/dsproglib/6244
❤️ — Без Jupyter не обойтись, он мой главный инструмент
👍 — Ушёл на другие решения, Jupyter — это прошлый век
🤔 — Не могу выбрать, использую и Jupyter, и другие инструменты
Библиотека дата-сайентиста #междусобойчик
С каждым годом всё больше говорят, что Jupyter — «игрушка для новичков», «ад для reproducibility», «debug невозможен», и ему нет места в продакшне. Но с другой стороны — это удобство, интерактивность и быстрое прототипирование.
Это набор утилит, которые делают сравнение и слияние ноутбуков человеческим:
•
nbdiff
— сравнение ноутбуков прямо в терминале •
nbdiff-web
— визуальное сравнение с рендером ячеек •
nbmerge
— трёхсторонний merge с автоматическим разрешением конфликтов •
nbmerge-web
— тот же merge, но в браузере •
nbshow
— удобный просмотр ноутбука в консоли 📌 Если до этого вы просто коммитили
.ipynb
«как получится» — попробуйте, это может изменить ваше мнение о Jupyter.А теперь по-честному: используете ли Jupyter в 2025?
Давайте обсужим в комментариях!
Инструкция о том, как оставить комментарий: https://t.me/dsproglib/6244
❤️ — Без Jupyter не обойтись, он мой главный инструмент
👍 — Ушёл на другие решения, Jupyter — это прошлый век
🤔 — Не могу выбрать, использую и Jupyter, и другие инструменты
Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
Самые догадливые, пишите ответ в комментах 👇
Небольшая подсказка — это термин относится к AI или DS.
Прячем ответы под спойлер, чтобы не спалить остальным.
Библиотека дата-сайентиста #междусобойчик
Небольшая подсказка — это термин относится к AI или DS.
Прячем ответы под спойлер, чтобы не спалить остальным.
Библиотека дата-сайентиста #междусобойчик
📈 Холивар: NumPy против pandas против PySpark — кто рулит в данных
Дата-сайентисты, делитесь: чем копаете свои миллионы строк?
🐍 NumPy — минимализм и математика
• Основа всех ML-библиотек.
• Векторы, матрицы, broadcasting — строго, быстро, эффективно.
• Если ты знаешь
Но:
• Строгая типизация и отсутствие удобных табличек.
• Хотел сделать фильтр по колонке? Сначала reshape.
•
📊 pandas — король табличек
•
• Гибкость, группировки, фильтрации — словно Excel на стероидах.
• Подходит и для EDA, и для препроцессинга.
Но:
• Большой датасет? Привет, out of memory.
• Интуитивно, но не всегда предсказуемо.
•
🔥 PySpark — big data и кластеры
• Когда данных слишком много для pandas.
• Распределённые вычисления, lazy evaluation, Spark SQL.
• Подходит для продакшена, когда ноутбук уже плачет.
Но:
• Стартуем JVM… подождите немного.
• Написал три строчки — получил лог на 300 строк.
• Не для быстрых экспериментов.
А вы кто: numpy-ниндзя, pandas-мастер или spark-инженер? Или по чуть-чуть от каждого?
Инструкция о том, как оставить комментарий: https://t.me/dsproglib/6244
Библиотека дата-сайентиста #междусобойчик
Дата-сайентисты, делитесь: чем копаете свои миллионы строк?
🐍 NumPy — минимализм и математика
• Основа всех ML-библиотек.
• Векторы, матрицы, broadcasting — строго, быстро, эффективно.
• Если ты знаешь
np.dot
и np.linalg
, тебя зовут в глубины ML.Но:
• Строгая типизация и отсутствие удобных табличек.
• Хотел сделать фильтр по колонке? Сначала reshape.
•
IndexError: too many indices
— старая знакомая.📊 pandas — король табличек
•
df.head()
— и ты уже видишь суть.• Гибкость, группировки, фильтрации — словно Excel на стероидах.
• Подходит и для EDA, и для препроцессинга.
Но:
• Большой датасет? Привет, out of memory.
• Интуитивно, но не всегда предсказуемо.
•
SettingWithCopyWarning
— и ты не уверен, изменил ли что-то вообще.🔥 PySpark — big data и кластеры
• Когда данных слишком много для pandas.
• Распределённые вычисления, lazy evaluation, Spark SQL.
• Подходит для продакшена, когда ноутбук уже плачет.
Но:
• Стартуем JVM… подождите немного.
• Написал три строчки — получил лог на 300 строк.
• Не для быстрых экспериментов.
А вы кто: numpy-ниндзя, pandas-мастер или spark-инженер? Или по чуть-чуть от каждого?
Инструкция о том, как оставить комментарий: https://t.me/dsproglib/6244
Библиотека дата-сайентиста #междусобойчик
Самые догадливые, пишите ответ в комментах 👇
Небольшая подсказка — это термин относится к AI или DS.
Прячем ответы под спойлер, чтобы не спалить остальным.
Библиотека дата-сайентиста #междусобойчик
Небольшая подсказка — это термин относится к AI или DS.
Прячем ответы под спойлер, чтобы не спалить остальным.
Библиотека дата-сайентиста #междусобойчик
🔥 Холивар: scikit-learn — мастодонт ML или пора переходить на что-то посвежее?
🎓 С одной стороны — стабильный и понятный scikit-learn:
• простота API,
• огромная документация,
• идеально подходит для обучения и базовых ML-пайплайнов.
💥 Но многие говорят: «Он уже не тянет продакшн»:
• нет GPU,
• нет удобной работы с пайплайнами в стиле TensorFlow/PyTorch,
• нет AutoML по умолчанию.
И начинают смотреть в сторону LightGBM, XGBoost, CatBoost, PyCaret, H2O, или даже Spark ML.
👀 А кто-то вообще считает, что Scikit-learn — это «велосипед прошлого десятилетия».
Делитесь своим стеком — кто чем пользуется в 2025?
Давайте обсужим в комментариях!⤵️
Инструкция о том, как оставить комментарий: https://t.me/dsproglib/6244
❤️ — Scikit-learn forever: надёжный, понятный, любимый
👍 — Уже давно перешёл на градиентный бустинг и AutoML
🔥 — Я вообще на PyTorch/TensorFlow, мне склерн не нужен
🤔 — Использую всё понемногу, зависит от задачи
Библиотека дата-сайентиста #междусобойчик
🎓 С одной стороны — стабильный и понятный scikit-learn:
• простота API,
• огромная документация,
• идеально подходит для обучения и базовых ML-пайплайнов.
💥 Но многие говорят: «Он уже не тянет продакшн»:
• нет GPU,
• нет удобной работы с пайплайнами в стиле TensorFlow/PyTorch,
• нет AutoML по умолчанию.
И начинают смотреть в сторону LightGBM, XGBoost, CatBoost, PyCaret, H2O, или даже Spark ML.
👀 А кто-то вообще считает, что Scikit-learn — это «велосипед прошлого десятилетия».
Делитесь своим стеком — кто чем пользуется в 2025?
Давайте обсужим в комментариях!
Инструкция о том, как оставить комментарий: https://t.me/dsproglib/6244
❤️ — Scikit-learn forever: надёжный, понятный, любимый
👍 — Уже давно перешёл на градиентный бустинг и AutoML
🔥 — Я вообще на PyTorch/TensorFlow, мне склерн не нужен
🤔 — Использую всё понемногу, зависит от задачи
Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
🧠 Загадка для AI/DS-гиков
🤓 Давайте проверим вашу интуицию и знание терминов.
Подсказка: термин связан с искусственным интеллектом или data science.
Самые догадливые — пишите ответ в комментариях 👇
Не забудьте спрятать его под спойлер, чтобы не подсказывать другим.
Библиотека дата-сайентиста #междусобойчик
🤓 Давайте проверим вашу интуицию и знание терминов.
Подсказка: термин связан с искусственным интеллектом или data science.
Самые догадливые — пишите ответ в комментариях 👇
Не забудьте спрятать его под спойлер, чтобы не подсказывать другим.
Библиотека дата-сайентиста #междусобойчик