Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📱 Кто-то на Reddit попросил ChatGPT придумать самый смешной мем, которого ещё не существует — и поделился результатом. Мы не могли пройти мимо и сделали подборку.

🔥 На первой картинке — наш вариант, сгенерированный ИИ.

Теперь — твой ход!

Проголосуй за самый угарный мем:
❤️ — 1
👍 — 2
😄 — 3
⚡️ — 4
❤️‍🔥 — 5
🔥 — 6

Попроси ChatGPT сгенерировать свой и кидай в комменты:

Придумай смешной мем, который еще не существует! Он должен быть актуальным, креативным и легко воспринимаемым для широкой аудитории. Мем должен содержать не только текст, но и ситуацию или концепцию, которая вызывает смех благодаря неожиданному повороту событий, игре слов или контексту. Он может быть в формате диалога, сравнения, абсурдного контекста или с элементами иронии.

🥰 Самые крутые попадут в следующий пост, а авторы получат свою долю мемной славы.

Библиотека дата-сайентиста #развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁10⚡7👍5🥱4❤‍🔥2❤1🔥1

2.25K views17:52

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📱

Промпт дня: применяем знания в реальной задаче

Этот промпт поможет сделать шаг от теории к практике и реально прокачать скиллы в Data Science.

✏️ Промпт:

Give me a ‘challenge of the week’ to apply my knowledge in a real-world scenario.

It should be a practical task closely resembling a real business case or research problem. The challenge should encourage using your Data Science skills — from data analysis and visualization to building models and interpreting results. Ideally, it should involve open datasets, an interesting context, and provide hands-on insights into how the industry works.

Bonus points for including unconventional approaches, such as messy data, unclear success metrics, or the need to explain results to a non-technical audience.

➡️

Примеры челленджей недели:
• Прогнозирование оттока пользователей для подписочного сервиса
• Прогнозирование продаж для интернет-магазина
• Оптимизация ценовой стратегии для онлайн-ритейлера

➡️

Что вы получите:
• Возможность применить знания на практике в реальных бизнес-задачах
• Развитие навыков работы с открытыми данными и реальными кейсами
• Умение интерпретировать и объяснять сложные данные
• Креативные способы решения нестандартных задач

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍3🔥3

2.05K views06:52

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

OpenAI выпускает o3, o4-mini и Codex CLI — мощнейшее обновление в ИИ

➡️

Главное:
• o3 — новая флагманская модель: глубже мыслит, дольше держит контекст, лучше справляется с кодом и визуальными задачами
• o4-mini — облегчённая версия с суперэффективной производительностью
• o4-mini-high — вариант, где модель тратит больше времени на ответы для повышения надёжности
• Codex CLI — новый инструмент для локальной разработки прямо из терминала

➡️

Что нового в моделях:

• Длинные цепочки размышлений: теперь модели тратят больше ресурсов на шаги мышления — особенно это заметно в сложных задачах.

• Инструментальное мышление: модели сами решают, когда использовать Python, поиск в интернете, генерацию изображений и т.д.

• Мультимодальность: изображения стали полноценной частью мышления — модель может увеличивать, обрезать, перепроверять и рассуждать.

• Они реально работают как агенты, а не просто языковые модели

➡️

Как работает визуальное мышление:

Модель обрабатывает картинку как рабочий лист:
→ приближает важные детали
→ распознаёт текст
→ решает задачу с помощью встроенного Python
→ проверяет результат по изображению
→ и при необходимости пересчитывает

Эта стратегия устраняет ошибки распознавания и поднимает точность до новых высот.

➡️

Codex CLI — ИИ-разработчик в вашем терминале

• Установка: npm i -g @openai/codex
• Понимает ваши инструкции, анализирует проект, предлагает изменения.

• Всё работает локально и безопасно (через Git и sandbox).

• Поддерживает три режима: от «спросить на каждом шаге» до «полный автопилот».

• Можно вставить скриншот или чертёж, и Codex сам напишет код.

➡️

Производительность и стоимость:
• o3 > o1, o4-mini > o3-mini на всех уровнях
• o4-mini стал самым выгодным по соотношению цена/точность
• Можно сократить расходы на 30–40%, просто переключившись с o3-mini на o4-mini

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍2🔥1

1.79K views10:53

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚀 Приручи алгоритмы: из формул в код за один воркшоп

Готовы превратить сложную теорию машинного обучения в практические навыки? Тогда приходите на наш воркшоп, который пройдет 21 апреля.

Что вас ждет на воркшопе:
🟢 Работа с реальными данными — никаких учебных датасетов, только то, что встречается в настоящих проектах.

🟢Снижение размерности с PCA — научитесь выделять главное из информационного шума.

🟢Случайный лес vs градиентный бустинг — разберемся, в чём ключевое различие и когда какой алгоритм эффективнее.

🟢Мастерство гиперпараметров — освоите тонкую настройку моделей для максимальной точности.

На нашем воркшопе вы не просто слушаете — вы делаете сами! Вы будете писать код на Python, применять популярные библиотеки и сразу видеть результат своей работы.

А самое ценное: каждый участник получит персональный code review от Марии Горденко — инженера-программиста, старшего преподавателя НИУ ВШЭ, руководителя магистратуры от ГК Самолет и Альфа-Банка.

⏰ Когда: 21 апреля
💸Стоимость: всего 3990₽

Только сегодня, до конца дня: 10 мест по промокоду kulich → 2 990 ₽.

➡️ Записаться на воркшоп: https://proglib.io/w/0eb27019

👍1

1.62K views15:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚨

Обнаружение аномалий в данных: как улучшить качество анализа

Один из наших подписчиков поделился, как он решал задачу детекции аномалий в данных.

Вот его опыт:

«Когда передо мной впервые встала задача поиска аномалий, я начал с HBOS (Histogram Based Outlier Selection). Почему именно он? Всё просто — он быстрый. Алгоритм строит гистограмму распределения, делит данные на бины и вычисляет, какие из них выбиваются.

Работает он молниеносно, особенно на больших выборках — и это был огромный плюс. Но я быстро понял, что тут всё упирается в количество бинов. Переобучение? Пропуск аномалий? Всё зависит от настройки. Немного промахнулся — и часть аномалий прошли мимо.

Потом я решил попробовать ECOD — Empirical Cumulative Distribution-based Outlier Detection. Этот метод стал для меня приятным сюрпризом. Никаких лишних настроек, просто подаёшь данные — и он работает. Он строит эмпирическую функцию распределения и ищет выбросы на её основе.

Конечно, у ECOD тоже есть свои ограничения — он предполагает, что признаки независимы. Но в моём случае это было приемлемо, и результат оказался точнее, чем у HBOS.»

💡 Вывод от подписчика

➡️ HBOS — отличный выбор, если нужен результат «на сейчас», особенно для грубой фильтрации. Но если хочется более осознанного подхода, ECOD даёт свободу — без сложной настройки и с достойной точностью.

➡️ Оба метода легко реализуются через PyOD — рекомендую.

➡️ Мы в свою очередь делимся полезной статьей по теме: https://clc.to/sj5brA

💬

А вы используете библиотеки для детекции аномалий или предпочитаете писать своё? Делитесь своим подходом в комментариях!

Библиотека дата-сайентиста #междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤3⚡1

1.91K viewsedited 17:57

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⭐️

Cookiecutter Data Science v2: быстрый старт для ML-проектов

Cookiecutter Data Science — это шаблон проекта, который помогает быстро, логично и по best practices стартовать любой Data Science-проект.

Почему стоит попробовать:
➡️ Стандартизирует пайплайны и артефакты по всей команде
➡️ CLI ccds автоматизирует создание структуры: больше никакого «копипаста» старого проекта
➡️ Конфигурируется под стек: pip/conda, black/ruff, лицензии, S3/MLflow — всё на входе
➡️ Упор на воспроизводимость и читаемость (особенно при handover между командами)

Простая установка:

pipx install cookiecutter-data-science
ccds

Пример запуска:

ccds https://github.com/drivendataorg/cookiecutter-data-science

Дальше — просто отвечаете на вопросы. В результате получаете полностью готовую структуру: с README, тестами, логированием, конфигами и даже поддержкой MLflow.

Особенно удобно, если:
➡️ Вы запускаете новые ML-фичи в проде
➡️ Команда выросла и нужен единый стандарт
➡️ Надо быстро онбордить новых инженеров

👉 Документация: https://clc.to/CnI2CA

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7❤‍🔥1👍1🔥1

1.96K views06:51

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⚡️

Mistral представила Classifier Factory — простой способ обучать свои ИИ-классификаторы

С помощью эффективных малых моделей и удобных инструментов от Mistral вы сможете быстро обучить мощные классификаторы для:
▶️ Модерации контента
▶️Определения намерений (intent detection)
▶️ Анализа тональности
▶️ Кластеризации данных
▶️ Выявления мошенничества
▶️ Фильтрации спама
▶️ Рекомендательных систем

Идеально подойдёт разработчикам, аналитикам и продуктовым командам. Classifier Factory поможет вам пройти путь от идеи до модели в проде максимально просто.

📚 Готовы начать? Вот полезные ресурсы:
— Документация
— Гайд по intent-классификации
— Гайд по созданию классификатора для модерации
— Пример классификации товаров

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍2🔥2

2K views15:41

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

❓

Зачем дата-сайентисту дисперсия

Дисперсия — ключевой статистический показатель, который помогает оценить изменчивость данных. Для дата-сайентистов она критична при:

👉 Оценке и интерпретации результатов моделей
👉 Понимании поведения алгоритмов машинного обучения
👉 Снижении ошибок при построении предсказаний

В этой статье разберём, как правильно использовать дисперсию в Data Science и как она влияет на работу алгоритмов, например, в модели Random Forest.

👉 Читайте, чтобы понять, как измерять и учитывать дисперсию: https://proglib.io/sh/GDKYJQdAI2

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

9.93K views17:52

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

😆

Библиотека дата-сайентиста #развлекалово

😁18👍1💯1

1.88K views08:52

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Самые догадливые, пишите ответ в комментах 👇

Небольшая подсказка — это термин относится к AI или DS.

Прячем ответы под спойлер, чтобы не спалить остальным.

Библиотека дата-сайентиста #междусобойчик

👍2❤1

1.88K views13:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

Свежие новости из мира AI и Data Science

🔥 Модели и релизы:
— OpenAI: GPT‑4.1, 4.1 Mini и 4.1 Nano — обновление линейки с новыми уровнями производительности и масштабируемости
— OpenAI выпускает o3, o4-mini и Codex CLI — улучшенный Codex и новые возможности CLI для разработчиков
— Mistral запускает Classifier Factory — простой способ обучать кастомные классификаторы на своих данных
— Gemini 2.5 Flash — быстрая и дешёвая модель с апгрейдом reasoning-доступна в превью
— Google Firebase Studio — облачная платформа для создания AI-приложений на базе Gemini
— Яндекс запускает reasoning-модель — новая архитектура с несколькими этапами дообучения и open-source ускорителем YaFSDP

🧠 Исследования, статьи и бенчмарки:
— Wikipedia для ИИ-разработчиков — теперь в формате датасета на Kaggle: структурированные статьи, summary, инфобоксы
— Три икса в PyTorch — новый подход к работе с большими свертками для масштабного обучения
— Как организовать ML-проект — от структуры до примеров использования
— Ускорить Pandas в 60 раз — проверяем лайфхаки из интернета

🎙 Интервью, подкасты и видео:
— TED 2025: Сэм Альтман — о росте OpenAI, нагрузках на инфраструктуру и вызовах для общества
— Новый выпуск подкаста «Деплой» — Антон Полднев из Яндекса делится опытом в рекламе, ИИ и метриках

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍1

1.83K views12:51

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Завтра запускаем ML-ракету: последние места на борту

Уже завтра, 21 апреля, состоится наш воркшоп «Математика машинного обучения на практике», где теория ML превращается в практические навыки.

Что вас ждет:
📍 Работа с реальными данными — табличные датасеты и изображения
📍 Снижение размерности через PCA — научитесь отделять важное от второстепенного
📍 Обучение моделей — Random Forest и градиентный бустинг в действии
📍 Разбор метрик и гиперпараметров — как настроить модель на максимальную эффективность
📍 Написание кода на Python — прямо как реальных проектах
📍 Персональный code review от эксперта — бесценный фидбек для вашего роста
📍 Доступ в закрытый чат участников — нетворкинг и обмен опытом

Кто проводит воркшоп:

Мария Горденко — инженер-программист, старший преподаватель НИУ ВШЭ и Proglib Academy, руководитель магистратуры от ГК Самолет и Альфа-Банка.

Стоимость участия: 3990₽
Когда: завтра, 21 апреля

👉 Забронировать место на воркшопе: https://proglib.io/w/0eb27019

Please open Telegram to view this post

VIEW IN TELEGRAM

2.03K views15:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Библиотека задач по Data Science

👍1

1.98K views07:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

300 voters1.88K views07:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🟡

scikit-learn, UMAP и HDBSCAN теперь работают на GPU — без единой строчки изменений в коде

Команда cuML (NVIDIA) представила новый режим ускорения, который позволяет запускать код с scikit-learn, umap-learn и hdbscan на GPU без изменений. Просто импортируйте cuml.accel, и всё — можно работать с Jupyter, скриптами или Colab.

Это тот же «zero-code-change» подход, что и с cudf.pandas: привычные API, ускорение под капотом.

✔️ Сейчас это бета-версия: основное работает, ускорение впечатляющее, мелкие шероховатости — в процессе доработки.

✔️

Как это работает:
— Совместимые модели подменяются на GPU-эквиваленты автоматически
— Если что-то не поддерживается — плавный откат на CPU
— Включён CUDA Unified Memory: можно не думать о размере данных (если не очень большие)

Пример:

# train_rfc.py
#%load_ext cuml.accel  # Uncomment this if you're running in a Jupyter notebook
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

# Generate a large dataset
X, y = make_classification(n_samples=500000, n_features=100, random_state=0)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# Set n_jobs=-1 to take full advantage of CPU parallelism in native scikit-learn.
# This parameter is ignored when running with cuml.accel since the code already
# runs in parallel on the GPU!
rf = RandomForestClassifier(n_estimators=100, random_state=0, n_jobs=-1)
rf.fit(X_train, y_train)

Запуск:

📍

python train.py — на CPU

📍

python -m cuml.accel train.py — на GPU
📍 В Jupyter: %load_ext cuml.accel

Пример ускорения:
📍 Random Forest — ×25
📍 Linear Regression — ×52
📍 t-SNE — ×50
📍 UMAP — ×60
📍 HDBSCAN — ×175

✔️ Чем больше датасет — тем выше ускорение. Но не забывайте: при нехватке GPU-памяти может быть замедление из-за подкачки.

🔗 Документация: https://clc.to/4VVaKg

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥5👍3❤1⚡1

2.69K viewsedited 12:30

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👨‍💻

Топ-вакансий для дата-сайентистов за неделю

Junior HFT Quant Trader / Data Scientist Orion Systematic — от 200 000 до 300 000 ₽, гибрид

Senior Data Engineer — от 5 500 до 6 500 €, офис (Лимасол + Помощь с переездом)

ML Engineer/Data Science — до 350 000 ₽, гибрид (Москва)

Разработчик ML-инфраструктуры (Алиса) — от 250 000 до 450 000 ₽, гибрид (Москва, Санкт-Петербург)

Senior Data Scientist — от 4 000 $, удалёнка (Москва, Санкт-Петербург)

➡️ Еще больше топовых вакансий — в нашем канале Data jobs

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1

2.02K views17:53

About

Blog

Apps

Platform