Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

MLOps без воды: готовый пошаговый план

Готовый GitHub-репозиторий, который по шагам закрывает ключевые темы: от настройки проекта и контроля данных — до CI/CD, упаковки моделей и деплоя в AWS:

✅Неделя 0: Базовая настройка проекта

✅Неделя 1: Мониторинг моделей через Weights & Biases

✅Неделя 2: Конфигурации с Hydra

✅Неделя 3: Контроль версий данных с DVC

✅Неделя 4: Упаковка моделей в ONNX

✅Неделя 5: Упаковка моделей в Docker

✅Неделя 6: CI/CD через GitHub Actions

✅ Неделя 7: Хранение контейнеров в AWS ECR

✅ Неделя 8: Серверлесс-деплой на AWS Lambda

✅ Неделя 9: Мониторинг предсказаний через Kibana

🔗

Ссылка на репозиторий: https://clc.to/Hqx7cg

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

2.1K views06:50

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

2.2K views17:52

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

1.9K views06:52

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

OpenAI выпускает o3, o4-mini и Codex CLI — мощнейшее обновление в ИИ

➡️

Главное:
• o3 — новая флагманская модель: глубже мыслит, дольше держит контекст, лучше справляется с кодом и визуальными задачами
• o4-mini — облегчённая версия с суперэффективной производительностью
• o4-mini-high — вариант, где модель тратит больше времени на ответы для повышения надёжности
• Codex CLI — новый инструмент для локальной разработки прямо из терминала

➡️

Что нового в моделях:

• Длинные цепочки размышлений: теперь модели тратят больше ресурсов на шаги мышления — особенно это заметно в сложных задачах.

• Инструментальное мышление: модели сами решают, когда использовать Python, поиск в интернете, генерацию изображений и т.д.

• Мультимодальность: изображения стали полноценной частью мышления — модель может увеличивать, обрезать, перепроверять и рассуждать.

• Они реально работают как агенты, а не просто языковые модели

➡️

Как работает визуальное мышление:

Модель обрабатывает картинку как рабочий лист:
→ приближает важные детали
→ распознаёт текст
→ решает задачу с помощью встроенного Python
→ проверяет результат по изображению
→ и при необходимости пересчитывает

Эта стратегия устраняет ошибки распознавания и поднимает точность до новых высот.

➡️

Codex CLI — ИИ-разработчик в вашем терминале

• Установка: npm i -g @openai/codex
• Понимает ваши инструкции, анализирует проект, предлагает изменения.

• Всё работает локально и безопасно (через Git и sandbox).

• Поддерживает три режима: от «спросить на каждом шаге» до «полный автопилот».

• Можно вставить скриншот или чертёж, и Codex сам напишет код.

➡️

Производительность и стоимость:
• o3 > o1, o4-mini > o3-mini на всех уровнях
• o4-mini стал самым выгодным по соотношению цена/точность
• Можно сократить расходы на 30–40%, просто переключившись с o3-mini на o4-mini

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

1.7K views10:53

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚀 Приручи алгоритмы: из формул в код за один воркшоп

Готовы превратить сложную теорию машинного обучения в практические навыки? Тогда приходите на наш воркшоп, который пройдет 21 апреля.

Что вас ждет на воркшопе:
🟢 Работа с реальными данными — никаких учебных датасетов, только то, что встречается в настоящих проектах.

🟢Снижение размерности с PCA — научитесь выделять главное из информационного шума.

🟢Случайный лес vs градиентный бустинг — разберемся, в чём ключевое различие и когда какой алгоритм эффективнее.

🟢Мастерство гиперпараметров — освоите тонкую настройку моделей для максимальной точности.

На нашем воркшопе вы не просто слушаете — вы делаете сами! Вы будете писать код на Python, применять популярные библиотеки и сразу видеть результат своей работы.

А самое ценное: каждый участник получит персональный code review от Марии Горденко — инженера-программиста, старшего преподавателя НИУ ВШЭ, руководителя магистратуры от ГК Самолет и Альфа-Банка.

⏰ Когда: 21 апреля
💸Стоимость: всего 3990₽

Только сегодня, до конца дня: 10 мест по промокоду kulich → 2 990 ₽.

➡️ Записаться на воркшоп: https://proglib.io/w/0eb27019

1.6K views15:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

1.8K viewsedited 17:57

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⭐️

Cookiecutter Data Science v2: быстрый старт для ML-проектов

Cookiecutter Data Science — это шаблон проекта, который помогает быстро, логично и по best practices стартовать любой Data Science-проект.

Почему стоит попробовать:
➡️ Стандартизирует пайплайны и артефакты по всей команде
➡️ CLI ccds автоматизирует создание структуры: больше никакого «копипаста» старого проекта
➡️ Конфигурируется под стек: pip/conda, black/ruff, лицензии, S3/MLflow — всё на входе
➡️ Упор на воспроизводимость и читаемость (особенно при handover между командами)

Простая установка:

pipx install cookiecutter-data-science
ccds

Пример запуска:

ccds https://github.com/drivendataorg/cookiecutter-data-science

Дальше — просто отвечаете на вопросы. В результате получаете полностью готовую структуру: с README, тестами, логированием, конфигами и даже поддержкой MLflow.

Особенно удобно, если:
➡️ Вы запускаете новые ML-фичи в проде
➡️ Команда выросла и нужен единый стандарт
➡️ Надо быстро онбордить новых инженеров

👉 Документация: https://clc.to/CnI2CA

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

1.9K views06:51

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⚡️

Mistral представила Classifier Factory — простой способ обучать свои ИИ-классификаторы

С помощью эффективных малых моделей и удобных инструментов от Mistral вы сможете быстро обучить мощные классификаторы для:
▶️ Модерации контента
▶️Определения намерений (intent detection)
▶️ Анализа тональности
▶️ Кластеризации данных
▶️ Выявления мошенничества
▶️ Фильтрации спама
▶️ Рекомендательных систем

Идеально подойдёт разработчикам, аналитикам и продуктовым командам. Classifier Factory поможет вам пройти путь от идеи до модели в проде максимально просто.

📚 Готовы начать? Вот полезные ресурсы:
— Документация
— Гайд по intent-классификации
— Гайд по созданию классификатора для модерации
— Пример классификации товаров

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

1.9K views15:41

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

❓

Зачем дата-сайентисту дисперсия

Дисперсия — ключевой статистический показатель, который помогает оценить изменчивость данных. Для дата-сайентистов она критична при:

👉 Оценке и интерпретации результатов моделей
👉 Понимании поведения алгоритмов машинного обучения
👉 Снижении ошибок при построении предсказаний

В этой статье разберём, как правильно использовать дисперсию в Data Science и как она влияет на работу алгоритмов, например, в модели Random Forest.

👉 Читайте, чтобы понять, как измерять и учитывать дисперсию: https://proglib.io/sh/GDKYJQdAI2

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

9.5K views17:52

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

😆

Библиотека дата-сайентиста #развлекалово

1.8K views08:52

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Самые догадливые, пишите ответ в комментах 👇

Небольшая подсказка — это термин относится к AI или DS.

Прячем ответы под спойлер, чтобы не спалить остальным.

Библиотека дата-сайентиста #междусобойчик

1.8K views13:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

Свежие новости из мира AI и Data Science

🔥 Модели и релизы:
— OpenAI: GPT‑4.1, 4.1 Mini и 4.1 Nano — обновление линейки с новыми уровнями производительности и масштабируемости
— OpenAI выпускает o3, o4-mini и Codex CLI — улучшенный Codex и новые возможности CLI для разработчиков
— Mistral запускает Classifier Factory — простой способ обучать кастомные классификаторы на своих данных
— Gemini 2.5 Flash — быстрая и дешёвая модель с апгрейдом reasoning-доступна в превью
— Google Firebase Studio — облачная платформа для создания AI-приложений на базе Gemini
— Яндекс запускает reasoning-модель — новая архитектура с несколькими этапами дообучения и open-source ускорителем YaFSDP

🧠 Исследования, статьи и бенчмарки:
— Wikipedia для ИИ-разработчиков — теперь в формате датасета на Kaggle: структурированные статьи, summary, инфобоксы
— Три икса в PyTorch — новый подход к работе с большими свертками для масштабного обучения
— Как организовать ML-проект — от структуры до примеров использования
— Ускорить Pandas в 60 раз — проверяем лайфхаки из интернета

🎙 Интервью, подкасты и видео:
— TED 2025: Сэм Альтман — о росте OpenAI, нагрузках на инфраструктуру и вызовах для общества
— Новый выпуск подкаста «Деплой» — Антон Полднев из Яндекса делится опытом в рекламе, ИИ и метриках

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

1.8K views12:51

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Завтра запускаем ML-ракету: последние места на борту

Уже завтра, 21 апреля, состоится наш воркшоп «Математика машинного обучения на практике», где теория ML превращается в практические навыки.

Что вас ждет:
📍 Работа с реальными данными — табличные датасеты и изображения
📍 Снижение размерности через PCA — научитесь отделять важное от второстепенного
📍 Обучение моделей — Random Forest и градиентный бустинг в действии
📍 Разбор метрик и гиперпараметров — как настроить модель на максимальную эффективность
📍 Написание кода на Python — прямо как реальных проектах
📍 Персональный code review от эксперта — бесценный фидбек для вашего роста
📍 Доступ в закрытый чат участников — нетворкинг и обмен опытом

Кто проводит воркшоп:

Мария Горденко — инженер-программист, старший преподаватель НИУ ВШЭ и Proglib Academy, руководитель магистратуры от ГК Самолет и Альфа-Банка.

Стоимость участия: 3990₽
Когда: завтра, 21 апреля

👉 Забронировать место на воркшопе: https://proglib.io/w/0eb27019

Please open Telegram to view this post

VIEW IN TELEGRAM

2.0K views15:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Библиотека задач по Data Science

1.9K views07:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

293 voters1.8K views07:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🟡

scikit-learn, UMAP и HDBSCAN теперь работают на GPU — без единой строчки изменений в коде

Команда cuML (NVIDIA) представила новый режим ускорения, который позволяет запускать код с scikit-learn, umap-learn и hdbscan на GPU без изменений. Просто импортируйте cuml.accel, и всё — можно работать с Jupyter, скриптами или Colab.

Это тот же «zero-code-change» подход, что и с cudf.pandas: привычные API, ускорение под капотом.

✔️ Сейчас это бета-версия: основное работает, ускорение впечатляющее, мелкие шероховатости — в процессе доработки.

✔️

Как это работает:
— Совместимые модели подменяются на GPU-эквиваленты автоматически
— Если что-то не поддерживается — плавный откат на CPU
— Включён CUDA Unified Memory: можно не думать о размере данных (если не очень большие)

Пример:

# train_rfc.py
#%load_ext cuml.accel  # Uncomment this if you're running in a Jupyter notebook
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

# Generate a large dataset
X, y = make_classification(n_samples=500000, n_features=100, random_state=0)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# Set n_jobs=-1 to take full advantage of CPU parallelism in native scikit-learn.
# This parameter is ignored when running with cuml.accel since the code already
# runs in parallel on the GPU!
rf = RandomForestClassifier(n_estimators=100, random_state=0, n_jobs=-1)
rf.fit(X_train, y_train)

Запуск:

📍

python train.py — на CPU

📍

python -m cuml.accel train.py — на GPU
📍 В Jupyter: %load_ext cuml.accel

Пример ускорения:
📍 Random Forest — ×25
📍 Linear Regression — ×52
📍 t-SNE — ×50
📍 UMAP — ×60
📍 HDBSCAN — ×175

✔️ Чем больше датасет — тем выше ускорение. Но не забывайте: при нехватке GPU-памяти может быть замедление из-за подкачки.

🔗 Документация: https://clc.to/4VVaKg

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

2.4K viewsedited 12:30

About

Blog

Apps

Platform