Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

2.2K views17:52

Please open Telegram to view this post

VIEW IN TELEGRAM

1.9K views06:52

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

OpenAI выпускает o3, o4-mini и Codex CLI — мощнейшее обновление в ИИ

➡️

Главное:
• o3 — новая флагманская модель: глубже мыслит, дольше держит контекст, лучше справляется с кодом и визуальными задачами
• o4-mini — облегчённая версия с суперэффективной производительностью
• o4-mini-high — вариант, где модель тратит больше времени на ответы для повышения надёжности
• Codex CLI — новый инструмент для локальной разработки прямо из терминала

➡️

Что нового в моделях:

• Длинные цепочки размышлений: теперь модели тратят больше ресурсов на шаги мышления — особенно это заметно в сложных задачах.

• Инструментальное мышление: модели сами решают, когда использовать Python, поиск в интернете, генерацию изображений и т.д.

• Мультимодальность: изображения стали полноценной частью мышления — модель может увеличивать, обрезать, перепроверять и рассуждать.

• Они реально работают как агенты, а не просто языковые модели

➡️

Как работает визуальное мышление:

Модель обрабатывает картинку как рабочий лист:
→ приближает важные детали
→ распознаёт текст
→ решает задачу с помощью встроенного Python
→ проверяет результат по изображению
→ и при необходимости пересчитывает

Эта стратегия устраняет ошибки распознавания и поднимает точность до новых высот.

➡️

Codex CLI — ИИ-разработчик в вашем терминале

• Установка: npm i -g @openai/codex
• Понимает ваши инструкции, анализирует проект, предлагает изменения.

• Всё работает локально и безопасно (через Git и sandbox).

• Поддерживает три режима: от «спросить на каждом шаге» до «полный автопилот».

• Можно вставить скриншот или чертёж, и Codex сам напишет код.

➡️

Производительность и стоимость:
• o3 > o1, o4-mini > o3-mini на всех уровнях
• o4-mini стал самым выгодным по соотношению цена/точность
• Можно сократить расходы на 30–40%, просто переключившись с o3-mini на o4-mini

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

1.7K views10:53

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚀 Приручи алгоритмы: из формул в код за один воркшоп

Готовы превратить сложную теорию машинного обучения в практические навыки? Тогда приходите на наш воркшоп, который пройдет 21 апреля.

Что вас ждет на воркшопе:
🟢 Работа с реальными данными — никаких учебных датасетов, только то, что встречается в настоящих проектах.

🟢Снижение размерности с PCA — научитесь выделять главное из информационного шума.

🟢Случайный лес vs градиентный бустинг — разберемся, в чём ключевое различие и когда какой алгоритм эффективнее.

🟢Мастерство гиперпараметров — освоите тонкую настройку моделей для максимальной точности.

На нашем воркшопе вы не просто слушаете — вы делаете сами! Вы будете писать код на Python, применять популярные библиотеки и сразу видеть результат своей работы.

А самое ценное: каждый участник получит персональный code review от Марии Горденко — инженера-программиста, старшего преподавателя НИУ ВШЭ, руководителя магистратуры от ГК Самолет и Альфа-Банка.

⏰ Когда: 21 апреля
💸Стоимость: всего 3990₽

Только сегодня, до конца дня: 10 мест по промокоду kulich → 2 990 ₽.

➡️ Записаться на воркшоп: https://proglib.io/w/0eb27019

1.6K views15:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

1.8K viewsedited 17:57

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⭐️

Cookiecutter Data Science v2: быстрый старт для ML-проектов

Cookiecutter Data Science — это шаблон проекта, который помогает быстро, логично и по best practices стартовать любой Data Science-проект.

Почему стоит попробовать:
➡️ Стандартизирует пайплайны и артефакты по всей команде
➡️ CLI ccds автоматизирует создание структуры: больше никакого «копипаста» старого проекта
➡️ Конфигурируется под стек: pip/conda, black/ruff, лицензии, S3/MLflow — всё на входе
➡️ Упор на воспроизводимость и читаемость (особенно при handover между командами)

Простая установка:

pipx install cookiecutter-data-science
ccds

Пример запуска:

ccds https://github.com/drivendataorg/cookiecutter-data-science

Дальше — просто отвечаете на вопросы. В результате получаете полностью готовую структуру: с README, тестами, логированием, конфигами и даже поддержкой MLflow.

Особенно удобно, если:
➡️ Вы запускаете новые ML-фичи в проде
➡️ Команда выросла и нужен единый стандарт
➡️ Надо быстро онбордить новых инженеров

👉 Документация: https://clc.to/CnI2CA

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

1.9K views06:51

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⚡️

Mistral представила Classifier Factory — простой способ обучать свои ИИ-классификаторы

С помощью эффективных малых моделей и удобных инструментов от Mistral вы сможете быстро обучить мощные классификаторы для:
▶️ Модерации контента
▶️Определения намерений (intent detection)
▶️ Анализа тональности
▶️ Кластеризации данных
▶️ Выявления мошенничества
▶️ Фильтрации спама
▶️ Рекомендательных систем

Идеально подойдёт разработчикам, аналитикам и продуктовым командам. Classifier Factory поможет вам пройти путь от идеи до модели в проде максимально просто.

📚 Готовы начать? Вот полезные ресурсы:
— Документация
— Гайд по intent-классификации
— Гайд по созданию классификатора для модерации
— Пример классификации товаров

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

1.9K views15:41

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

❓

Зачем дата-сайентисту дисперсия

Дисперсия — ключевой статистический показатель, который помогает оценить изменчивость данных. Для дата-сайентистов она критична при:

👉 Оценке и интерпретации результатов моделей
👉 Понимании поведения алгоритмов машинного обучения
👉 Снижении ошибок при построении предсказаний

В этой статье разберём, как правильно использовать дисперсию в Data Science и как она влияет на работу алгоритмов, например, в модели Random Forest.

👉 Читайте, чтобы понять, как измерять и учитывать дисперсию: https://proglib.io/sh/GDKYJQdAI2

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

9.5K views17:52

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

😆

Библиотека дата-сайентиста #развлекалово

1.8K views08:52

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Самые догадливые, пишите ответ в комментах 👇

Небольшая подсказка — это термин относится к AI или DS.

Прячем ответы под спойлер, чтобы не спалить остальным.

Библиотека дата-сайентиста #междусобойчик

1.8K views13:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

Свежие новости из мира AI и Data Science

🔥 Модели и релизы:
— OpenAI: GPT‑4.1, 4.1 Mini и 4.1 Nano — обновление линейки с новыми уровнями производительности и масштабируемости
— OpenAI выпускает o3, o4-mini и Codex CLI — улучшенный Codex и новые возможности CLI для разработчиков
— Mistral запускает Classifier Factory — простой способ обучать кастомные классификаторы на своих данных
— Gemini 2.5 Flash — быстрая и дешёвая модель с апгрейдом reasoning-доступна в превью
— Google Firebase Studio — облачная платформа для создания AI-приложений на базе Gemini
— Яндекс запускает reasoning-модель — новая архитектура с несколькими этапами дообучения и open-source ускорителем YaFSDP

🧠 Исследования, статьи и бенчмарки:
— Wikipedia для ИИ-разработчиков — теперь в формате датасета на Kaggle: структурированные статьи, summary, инфобоксы
— Три икса в PyTorch — новый подход к работе с большими свертками для масштабного обучения
— Как организовать ML-проект — от структуры до примеров использования
— Ускорить Pandas в 60 раз — проверяем лайфхаки из интернета

🎙 Интервью, подкасты и видео:
— TED 2025: Сэм Альтман — о росте OpenAI, нагрузках на инфраструктуру и вызовах для общества
— Новый выпуск подкаста «Деплой» — Антон Полднев из Яндекса делится опытом в рекламе, ИИ и метриках

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

1.8K views12:51

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Завтра запускаем ML-ракету: последние места на борту

Уже завтра, 21 апреля, состоится наш воркшоп «Математика машинного обучения на практике», где теория ML превращается в практические навыки.

Что вас ждет:
📍 Работа с реальными данными — табличные датасеты и изображения
📍 Снижение размерности через PCA — научитесь отделять важное от второстепенного
📍 Обучение моделей — Random Forest и градиентный бустинг в действии
📍 Разбор метрик и гиперпараметров — как настроить модель на максимальную эффективность
📍 Написание кода на Python — прямо как реальных проектах
📍 Персональный code review от эксперта — бесценный фидбек для вашего роста
📍 Доступ в закрытый чат участников — нетворкинг и обмен опытом

Кто проводит воркшоп:

Мария Горденко — инженер-программист, старший преподаватель НИУ ВШЭ и Proglib Academy, руководитель магистратуры от ГК Самолет и Альфа-Банка.

Стоимость участия: 3990₽
Когда: завтра, 21 апреля

👉 Забронировать место на воркшопе: https://proglib.io/w/0eb27019

Please open Telegram to view this post

VIEW IN TELEGRAM

2.0K views15:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Библиотека задач по Data Science

1.9K views07:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

293 voters1.8K views07:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🟡

scikit-learn, UMAP и HDBSCAN теперь работают на GPU — без единой строчки изменений в коде

Команда cuML (NVIDIA) представила новый режим ускорения, который позволяет запускать код с scikit-learn, umap-learn и hdbscan на GPU без изменений. Просто импортируйте cuml.accel, и всё — можно работать с Jupyter, скриптами или Colab.

Это тот же «zero-code-change» подход, что и с cudf.pandas: привычные API, ускорение под капотом.

✔️ Сейчас это бета-версия: основное работает, ускорение впечатляющее, мелкие шероховатости — в процессе доработки.

✔️

Как это работает:
— Совместимые модели подменяются на GPU-эквиваленты автоматически
— Если что-то не поддерживается — плавный откат на CPU
— Включён CUDA Unified Memory: можно не думать о размере данных (если не очень большие)

Пример:

# train_rfc.py
#%load_ext cuml.accel  # Uncomment this if you're running in a Jupyter notebook
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

# Generate a large dataset
X, y = make_classification(n_samples=500000, n_features=100, random_state=0)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# Set n_jobs=-1 to take full advantage of CPU parallelism in native scikit-learn.
# This parameter is ignored when running with cuml.accel since the code already
# runs in parallel on the GPU!
rf = RandomForestClassifier(n_estimators=100, random_state=0, n_jobs=-1)
rf.fit(X_train, y_train)

Запуск:

📍

python train.py — на CPU

📍

python -m cuml.accel train.py — на GPU
📍 В Jupyter: %load_ext cuml.accel

Пример ускорения:
📍 Random Forest — ×25
📍 Linear Regression — ×52
📍 t-SNE — ×50
📍 UMAP — ×60
📍 HDBSCAN — ×175

✔️ Чем больше датасет — тем выше ускорение. Но не забывайте: при нехватке GPU-памяти может быть замедление из-за подкачки.

🔗 Документация: https://clc.to/4VVaKg

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

2.4K viewsedited 12:30

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👨‍💻

Топ-вакансий для дата-сайентистов за неделю

Junior HFT Quant Trader / Data Scientist Orion Systematic — от 200 000 до 300 000 ₽, гибрид

Senior Data Engineer — от 5 500 до 6 500 €, офис (Лимасол + Помощь с переездом)

ML Engineer/Data Science — до 350 000 ₽, гибрид (Москва)

Разработчик ML-инфраструктуры (Алиса) — от 250 000 до 450 000 ₽, гибрид (Москва, Санкт-Петербург)

Senior Data Scientist — от 4 000 $, удалёнка (Москва, Санкт-Петербург)

➡️ Еще больше топовых вакансий — в нашем канале Data jobs

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

1.9K views17:53

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

❔

How To: кластеризовать данные с помощью GMM

Gaussian Mixture Models (GMM) — это мощный инструмент для тех случаев, когда данные сложно разбить на чёткие кластеры. Вместо привязки к одному кластеру, GMM работает с вероятностями, что особенно полезно при перекрывающихся группах.

В отличие от жёсткой кластеризации (например, KMeans), GMM:
— Строит пробабилистическую модель: каждое наблюдение принадлежит к каждому кластеру с определённой вероятностью
— Подходит для кластеров разного размера и формы
— Работает даже при перекрывающихся распределениях

🌸

Как использовать GMM

GMM моделирует данные как смесь нескольких нормальных распределений. Алгоритм использует Expectation-Maximization (EM):
1. E-шаг: оценивает вероятность принадлежности каждой точки к каждому кластеру
2. M-шаг: обновляет параметры (среднее, ковариацию) каждого распределения на основе оценок

— R: пакет mclust с визуализацией и автоматическим выбором модели
— Python: sklearn.mixture.GaussianMixture, pgmpy, pomegranate

1️⃣ Импортируйте модель

from sklearn.mixture import GaussianMixture

2️⃣ Обучите модель

gmm = GaussianMixture(n_components=3)
gmm.fit(X)

3️⃣ Получите метки и вероятности

labels = gmm.predict(X)
probs = gmm.predict_proba(X)

4️⃣ Оцените модель через AIC/BIC

gmm.bic(X), gmm.aic(X)

🌸

Преимущества:
— Мягкая кластеризация: каждая точка — не только метка, но и вероятность
— Гибкость в формах и плотностях кластеров
— Можно использовать для density estimation и анализов аномалий

🌸

Недостатки:
— Нужно заранее задавать число кластеров
— Могут возникать проблемы с инициализацией (зависимость от начальных условий)
— Предполагается, что компоненты — именно гауссовы, что не всегда так

🌸

Где применяют GMM:
— Детекция аномалий (особенно в кибербезопасности)
— Сегментация изображений
— Обработка речи и звука
— Финансовое моделирование и risk scoring
— Понимание скрытых закономерностей в данных пользователей

🌸 Визуализация — это пример того, как несколько гауссиан могут описать сложную плотность данных.

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

1.8K views06:59

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Когда сроки горят, а разработчиков не хватает

Нехватка квалифицированных разработчиков, срывы дедлайнов и перегруз команды — эти проблемы знакомы большинству IT-руководителей. В условиях растущей конкуренции найти баланс между качеством реализации, сроками и бюджетом становится всё сложнее, особенно когда проект требует редких компетенций или быстрого масштабирования.

Решение проблемы — задействовать дополнительные ресурсы на аутсорсе или аутстаффе. Например, обратиться в Proglib. Да-да, мы запустили свою студию веб-разработки!

Что мы предлагаем:

• Опытные специалисты для аутстаффа (frontend, backend, DevOps, UI/UX, PM, BA)

• Полноценная разработка проектов под ключ

• Гибкое масштабирование команды под потребности клиента

• Прозрачная коммуникация и регулярная отчетность

Для каждого проекта формируется индивидуальная команда, исходя из конкретных потребностей заказчика.

Заполните форму, чтобы ускорить свою разработку 👉 https://forms.yandex.ru/u/67e548a4eb614622efa0bcb2/

1.9K views12:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека питониста | Python, Django, Flask

💻

Как ускорить выполнение запросов к базе данных в Django

Когда Django-запросы вытягивают из базы больше данных, чем нужно, это тормозит работу приложения. Чтобы ускорить выполнение и уменьшить нагрузку, можно использовать методы:

〰️

defer() — откладывает загрузку указанных полей до их фактического использования

〰️

only() — загружает только указанные поля, остальные — по запросу

〰️

exclude() — фильтрует объекты, исключая ненужные

В статье — практические примеры на базе веб-приложения для агентства недвижимости: как применять эти методы, чтобы получать только нужные данные и ускорять запросы.

🔗 Подробнее в статье: https://proglib.io/sh/2vagPRorTU

Библиотека питониста

Please open Telegram to view this post

VIEW IN TELEGRAM

1.7K views18:36

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤔

Как понять, что нейросеть переобучилась — без доступа к данным

С помощью weightwatcher — open-source библиотеки на Python — можно проанализировать обученные модели глубокого обучения и выявить:
🎌 переобучение
🎌 переусложнённые слои
🎌 другие потенциальные проблемы

И всё это без тренировочных или тестовых данных — анализ идёт напрямую по весам модели.

✅ Полезный инструмент для аудита, особенно если доступ к данным ограничен.

Пример использования weightwatcher для анализа модели:

import weightwatcher as ww
import torchvision.models as models

# Загружаем предобученную модель
model = models.vgg19_bn(pretrained=True)

# Запускаем анализ
watcher = ww.WeightWatcher(model=model)
details = watcher.analyze()

# Получаем краткое резюме
summary = watcher.get_summary(details)

🔗 Ссылка на репозиторий: https://clc.to/ih8VVw

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

2.0K viewsedited 06:51

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

2.0K views11:49

About

Blog

Apps

Platform