Please open Telegram to view this post
VIEW IN TELEGRAM
• o3 — новая флагманская модель: глубже мыслит, дольше держит контекст, лучше справляется с кодом и визуальными задачами
• o4-mini — облегчённая версия с суперэффективной производительностью
• o4-mini-high — вариант, где модель тратит больше времени на ответы для повышения надёжности
• Codex CLI — новый инструмент для локальной разработки прямо из терминала
• Длинные цепочки размышлений: теперь модели тратят больше ресурсов на шаги мышления — особенно это заметно в сложных задачах.
• Инструментальное мышление: модели сами решают, когда использовать Python, поиск в интернете, генерацию изображений и т.д.
• Мультимодальность: изображения стали полноценной частью мышления — модель может увеличивать, обрезать, перепроверять и рассуждать.
• Они реально работают как агенты, а не просто языковые модели
Модель обрабатывает картинку как рабочий лист:
→ приближает важные детали
→ распознаёт текст
→ решает задачу с помощью встроенного Python
→ проверяет результат по изображению
→ и при необходимости пересчитывает
Эта стратегия устраняет ошибки распознавания и поднимает точность до новых высот.
• Установка:
npm i -g @openai/codex
• Понимает ваши инструкции, анализирует проект, предлагает изменения.
• Всё работает локально и безопасно (через Git и sandbox).
• Поддерживает три режима: от «спросить на каждом шаге» до «полный автопилот».
• Можно вставить скриншот или чертёж, и Codex сам напишет код.
• o3 > o1, o4-mini > o3-mini на всех уровнях
• o4-mini стал самым выгодным по соотношению цена/точность
• Можно сократить расходы на 30–40%, просто переключившись с o3-mini на o4-mini
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Приручи алгоритмы: из формул в код за один воркшоп
Готовы превратить сложную теорию машинного обучения в практические навыки? Тогда приходите на наш воркшоп, который пройдет 21 апреля.
Что вас ждет на воркшопе:
🟢 Работа с реальными данными — никаких учебных датасетов, только то, что встречается в настоящих проектах.
🟢Снижение размерности с PCA — научитесь выделять главное из информационного шума.
🟢Случайный лес vs градиентный бустинг — разберемся, в чём ключевое различие и когда какой алгоритм эффективнее.
🟢Мастерство гиперпараметров — освоите тонкую настройку моделей для максимальной точности.
На нашем воркшопе вы не просто слушаете — вы делаете сами! Вы будете писать код на Python, применять популярные библиотеки и сразу видеть результат своей работы.
А самое ценное: каждый участник получит персональный code review от Марии Горденко — инженера-программиста, старшего преподавателя НИУ ВШЭ, руководителя магистратуры от ГК Самолет и Альфа-Банка.
⏰ Когда: 21 апреля
💸Стоимость: всего 3990₽
Только сегодня, до конца дня: 10 мест по промокоду kulich → 2 990 ₽.
➡️ Записаться на воркшоп: https://proglib.io/w/0eb27019
Готовы превратить сложную теорию машинного обучения в практические навыки? Тогда приходите на наш воркшоп, который пройдет 21 апреля.
Что вас ждет на воркшопе:
🟢 Работа с реальными данными — никаких учебных датасетов, только то, что встречается в настоящих проектах.
🟢Снижение размерности с PCA — научитесь выделять главное из информационного шума.
🟢Случайный лес vs градиентный бустинг — разберемся, в чём ключевое различие и когда какой алгоритм эффективнее.
🟢Мастерство гиперпараметров — освоите тонкую настройку моделей для максимальной точности.
На нашем воркшопе вы не просто слушаете — вы делаете сами! Вы будете писать код на Python, применять популярные библиотеки и сразу видеть результат своей работы.
А самое ценное: каждый участник получит персональный code review от Марии Горденко — инженера-программиста, старшего преподавателя НИУ ВШЭ, руководителя магистратуры от ГК Самолет и Альфа-Банка.
⏰ Когда: 21 апреля
💸Стоимость: всего 3990₽
Только сегодня, до конца дня: 10 мест по промокоду kulich → 2 990 ₽.
➡️ Записаться на воркшоп: https://proglib.io/w/0eb27019
Please open Telegram to view this post
VIEW IN TELEGRAM
Cookiecutter Data Science — это шаблон проекта, который помогает быстро, логично и по best practices стартовать любой Data Science-проект.
Почему стоит попробовать:
Простая установка:
pipx install cookiecutter-data-science
ccds
Пример запуска:
ccds https://github.com/drivendataorg/cookiecutter-data-science
Дальше — просто отвечаете на вопросы. В результате получаете полностью готовую структуру: с README, тестами, логированием, конфигами и даже поддержкой MLflow.
Особенно удобно, если:
👉 Документация: https://clc.to/CnI2CA
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
С помощью эффективных малых моделей и удобных инструментов от Mistral вы сможете быстро обучить мощные классификаторы для:
Идеально подойдёт разработчикам, аналитикам и продуктовым командам. Classifier Factory поможет вам пройти путь от идеи до модели в проде максимально просто.
📚 Готовы начать? Вот полезные ресурсы:
— Документация
— Гайд по intent-классификации
— Гайд по созданию классификатора для модерации
— Пример классификации товаров
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
Дисперсия — ключевой статистический показатель, который помогает оценить изменчивость данных. Для дата-сайентистов она критична при:
В этой статье разберём, как правильно использовать дисперсию в Data Science и как она влияет на работу алгоритмов, например, в модели Random Forest.
👉 Читайте, чтобы понять, как измерять и учитывать дисперсию: https://proglib.io/sh/GDKYJQdAI2
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
Самые догадливые, пишите ответ в комментах 👇
Небольшая подсказка — это термин относится к AI или DS.
Прячем ответы под спойлер, чтобы не спалить остальным.
Библиотека дата-сайентиста #междусобойчик
Небольшая подсказка — это термин относится к AI или DS.
Прячем ответы под спойлер, чтобы не спалить остальным.
Библиотека дата-сайентиста #междусобойчик
🔥 Модели и релизы:
— OpenAI: GPT‑4.1, 4.1 Mini и 4.1 Nano — обновление линейки с новыми уровнями производительности и масштабируемости
— OpenAI выпускает o3, o4-mini и Codex CLI — улучшенный Codex и новые возможности CLI для разработчиков
— Mistral запускает Classifier Factory — простой способ обучать кастомные классификаторы на своих данных
— Gemini 2.5 Flash — быстрая и дешёвая модель с апгрейдом reasoning-доступна в превью
— Google Firebase Studio — облачная платформа для создания AI-приложений на базе Gemini
— Яндекс запускает reasoning-модель — новая архитектура с несколькими этапами дообучения и open-source ускорителем YaFSDP
🧠 Исследования, статьи и бенчмарки:
— Wikipedia для ИИ-разработчиков — теперь в формате датасета на Kaggle: структурированные статьи, summary, инфобоксы
— Три икса в PyTorch — новый подход к работе с большими свертками для масштабного обучения
— Как организовать ML-проект — от структуры до примеров использования
— Ускорить Pandas в 60 раз — проверяем лайфхаки из интернета
🎙 Интервью, подкасты и видео:
— TED 2025: Сэм Альтман — о росте OpenAI, нагрузках на инфраструктуру и вызовах для общества
— Новый выпуск подкаста «Деплой» — Антон Полднев из Яндекса делится опытом в рекламе, ИИ и метриках
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Завтра запускаем ML-ракету: последние места на борту
Уже завтра, 21 апреля, состоится наш воркшоп «Математика машинного обучения на практике», где теория ML превращается в практические навыки.
Что вас ждет:
📍 Работа с реальными данными — табличные датасеты и изображения
📍 Снижение размерности через PCA — научитесь отделять важное от второстепенного
📍 Обучение моделей — Random Forest и градиентный бустинг в действии
📍 Разбор метрик и гиперпараметров — как настроить модель на максимальную эффективность
📍 Написание кода на Python — прямо как реальных проектах
📍 Персональный code review от эксперта — бесценный фидбек для вашего роста
📍 Доступ в закрытый чат участников — нетворкинг и обмен опытом
Кто проводит воркшоп:
Мария Горденко — инженер-программист, старший преподаватель НИУ ВШЭ и Proglib Academy, руководитель магистратуры от ГК Самолет и Альфа-Банка.
Стоимость участия: 3990₽
Когда: завтра, 21 апреля
👉 Забронировать место на воркшопе: https://proglib.io/w/0eb27019
Уже завтра, 21 апреля, состоится наш воркшоп «Математика машинного обучения на практике», где теория ML превращается в практические навыки.
Что вас ждет:
Кто проводит воркшоп:
Мария Горденко — инженер-программист, старший преподаватель НИУ ВШЭ и Proglib Academy, руководитель магистратуры от ГК Самолет и Альфа-Банка.
Стоимость участия: 3990₽
Когда: завтра, 21 апреля
👉 Забронировать место на воркшопе: https://proglib.io/w/0eb27019
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Библиотека задач по Data Science | тесты, код, задания
Команда cuML (NVIDIA) представила новый режим ускорения, который позволяет запускать код с
scikit-learn
, umap-learn
и hdbscan
на GPU без изменений. Просто импортируйте cuml.accel
, и всё — можно работать с Jupyter, скриптами или Colab.Это тот же «zero-code-change» подход, что и с
cudf.pandas
: привычные API, ускорение под капотом. — Совместимые модели подменяются на GPU-эквиваленты автоматически
— Если что-то не поддерживается — плавный откат на CPU
— Включён CUDA Unified Memory: можно не думать о размере данных (если не очень большие)
Пример:
# train_rfc.py
#%load_ext cuml.accel # Uncomment this if you're running in a Jupyter notebook
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
# Generate a large dataset
X, y = make_classification(n_samples=500000, n_features=100, random_state=0)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
# Set n_jobs=-1 to take full advantage of CPU parallelism in native scikit-learn.
# This parameter is ignored when running with cuml.accel since the code already
# runs in parallel on the GPU!
rf = RandomForestClassifier(n_estimators=100, random_state=0, n_jobs=-1)
rf.fit(X_train, y_train)
Запуск:
python train.py
— на CPU python -m cuml.accel train.py
— на GPU %load_ext cuml.accel
Пример ускорения:
🔗 Документация: https://clc.to/4VVaKg
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
Junior HFT Quant Trader / Data Scientist Orion Systematic — от 200 000 до 300 000 ₽, гибрид
Senior Data Engineer — от 5 500 до 6 500 €, офис (Лимасол + Помощь с переездом)
ML Engineer/Data Science — до 350 000 ₽, гибрид (Москва)
Разработчик ML-инфраструктуры (Алиса) — от 250 000 до 450 000 ₽, гибрид (Москва, Санкт-Петербург)
Senior Data Scientist — от 4 000 $, удалёнка (Москва, Санкт-Петербург)
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Gaussian Mixture Models (GMM) — это мощный инструмент для тех случаев, когда данные сложно разбить на чёткие кластеры. Вместо привязки к одному кластеру, GMM работает с вероятностями, что особенно полезно при перекрывающихся группах.
В отличие от жёсткой кластеризации (например, KMeans), GMM:
— Строит пробабилистическую модель: каждое наблюдение принадлежит к каждому кластеру с определённой вероятностью
— Подходит для кластеров разного размера и формы
— Работает даже при перекрывающихся распределениях
GMM моделирует данные как смесь нескольких нормальных распределений. Алгоритм использует Expectation-Maximization (EM):
1. E-шаг: оценивает вероятность принадлежности каждой точки к каждому кластеру
2. M-шаг: обновляет параметры (среднее, ковариацию) каждого распределения на основе оценок
— R: пакет
mclust
с визуализацией и автоматическим выбором модели— Python:
sklearn.mixture.GaussianMixture
, pgmpy
, pomegranate
from sklearn.mixture import GaussianMixture
gmm = GaussianMixture(n_components=3)
gmm.fit(X)
labels = gmm.predict(X)
probs = gmm.predict_proba(X)
gmm.bic(X), gmm.aic(X)
— Мягкая кластеризация: каждая точка — не только метка, но и вероятность
— Гибкость в формах и плотностях кластеров
— Можно использовать для density estimation и анализов аномалий
— Нужно заранее задавать число кластеров
— Могут возникать проблемы с инициализацией (зависимость от начальных условий)
— Предполагается, что компоненты — именно гауссовы, что не всегда так
— Детекция аномалий (особенно в кибербезопасности)
— Сегментация изображений
— Обработка речи и звука
— Финансовое моделирование и risk scoring
— Понимание скрытых закономерностей в данных пользователей
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
Когда сроки горят, а разработчиков не хватает
Нехватка квалифицированных разработчиков, срывы дедлайнов и перегруз команды — эти проблемы знакомы большинству IT-руководителей. В условиях растущей конкуренции найти баланс между качеством реализации, сроками и бюджетом становится всё сложнее, особенно когда проект требует редких компетенций или быстрого масштабирования.
Решение проблемы — задействовать дополнительные ресурсы на аутсорсе или аутстаффе. Например, обратиться в Proglib. Да-да, мы запустили свою студию веб-разработки!
Что мы предлагаем:
• Опытные специалисты для аутстаффа (frontend, backend, DevOps, UI/UX, PM, BA)
• Полноценная разработка проектов под ключ
• Гибкое масштабирование команды под потребности клиента
• Прозрачная коммуникация и регулярная отчетность
Для каждого проекта формируется индивидуальная команда, исходя из конкретных потребностей заказчика.
Заполните форму, чтобы ускорить свою разработку 👉 https://forms.yandex.ru/u/67e548a4eb614622efa0bcb2/
Нехватка квалифицированных разработчиков, срывы дедлайнов и перегруз команды — эти проблемы знакомы большинству IT-руководителей. В условиях растущей конкуренции найти баланс между качеством реализации, сроками и бюджетом становится всё сложнее, особенно когда проект требует редких компетенций или быстрого масштабирования.
Решение проблемы — задействовать дополнительные ресурсы на аутсорсе или аутстаффе. Например, обратиться в Proglib. Да-да, мы запустили свою студию веб-разработки!
Что мы предлагаем:
• Опытные специалисты для аутстаффа (frontend, backend, DevOps, UI/UX, PM, BA)
• Полноценная разработка проектов под ключ
• Гибкое масштабирование команды под потребности клиента
• Прозрачная коммуникация и регулярная отчетность
Для каждого проекта формируется индивидуальная команда, исходя из конкретных потребностей заказчика.
Заполните форму, чтобы ускорить свою разработку 👉 https://forms.yandex.ru/u/67e548a4eb614622efa0bcb2/
Forwarded from Библиотека питониста | Python, Django, Flask
Когда Django-запросы вытягивают из базы больше данных, чем нужно, это тормозит работу приложения. Чтобы ускорить выполнение и уменьшить нагрузку, можно использовать методы:
defer()
— откладывает загрузку указанных полей до их фактического использования only()
— загружает только указанные поля, остальные — по запросу exclude()
— фильтрует объекты, исключая ненужныеВ статье — практические примеры на базе веб-приложения для агентства недвижимости: как применять эти методы, чтобы получать только нужные данные и ускорять запросы.
🔗 Подробнее в статье: https://proglib.io/sh/2vagPRorTU
Библиотека питониста
Please open Telegram to view this post
VIEW IN TELEGRAM
С помощью weightwatcher — open-source библиотеки на Python — можно проанализировать обученные модели глубокого обучения и выявить:
И всё это без тренировочных или тестовых данных — анализ идёт напрямую по весам модели.
Пример использования
weightwatcher
для анализа модели:import weightwatcher as ww
import torchvision.models as models
# Загружаем предобученную модель
model = models.vgg19_bn(pretrained=True)
# Запускаем анализ
watcher = ww.WeightWatcher(model=model)
details = watcher.analyze()
# Получаем краткое резюме
summary = watcher.get_summary(details)
🔗 Ссылка на репозиторий: https://clc.to/ih8VVw
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM