Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.9K subscribers
2.08K photos
109 videos
64 files
4.5K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/f83f07f1

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
💎 Шпаргалка, после которой вы реально поймёте LLM

Что внутри шпаргалки:
— Архитектура трансформеров
— Механизмы внимания
— Обучение языковых моделей
— Позиционные эмбеддинги
— Разбор современных LLM

🔝 И многое другое, объяснённое максимально наглядно всего на 4 страницах!

👉 Скачать шпаргалку: https://clc.to/T4BpUg
Please open Telegram to view this post
VIEW IN TELEGRAM
🧮 Как избежать ловушки округления в Power BI

Твой отчет показывает разные цифры при одинаковой логике? Не спеши винить систему – это классический кейс с округлением в Power BI.

👊 Разбираемся, как типы данных влияют на точность и почему Currency может стать твоим врагом.

➡️ Подробнее в статье: https://proglib.io/sh/TcGmatdgNV

Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
MLOps без воды: готовый пошаговый план

Готовый GitHub-репозиторий, который по шагам закрывает ключевые темы: от настройки проекта и контроля данных — до CI/CD, упаковки моделей и деплоя в AWS:

Неделя 0: Базовая настройка проекта

Неделя 1: Мониторинг моделей через Weights & Biases

Неделя 2: Конфигурации с Hydra

Неделя 3: Контроль версий данных с DVC

Неделя 4: Упаковка моделей в ONNX

Неделя 5: Упаковка моделей в Docker

Неделя 6: CI/CD через GitHub Actions

Неделя 7: Хранение контейнеров в AWS ECR

Неделя 8: Серверлесс-деплой на AWS Lambda

Неделя 9: Мониторинг предсказаний через Kibana

🔗 Ссылка на репозиторий: https://clc.to/Hqx7cg

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🆕 OpenAI выпускает o3, o4-mini и Codex CLI — мощнейшее обновление в ИИ

➡️ Главное:
• o3 — новая флагманская модель: глубже мыслит, дольше держит контекст, лучше справляется с кодом и визуальными задачами
• o4-mini — облегчённая версия с суперэффективной производительностью
• o4-mini-high — вариант, где модель тратит больше времени на ответы для повышения надёжности
• Codex CLI — новый инструмент для локальной разработки прямо из терминала

➡️ Что нового в моделях:

• Длинные цепочки размышлений: теперь модели тратят больше ресурсов на шаги мышления — особенно это заметно в сложных задачах.

• Инструментальное мышление: модели сами решают, когда использовать Python, поиск в интернете, генерацию изображений и т.д.

• Мультимодальность: изображения стали полноценной частью мышления — модель может увеличивать, обрезать, перепроверять и рассуждать.

• Они реально работают как агенты, а не просто языковые модели

➡️ Как работает визуальное мышление:

Модель обрабатывает картинку как рабочий лист:
→ приближает важные детали
→ распознаёт текст
→ решает задачу с помощью встроенного Python
→ проверяет результат по изображению
→ и при необходимости пересчитывает

Эта стратегия устраняет ошибки распознавания и поднимает точность до новых высот.

➡️ Codex CLI — ИИ-разработчик в вашем терминале

• Установка: npm i -g @openai/codex
• Понимает ваши инструкции, анализирует проект, предлагает изменения.

• Всё работает локально и безопасно (через Git и sandbox).

• Поддерживает три режима: от «спросить на каждом шаге» до «полный автопилот».

• Можно вставить скриншот или чертёж, и Codex сам напишет код.

➡️ Производительность и стоимость:
• o3 > o1, o4-mini > o3-mini на всех уровнях
• o4-mini стал самым выгодным по соотношению цена/точность
• Можно сократить расходы на 30–40%, просто переключившись с o3-mini на o4-mini

Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Приручи алгоритмы: из формул в код за один воркшоп

Готовы превратить сложную теорию машинного обучения в практические навыки? Тогда приходите на наш воркшоп, который пройдет 21 апреля.

Что вас ждет на воркшопе:
🟢 Работа с реальными данными — никаких учебных датасетов, только то, что встречается в настоящих проектах.

🟢Снижение размерности с PCA — научитесь выделять главное из информационного шума.

🟢Случайный лес vs градиентный бустинг — разберемся, в чём ключевое различие и когда какой алгоритм эффективнее.

🟢Мастерство гиперпараметров — освоите тонкую настройку моделей для максимальной точности.

На нашем воркшопе вы не просто слушаете — вы делаете сами! Вы будете писать код на Python, применять популярные библиотеки и сразу видеть результат своей работы.

А самое ценное: каждый участник получит персональный code review от Марии Горденко — инженера-программиста, старшего преподавателя НИУ ВШЭ, руководителя магистратуры от ГК Самолет и Альфа-Банка.

Когда: 21 апреля
💸Стоимость: всего 3990₽

Только сегодня, до конца дня: 10 мест по промокоду kulich → 2 990 ₽.

➡️ Записаться на воркшоп: https://proglib.io/w/0eb27019
⭐️ Cookiecutter Data Science v2: быстрый старт для ML-проектов

Cookiecutter Data Science — это шаблон проекта, который помогает быстро, логично и по best practices стартовать любой Data Science-проект.

Почему стоит попробовать:
➡️ Стандартизирует пайплайны и артефакты по всей команде
➡️ CLI ccds автоматизирует создание структуры: больше никакого «копипаста» старого проекта
➡️ Конфигурируется под стек: pip/conda, black/ruff, лицензии, S3/MLflow — всё на входе
➡️ Упор на воспроизводимость и читаемость (особенно при handover между командами)

Простая установка:
pipx install cookiecutter-data-science
ccds


Пример запуска:
ccds https://github.com/drivendataorg/cookiecutter-data-science


Дальше — просто отвечаете на вопросы. В результате получаете полностью готовую структуру: с README, тестами, логированием, конфигами и даже поддержкой MLflow.

Особенно удобно, если:
➡️ Вы запускаете новые ML-фичи в проде
➡️ Команда выросла и нужен единый стандарт
➡️ Надо быстро онбордить новых инженеров

👉 Документация: https://clc.to/CnI2CA

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Mistral представила Classifier Factory — простой способ обучать свои ИИ-классификаторы

С помощью эффективных малых моделей и удобных инструментов от Mistral вы сможете быстро обучить мощные классификаторы для:
▶️ Модерации контента
▶️Определения намерений (intent detection)
▶️ Анализа тональности
▶️ Кластеризации данных
▶️ Выявления мошенничества
▶️ Фильтрации спама
▶️ Рекомендательных систем

Идеально подойдёт разработчикам, аналитикам и продуктовым командам. Classifier Factory поможет вам пройти путь от идеи до модели в проде максимально просто.

📚 Готовы начать? Вот полезные ресурсы:
Документация
Гайд по intent-классификации
Гайд по созданию классификатора для модерации
Пример классификации товаров

Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
Зачем дата-сайентисту дисперсия

Дисперсия — ключевой статистический показатель, который помогает оценить изменчивость данных. Для дата-сайентистов она критична при:

👉 Оценке и интерпретации результатов моделей
👉 Понимании поведения алгоритмов машинного обучения
👉 Снижении ошибок при построении предсказаний

В этой статье разберём, как правильно использовать дисперсию в Data Science и как она влияет на работу алгоритмов, например, в модели Random Forest.

👉 Читайте, чтобы понять, как измерять и учитывать дисперсию: https://proglib.io/sh/GDKYJQdAI2

Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
Самые догадливые, пишите ответ в комментах 👇

Небольшая подсказка — это термин относится к AI или DS.

Прячем ответы под спойлер, чтобы не спалить остальным.

Библиотека дата-сайентиста #междусобойчик
🆕 Свежие новости из мира AI и Data Science

🔥 Модели и релизы:
OpenAI: GPT‑4.1, 4.1 Mini и 4.1 Nano — обновление линейки с новыми уровнями производительности и масштабируемости
OpenAI выпускает o3, o4-mini и Codex CLI — улучшенный Codex и новые возможности CLI для разработчиков
Mistral запускает Classifier Factory — простой способ обучать кастомные классификаторы на своих данных
Gemini 2.5 Flash — быстрая и дешёвая модель с апгрейдом reasoning-доступна в превью
Google Firebase Studio — облачная платформа для создания AI-приложений на базе Gemini
Яндекс запускает reasoning-модель — новая архитектура с несколькими этапами дообучения и open-source ускорителем YaFSDP

🧠 Исследования, статьи и бенчмарки:
Wikipedia для ИИ-разработчиков — теперь в формате датасета на Kaggle: структурированные статьи, summary, инфобоксы
Три икса в PyTorch — новый подход к работе с большими свертками для масштабного обучения
Как организовать ML-проект — от структуры до примеров использования
Ускорить Pandas в 60 раз — проверяем лайфхаки из интернета

🎙 Интервью, подкасты и видео:
TED 2025: Сэм Альтман — о росте OpenAI, нагрузках на инфраструктуру и вызовах для общества
Новый выпуск подкаста «Деплой» — Антон Полднев из Яндекса делится опытом в рекламе, ИИ и метриках

Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Завтра запускаем ML-ракету: последние места на борту

Уже завтра, 21 апреля, состоится наш воркшоп «Математика машинного обучения на практике», где теория ML превращается в практические навыки.

Что вас ждет:
📍 Работа с реальными данными — табличные датасеты и изображения
📍 Снижение размерности через PCA — научитесь отделять важное от второстепенного
📍 Обучение моделей — Random Forest и градиентный бустинг в действии
📍 Разбор метрик и гиперпараметров — как настроить модель на максимальную эффективность
📍 Написание кода на Python — прямо как реальных проектах
📍 Персональный code review от эксперта — бесценный фидбек для вашего роста
📍 Доступ в закрытый чат участников — нетворкинг и обмен опытом

Кто проводит воркшоп:

Мария Горденко — инженер-программист, старший преподаватель НИУ ВШЭ и Proglib Academy, руководитель магистратуры от ГК Самолет и Альфа-Банка.

Стоимость участия: 3990₽
Когда: завтра, 21 апреля

👉 Забронировать место на воркшопе: https://proglib.io/w/0eb27019
Please open Telegram to view this post
VIEW IN TELEGRAM