🧪 How-to: применить bootstrapping для оценки статистик
Когда данных немного или нет уверенности в распределении, bootstrapping приходит на помощь. Это техника, позволяющая оценить доверительные интервалы и стабильность метрик без строгих статистических предположений.
🚩 Что делать
Мы будем многократно пересэмплировать нашу выборку с возвращением и оценивать интересующую статистику (среднее, медиану, разницу, корреляцию и т.д.).
🚩 Шаги:
1️⃣ Импорт библиотек:
2️⃣ Готовим данные:
3️⃣ Запускаем бутстрэп:
4️⃣ Оцениваем результат:
🚩 На что обратить внимание:
📍 Используйте не менее 1000 итераций для устойчивых результатов.
📍 При маленьких выборках возможны смещения и высокая дисперсия.
📍 Если данные сильно несбалансированы — будьте осторожны с интерпретацией.
🚩 Основные преимущества:
✔️ Гибкость — можно применять к любым статистикам, особенно если неизвестно теоретическое распределение.
✔️ Без предположений — не требует априорных знаний о распределении в популяции.
✔️ Надёжность — работает даже при небольшом объёме выборки.
Библиотека дата-сайентиста #буст
Когда данных немного или нет уверенности в распределении, bootstrapping приходит на помощь. Это техника, позволяющая оценить доверительные интервалы и стабильность метрик без строгих статистических предположений.
Мы будем многократно пересэмплировать нашу выборку с возвращением и оценивать интересующую статистику (среднее, медиану, разницу, корреляцию и т.д.).
import numpy as np
from sklearn.utils import resample
data = np.array([12, 15, 14, 10, 8, 11, 13]) # пример
boot_means = []
for _ in range(1000): # количество повторений
sample = resample(data, replace=True)
boot_means.append(np.mean(sample))
conf_int = np.percentile(boot_means, [2.5, 97.5])
print(f"95% доверительный интервал для среднего: {conf_int}")
✔️ Гибкость — можно применять к любым статистикам, особенно если неизвестно теоретическое распределение.
✔️ Без предположений — не требует априорных знаний о распределении в популяции.
✔️ Надёжность — работает даже при небольшом объёме выборки.
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👾 AI-агенты — настоящее, о котором все говорят
На днях мы анонсировали наш новый курс AI-агенты для DS-специалистов 🎉
Это продвинутая программа для тех, кто хочет получить прикладной опыт с LLM и решать сложные задачи!
На обучении вы соберете полноценные LLM-системы с учётом особенностей доменных областей, получите hands-on навыки RAG, Crew-AI / Autogen / LangGraph и агентов.
🎓 В рамках курса вы научитесь:
— адаптировать LLM под разные предметные области и данные
— собирать свою RAG-систему: от ретривера и реранкера до генератора и оценки качества
— строить AI-агентов с нуля — на основе сценариев, функций и взаимодействия с внешней средой
Разберете реальные кейсы и научитесь применять похожие подходы в разных доменных областях, получите фундамент для уверенного прохождения NLP system design интервью и перехода на следующий грейд.
Старт 5 июля, а при оплате до 1 июня действует дополнительная скидка и бонус — эксклюзивный лонгрид по API и ML от Proglib.
Начните осваивать тему уже сейчас 👉 https://clc.to/Cttu7A
На днях мы анонсировали наш новый курс AI-агенты для DS-специалистов 🎉
Это продвинутая программа для тех, кто хочет получить прикладной опыт с LLM и решать сложные задачи!
На обучении вы соберете полноценные LLM-системы с учётом особенностей доменных областей, получите hands-on навыки RAG, Crew-AI / Autogen / LangGraph и агентов.
🎓 В рамках курса вы научитесь:
— адаптировать LLM под разные предметные области и данные
— собирать свою RAG-систему: от ретривера и реранкера до генератора и оценки качества
— строить AI-агентов с нуля — на основе сценариев, функций и взаимодействия с внешней средой
Разберете реальные кейсы и научитесь применять похожие подходы в разных доменных областях, получите фундамент для уверенного прохождения NLP system design интервью и перехода на следующий грейд.
Старт 5 июля, а при оплате до 1 июня действует дополнительная скидка и бонус — эксклюзивный лонгрид по API и ML от Proglib.
Начните осваивать тему уже сейчас 👉 https://clc.to/Cttu7A
proglib.academy
Курс|AI-агенты для DS-специалистов
На курсе ты разберёшься, как работают AI-агенты и как их применять в работе — от текстовых помощников до систем, помогающих принимать решения. Разберем архитектуру агентов, связку с внешними API, пайплайны действий и популярные библиотеки. Курс включает реальные…
Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение pinned «👾 AI-агенты — настоящее, о котором все говорят На днях мы анонсировали наш новый курс AI-агенты для DS-специалистов 🎉 Это продвинутая программа для тех, кто хочет получить прикладной опыт с LLM и решать сложные задачи! На обучении вы соберете полноценные…»
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🧩 Фишка: 8 типов AI-моделей, которые стоит знать
Не весь искусственный интеллект — это ChatGPT.
Сегодня в ИИ-экосистеме используются разные архитектуры, и каждая заточена под конкретный тип задач.
Вот ключевые типы моделей и для чего они подходят:
🔎 «LLM» — Large Language Models
Большие языковые модели.
🟡 Что делают: генерируют текст, отвечают на вопросы, пишут статьи, резюмируют.
✅ Примеры: GPT-4, Claude, Gemini, LLaMA.
🔎 «LCM» — Latent Concept Models
Модели скрытых концептов.
🟡 Что делают: находят глубокие зависимости и «смыслы» в данных, которые не видны напрямую.
✅ Применение: интерпретация решений моделей, выявление причин/паттернов в данных (например, в медицине или финансах).
🔎 «LAM» — Language Action Models
Модели языка и действий.
🟡 Что делают: понимают инструкции на естественном языке и сразу выполняют действия (например, бронируют, пересылают, настраивают).
✅ Применение: агенты, автоматизация процессов, управление интерфейсами.
🔎 «MoE» — Mixture of Experts
Модель со множеством «экспертов» внутри.
🟡 Что делают: на каждый запрос активируют только нужную часть модели — эффективнее и быстрее.
✅ Применение: масштабируемые модели без потери качества. Используется в Gemini и Switch Transformer.
🔎 «VLM» — Vision-Language Models
Мультимодальные модели (изображения + текст).
🟡 Что делают: интерпретируют визуальную информацию вместе с текстовой.
✅ Примеры: GPT-4V, Gemini, Kosmos, LLaVA.
✅ Задачи: подписи к изображениям, визуальный поиск, анализ UI, документация.
🔎 «SLM» — Small Language Models
Компактные языковые модели.
🟡 Что делают: быстрее, легче, дешевле. Жертвуют масштабом ради скорости и автономности.
✅ Примеры: Mistral 7B, Phi-2, TinyLLaMA.
✅ Используются в мобильных, edge- и офлайн-устройствах.
🔎 «MLM» — Masked Language Models
Обучение на «пропусках» (масках).
🟡 Что делают: предсказывают скрытые слова → улучшают понимание контекста.
✅ Примеры: BERT, RoBERTa.
✅ Идеальны для классификации, поиска, исправления текста.
🔎 «SAM» — Segment Anything Model
Модель «укажи — и вырежу».
🟡 Что делает: сегментирует любой объект на изображении по клику.
✅ Пример: SAM от Meta.
✅ Применение: дизайн, медицина, роботика, редактирование изображений.
Библиотека дата-сайентиста #буст
Не весь искусственный интеллект — это ChatGPT.
Сегодня в ИИ-экосистеме используются разные архитектуры, и каждая заточена под конкретный тип задач.
Вот ключевые типы моделей и для чего они подходят:
Большие языковые модели.
Модели скрытых концептов.
Модели языка и действий.
Модель со множеством «экспертов» внутри.
Мультимодальные модели (изображения + текст).
Компактные языковые модели.
Обучение на «пропусках» (масках).
Модель «укажи — и вырежу».
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🧱 От модели к продукту: инженерная сторона ML в продакшене
Многие думают, что ML = модель.
На деле — модель = лишь 5–10% всей ML-системы.
📍 Как обрабатывать фичи в real-time?
📍 Как хранить версии данных и моделей?
📍 Где тонко рвётся пайплайн в проде?
📍 Что нужно для стабильного inference на высоких нагрузках?
Мы разобрали:
— основные компоненты бэкенда для ML-систем
— типовые архитектурные схемы
— частые ошибки в продакшене
— лучшие практики из MLOps и data engineering
📖 Читайте статью:
«Бэкенд под ML-проекты: особенности архитектуры и типичные узкие места»
→ https://proglib.io/sh/xCfXt2pH4j
Библиотека дата-сайентиста #буст
Многие думают, что ML = модель.
На деле — модель = лишь 5–10% всей ML-системы.
Мы разобрали:
— основные компоненты бэкенда для ML-систем
— типовые архитектурные схемы
— частые ошибки в продакшене
— лучшие практики из MLOps и data engineering
📖 Читайте статью:
«Бэкенд под ML-проекты: особенности архитектуры и типичные узкие места»
→ https://proglib.io/sh/xCfXt2pH4j
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
⏰ Последние 2 дня скидки на курс «AI-агенты для DS-специалистов»
Пока большинство дата-сайентистов строят модели и делают аналитику, рынок уже требует специалистов, которые создают автономные системы на базе ИИ-агентов.
Для этого мы подготовили специальный курс и собрали кучу дополнительного контента, который поможет погрузиться в тему еще глубже. Но чтобы получить все плюшки, успевайте до 1 июня.
🎁 Что вы получите при оплате курса до 1 июня:
— Промокод PROGLIBAIна 10 000 ₽ на курс, чтобы изучать AI-агентов еще выгоднее
— Эксклюзивный лонгрид по API и ML от Proglib
💡Что разберем на курсе «AI-агенты для DS-специалистов»:
— Реализацию памяти в цепочках langchain
— Полный пайплайн RAG-системы с оценкой качества
— Основы мультиагентных систем (MAS)
— Протокол MCP и фреймворк FastMCP
Промокод также действует на курсы «Математика для Data Science» и «Алгоритмы и структуры данных».
👉 Успейте до 1 июня: https://clc.to/Cttu7A
Пока большинство дата-сайентистов строят модели и делают аналитику, рынок уже требует специалистов, которые создают автономные системы на базе ИИ-агентов.
Для этого мы подготовили специальный курс и собрали кучу дополнительного контента, который поможет погрузиться в тему еще глубже. Но чтобы получить все плюшки, успевайте до 1 июня.
🎁 Что вы получите при оплате курса до 1 июня:
— Промокод PROGLIBAIна 10 000 ₽ на курс, чтобы изучать AI-агентов еще выгоднее
— Эксклюзивный лонгрид по API и ML от Proglib
💡Что разберем на курсе «AI-агенты для DS-специалистов»:
— Реализацию памяти в цепочках langchain
— Полный пайплайн RAG-системы с оценкой качества
— Основы мультиагентных систем (MAS)
— Протокол MCP и фреймворк FastMCP
Промокод также действует на курсы «Математика для Data Science» и «Алгоритмы и структуры данных».
👉 Успейте до 1 июня: https://clc.to/Cttu7A
Когда ты учил всё подряд, но на собеседовании спросили только про Attention. 🎯
Библиотека дата-сайентиста #развлекалово
Библиотека дата-сайентиста #развлекалово
🧠 Загадка для AI/DS-гиков
🤓 Давайте проверим вашу интуицию и знание терминов.
Подсказка: термин связан с искусственным интеллектом или data science.
Самые догадливые — пишите ответ в комментариях 👇
Не забудьте спрятать его под спойлер, чтобы не подсказывать другим.
Библиотека дата-сайентиста #междусобойчик
🤓 Давайте проверим вашу интуицию и знание терминов.
Подсказка: термин связан с искусственным интеллектом или data science.
Самые догадливые — пишите ответ в комментариях 👇
Не забудьте спрятать его под спойлер, чтобы не подсказывать другим.
Библиотека дата-сайентиста #междусобойчик
🚨 Что на самом деле происходит с увольнениями в ИТ
Каждый день в чатах разработчиков появляются сообщения «ищу работу», «команду сократили», «проект закрыли». Но никто не говорит о причинах и масштабах катастрофы. Мы запустили большое исследование, чтобы раскрыть правду!
🎯 Что мы выясним:
→ Реальные причины увольнений
→ Сколько времени нужно на поиск работы
→ Самые безумные истории смены работы
Понимая реальную ситуацию, мы сможем принимать взвешенные решения о карьере и не попасться на удочку HR-сказок.
👉 Пройдите опрос за 3 минуты и помогите всему сообществу: https://clc.to/yJ5krg
Каждый день в чатах разработчиков появляются сообщения «ищу работу», «команду сократили», «проект закрыли». Но никто не говорит о причинах и масштабах катастрофы. Мы запустили большое исследование, чтобы раскрыть правду!
🎯 Что мы выясним:
→ Реальные причины увольнений
→ Сколько времени нужно на поиск работы
→ Самые безумные истории смены работы
Понимая реальную ситуацию, мы сможем принимать взвешенные решения о карьере и не попасться на удочку HR-сказок.
👉 Пройдите опрос за 3 минуты и помогите всему сообществу: https://clc.to/yJ5krg
🔥 Модели, релизы и технологии:
— BAGEL от ByteDance — мультимодальная open-source модель: текст, изображение и всё вместе
— Mistral Agents API — новый API для сборки AI-агентов: просто, мощно, гибко
— FlowTSE — извлекает голос нужного спикера из шумной записи с несколькими говорящими
🧠 Статьи, исследования и лучшие практики:
— Мэтчинг по-научному — алгоритм подбора работодателей и кандидатов от Авито
— Python и древние фрески — цифровая реставрация с помощью ML
— Новая маршрутизация от Яндекса — алгоритмы для пешеходов и велосипедистов
— Редактор от Сбера — точечное редактирование изображений словами
📘 Обучение и развитие:
— Установка драйверов NVIDIA — полезная шпаргалка для ML-серверов
— CV/ML-проект с нуля до продакшена — практическое руководство
— Yambda от Яндекса — крупнейший датасет для развития рекомендательных систем
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Библиотека задач по Data Science | тесты, код, задания
Senior Data Scientist (classic ML), удалёнка
Senior Data Engineer, удалёнка
Quantitative Researcher — от 5 000 до 10 000 $, офис (Армения, ОАЭ, Кипр)
Системный аналитик (Big Data), удалёнка
Аналитик GPT-моделей (Алиса) — от 300 000 до 490 000 ₽, удалёнка
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Narwhals: универсальные функции для любых DataFrame
С Narwhals можно писать функции, которые работают с разными библиотеками данных — pandas, polars, DuckDB, PySpark и даже PyArrow, без лишних зависимостей.
✅ Пример: группируем данные по месяцам и считаем среднюю цену
Работает и с pandas:
И с Polars:
👌 Подробные примеры можно посмотреть в статье: https://clc.to/RytBgA
Библиотека дата-сайентиста #буст
С Narwhals можно писать функции, которые работают с разными библиотеками данных — pandas, polars, DuckDB, PySpark и даже PyArrow, без лишних зависимостей.
import narwhals as nw
from narwhals.typing import IntoFrameT
def agnostic_function(df_native: IntoFrameT, date_column: str, price_column: str) -> IntoFrameT:
return (
nw.from_native(df_native)
.group_by(nw.col(date_column).dt.truncate("1mo"))
.agg(nw.col(price_column).mean())
.sort(date_column)
.to_native()
)
Работает и с pandas:
import pandas as pd
from datetime import datetime
data = {
"date": [datetime(2020, 1, 1), datetime(2020, 1, 8), datetime(2020, 2, 3)],
"price": [1, 4, 3],
}
print(agnostic_function(pd.DataFrame(data), "date", "price"))
И с Polars:
import polars as pl
print(agnostic_function(pl.DataFrame(data), "date", "price"))
👌 Подробные примеры можно посмотреть в статье: https://clc.to/RytBgA
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🤖 Бэкенд под ML-проекты: что может пойти не так
Модель — это всего лишь верхушка айсберга.
В реальных условиях основными источниками проблем становятся не алгоритмы, а архитектура и инфраструктура:
✔️ различия между offline и online логикой,
✔️ проседание по latency,
✔️ неконсистентные признаки,
✔️ неустойчивые A/B-эксперименты,
✔️ и многое другое.
В статье — подробный разбор архитектурных ловушек, реальных кейсов и инженерных решений, которые помогают внедрять ML в продакшен без боли.
📎 Читайте статью и делитесь с командой: https://proglib.io/sh/xCfXt2pH4j
Библиотека дата-сайентиста #буст
Модель — это всего лишь верхушка айсберга.
В реальных условиях основными источниками проблем становятся не алгоритмы, а архитектура и инфраструктура:
В статье — подробный разбор архитектурных ловушек, реальных кейсов и инженерных решений, которые помогают внедрять ML в продакшен без боли.
📎 Читайте статью и делитесь с командой: https://proglib.io/sh/xCfXt2pH4j
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM