Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧱 От модели к продукту: инженерная сторона ML в продакшене

Многие думают, что ML = модель.
На деле — модель = лишь 5–10% всей ML-системы.

📍 Как обрабатывать фичи в real-time?
📍 Как хранить версии данных и моделей?
📍 Где тонко рвётся пайплайн в проде?
📍 Что нужно для стабильного inference на высоких нагрузках?

Мы разобрали:
— основные компоненты бэкенда для ML-систем
— типовые архитектурные схемы
— частые ошибки в продакшене
— лучшие практики из MLOps и data engineering

📖 Читайте статью:
«Бэкенд под ML-проекты: особенности архитектуры и типичные узкие места»
→ https://proglib.io/sh/xCfXt2pH4j

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4🔥2👍1

1.66K views17:52

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⏰ Последние 2 дня скидки на курс «AI-агенты для DS-специалистов»

Пока большинство дата-сайентистов строят модели и делают аналитику, рынок уже требует специалистов, которые создают автономные системы на базе ИИ-агентов.

Для этого мы подготовили специальный курс и собрали кучу дополнительного контента, который поможет погрузиться в тему еще глубже. Но чтобы получить все плюшки, успевайте до 1 июня.

🎁 Что вы получите при оплате курса до 1 июня:
— Промокод PROGLIBAIна 10 000 ₽ на курс, чтобы изучать AI-агентов еще выгоднее
— Эксклюзивный лонгрид по API и ML от Proglib

💡Что разберем на курсе «AI-агенты для DS-специалистов»:
— Реализацию памяти в цепочках langchain
— Полный пайплайн RAG-системы с оценкой качества
— Основы мультиагентных систем (MAS)
— Протокол MCP и фреймворк FastMCP

Промокод также действует на курсы «Математика для Data Science» и «Алгоритмы и структуры данных».

👉 Успейте до 1 июня: https://clc.to/Cttu7A

👍1

1.65K views05:41

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение pinned a photo

05:41

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Когда ты учил всё подряд, но на собеседовании спросили только про Attention. 🎯

Библиотека дата-сайентиста #развлекалово

😁10👍3❤2🔥1

1.65K views09:28

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧠 Загадка для AI/DS-гиков

🤓 Давайте проверим вашу интуицию и знание терминов.

Подсказка: термин связан с искусственным интеллектом или data science.

Самые догадливые — пишите ответ в комментариях 👇
Не забудьте спрятать его под спойлер, чтобы не подсказывать другим.

Библиотека дата-сайентиста #междусобойчик

❤2

1.6K views12:53

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚨 Что на самом деле происходит с увольнениями в ИТ

Каждый день в чатах разработчиков появляются сообщения «ищу работу», «команду сократили», «проект закрыли». Но никто не говорит о причинах и масштабах катастрофы. Мы запустили большое исследование, чтобы раскрыть правду!

🎯 Что мы выясним:
→ Реальные причины увольнений
→ Сколько времени нужно на поиск работы
→ Самые безумные истории смены работы

Понимая реальную ситуацию, мы сможем принимать взвешенные решения о карьере и не попасться на удочку HR-сказок.

👉 Пройдите опрос за 3 минуты и помогите всему сообществу: https://clc.to/yJ5krg

1.58K views11:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✈️

Свежие новости из мира AI и Data Science

🔥 Модели, релизы и технологии:
— BAGEL от ByteDance — мультимодальная open-source модель: текст, изображение и всё вместе
— Mistral Agents API — новый API для сборки AI-агентов: просто, мощно, гибко
— FlowTSE — извлекает голос нужного спикера из шумной записи с несколькими говорящими

🧠 Статьи, исследования и лучшие практики:
— Мэтчинг по-научному — алгоритм подбора работодателей и кандидатов от Авито
— Python и древние фрески — цифровая реставрация с помощью ML
— Новая маршрутизация от Яндекса — алгоритмы для пешеходов и велосипедистов
— Редактор от Сбера — точечное редактирование изображений словами

📘 Обучение и развитие:
— Установка драйверов NVIDIA — полезная шпаргалка для ML-серверов
— CV/ML-проект с нуля до продакшена — практическое руководство
— Yambda от Яндекса — крупнейший датасет для развития рекомендательных систем

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👾1

1.95K views12:48

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Библиотека задач по Data Science

1.81K views07:24

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

👍2❤1

308 voters1.83K views07:24

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💫

Топ-вакансий для дата-сайентистов за неделю

Senior Data Scientist (classic ML), удалёнка

Senior Data Engineer, удалёнка

Quantitative Researcher —‍ от 5 000 до 10 000 $, офис (Армения, ОАЭ, Кипр)

Системный аналитик (Big Data), удалёнка

Аналитик GPT-моделей (Алиса) —‍ от 300 000 до 490 000 ₽, удалёнка

➡️ Еще больше топовых вакансий — в нашем канале Data jobs

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

1.78K views17:51

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⚡️ Narwhals: универсальные функции для любых DataFrame

С Narwhals можно писать функции, которые работают с разными библиотеками данных — pandas, polars, DuckDB, PySpark и даже PyArrow, без лишних зависимостей.

✅

Пример: группируем данные по месяцам и считаем среднюю цену

import narwhals as nw
from narwhals.typing import IntoFrameT

def agnostic_function(df_native: IntoFrameT, date_column: str, price_column: str) -> IntoFrameT:
    return (
        nw.from_native(df_native)
        .group_by(nw.col(date_column).dt.truncate("1mo"))
        .agg(nw.col(price_column).mean())
        .sort(date_column)
        .to_native()
    )

Работает и с pandas:

import pandas as pd
from datetime import datetime

data = {
    "date": [datetime(2020, 1, 1), datetime(2020, 1, 8), datetime(2020, 2, 3)],
    "price": [1, 4, 3],
}
print(agnostic_function(pd.DataFrame(data), "date", "price"))

И с Polars:

import polars as pl

print(agnostic_function(pl.DataFrame(data), "date", "price"))

👌 Подробные примеры можно посмотреть в статье: https://clc.to/RytBgA

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6❤2🤔2👍1🥰1

1.77K views06:50

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤖 Бэкенд под ML-проекты: что может пойти не так

Модель — это всего лишь верхушка айсберга.

В реальных условиях основными источниками проблем становятся не алгоритмы, а архитектура и инфраструктура:
✔️ различия между offline и online логикой,
✔️ проседание по latency,
✔️ неконсистентные признаки,
✔️ неустойчивые A/B-эксперименты,
✔️ и многое другое.

В статье — подробный разбор архитектурных ловушек, реальных кейсов и инженерных решений, которые помогают внедрять ML в продакшен без боли.

📎 Читайте статью и делитесь с командой: https://proglib.io/sh/xCfXt2pH4j

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🔥4👍3👏1💯1

1.89K views17:51

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎯 Команда дня: строгая типизация NumPy массивов

Обычно мы пишем так:

def f(x: np.ndarray): ...

🙅‍♂️ Но это не защищает от ошибок — форма и тип данных не проверяются.

✔️ Вместо этого — используем обобщённые типы:

from numpy import ndarray, dtype, uint8, bool_, float64

def process(
    x: ndarray[tuple[int], dtype[bool_]],
    y: ndarray[tuple[int, int, int], dtype[uint8]],
) -> ndarray[tuple[int], dtype[float64]]:
    ...

Теперь mypy и pyright ловят ошибки до запуска:
🙅‍♂️ неверная размерность,
🙅‍♂️ неподходящий dtype.

👉

Хотите проверку ещё и в рантайме?

✔️ Используйте static_frame:

import static_frame as sf

@sf.CallGuard.check
def f(x: ndarray[tuple[int], dtype[np.number]]): ...

При передаче неверного массива — будет чёткое сообщение об ошибке.

Полезно для:
— ML / data science
— научных расчётов
— оптимизации с NumPy и Numba

Примеры:
— ndarray[tuple[int], dtype[bool_]] — 1D массив булей
— ndarray[tuple[int, int], dtype[np.str_]] — 2D массив строк
— ndarray[tuple[int], dtype[np.number]] — массив любых чисел

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍1🤩1

1.87K views06:51

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Всегда, снова и опять 😆

Библиотека дата-сайентиста #развлекалово

😁9💯2

1.75K views18:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤔 Почему ИИ-агенты — технологический тренд №1 в 2025 году?

Так заявил сам Gartner, а эксперт нашего курса по AI-агентам Никита Зелинский @datarascals объяснил, почему:

Агентские системы известны с прошлого века, и все это время применялись в производстве и логистике. Но широкое распространение LLM дало новый импульс этой технологии в двух направлениях.

Во-первых, LLM стали использовать как универсальный оркестратор агентов. Это означает, что под каждый входящий запрос система составляет последовательность действий — планирует пайплайн, который состоит из применения различных инструментов или обращения к другим агентам, с возможными циклами и обращениями к общей памяти (с возможностью не только чтения но и записи / удаления).

Во-вторых, LLM служат инструментом, который позволяет легко настраивать системы на тысячи агентов на естественном языке.

Поэтому на первом занятии курса «AI-агенты для DS-специалистов» мы рассмотрим, как выбрать конкретную LLM с учетом имеющихся ограничений и как оценить стоимость такого решения.

Остаться без денег неожиданно легко — Никита сам столкнулся с тем, что генерация всего 70 тестовых вопросов для RAG-системы через GPT-4o обошлась в 30 долларов... Будем разбираться, как этого избежать и не только!

🤓 В следующем посте расскажем, как правильно выбрать LLM для использования в агентских системах.

👉 А пока — приходите на наш курс по AI-агентам. Приятная цена действует до 14 июня!

1.67K viewsedited 18:59

About

Blog

Apps

Platform