Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.5K subscribers
2.56K photos
135 videos
81 files
5.06K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по Ai-агентам: https://clc.to/9L0Tqg

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🐼 Что нового в pandas 3.0 — наш детальный взгляд

Мы уже делились, что вышел pandas 3.0. Сегодня чуть более детально о том, что реально изменилось:

📍Наконец-то убили SettingWithCopyWarning

Тот самый «адский ворнинг» при работе со срезами DataFrame — всё.

В pandas 3 полностью внедрён Copy-on-Write:
— фильтрации больше не копируют данные сразу
— копия создаётся только при мутации
— .copy() после каждого шага больше не нужен
— предупреждение исчезло

👍 Это одно из самых важных UX-улучшений за годы.

📍Новый синтаксис выражений — pandas.col()

Method chaining в pandas всегда выглядел громоздко из-за lambda:


.assign(max_people=lambda df: df.max_people + df.max_children)


Теперь можно писать как в Polars / PySpark:


.assign(max_people=pandas.col("max_people") + pandas.col("max_children"))


📍UDF больше не приговор к «очень медленно»

.apply() раньше = боль и падение производительности.

В pandas 3 появился интерфейс execution engines.
Теперь UDF можно JIT-компилировать:


df.apply(func, axis=1, engine=bodo.jit())


Код остаётся понятным Python и производительность может быть выше векторизованного варианта.

📍Строки и Arrow

Полного «Arrow внутри pandas» не случилось.

Вместо этого:
— новый dtype: str
— под капотом может быть Arrow или legacy, в зависимости от окружения
— больше совместимости, меньше боли при апгрейде
— но всё ещё 3 разных способа хранить строки

🔗 Подробно с примерами в статье

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека питониста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42
➡️ Разница: Autoencoders и Variational Autoencoders

Autoencoders и Variational Autoencoders на схемах выглядят почти одинаково: encoder → latent space → decoder.

⏺️ Но различие между ними решает, просто ли модель сжимает данные или действительно может генерировать новое.

Обычный autoencoder работает детерминированно: одно изображение всегда превращается в один и тот же латентный вектор и восстанавливается обратно в одну и ту же реконструкцию.

✳️Модель обучается быть максимально точной, поэтому отлично подходит для сжатия, удаления шума, выделения признаков и поиска аномалий.

Латентное пространство здесь — это удобный код для реконструкции, а не пространство для творчества.


Проблема появляется при попытке семплирования.

Autoencoder не обязан делать latent space гладким и непрерывным. Близкие точки могут давать совершенно разные изображения, а случайная точка чаще всего превращается в шум. Это не ошибка — модель просто не училась быть генеративной.

VAE меняет ключевую идею: вместо одной точки он кодирует изображение в распределение (среднее и разброс), из которого затем семплируется латентный вектор.

✳️ Пространство дополнительно регуляризуется, чтобы быть гладким и структурированным. В результате рядом — значит похоже, между точками можно интерполировать, а случайные сэмплы начинают выглядеть правдоподобно.

VAE немного теряет в чёткости реконструкции, зато получает осмысленное генеративное пространство.


⏺️ Поэтому autoencoders — это про представления и сжатие, а VAEs — про генерацию. И именно из этой идеи выросли современные вероятностные подходы к генерации изображений.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉21👍1😢1
От LLM-вызовов к автономным пайплайнам

Data Science сегодня — это не только обучение моделей, но и оркестрация их работы. Если вы хотите строить системы, которые реально решают задачи без участия человека, пора осваивать агентские подходы.

На курсе «Углубленные AI-агенты» мы разбираем, как превратить статичную модель в активного агента.

В фокусе обучения:

— архитектура мультиагентных систем;
— работа с современными фреймворками CrewAI, LangGraph и AutoGen;
— использование инструментов и внешних API внутри агентского цикла;
— интеграция RAG для работы с кастомными базами знаний;
— деплой и масштабирование ИИ-решений.

Старт уже был, но места в потоке еще есть.

🚀 Записаться на основной курс

Если сомневаетесь — просто посмотрите вводное занятие.
👍1😁1🎉1🙏1
🎓 Классные лекционные слайды для курсов
Computer Vision и
Deep Learning in Computer Vision


Особый фокус — на интуиции. Формулы важны, но ещё важнее понимать, что происходит с информацией на каждом этапе.

Курс по Computer Vision


Курс по Deep Learning in Computer Vision

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🎉3🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
🗺️ City2Graph — из геоданных сразу в графы (и GNN)

Наткнулись на интересную Python-библиотеку — City2Graph.

Она превращает городские и геопространственные данные в графовые структуры и связывает между собой GeoPandas, NetworkX и PyTorch Geometric в одном пайплайне.

🔧 Что умеет

🔵 Графы из городских данных
Здания, улицы, землепользование — всё можно представить как граф и использовать в задачах GeoAI и GNN.

🔵 Транспортные сети
Поддержка GTFS, построение графов для автобусов, трамваев, поездов и другого общественного транспорта.

🔵 Близость и смежность
Графы по пространственной близости и соседству — полезно для урбанистики и экологического анализа.

🔵 Мобильность и потоки
Моделирование перемещений: велошеринг, пешеходные потоки, миграции и др.

🔵 Интеграция с PyTorch Geometric
Геоданные → тензоры → графовые нейросети без боли.

Установка:

pip install city2graph


📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63
🧠 50+ ключевых вопросов по LLM для собеседований

Если готовишься к роли в GenAI / LLM / Applied AI, вот что на самом деле спрашивают — не только про «что такое трансформер», а про понимание систем целиком.

🖥 Ссылка на вопросы

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
4🥰2👍1
От ML-модели к AI-агенту: зачем нужен граф?

Дата-сайентисты привыкли к пайплайнам (DAGs). Но реальный агент — это не направленный граф, это цикл. Ему нужно вернуться назад, проверить ошибку и повторить шаг.

LangGraph приносит инженерную строгость в хаос вероятностей:

— управляемый поток (Plan → Execute → Verify → Loop);
state как персистентное хранилище (вместо глобальных переменных в ноутбуке);
— валидация узлов графа.

Курс по архитектуре агентов уже стартовал. Превращайте модели в продукты.

Записаться на курс

Сомневаетесь? Гляньте первую лекцию.
😁4👍1🔥1🙏1
📚 Бесплатные книги по ML и AI от MIT, Harvard

🧠 Probabilistic Machine Learning
Вероятностный взгляд на ML: байесовщина, графические модели, неопределённость.

🤖 Understanding Deep Learning
Глубокое обучение с упором на интуицию + математику.

🏗 Machine Learning Systems
Не про модели, а про системный дизайн ML: пайплайны, продакшн, масштабирование, инфраструктура.

📐 Foundations of Machine Learning
Фундамент: теория обучения, обобщающая способность, VC-измерение и прочая «математика.

🎯 Distributional Reinforcement Learning
Более современный и мощный взгляд на обучение с подкреплением.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍54🤩2🎉1
🎮 Подборка SQL-игр: где прокачивать SQL весело

🏝 SQL Island
Изучаешь SQL, чтобы выживать на острове. Формат — квест с прогрессией.

🕵️ SQL Murder Mystery
Настоящее расследование убийства через SQL-запросы. И новичкам ок, и опытным зайдёт.

🧩 Lost at SQL
SQL-головоломки и нестандартные сценарии. Хорошо качает мышление, а не только синтаксис.

🚔 SQL Police Department
Расследования дел через запросы к базе. Есть бесплатные и продвинутые кейсы.

👾 Querymon
SQL для начинающих в формате игры с монстриками.

🚀 Schemaverse
Космическая стратегия поверх PostgreSQL. Учишь SQL, пока воюешь за галактику.

🎯 CodinGame
Платформа с задачами по программированию (25+ языков), в том числе SQL — всё в формате челленджей.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥72👍1
От DAG к циклическим графам: архитектура агентов

В классическом ML пайплайны линейны. В разработке AI-агентов 2026 года стандартом стал цикл: PlanActObserveReflect.

LangGraph позволяет реализовать это через графы с состоянием (StateGraph). Вы явно определяете узлы и рёбра, управляя потоком выполнения. Это решает главную проблему LLM — отсутствие долгосрочной памяти и возможности исправить ошибку на лету.

На курсе разбираем построение таких систем: от чекпоинтов состояния до мультиагентной оркестрации.

Записаться на курс

База по архитектуре уже доступна. Смотрите вводный урок бесплатно.
👍2🥰1
🆕 Свежие новости для дата‑сайентистов

GIST — «умный» отбор данных от Google Research
Новый алгоритм семплинга с математическими гарантиями: выбирает подмножество данных так, чтобы сохранить и разнообразие, и полезность.

Agentic Vision для Gemini 3 Flash
Google добавляет моделям «поведение исследователя»: вместо одного взгляда на картинку — итеративное изучение, уточнения, фокус на деталях.

OpenAI Prism — платформа для научного письма
Коллаборативная среда с GPT-5.2, нативным LaTeX и воркфлоу «написал → отревьюил → опубликовал».

SMOTE мёртв? Что делать с дисбалансом данных
Практичный разбор того, почему классические методы oversampling уже не всегда спасают и какие подходы сейчас реально работают.

69 часов экспериментов с YOLO
Редкий случай, когда кто-то честно показывает долгую и грязную экспериментальную кухню.

Переобучение: как понять, что модель уже врёт уверенно
База, но изложена так, что полезно даже тем, кто «и так всё знает». Особенно ценно для прикладных проектов, где переобучение выглядит как «модель шикарно работает… на трейне».

💼 Вакансии для дата-людей:

GIS Data Analyst — от 3 000 €, удалёнка

Data Engineer / Data Architect, гибрид (Москва)

Data Analyst — до 264 000 ₽, офис/гибрид (Москва)

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1
🚇 Metromap to Master AI — делимся шпаргалкой

Нашли классную визуализацию пути в AI в виде карты метро — где каждая ветка это направление, а станции — конкретные навыки и темы.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
😁43🔥2🙏2🎉1
🏗 Строим нейросети по законам физики

В мире глубокого обучения происходит тихая революция: мы переходим от моделей-«черных ящиков» к системам, которые понимают законы природы.

Вышла обновленная версия книги Physics-based Deep Learning.

Внутри книги вы найдете:

🦾 Дифференцируемые симуляции: когда сама физическая среда помогает нейросети учиться быстрее.

🌊 Физические функции потерь: вы узнаете, как «штрафовать» модель, если её предсказания нарушают закон сохранения массы или энергии.

GenAI в науке: использование диффузионных моделей для генерации сверхточных физических сценариев (от погоды до турбулентности).

🧠 Foundation Models: фундамент для следующего поколения научных открытий.

Авторы сделали упор на формат hands-on: каждая концепция сопровождается интерактивными ноутбуками Jupyter.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5😢2🤩1
📄 Docling — мощный инструмент для разбора документов под задачи Data Science

Если вы работаете с RAG, LLM, извлечением данных или документными пайплайнами, Docling — это как «универсальный загрузчик» для неструктурированных данных.

Он не просто конвертирует файлы — он понимает структуру документов.

Работает «plug-and-play» с:
— LangChain
— LlamaIndex
— Haystack
— CrewAI

Плюс есть MCP-сервер, чтобы подключать Docling к агентам.

Есть CLI, быстрый старт и примеры под реальные кейсы.

🔗 Ссылка на проект

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51🙏1
Шпаргалка.jpeg
304.9 KB
📈 Шпаргалка по методам регрессии

Краткий обзор популярных методов регрессии, их целевых функций и того, что именно они аппроксимируют.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63🔥1🎉1
🤖 Могут ли LLM корректно переводить Polars в SQL

SQL остается стандартом индустрии, но многие из нас (и я в том числе) предпочитают Polars или Pandas за их «человечный» синтаксис.

Казалось бы, в 2026 году можно просто скормить Polars-код нейронке и получить идеальный SQL.

Но не всё так просто. Свежие тесты топовых моделей (GPT-5.1, DeepSeek, Qwen) показали, что они спотыкаются там, где мы меньше всего ждем.

Нейросети отлично выучили синтаксис, но они всё ещё путаются в семантике — то есть в том, как именно работают функции «под капотом».

Вот два классических примера, где LLM стабильно ошибаются:


🔛 n_unique() и NULL:

В Polars этот метод по умолчанию считает NULL как отдельное уникальное значение.

Но когда LLM переводит это в SQL (`COUNT(DISTINCT column)`), пропуски просто игнорируются.

Итог: ваша статистика поплыла, а вы об этом даже не узнали.

🔛 Ранжирование (rank):

При работе с rank('dense') Polars сохраняет NULL на своих местах.

Нейросети же часто генерируют SQL, который выкидывает пропуски в конец списка.

Есть два пути решения:

✔️ Prompt Engineering: Если вы всё же используете LLM, в промпт нужно зашивать «шпаргалку» по нюансам (например: "Remember, Polars counts nulls in n_unique"). Тогда модели исправляются.

✔️ Библиотека Narwhals: Это open-source слой совместимости. Он переводит код Polars в SQL (через DuckDB) детерминировано. Никаких галлюцинаций — только сухая логика алгоритмов.

🔗 Ссылка на пруфы-эксперементы

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍2🙏1
Шпаргалка.jpeg
166 KB
📊 Как выбрать метод статанализа и не сойти с ума

Чтобы вы больше не мучились вопросом «А тут точно нужна регрессия?», мы подготовили для вас удобный алгоритм.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍5🔥2🎉1
Probability for Data Science.pdf
18.4 MB
📖 Книга: Probability for Data Science

Прикладной гид по теории вероятностей для тех, кто хочет понимать математику «под капотом» ML-моделей.

🦾 Никакой лишней воды: только база распределений, Байес и статистика, необходимые для осознанной работы с данными.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍2😢1
🏗 Agentic RAG — это не чат-бот, это операционная система

В продакшене Agentic RAG больше похож на операционную систему. И вот почему:

1️⃣ Всё держится на «грязной» работе (Data Extraction & Embeddings)

Если вы криво распарсили PDF-ку или сэкономили на модели эмбеддингов — забудьте про результат. Агент будет просто «галлюцинировать на основе мусора».

2️⃣ Память — это не только история чата

Короткая память нужна, чтобы не терять нить задачи в моменте.

Долгая память — чтобы агент не наступал на одни и те же грабли дважды и помнил контекст ваших прошлых факапов.

3️⃣ Мозги vs Система (LLM & Framework)

LLM — это просто «движок рассуждений». Она умеет планировать, но не умеет управлять.

Фреймворк же берет на себя всю рутину: логику циклов, роутинг по инструментам и обработку ошибок. Без нормального фреймворка ваш код быстро превратится в нечитаемое спагетти.

4️⃣ Контроль качества (Evaluation & Alignment)

Тут обычно срезают углы, а зря:

Эвалюация: если вы не замеряете точность поиска и уровень галлюцинаций в цифрах — вы не контролируете систему. Она будет деградировать тихо и незаметно.

Алаймент: это «предохранители». Они нужны, чтобы агент в порыве инициативы не наговорил лишнего и не вышел за рамки бизнес-логики.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63🎉2🙏1🥱1