Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение – Telegram

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

18.5K subscribers

2.56K photos

135 videos

80 files

5.05K links

Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по Ai-агентам: https://clc.to/9L0Tqg

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9

Download Telegram

About

Blog

Apps

Platform

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

18.5K subscribers

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎮

Подборка SQL-игр: где прокачивать SQL весело

🏝 SQL Island
Изучаешь SQL, чтобы выживать на острове. Формат — квест с прогрессией.

🕵️ SQL Murder Mystery
Настоящее расследование убийства через SQL-запросы. И новичкам ок, и опытным зайдёт.

🧩 Lost at SQL
SQL-головоломки и нестандартные сценарии. Хорошо качает мышление, а не только синтаксис.

🚔 SQL Police Department
Расследования дел через запросы к базе. Есть бесплатные и продвинутые кейсы.

👾 Querymon
SQL для начинающих в формате игры с монстриками.

🚀 Schemaverse
Космическая стратегия поверх PostgreSQL. Учишь SQL, пока воюешь за галактику.

🎯 CodinGame
Платформа с задачами по программированию (25+ языков), в том числе SQL — всё в формате челленджей.

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7❤2👍1

2.31K viewsedited 13:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

От DAG к циклическим графам: архитектура агентов

В классическом ML пайплайны линейны. В разработке AI-агентов 2026 года стандартом стал цикл: Plan → Act → Observe → Reflect.

LangGraph позволяет реализовать это через графы с состоянием (StateGraph). Вы явно определяете узлы и рёбра, управляя потоком выполнения. Это решает главную проблему LLM — отсутствие долгосрочной памяти и возможности исправить ошибку на лету.

На курсе разбираем построение таких систем: от чекпоинтов состояния до мультиагентной оркестрации.

Записаться на курс

База по архитектуре уже доступна. Смотрите вводный урок бесплатно.

👍2🥰1

1.94K views11:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕 Свежие новости для дата‑сайентистов

GIST — «умный» отбор данных от Google Research
Новый алгоритм семплинга с математическими гарантиями: выбирает подмножество данных так, чтобы сохранить и разнообразие, и полезность.

Agentic Vision для Gemini 3 Flash
Google добавляет моделям «поведение исследователя»: вместо одного взгляда на картинку — итеративное изучение, уточнения, фокус на деталях.

OpenAI Prism — платформа для научного письма
Коллаборативная среда с GPT-5.2, нативным LaTeX и воркфлоу «написал → отревьюил → опубликовал».

SMOTE мёртв? Что делать с дисбалансом данных
Практичный разбор того, почему классические методы oversampling уже не всегда спасают и какие подходы сейчас реально работают.

69 часов экспериментов с YOLO
Редкий случай, когда кто-то честно показывает долгую и грязную экспериментальную кухню.

Переобучение: как понять, что модель уже врёт уверенно
База, но изложена так, что полезно даже тем, кто «и так всё знает». Особенно ценно для прикладных проектов, где переобучение выглядит как «модель шикарно работает… на трейне».

💼 Вакансии для дата-людей:

GIS Data Analyst — от 3 000 €, удалёнка

Data Engineer / Data Architect, гибрид (Москва)

Data Analyst — до 264 000 ₽, офис/гибрид (Москва)

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

1.97K views15:18

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚇 Metromap to Master AI — делимся шпаргалкой

Нашли классную визуализацию пути в AI в виде карты метро — где каждая ветка это направление, а станции — конкретные навыки и темы.

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

😁4❤3🔥2🙏2🎉1

2.04K views06:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🏗 Строим нейросети по законам физики

В мире глубокого обучения происходит тихая революция: мы переходим от моделей-«черных ящиков» к системам, которые понимают законы природы.

Вышла обновленная версия книги Physics-based Deep Learning.

Внутри книги вы найдете:

🦾 Дифференцируемые симуляции: когда сама физическая среда помогает нейросети учиться быстрее.

🌊 Физические функции потерь: вы узнаете, как «штрафовать» модель, если её предсказания нарушают закон сохранения массы или энергии.

✨ GenAI в науке: использование диффузионных моделей для генерации сверхточных физических сценариев (от погоды до турбулентности).

🧠 Foundation Models: фундамент для следующего поколения научных открытий.

Авторы сделали упор на формат hands-on: каждая концепция сопровождается интерактивными ноутбуками Jupyter.

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5😢2🤩1

2.25K views19:46

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁19😢4👍2❤1🎉1

2.03K views10:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📄 Docling — мощный инструмент для разбора документов под задачи Data Science

Если вы работаете с RAG, LLM, извлечением данных или документными пайплайнами, Docling — это как «универсальный загрузчик» для неструктурированных данных.

Он не просто конвертирует файлы — он понимает структуру документов.

Работает «plug-and-play» с:
— LangChain
— LlamaIndex
— Haystack
— CrewAI

Плюс есть MCP-сервер, чтобы подключать Docling к агентам.

⚙ Есть CLI, быстрый старт и примеры под реальные кейсы.

🔗 Ссылка на проект

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤1🙏1

2.19K views18:50

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Шпаргалка.jpeg

📈 Шпаргалка по методам регрессии

Краткий обзор популярных методов регрессии, их целевых функций и того, что именно они аппроксимируют.

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤3🔥1🎉1

1.97K views10:42

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤖 Могут ли LLM корректно переводить Polars в SQL

SQL остается стандартом индустрии, но многие из нас (и я в том числе) предпочитают Polars или Pandas за их «человечный» синтаксис.

Казалось бы, в 2026 году можно просто скормить Polars-код нейронке и получить идеальный SQL.

Но не всё так просто. Свежие тесты топовых моделей (GPT-5.1, DeepSeek, Qwen) показали, что они спотыкаются там, где мы меньше всего ждем.

Нейросети отлично выучили синтаксис, но они всё ещё путаются в семантике — то есть в том, как именно работают функции «под капотом».

Вот два классических примера, где LLM стабильно ошибаются:

🔛 n_unique() и NULL:

В Polars этот метод по умолчанию считает NULL как отдельное уникальное значение.

Но когда LLM переводит это в SQL (`COUNT(DISTINCT column)`), пропуски просто игнорируются.

Итог: ваша статистика поплыла, а вы об этом даже не узнали.

🔛 Ранжирование (rank):

При работе с rank('dense') Polars сохраняет NULL на своих местах.

Нейросети же часто генерируют SQL, который выкидывает пропуски в конец списка.

Есть два пути решения:

✔️

Prompt Engineering: Если вы всё же используете LLM, в промпт нужно зашивать «шпаргалку» по нюансам (например: "Remember, Polars counts nulls in n_unique"). Тогда модели исправляются.

✔️

Библиотека Narwhals: Это open-source слой совместимости. Он переводит код Polars в SQL (через DuckDB) детерминировано. Никаких галлюцинаций — только сухая логика алгоритмов.

🔗 Ссылка на пруфы-эксперементы

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍2🙏1

2.06K views18:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Шпаргалка.jpeg

📊 Как выбрать метод статанализа и не сойти с ума

Чтобы вы больше не мучились вопросом «А тут точно нужна регрессия?», мы подготовили для вас удобный алгоритм.

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍5🔥2🎉1

2.25K views06:17

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Probability for Data Science.pdf

📖 Книга: Probability for Data Science

Прикладной гид по теории вероятностей для тех, кто хочет понимать математику «под капотом» ML-моделей.

🦾 Никакой лишней воды: только база распределений, Байес и статистика, необходимые для осознанной работы с данными.

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍2😢1

2.16K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🏗 Agentic RAG — это не чат-бот, это операционная система

В продакшене Agentic RAG больше похож на операционную систему. И вот почему:

1️⃣

Всё держится на «грязной» работе (Data Extraction & Embeddings)

Если вы криво распарсили PDF-ку или сэкономили на модели эмбеддингов — забудьте про результат. Агент будет просто «галлюцинировать на основе мусора».

2️⃣

Память — это не только история чата

Короткая память нужна, чтобы не терять нить задачи в моменте.

Долгая память — чтобы агент не наступал на одни и те же грабли дважды и помнил контекст ваших прошлых факапов.

3️⃣

Мозги vs Система (LLM & Framework)

LLM — это просто «движок рассуждений». Она умеет планировать, но не умеет управлять.

Фреймворк же берет на себя всю рутину: логику циклов, роутинг по инструментам и обработку ошибок. Без нормального фреймворка ваш код быстро превратится в нечитаемое спагетти.

4️⃣

Контроль качества (Evaluation & Alignment)

Тут обычно срезают углы, а зря:

Эвалюация: если вы не замеряете точность поиска и уровень галлюцинаций в цифрах — вы не контролируете систему. Она будет деградировать тихо и незаметно.

Алаймент: это «предохранители». Они нужны, чтобы агент в порыве инициативы не наговорил лишнего и не вышел за рамки бизнес-логики.

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤3🎉2🙏1🥱1

1.94K views06:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Курс «Разработка ИИ-агентов»: RAG, графы и продакшн

Обучение модели — это половина дела. Вторая половина — заставить её взаимодействовать с внешним миром и инструментами. Курс уже начался, но вы успеваете впрыгнуть в последний вагон.

Мы разбираем не тюнинг весов, а построение агентных систем и пайплайнов вокруг LLM.

В программе:
— продвинутый RAG: интеграция с векторными БД и оптимизация поиска;
— оркестрация агентов через LangGraph и AutoGen;
— мониторинг метрик и отладка через AgentOps;
— реализация мультиагентных паттернов Map-Reduce и иерархических команд.

База Python и опыт работы с данными у вас уже есть, так что порог входа будет комфортным.

Записаться на курс

Смотреть первую лекцию

🔥2😁1😢1

1.78K views15:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💾 Отличный репозиторий, где собраны Google Colab ноутбуки с реализацией всех классических алгоритмов ML с абсолютного нуля.

🔗 Github

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍4🤩4🔥1🥰1🙏1

2.13K views17:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

RAG и Fine-tuning — это база. А как насчёт Agentic Workflow?

В Data Science стеке 2026 года умение строить автономных агентов стало обязательным хард-скиллом. Просто дообучить модель уже недостаточно — нужно заставить её взаимодействовать с внешним миром.

На вебинаре со студентами мы разбирали реальные боли продакшна: как валидировать действия агентов, интегрировать векторные БД в высоконагруженные системы и избегать зацикливания логики. Это разбор кейсов, с которыми вы сталкиваетесь в работе прямо сейчас.

Технический стек курса:

— Архитектура: ReAct, Plan-and-Execute, Advanced RAG.
— Инструменты: LangChain, LlamaIndex, LangGraph.
— Векторные БД: ChromaDB, Milvus/FAISS.
— AgentOps: трассировка и мониторинг метрик.

Перейти к программе курса

🔥2

1.83K views15:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁10🔥3👍1🥰1🎉1

1.76K views17:12

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕 Свежие новости для дата‑сайентистов

Voxtral Transcribe 2 от Mistral
Новая версия STT-модели с задержкой меньше 200 мс и open-weight релизом для realtime-версии.

GPT-5.3-Codex
OpenAI расширяет линейку Codex в сторону «агентного» кодинга — модель заточена под длительные рабочие цепочки, рефакторинги и реальную работу с компьютером, а не генерацию функций на 20 строк.

Q, K, V — разбор матриц внимания
Хороший материал, который по attention.

Исследование рынка ESB-решений 2025
Сравнение 20+ ESB/iPaaS-платформ — от Apache Camel и Kafka до отечественных проприетарных решений.

Математические основы RNN — неудобные вопросы
Разбор рекуррентных сетей: что на самом деле происходит, где ограничения и почему всё так сложно с долгосрочной памятью.

AI-ассистент на бесплатном CPU (Qwen2.5 + Gradio + HF Spaces)
Практический гайд по запуску AI-приложения без GPU и бюджета.

MLOps — дитя DevOps и ML
Хорошее объяснение, почему «обучили модель» — это только начало. Про пайплайны, мониторинг и всё то, что делает ML системой.

💼 Вакансии

ML-аналитик (Дзен) — от 230 000 до 350 000 ₽, гибрид (Москва)

Data архитектор — от 280 000 ₽, удалёнка

GIS Data Analyst — от 3 000 €, удалёнка

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍2🔥2😢1🙏1

1.69K views12:58

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

🎰 Contextual Multi-Armed Bandits — это «чит-код» для рекомендаций в реальном времени

В отличие от классического ML, этот алгоритм учится на лету, балансируя между проверкой новых идей и показом проверенного контента.

В первой части статьи — прототип на Python: симулируем поведение юзеров и настраиваем логику обучения, чтобы победить проблему «холодного старта».

🔗 Читать статью: https://clc.to/rP20Lg

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍4🥰2

1.91K views11:30

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

handout-beginner.pdf

handout-intermediate.pdf

handout-tips.pdf

🔥 Matplotlib Cheatsheets — набор шпаргалок

Внутри всё: от анатомии графика до настройки цветовых палитр и сложных 3D-проекций.

Разложено по уровням — от новичка до профи.

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8🎉3🙏3👍2🥰1😢1

2.33K views18:20