Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение – Telegram

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

18.5K subscribers

2.56K photos

135 videos

81 files

5.06K links

Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по Ai-агентам: https://clc.to/9L0Tqg

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9

Download Telegram

About

Blog

Apps

Platform

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

18.5K subscribers

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁19😢4👍2❤1🎉1

2.04K views10:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📄 Docling — мощный инструмент для разбора документов под задачи Data Science

Если вы работаете с RAG, LLM, извлечением данных или документными пайплайнами, Docling — это как «универсальный загрузчик» для неструктурированных данных.

Он не просто конвертирует файлы — он понимает структуру документов.

Работает «plug-and-play» с:
— LangChain
— LlamaIndex
— Haystack
— CrewAI

Плюс есть MCP-сервер, чтобы подключать Docling к агентам.

⚙ Есть CLI, быстрый старт и примеры под реальные кейсы.

🔗 Ссылка на проект

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤1🙏1

2.21K views18:50

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Шпаргалка.jpeg

📈 Шпаргалка по методам регрессии

Краткий обзор популярных методов регрессии, их целевых функций и того, что именно они аппроксимируют.

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤3🔥1🎉1

1.99K views10:42

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤖 Могут ли LLM корректно переводить Polars в SQL

SQL остается стандартом индустрии, но многие из нас (и я в том числе) предпочитают Polars или Pandas за их «человечный» синтаксис.

Казалось бы, в 2026 году можно просто скормить Polars-код нейронке и получить идеальный SQL.

Но не всё так просто. Свежие тесты топовых моделей (GPT-5.1, DeepSeek, Qwen) показали, что они спотыкаются там, где мы меньше всего ждем.

Нейросети отлично выучили синтаксис, но они всё ещё путаются в семантике — то есть в том, как именно работают функции «под капотом».

Вот два классических примера, где LLM стабильно ошибаются:

🔛 n_unique() и NULL:

В Polars этот метод по умолчанию считает NULL как отдельное уникальное значение.

Но когда LLM переводит это в SQL (`COUNT(DISTINCT column)`), пропуски просто игнорируются.

Итог: ваша статистика поплыла, а вы об этом даже не узнали.

🔛 Ранжирование (rank):

При работе с rank('dense') Polars сохраняет NULL на своих местах.

Нейросети же часто генерируют SQL, который выкидывает пропуски в конец списка.

Есть два пути решения:

✔️

Prompt Engineering: Если вы всё же используете LLM, в промпт нужно зашивать «шпаргалку» по нюансам (например: "Remember, Polars counts nulls in n_unique"). Тогда модели исправляются.

✔️

Библиотека Narwhals: Это open-source слой совместимости. Он переводит код Polars в SQL (через DuckDB) детерминировано. Никаких галлюцинаций — только сухая логика алгоритмов.

🔗 Ссылка на пруфы-эксперементы

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍2🙏1

2.07K views18:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Шпаргалка.jpeg

📊 Как выбрать метод статанализа и не сойти с ума

Чтобы вы больше не мучились вопросом «А тут точно нужна регрессия?», мы подготовили для вас удобный алгоритм.

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍5🔥2🎉1

2.27K views06:17

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Probability for Data Science.pdf

📖 Книга: Probability for Data Science

Прикладной гид по теории вероятностей для тех, кто хочет понимать математику «под капотом» ML-моделей.

🦾 Никакой лишней воды: только база распределений, Байес и статистика, необходимые для осознанной работы с данными.

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍2😢1

2.19K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🏗 Agentic RAG — это не чат-бот, это операционная система

В продакшене Agentic RAG больше похож на операционную систему. И вот почему:

1️⃣

Всё держится на «грязной» работе (Data Extraction & Embeddings)

Если вы криво распарсили PDF-ку или сэкономили на модели эмбеддингов — забудьте про результат. Агент будет просто «галлюцинировать на основе мусора».

2️⃣

Память — это не только история чата

Короткая память нужна, чтобы не терять нить задачи в моменте.

Долгая память — чтобы агент не наступал на одни и те же грабли дважды и помнил контекст ваших прошлых факапов.

3️⃣

Мозги vs Система (LLM & Framework)

LLM — это просто «движок рассуждений». Она умеет планировать, но не умеет управлять.

Фреймворк же берет на себя всю рутину: логику циклов, роутинг по инструментам и обработку ошибок. Без нормального фреймворка ваш код быстро превратится в нечитаемое спагетти.

4️⃣

Контроль качества (Evaluation & Alignment)

Тут обычно срезают углы, а зря:

Эвалюация: если вы не замеряете точность поиска и уровень галлюцинаций в цифрах — вы не контролируете систему. Она будет деградировать тихо и незаметно.

Алаймент: это «предохранители». Они нужны, чтобы агент в порыве инициативы не наговорил лишнего и не вышел за рамки бизнес-логики.

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤3🎉2🙏1🥱1

1.96K views06:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Курс «Разработка ИИ-агентов»: RAG, графы и продакшн

Обучение модели — это половина дела. Вторая половина — заставить её взаимодействовать с внешним миром и инструментами. Курс уже начался, но вы успеваете впрыгнуть в последний вагон.

Мы разбираем не тюнинг весов, а построение агентных систем и пайплайнов вокруг LLM.

В программе:
— продвинутый RAG: интеграция с векторными БД и оптимизация поиска;
— оркестрация агентов через LangGraph и AutoGen;
— мониторинг метрик и отладка через AgentOps;
— реализация мультиагентных паттернов Map-Reduce и иерархических команд.

База Python и опыт работы с данными у вас уже есть, так что порог входа будет комфортным.

Записаться на курс

Смотреть первую лекцию

🔥2😁1😢1

1.79K views15:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💾 Отличный репозиторий, где собраны Google Colab ноутбуки с реализацией всех классических алгоритмов ML с абсолютного нуля.

🔗 Github

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍4🤩4🔥1🥰1🙏1

2.16K views17:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

RAG и Fine-tuning — это база. А как насчёт Agentic Workflow?

В Data Science стеке 2026 года умение строить автономных агентов стало обязательным хард-скиллом. Просто дообучить модель уже недостаточно — нужно заставить её взаимодействовать с внешним миром.

На вебинаре со студентами мы разбирали реальные боли продакшна: как валидировать действия агентов, интегрировать векторные БД в высоконагруженные системы и избегать зацикливания логики. Это разбор кейсов, с которыми вы сталкиваетесь в работе прямо сейчас.

Технический стек курса:

— Архитектура: ReAct, Plan-and-Execute, Advanced RAG.
— Инструменты: LangChain, LlamaIndex, LangGraph.
— Векторные БД: ChromaDB, Milvus/FAISS.
— AgentOps: трассировка и мониторинг метрик.

Перейти к программе курса

🔥2

1.84K views15:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁10🔥3👍1🥰1🎉1

1.78K views17:12

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕 Свежие новости для дата‑сайентистов

Voxtral Transcribe 2 от Mistral
Новая версия STT-модели с задержкой меньше 200 мс и open-weight релизом для realtime-версии.

GPT-5.3-Codex
OpenAI расширяет линейку Codex в сторону «агентного» кодинга — модель заточена под длительные рабочие цепочки, рефакторинги и реальную работу с компьютером, а не генерацию функций на 20 строк.

Q, K, V — разбор матриц внимания
Хороший материал, который по attention.

Исследование рынка ESB-решений 2025
Сравнение 20+ ESB/iPaaS-платформ — от Apache Camel и Kafka до отечественных проприетарных решений.

Математические основы RNN — неудобные вопросы
Разбор рекуррентных сетей: что на самом деле происходит, где ограничения и почему всё так сложно с долгосрочной памятью.

AI-ассистент на бесплатном CPU (Qwen2.5 + Gradio + HF Spaces)
Практический гайд по запуску AI-приложения без GPU и бюджета.

MLOps — дитя DevOps и ML
Хорошее объяснение, почему «обучили модель» — это только начало. Про пайплайны, мониторинг и всё то, что делает ML системой.

💼 Вакансии

ML-аналитик (Дзен) — от 230 000 до 350 000 ₽, гибрид (Москва)

Data архитектор — от 280 000 ₽, удалёнка

GIS Data Analyst — от 3 000 €, удалёнка

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍2🔥2😢1🙏1

1.7K views12:58

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

🎰 Contextual Multi-Armed Bandits — это «чит-код» для рекомендаций в реальном времени

В отличие от классического ML, этот алгоритм учится на лету, балансируя между проверкой новых идей и показом проверенного контента.

В первой части статьи — прототип на Python: симулируем поведение юзеров и настраиваем логику обучения, чтобы победить проблему «холодного старта».

🔗 Читать статью: https://clc.to/rP20Lg

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍4🥰2

1.93K views11:30

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

handout-beginner.pdf

handout-intermediate.pdf

handout-tips.pdf

🔥 Matplotlib Cheatsheets — набор шпаргалок

Внутри всё: от анатомии графика до настройки цветовых палитр и сложных 3D-проекций.

Разложено по уровням — от новичка до профи.

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8🎉3🙏3👍2🥰1😢1

2.36K views18:20

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤖 RoboVerse: Единая ОС для обучения роботов

Если вы занимаетесь Robot Learning, то знаете, какая это боль: один симулятор не дружит с другим, а перенос навыков с одного робота на другого требует переписывания половины кода.

RoboVerse — это новая опенсорсная экосистема, которая объединяет разные симуляторы и типы роботов под одним капотом.

🔗 Github

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤1

1.76K views10:48

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚀 Как ускорить NumPy: комбо из Numba и параллелизма

Стандартный код np.sum((a - b)**2) создает временные массивы в памяти для каждой операции. На больших данных это убивает кэш процессора.

Решение №1: Параллелизм (ThreadPool)

Разбиваем массив на чанки и обрабатываем в потоках. Это не только ускоряет процесс, но и в разы снижает потребление памяти, так как временные объекты создаются только для маленьких кусочков данных.


from concurrent.futures import ThreadPoolExecutor
import numpy as np

POOL = ThreadPoolExecutor(max_workers=8)

def parallel_squared_diff(a, b):
    chunks_a = np.array_split(a, 8)
    chunks_b = np.array_split(b, 8)
    # Считаем кусочки параллельно и суммируем
    return sum(POOL.map(lambda ca, cb: np.sum((ca - cb)**2), chunks_a, chunks_b))

Решение №2: Numba (JIT-компиляция)

Numba превращает Python-код в машинный. Главный плюс — мы считаем всё в один проход (циклом), не создавая промежуточных массивов вообще.


from numba import jit

@jit(nogil=True)
def numba_squared_diff(a, b):
    res = 0
    for i in range(len(a)):
        res += (a[i] - b[i]) ** 2
    return res

⚠️ Важный нюанс про Numba `prange`

В Numba есть встроенный parallel=True, но лучше его не использовать. Он часто ловит race conditions и выдает неверные результаты без всяких ошибок. Безопаснее запускать обычный @jit внутри своего ThreadPoolExecutor.

🔗 Источник: https://clc.to/ZWhF6g

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7👍4🤩1🙏1

1.82K viewsedited 18:36

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁14❤4

1.92K views10:47

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

ML_cheatsheets.pdf

🗂 Большая подборка шпаргалок по ML и DS

Делимся базой шпаргалок, которые закрывают 90% вопросов в жизни дата-сайентиста.

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍3🔥1🎉1

1.93K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🦾 GPT на чистом Python за 243 строки: новый арт-проект Андрея Карпати

Андрей Карпати (экс-Tesla AI, OpenAI) в очередной раз принес нам что-то полезное. Он выпустил microGPT — полную реализацию обучения и инференса трансформера вообще без внешних библиотек.

Забудьте про PyTorch, TensorFlow или даже NumPy. Только стандартные модули Python (`math`, `random`) и чистая математика.

Несмотря на микро-размер, это полноценная языковая модель:

🔴

Собственный движок автодифференцирования: аналог его знаменитого micrograd для расчета градиентов.

🔴

Архитектура Transformer: Multi-head attention, RMSNorm и активация squared ReLU.

🔴

Оптимизатор Adam: всё, что нужно для полноценного цикла обучения.

🔴

Токенизатор: посимвольная кодировка с поддержкой BOS/EOS токенов.

Проект не для продакшена. Из-за отсутствия тензорных вычислений и поддержки GPU обучение даже на крошечном датасете имен занимает часы. Но как инструмент для понимания «базы» — это золото.

🔗 Репозиторий: https://clc.to/EpqpgQ

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤10👍4🙏1

1.95K views09:48