Data Portal | DS & ML
8.41K subscribers
417 photos
114 videos
4 files
562 links
Всё самое интересное из мира Data Science и машинного обучения

Связь: @devmangx
Download Telegram
Эта математика лежит в основе каждой AI-модели, которую сейчас обучают.

Градиент. Якобиан. Гессиан.

Три слова, которые сначала выглядят пугающе.

Но на самом деле это просто три способа измерять изменение.

𝟭. 𝗚𝗿𝗮𝗱𝗶𝗲𝗻𝘁 ∇f (градиент)

Берёт скалярную функцию:

f : ℝⁿ → ℝ

Возвращает вектор первых частных производных.

Он отвечает на вопрос:

«В каком направлении функция f растёт быстрее всего?»

Именно поэтому градиенты — основа оптимизации.

Градиентный спуск идёт в противоположную сторону, потому что градиент указывает направление наибольшего роста.

Backpropagation эффективно вычисляет градиенты во время обучения.

𝟮. 𝗝𝗮𝗰𝗼𝗯𝗶𝗮𝗻 J_F (якобиан)

Берёт векторнозначную функцию:

F : ℝⁿ → ℝᵐ

Возвращает матрицу m × n первых частных производных.

Он отвечает:

«Как каждый выход зависит от каждого входа?»

Якобиан — это локальное линейное отображение векторной функции.

Он встречается в:
→ анализе чувствительности
→ замене переменных
→ автоматическом дифференцировании
→ forward-mode AD
→ reverse-mode AD / backpropagation

В простых терминах:

forward-mode AD использует произведения якобиан–вектор.

reverse-mode AD использует произведения вектор–якобиан.

𝟯. 𝗛𝗲𝘀𝘀𝗶𝗮𝗻 H_f (гессиан)

Берёт скалярную функцию:

f : ℝⁿ → ℝ

Возвращает матрицу n × n вторых частных производных.

Он отвечает:

«Как меняется сам градиент?»

То есть гессиан измеряет кривизну.

Когда вторые частные производные непрерывны, гессиан симметричен.

В критической точке:
→ положительно определённый гессиан → строгий локальный минимум
→ отрицательно определённый гессиан → строгий локальный максимум
→ неопределённый гессиан → седловая точка

Чистая ментальная модель

Градиент = первые производные одного выхода
→ показывает направление

Якобиан = первые производные многих выходов
→ показывает чувствительность

Гессиан = вторые производные одного выхода
→ показывает кривизну

И связь между ними проста:
Гессиан — это якобиан градиента.

Для скалярного выхода якобиан содержит те же частные производные, что и градиент, с точностью до соглашения о строках/столбцах.

Одна и та же идея:
измерение изменения.

Разные объекты:
направление, чувствительность, кривизна.

Когда это становится понятным, оптимизация перестаёт выглядеть как набор формул.

Она начинает выглядеть как карта задачи.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥3🤯1
Себастьян Рашка собрал огромный репозиторий, где шаг за шагам показывает, как собрать свой ChatGPT с нуля: https://github.com/rasbt/LLMs-from-scratch/tree/main/ch04/09_dsa

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
10🔥1🏆1
38 лет учёные-компьютерщики считали, что алгоритм Дейкстры оптимален для разреженных графов.

Логика казалась железобетонной:

- Дейкстра сортирует вершины по расстоянию
- Сортировка имеет нижнюю границу O(n log n)
- Значит, кратчайшие пути не могут быть найдены быстрее

5 исследователей доказали, что это предположение неверно.

Хитрость => объединить priority queue из Дейкстры с динамическим программированием Беллмана–Форда. Разделяй и властвуй по множествам вершин. Сжимать фронтир.

Результат: O(m log^(2/3) n)

Первое улучшение для ориентированных графов со времён Fibonacci heap в 1987 году.

Tsinghua. Stanford. Max Planck. 17 страниц.

https://arxiv.org/pdf/2504.17033

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥2
Почему KV-кэш — одна из главных причин высокой скорости работы LLM?
KV-кэш связывает механизм внимания (attention) с этапом генерации в авторегрессионных моделях.
Такие модели генерируют текст токен за токеном, но каждый новый токен всё равно должен учитывать все предыдущие токены.

→ Чтобы ускорить фазу декодирования (decode phase), модели сохраняют ранее вычисленные векторы Key и Value в KV-кэше.
→ Во время генерации вычисляются только новые состояния Q/K/V для последнего токена, после чего выполняется attention по уже закэшированным представлениям прошлых токенов.
Без KV-кэша модели пришлось бы заново вычислять ключи и значения для всей последовательности на каждом шаге (например, при генерации 501-го токена пришлось бы снова пересчитывать токены с 1-го по 500-й), что крайне медленно.

Однако у KV-кэша есть компромисс — потребление памяти. Его размер растёт вместе с длиной контекста, размером батча, количеством слоёв и числом голов внимания (attention heads).

Поэтому сегодня значительная часть исследований сосредоточена на повышении эффективности KV-кэша и оптимизации использования памяти. Например:

Улучшение механизма внимания, поскольку именно он определяет, как формируется KV-кэш. В зависимости от задачи можно использовать более продвинутые варианты attention, такие как CompactAttention, MHA, MLA и другие.

Оптимизация управления памятью. Система должна определять, какие данные хранить долго, какие держать локально, когда выполнять суммаризацию контекста, а когда удалять часть данных.

Подробнее о KV-кэше и механизме внимания можно прочитать здесь:
https://turingpost.com/p/your-ultimate-guide-to-attention-mechanism-qkv-and-kv-cache
А о том, как они вписываются в полный пайплайн инференса LLM — здесь:
https://turingpost.com/p/llm-inference-from-tokens-to-answers

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥2
Хватит изучать математику для ML по случайным вкладкам в браузере.

Mathematics for Machine Learning — это курируемая коллекция на GitHub, включающая книги, научные статьи, видеолекции и базовые материалы по математике для изучения и повторения математических основ машинного обучения.

Она помогает выстроить более прочную базу знаний, объединяя проверенные ресурсы вокруг тем, с которыми инженеры машинного обучения сталкиваются постоянно: линейная алгебра, математический анализ, теория вероятностей, статистика, теория информации, матричное исчисление и математика глубокого обучения.

Бесплатный публичный репозиторий на GitHub.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥2😁1
Не совсем круто изучать system design для LLM по случайным диаграммам.

genai-llm-ml-case-studies — это curated GitHub-коллекция с 500+ реальными case study по GenAI, LLM и ML system design от 130+ компаний.

Она помогает разбирать, как команды проектируют, деплоят и оптимизируют AI-системы, группируя примеры по индустриям, use case’ам, компаниям и архитектурным паттернам.

Ключевые особенности:

• 500+ case study — production-oriented примеры для GenAI, LLM и ML-систем
• Несколько способов навигации — просмотр по индустрии, use case’ам, компаниям или отдельным LLM-кейсам
• LLM-ориентированные темы — разделы по RAG, search, evaluation, fine-tuning, оптимизации inference и multimodal-системам
• Примеры от компаний — включая OpenAI, Anthropic, Microsoft, Google, Meta, Netflix, LinkedIn, GitHub, Spotify и другие
• Архитектурные паттерны — в README показаны схемы direct LLM integration, RAG, multi-agent systems и human-in-the-loop workflow

Проект open-source (лицензия MIT).

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
3
NVIDIA выпустили: Verified Agent Skills 👊

Verified Skills дают прозрачность в том, что именно делает скилл, откуда он получен, какие риски несёт и был ли он модифицирован.

Каждый verified skill содержит skill card и построен на открытой спецификации Agent Skills, чтобы стабильно работать в Claude Code, OpenAI Codex и Cursor.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
Тихо, почти незаметно, AI-инфраструктуру захватывает новая инженерная дисциплина.
И это не prompt engineering. И не выбор модели.
Это harness engineering.

Идея простая: практически любой сбой AI-агента — это проблема scaffolding-а.
Плохой контекст. Плохие инструменты. Отсутствие памяти. Нет верификации.

Этот репозиторий собирает всё необходимое для построения такого scaffolding’а — от статьи про ReAct до гайда Anthropic по context compaction и middleware-паттернов из LangGraph.
Ресурсы от OpenAI, Anthropic, Google, Meta, Microsoft и многих других — в одном месте.

https://github.com/ai-boost/awesome-harness-engineering

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1👎1
Запусти собственную AI-компанию с командой AI-агентов

Alook — это open-source платформа для совместной работы AI coding-агентов. Self-hosted и local-first.

Как устроено:
Ты задаёшь структуру организации. Назначаешь каждому агенту роль — разработка, DevOps, ресерч и всё, что нужно. Настраиваешь иерархию и линии подчинения. Alook выдаёт каждому агенту собственный email-адрес.

Как это работает:
Ты назначаешь задачу нужному агенту — дальше он разбирается сам. Агенты координируются через email: передают результаты, задают вопросы, обновляют статусы. Ты видишь всё в своём inbox, но вручную ничего не маршрутизируешь.

Работает как always-on daemon. Закрыл ноутбук — агенты продолжают работать. Вернулся — задачи уже выполнены.

Общая память между всеми агентами. Каждый агент знает, над чем работали остальные. Не нужно заново объяснять контекст. После завершения каждой задачи Alook логирует удачные подходы и формирует SOP’ы. Со временем вся команда становится эффективнее.

Поддерживает Claude Code, Codex и OpenCode. Можно комбинировать разные системы или запускать несколько агентов в одном runtime.

Встроенные Kanban-доски для трекинга задач. Календарь для планирования. Email для всей коммуникации. Агенты сами подхватывают задачи, обновляют свои календари и закрывают issue после выполнения.

С агентами можно общаться через чат или email, как с любым AI-инструментом. Runtime устанавливается один раз и дальше работает в фоне. После настройки терминал больше не нужен.

Ключевые возможности:

• Координация агентов через email с реальными inbox’ами
• Структура организации с ролями и иерархией
• Общая память и самообучающиеся SOP’ы
• Always-on daemon для работы 24/7
• Поддержка Claude Code, Codex и OpenCode
• Встроенные Kanban, календарь и email
• Self-hosted и local-first

Полностью open source.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
5
«Calculus: Early Transcendentals» — отличный бесплатный учебник для формирования прочной базы по математическому анализу.

Книга написана понятным и доступным языком, при этом сохраняет необходимую математическую строгость. Она содержит большое количество примеров и задач, поэтому подходит как для самостоятельного изучения, так и для использования в учебном процессе.

В учебнике рассматривается широкий круг тем, включая:
• пределы;
• производные;
• интегралы;
• последовательности и ряды;
• дифференциальные уравнения;
• многомерный анализ.

Считаю эту книгу ещё одним ценным инструментом в арсенале любого, кто изучает математику.
Если вы студент и хотите освоить или повторить ключевые темы математического анализа либо преподаватель, ищущий новые идеи и альтернативные объяснения, этот учебник определённо заслуживает внимания.

https://open.umn.edu/opentextbooks/textbooks/415
https://github.com/antoniolupetti/algebrica

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
4
Утечка данных — одна из главных причин, почему ML-демо выглядят впечатляюще... а затем разваливаются в продакшене.

Модель не стала умнее.
Она просто случайно увидела правильные ответы заранее.

За 4 минуты вы поймёте, где скрываются утечки данных.

Давайте разберёмся

1. Утечка данных (Data Leakage)
Утечка данных возникает, когда в процессе обучения модели используется информация, которая не будет доступна в момент реального предсказания.
Из-за этого метрики на этапе валидации могут выглядеть значительно лучше, чем фактическое качество модели на новых, ранее не встречавшихся данных.

2. Цель оценки модели (Evaluation)
Тестовая выборка — это не просто «дополнительные данные».
Это симуляция будущего.
Обучайте модель только на той информации, которая была бы вам известна на момент предсказания.
Оценивайте её на примерах, на которые модель никак не могла повлиять в процессе обучения.

3. Прямая утечка данных (Direct Leakage)
Это самый очевидный вид утечки.

Примеры:
- поле с информацией из будущего;
- идентификатор (ID), в котором закодирована целевая переменная;
- переменная, появляющаяся только после наступления события;
- дубликаты записей одновременно в обучающей и тестовой выборках.
Если признак не существует в момент инференса (предсказания), то, скорее всего, он является источником утечки данных.

4. Косвенная утечка данных (Indirect Leakage)

Именно этот тип утечки чаще всего становится ловушкой для команд.
Вы выполняете нормализацию, заполнение пропусков, отбор признаков, удаление выбросов или снижение размерности до разделения данных на обучающую и тестовую выборки.
Модель напрямую не видела данные из тестовой выборки.
Но их уже увидел ваш пайплайн предобработки.

5. Разделение на обучающую и тестовую выборки (Train/Test Split):

Неправильно:
обучить (fit) скейлер на всех данных → разделить данные → провести оценку

Правильно:
разделить данные → обучить (fit) скейлер только на обучающей выборке → применить (transform) к обучающей и тестовой выборкам
Та же идея относится к импьютерам, энкодерам, отбору признаков, PCA и любому этапу предобработки, который обучается на данных.

6. Кросс-валидация (Cross-Validation):

Каждый фолд — это мини-эксперимент с обучающей и тестовой выборками.
Поэтому предобработка должна выполняться внутри каждого фолда.
Если вы один раз подготовили весь датасет, а затем запустили кросс-валидацию, то каждый фолд уже получил доступ к своим отложенным данным.

7. Пайплайны (Pipelines):

Пайплайн — это не просто способ сделать код чище.
Это ещё и защита от утечки данных.
Объедините предобработку, отбор признаков и модель в один пайплайн, а затем передайте этот пайплайн в кросс-валидацию или поиск гиперпараметров (grid search).

8. Версия для AI Engineering:
Утечки данных встречаются и в RAG-системах, и при оценке LLM.
Утечка возникает, когда вы настраиваете чанки, промпты, реранкеры, пороговые значения или примеры на том же наборе данных для оценки, который позже представляете как «отложенный» (held-out).
В результате ваш бенчмарк превращается в обучающие данные.

9. Чек-лист по поиску утечек данных (Leakage Checklist):

Прежде чем доверять полученной метрике, задайте себе вопросы:
Мог бы этот признак существовать в момент предсказания?
Не был ли какой-либо этап преобразования (transform) обучен (fit) на тестовых данных?
Включала ли кросс-валидация весь пайплайн целиком?
Не подбирали ли мы параметры на финальном наборе данных для оценки?
Если ответ «да», то метрика, скорее всего, не отражает реального качества модели.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍2
Обучение LLM с миллиардами параметров с нуля на одной видеокарте.

Большинство считает, что для обучения LLM нужны дата-центр и миллионы долларов.

Этот репозиторий показывает, что это не всегда так.

В нём подробно разобран процесс создания и обучения GPT-подобных моделей с нуля, включая техники, которые делают обучение крупных моделей возможным даже на потребительском железе.

От токенизации до приёмов распределённого обучения — всё открыто и доступно в исходном коде.
→ Создание GPT-подобных моделей с нуля
→ Практики эффективного обучения на ограниченных ресурсах
→ Токенизация, архитектура модели и пайплайн обучения
→ Методы масштабирования и оптимизации обучения
→ Полностью open-source

GitHub: https://github.com/FareedKhan-dev/train-llm-from-scratch

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
7
БЕСПЛАТНЫЕ книги MIT по AI и Machine Learning:

1. Foundations of Machine Learning cs.nyu.edu/~mohri/mlbook/
2. Understanding Deep Learning udlbook.github.io/udlbook/
3. Introduction to Machine Learning Systems ❯ Vol 1: mlsysbook.ai/vol1/assets/do ❯ Vol 2: mlsysbook.ai/vol2/assets/do
4. Algorithms for ML algorithmsbook.com
5. Deep Learning deeplearningbook.org
6. Reinforcement Learning andrew.cmu.edu/course/10-703/
7. Distributional Reinforcement Learning direct.mit.edu/books/oa-monog
8. Multi Agent Reinforcement Learning marl-book.com
9. Agents in the Long Game of AI direct.mit.edu/books/oa-monog
10. Fairness and Machine Learning fairmlbook.org
11. Probabilistic Machine Learning
❯ Part 1 : probml.github.io/pml-book/book1
❯ Part 2 : probml.github.io/pml-book/book2

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6
«Algebra 2» — ещё один полностью бесплатный учебник, охватывающий значительную часть алгебры как на довузовском, так и на начальном университетском уровне.

Объёмом более 1100 страниц и с большим количеством разобранных примеров, практических задач и упражнений, он охватывает линейные уравнения, квадратные уравнения, полиномиальные уравнения, рациональные уравнения, иррациональные уравнения, показательные и логарифмические уравнения, системы уравнений, неравенства и многие фундаментальные концепции, лежащие в основе алгебры.

На мой взгляд, это один из самых полных бесплатных ресурсов для изучения теории уравнений и алгебраических методов, с которыми обычно сталкиваются в первые годы обучения в университете.

Источник: https://openstax.org/details/books/algebra-and-trigonometry-2e

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53
Единственный чит-лист по LLM, который вам когда-либо понадобится

Охватывает основные концепции, архитектуры и практические применения.

LLM Cheatsheet (Google Drive)

Основы
Токены (токенизация, BPE)
Эмбеддинги (косинусное сходство)
Механизм внимания (формула Attention, Multi-Head Attention)


Архитектура Transformer и её разновидности
BERT (модели только с энкодером)
GPT (модели только с декодером)
T5 (модели с энкодером и декодером)


Большие языковые модели (LLM)
Промптинг (длина контекста, Chain-of-Thought)
Дообучение (SFT, PEFT/LoRA)
Настройка предпочтений (Reward Model, Reinforcement Learning)
Оптимизации (Mixture of Experts, Distillation, Quantization)


Применение
LLM-as-a-Judge (LaaJ)
RAG (Retrieval-Augmented Generation)
Агенты (ReAct)
Рассуждающие модели (Scaling)


👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
6
Математическое моделирование обычно начинается с пустого листа.

Этот проект решил, что так быть не должно.

MM-Agent использует LLM-агентов для решения реальных задач математического моделирования: от размытого условия задачи до готовой модели, вычислений и оформленного отчёта.

Что умеет:

• Разбирает условие задачи и выделяет ключевые требования

• Формулирует допущения и строит математическую модель

• Генерирует код для вычислений и дорабатывает его по ходу решения

• Использует HMML (Hierarchical Mathematical Modeling Library) с 98 готовыми шаблонами моделей

• Автоматически собирает итоговый отчёт

• Можно запустить локально: Next.js, FastAPI, SQLite, BYOK и старт одной командой

Сейчас поддерживаются GPT-4o и DeepSeek-R1.

По сути это попытка собрать «Claude Code для математического моделирования», где агент не просто пишет формулы, а проходит весь путь от постановки задачи до финального отчёта.

Бесплатный публичный репозиторий на GitHub: https://github.com/usail-hkust/LLM-MM-Agent

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
«Fundamentals of Matrix Algebra» — это бесплатный учебник, который даёт хорошее введение в теорию матриц.

Он охватывает операции над матрицами, обратные матрицы, определители, системы линейных уравнений, собственные значения и собственные векторы, а также линейные преобразования. Материал сопровождается понятными объяснениями и большим количеством разобранных примеров.

Матрицы играют фундаментальную роль не только в математике, но и в компьютерных науках, машинном обучении, оптимизации и анализе данных.

Многие современные AI-системы построены на масштабном использовании матричных операций. Например, архитектуры Transformer, лежащие в основе больших языковых моделей (LLM), активно используют умножение матриц для эффективной обработки эмбеддингов, механизмов внимания (attention) и слоёв нейронных сетей.

Бесплатный учебник:
https://open.umn.edu/opentextbooks/textbooks/675

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
Если хотите наконец разобраться, как нейросети на самом деле обучаются, рекомендую эти заметки из Stanford CS224N.

"Computing Neural Network Gradients" объясняет вычисление градиентов и backpropagation без блэк-бокс формул.

Внутри:
• Chain Rule
• Computational Graphs
• Векторизованные производные
• Эффективное вычисление градиентов
• Пошаговые примеры с разбором формул

Многие используют PyTorch или TensorFlow каждый день, но никогда не разбирались, что происходит после вызова .backward().

Эти заметки как раз закрывают этот пробел.

PDF:
https://web.stanford.edu/class/cs224n/readings/gradient-notes.pdf

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
5😁1
Пополняем список фри курсов: https://github.com/dair-ai/ML-Course-Notes

Если изучаете ML по десяткам случайных вкладок и незакрытым плейлистам, этот репозиторий может навести порядок.

Machine Learning Course Notes — это открытая коллекция конспектов по машинному обучению, NLP и AI, собранная вокруг полноценных курсов, а не отдельных видео.

Что внутри:

• Курсы от Machine Learning Specialization, MIT 6.S191, CMU Neural Nets for NLP, CS224N, CS25 и других
• Таблица с лекциями, описаниями, видео, конспектами и авторами
• Ссылки на оригинальные лекции и сопутствующие заметки
• Пометки WIP для незавершённых материалов
• Инструкция для контрибьюторов с процессом добавления и улучшения конспектов

Мне понравилась сама идея.

Вместо очередной подборки из сотни ссылок здесь получилась карта курсов, по которой можно проходить материал последовательно и не теряться через неделю обучения.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
4
9 мер расстояния, которые часто используются в Data Science и ML

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
9