Data Portal | DS & ML

Эта математика лежит в основе каждой AI-модели, которую сейчас обучают.

Градиент. Якобиан. Гессиан.

Три слова, которые сначала выглядят пугающе.

Но на самом деле это просто три способа измерять изменение.

𝟭. 𝗚𝗿𝗮𝗱𝗶𝗲𝗻𝘁 ∇f (градиент)

Берёт скалярную функцию:

f : ℝⁿ → ℝ

Возвращает вектор первых частных производных.

Он отвечает на вопрос:

«В каком направлении функция f растёт быстрее всего?»

Именно поэтому градиенты — основа оптимизации.

Градиентный спуск идёт в противоположную сторону, потому что градиент указывает направление наибольшего роста.

Backpropagation эффективно вычисляет градиенты во время обучения.

𝟮. 𝗝𝗮𝗰𝗼𝗯𝗶𝗮𝗻 J_F (якобиан)

Берёт векторнозначную функцию:

F : ℝⁿ → ℝᵐ

Возвращает матрицу m × n первых частных производных.

Он отвечает:

«Как каждый выход зависит от каждого входа?»

Якобиан — это локальное линейное отображение векторной функции.

Он встречается в:
→ анализе чувствительности
→ замене переменных
→ автоматическом дифференцировании
→ forward-mode AD
→ reverse-mode AD / backpropagation

В простых терминах:

forward-mode AD использует произведения якобиан–вектор.

reverse-mode AD использует произведения вектор–якобиан.

𝟯. 𝗛𝗲𝘀𝘀𝗶𝗮𝗻 H_f (гессиан)

Берёт скалярную функцию:

f : ℝⁿ → ℝ

Возвращает матрицу n × n вторых частных производных.

Он отвечает:

«Как меняется сам градиент?»

То есть гессиан измеряет кривизну.

Когда вторые частные производные непрерывны, гессиан симметричен.

В критической точке:
→ положительно определённый гессиан → строгий локальный минимум
→ отрицательно определённый гессиан → строгий локальный максимум
→ неопределённый гессиан → седловая точка

Чистая ментальная модель

Градиент = первые производные одного выхода
→ показывает направление

Якобиан = первые производные многих выходов
→ показывает чувствительность

Гессиан = вторые производные одного выхода
→ показывает кривизну

И связь между ними проста:
Гессиан — это якобиан градиента.

Для скалярного выхода якобиан содержит те же частные производные, что и градиент, с точностью до соглашения о строках/столбцах.

Одна и та же идея:
измерение изменения.

Разные объекты:
направление, чувствительность, кривизна.

Когда это становится понятным, оптимизация перестаёт выглядеть как набор формул.

Она начинает выглядеть как карта задачи.

👉

@DataSciencegx

Please open Telegram to view this post