Откуда берется MSE?
При решении задач регрессии чаще всего «по умолчанию» используют mean squared error (MSE). То есть в качестве меры близости идеального вектора y и предсказанного y’ используют величину:
MSE = ∑ (yⱼ − y’ⱼ)² / n
Чем эта величина меньше, тем лучше.
Никогда не задумывались почему именно квадраты? Почему не модули и не четвертая степень?
Чаще всего выбор MSE объясняют простой геометрической интерпретацией. Два вектора представляются в виде точек в n-мерном евклидовом пространстве и измеряется расстояние между ними. Не смотря на красивую интерпретацию, никакого статистического смысла у такого объяснения нет.
Все дело в модели. При решении регрессионных задач обычно используется модель с нормальным аддитивным шумом:
y = f(x, θ) + ε
x — вектор независимых переменных;
y — зависимая переменная;
θ — вектор параметров модели;
ε — случайная величина с нормальным распределением 𝒩(ε | 0, σ).
Перепишем в терминах вероятностей:
p(y | x, θ) = 𝒩(y | f(x, θ), σ)
После того, как модель задана, делается предположение о независимости появления каждого из наблюдений и применяется метод максимального правдоподобия (Maximum likelihood estimation, MLE). Находятся такие параметры модели θ, при которых появление наблюдений наиболее вероятно.
Так вот, для заданной выше модели, максимизация правдоподобия эквивалентна минимизации среднеквадратической ошибки. Проверить не сложно, попробуйте расписать MLE и прологарифмировать.
Вывод: MSE — следствие применения MLE и регрессионной модели с аддитивным гауссовским шумом. Никакие геометрические интерпретации здесь ни при чем.
#dainamicskills
При решении задач регрессии чаще всего «по умолчанию» используют mean squared error (MSE). То есть в качестве меры близости идеального вектора y и предсказанного y’ используют величину:
MSE = ∑ (yⱼ − y’ⱼ)² / n
Чем эта величина меньше, тем лучше.
Никогда не задумывались почему именно квадраты? Почему не модули и не четвертая степень?
Чаще всего выбор MSE объясняют простой геометрической интерпретацией. Два вектора представляются в виде точек в n-мерном евклидовом пространстве и измеряется расстояние между ними. Не смотря на красивую интерпретацию, никакого статистического смысла у такого объяснения нет.
Все дело в модели. При решении регрессионных задач обычно используется модель с нормальным аддитивным шумом:
y = f(x, θ) + ε
x — вектор независимых переменных;
y — зависимая переменная;
θ — вектор параметров модели;
ε — случайная величина с нормальным распределением 𝒩(ε | 0, σ).
Перепишем в терминах вероятностей:
p(y | x, θ) = 𝒩(y | f(x, θ), σ)
После того, как модель задана, делается предположение о независимости появления каждого из наблюдений и применяется метод максимального правдоподобия (Maximum likelihood estimation, MLE). Находятся такие параметры модели θ, при которых появление наблюдений наиболее вероятно.
Так вот, для заданной выше модели, максимизация правдоподобия эквивалентна минимизации среднеквадратической ошибки. Проверить не сложно, попробуйте расписать MLE и прологарифмировать.
Вывод: MSE — следствие применения MLE и регрессионной модели с аддитивным гауссовским шумом. Никакие геометрические интерпретации здесь ни при чем.
#dainamicskills
Designing agent incentives to avoid reward tampering
AI-системы создаются такими, чтобы они хорошо решали свои задачи. Понятие «хорошо» определяется некоторой функцией. Что, если AI-система, в процессе обучения, найдёт лазейку и сумеет переписать эту функцию?
https://medium.com/@deepmindsafetyresearch/designing-agent-incentives-to-avoid-reward-tampering-4380c1bb6cd
AI-системы создаются такими, чтобы они хорошо решали свои задачи. Понятие «хорошо» определяется некоторой функцией. Что, если AI-система, в процессе обучения, найдёт лазейку и сумеет переписать эту функцию?
https://medium.com/@deepmindsafetyresearch/designing-agent-incentives-to-avoid-reward-tampering-4380c1bb6cd
Medium
Designing agent incentives to avoid reward tampering
By Tom Everitt and Ramana Kumar
On-Device, Real-Time Hand Tracking with MediaPipe
Распознавание жестов от Google.
https://ai.googleblog.com/2019/08/on-device-real-time-hand-tracking-with.html?m=1
Распознавание жестов от Google.
https://ai.googleblog.com/2019/08/on-device-real-time-hand-tracking-with.html?m=1
blog.research.google
On-Device, Real-Time Hand Tracking with MediaPipe
Таблица построения ядер
Использование ядер — оригинальный и эффективный трюк в машинном обучении. Идея проста: если в исходном признаковом пространстве прецеденты линейно неразделимы, можно попробовать повысить размерность пространства так, чтобы в новом пространстве прецеденты стали линейно разделимы. Осуществляются такие преобразования с помощью ядер: скалярное произведение в исходном пространстве ⟨x, x’⟩ заменяется ядром k(x, x’).
Существует набор стандартных способов построения ядер. Функция k(x, x’) будет ядром во всех нижеперечисленных случаях.
k(x, x’) =
= c ⋅ k₁(x, x’)
= f(x) ⋅ k₁(x, x’) ⋅ f(x’)
= q(k₁(x, x’))
= exp(k₁(x, x’))
= k₁(x, x’) + k₂(x, x’)
= k₁(x, x’) ⋅ k₂(x, x’)
= k₃(ϕ(x), ϕ(x’))
= t(x) ⋅ A ⋅ x’
= kₐ(xₐ, xₐ’) + kₑ(xₑ, xₑ’)
= kₐ(xₐ, xₐ’) ⋅ kₑ(xₑ, xₑ’)
Здесь:
k₁(x, x’) и k₂(x, x’) — ядра;
kₐ(xₐ, xₐ’) и kₑ(xₑ, xₑ’) — ядра;
x = (xₐ, xₑ);
c — положительная константа;
f(⋅) — произвольная функция;
q(⋅) — полином с неотрицательными коэффициентами;
ϕ(x) — функция, отображающая x в ℝⁿ;
k₃(⋅, ⋅) — ядро в ℝⁿ;
A — симметричная положительно полуопределенная матрица.
#dainamicskills
Использование ядер — оригинальный и эффективный трюк в машинном обучении. Идея проста: если в исходном признаковом пространстве прецеденты линейно неразделимы, можно попробовать повысить размерность пространства так, чтобы в новом пространстве прецеденты стали линейно разделимы. Осуществляются такие преобразования с помощью ядер: скалярное произведение в исходном пространстве ⟨x, x’⟩ заменяется ядром k(x, x’).
Существует набор стандартных способов построения ядер. Функция k(x, x’) будет ядром во всех нижеперечисленных случаях.
k(x, x’) =
= c ⋅ k₁(x, x’)
= f(x) ⋅ k₁(x, x’) ⋅ f(x’)
= q(k₁(x, x’))
= exp(k₁(x, x’))
= k₁(x, x’) + k₂(x, x’)
= k₁(x, x’) ⋅ k₂(x, x’)
= k₃(ϕ(x), ϕ(x’))
= t(x) ⋅ A ⋅ x’
= kₐ(xₐ, xₐ’) + kₑ(xₑ, xₑ’)
= kₐ(xₐ, xₐ’) ⋅ kₑ(xₑ, xₑ’)
Здесь:
k₁(x, x’) и k₂(x, x’) — ядра;
kₐ(xₐ, xₐ’) и kₑ(xₑ, xₑ’) — ядра;
x = (xₐ, xₑ);
c — положительная константа;
f(⋅) — произвольная функция;
q(⋅) — полином с неотрицательными коэффициентами;
ϕ(x) — функция, отображающая x в ℝⁿ;
k₃(⋅, ⋅) — ядро в ℝⁿ;
A — симметричная положительно полуопределенная матрица.
#dainamicskills
A Topology Layer for Machine Learning
Топологические свойства распределений прецедентов редко используются в машинном обучении. Причина — сложность применения градиентных методов. TopologyLayer призван решить эту проблему.
http://ai.stanford.edu/blog/topologylayer/
Топологические свойства распределений прецедентов редко используются в машинном обучении. Причина — сложность применения градиентных методов. TopologyLayer призван решить эту проблему.
http://ai.stanford.edu/blog/topologylayer/
SAIL Blog
A Topology Layer for Machine Learning
Topology is a combinatorial property that is tricky to utilize in gradient based methods, but it is also a useful and underexploited feature of data. We present an easy-to-use TopologyLayer that allows for backpropagation through a loss based on Persistent…
Модель vs данные
Всего за несколько лет мир машинного обучения изменился.
Ещё пять лет назад конкуренция выигрывалась моделями и алгоритмами. Побеждал тот, у кого ML-модель и алгоритм обучения были удачнее.
Сегодня модели и алгоритмы у Google, Amazon и у стартапа из трёх человек примерно одинаковые. Практически любая state-of-the-art архитектура доступна абсолютно всем. Теперь конкуренция выигрывается качественными датасетами и грамотно построенной инфраструктурой для их сбора, обновления и перетренировки моделей.
#dainamicskills
Всего за несколько лет мир машинного обучения изменился.
Ещё пять лет назад конкуренция выигрывалась моделями и алгоритмами. Побеждал тот, у кого ML-модель и алгоритм обучения были удачнее.
Сегодня модели и алгоритмы у Google, Amazon и у стартапа из трёх человек примерно одинаковые. Практически любая state-of-the-art архитектура доступна абсолютно всем. Теперь конкуренция выигрывается качественными датасетами и грамотно построенной инфраструктурой для их сбора, обновления и перетренировки моделей.
#dainamicskills
Нелинейный SVM и ядерный трюк
Существует замечательное обобщение SVM для случая нелинейной разделимости классов — SVM с ядрами. Идея состоит в том, чтобы при помощи некоторого нелинейного преобразования так повысить размерность пространства признаков, чтобы в новом пространстве классы стали линейно разделимы.
Интересная особенность — само нелинейное повышение размерности пространства не обязательно осуществлять в явном виде. Не нужно пересчитывать новые координаты (признаки) объектов. Нелинейное преобразование осуществляется неявно при помощи так называемого ядерного трюка — в алгоритме SVM все скалярные произведения ⟨x, x’⟩ просто заменяются функцией выбранного ядра k(x, x’). Именно благодаря этой особенности нелинейный SVM становится вычислительно эффективным.
Можно пойти еще дальше и применить ядерный трюк к объектам вообще без признаков. Нелинейному (и линейному тоже) SVM признаки в явном виде не нужны, нужна лишь функция ядра, обладающая свойствами (удовлетворяющая аксиомам) скалярного произведения.
#dainamicskills
Существует замечательное обобщение SVM для случая нелинейной разделимости классов — SVM с ядрами. Идея состоит в том, чтобы при помощи некоторого нелинейного преобразования так повысить размерность пространства признаков, чтобы в новом пространстве классы стали линейно разделимы.
Интересная особенность — само нелинейное повышение размерности пространства не обязательно осуществлять в явном виде. Не нужно пересчитывать новые координаты (признаки) объектов. Нелинейное преобразование осуществляется неявно при помощи так называемого ядерного трюка — в алгоритме SVM все скалярные произведения ⟨x, x’⟩ просто заменяются функцией выбранного ядра k(x, x’). Именно благодаря этой особенности нелинейный SVM становится вычислительно эффективным.
Можно пойти еще дальше и применить ядерный трюк к объектам вообще без признаков. Нелинейному (и линейному тоже) SVM признаки в явном виде не нужны, нужна лишь функция ядра, обладающая свойствами (удовлетворяющая аксиомам) скалярного произведения.
#dainamicskills
Мы с друзьями запускаем новый стартап. Цель — научить AI творить. Новостями и AI-работами будем делиться здесь: instagram.com/sotaplus. Подписывайтесь.
SOTA+ can generate glyphs consisting of line segments and cubic Bézier curves.
https://instagram.com/p/CHsqUEtJbgw
https://instagram.com/p/CHsqUEtJbgw