AI Для Всех

How Can Increased Randomness in Stochastic Gradient Descent Improve Generalization?

В недавних работах сообщается, что увеличение скорости обучения или уменьшение размера минимального батча в стохастическом градиентном спуске (SGD) может улучшить производительность на тесте. Авторы утверждают, что это ожидаемо при некоторых условиях в моделях с функцией потерь с несколькими локальными минимумами. Предлагается использовать приближенный, но аналитический подход, вдохновленный методами физики, для изучения роли скорости обучения SGD и размера батча в генерализации.

Авторы характеризуют производительность на тесте при сдвиге (data shift) между распределениями обучающих и тестовых данных для функций потерь с несколькими минимумами. Сдвиг может быть вызван просто выборкой и поэтому обычно присутствует в практических приложениях.

Оказывается, что вызванное этим сдвигом смещение локальных минимумов ухудшает производительность теста.

Еще показывают, что скорость обучения, деленная на размер минимального батча, играет роль, аналогичную температуре в статистической механике, и подразумевает, что СГД, включая его стационарное распределение, в значительной степени инвариантен к изменениям скорости обучения или размера батча, которые оставляют его температуру постоянной. Авторы показывают, что повышение температуры SGD способствует выбору локальных минимумов с меньшей кривизной и может обеспечить лучшее обобщение.

arXiv

#theory #training

208 viewsArtemii, edited 16:01

AI Для Всех

How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers (Google AI)

Visual Transformers (ViT) показали, что они достигают высокой конкурентоспособности в широком спектре задач зрения, таких как классификация изображений, обнаружение объектов и семантическая сегментация. По сравнению со сверточными нейронными сетями, более слабый индуктивный баес трансформатора зрения обычно приводит к увеличению зависимости от регуляризации модели или аугментации данных ("AugReg" для краткости) при обучении на небольших наборах данных. В статье проводится систематическое эмпирическое исследование взаимосвязанности между количеством обучающих данных, AugReg, размером модели и вычислительным бюджетом.

В результате этого исследования обнаружили, что сочетание увеличения вычислительных ресурсов и AugReg может выдавать модели с такой же производительностью, что и модели, обученные на значительно большем количестве обучающих данных.

arXiv

#transformer #images #training #theory

219 viewsArtemii, edited 15:14

AI Для Всех

Максим Рябинин из Yandex Research рассказал на Хабре о новом подходе к обучению больших нейросетей — DeDLOC. Технология не требует дата-центра с сотнями мощных видеокарт — вместо этого объединяются компьютеры волонтёров.

Это совместная научная работа исследователей Яндекса, Hugging Face, студентов ШАД, ВШЭ и МФТИ, а также профессора Университета Торонто. Модель и код доступны всем — вы можете применить их для своих проектов

Habr

#training

221 viewsArtemii, edited 06:32

AI Для Всех

Train short. Test long. Attention with linear biases enables input length extrapolation. (Facebook AI)

Ещё со времён появления первых трансформеров остается открытым фундаментальный вопрос: как добиться экстраполяции на более длинные последовательности, чем те, на которых сеть обучалась?

Авторы описывают простой и эффективный метод, Attention with Linear Biases (ALiBi), который позволяет проводить такую экстраполяцию. ALiBi не добавляет позиционные эмбединги к эмбедингам слов; вместо этого it biases the query-key attention scores with a term that is proportional to their distance.

Авторы показывают, что этот метод позволяет обучить модель с 1,3 миллиардами параметров на входных последовательностях длиной 1024, которая экстраполируется на входные последовательности длиной 2048, достигая той же сложности, что и синусоидальная модель позиционных эмбедингов, обученная на входных данных длиной 2048, на 11% быстрее и используя на 11% меньше памяти. Индуктивный баес ALiBi в сторону рекуррентности позволяет ему превзойти несколько сильных позиционных методов на эталоне WikiText-103.

Статья
GitHub
Видео-разбор от Яника

#training #transformer

223 viewsArtemii, edited 07:50

AI Для Всех

Differentiable Prompt Makes Pre-trained Language Models Better Few-shot Learners

Огромные предобученные языковые модели внесли значительный вклад в обработку естественного языка. Однако их эффективность зависит в основном от масштабирования параметров модели, что препятствует их применению в большинстве реальных приложений. В этом исследовании предлагается новый масштабируемый и эффективный подход, названный DifferentiAble pRompT (DART).

Основной принцип этого подхода заключается в переформулировании потенциальных задач обработки естественного языка в задачи предобучения языковой модели и дифференциальной оптимизации шаблона подсказки и целевой метки с помощью обратного распространения. Кроме того, предложенный подход может быть: (i) использован с любыми предобученными языковым моделями; (ii) расширен на задачи классификации.

Статья

#nlp #training #prompting

180 viewsArtemii, edited 16:36

AI Для Всех

Accelerate PyTorch models with ONNX Runtime

ONNX Runtime for PyTorch ускоряет обучение моделей PyTorch с помощью ONNX Runtime.

Он доступен через пакет torch-ort python. ONNX Runtime for PyTorch дает вам возможность ускорить обучение больших трансформеров. Время и стоимость обучения сокращаются всего лишь за счет изменения одной строки кода.

GitHub

#code #training #speed

224 viewsArtemii, edited 06:19

AI Для Всех

High-Dimensional Bayesian Optimisation with Variational Autoencoders and Deep Metric Learning

Метод, основанный на глубоком метрическом обучении, для выполнения байесовской оптимизации над высокоразмерными структурированными входными пространствами с использованием вариационных автоэнкодеров (VAE). Авторы решают давнюю проблему в байесовской оптимизации для высокоразмерных VAE, а именно, как обеспечить дискриминативное латентное пространство в качестве индуктивного баеса.

Статья

#theory #training #baes #autoencoders #ScientificML

200 viewsArtemii, edited 16:33

AI Для Всех

The Devil is in the Detail: Simple Tricks Improve Systematic Generalization of Transformers (Шмидтхубер)

В последнее время было предложено множество наборов данных для проверки способности нейронных сетей к систематическому обобщению. Базовые трансформеры, обычно обучаемые с гиперпараметрами по умолчанию на основе стандартных задач, с обобщением не справляются.

В статье демонстрируется, что, пересмотрев такие базовые конфигурации модели, как масштабирование embeddings, early stopping, relative positional embeddings и универсальные варианты трансформеров, мы можем значительно улучшить обобщающую способность трансформеров.

Авторские модели повышают точность с 50% до 85% в наборе PCFG и с 35% до 81% в наборе COGS. Важно отметить, что различия в производительности между этими моделями, как правило, незаметны на срезе данных IID. Это говорит о том, что для разработки нейронных сетей, которые обобщают систематически, необходимо использовать соответствующие валидационные наборы для обобщения.

Статья
Код
Видео

#training #transformer

175 viewsArtemii, edited 17:20

AI Для Всех

Finetuned Language Models Are Zero-Shot Learners (Google AI)

В этой статье рассматривается простой метод улучшения способности языковых моделей к обучению "zero shot".

Авторы берут предварительно обученную языковую модель с 137B параметров и тюнят ее на более чем 60 задачах НЛП, вербализованных с помощью шаблонов инструкций на естественном языке.

Эта модель существенно улучшает производительность своего немодифицированного аналога и превосходит zero-shot 175B GPT-3 на 19 из 25 задач, которые оценивали авторы.

Статья

#nlp #gpt #training #generative

211 viewsArtemii, edited 07:25

AI Для Всех

Learning Fast Sample Re-weighting Without Reward Data (Google Cloud AI)

Перевзвешивание обучающей выборки является эффективным подходом для борьбы с проблемами в данных, такими как несбалансированные и испорченные метки.

Существующие методы перевзвешивания выборок на основе обучения требуют вложенной оптимизации моделей и весовых параметров, что в свою очередь требует дорогостоящих вычислений. В этой работе представлен новый метод быстрого перевзвешивания выборки (FSR) на основе обучения, который не требует дополнительных данных о вознаграждении.

В основе метода лежат две ключевые идеи: обучение на основе истории для построения прокси-данных вознаграждения и совместное использование признаков для снижения стоимости оптимизации.

Предложенный метод достигает конкурентоспособных результатов по сравнению с современными методами в отношении устойчивости к шуму меток и распознавания длинных хвостов, и при этом достигает значительно более высокой эффективности обучения.

Статья
Код

#training #imbalance

261 viewsArtemii, 10:58

AI Для Всех

Смотрите какая крутая штука! Оказывается loss функцию можно показывать очень и очень красиво и артистично!

Больше крутых примеров 👉 https://losslandscape.com/gallery/

#images #generative #training

276 viewsArtemii, edited 15:53

AI Для Всех

Хорошая картинка в лекцию по dropout на тему "много их"

R-Drop: Regularized Dropout for Neural Networks

Развивая тему дропаутов - расскажу про ещё один.
В работе представляют простую стратегию регуляризации при дропауте в обучении модели, а именно R-Drop, которая заставляет выходные распределения различных подмоделей, сгенерированных при дропауте, быть согласованными друг с другом. В частности, для каждой обучающей выборки R-Drop минимизирует двунаправленное KL-расхождение между выходными распределениями двух подмоделей, отобранных при дропауте.

Статья
Код

#training

312 viewsArtemii, edited 16:23

About

Blog

Apps

Platform