Заметки про CS

Можно ли дважды натренировать одну и ту же нейронную сеть? Исследование воспроизводимости и двойного спуска с точки зрения границы решения

arXiv:2203.08124

В статье предлагается интересный способ визуализации результатов работы нейронной сети, который позволяет получить представление о границах, разделяющих разные классы (по предсказанию сети). На базе этого способа авторы сравнивают конфигурацию границ классов для сетей различных архитектур, оценивают устойчивость сети одной и той же архитектуры при тренировки с разными начальными весами. Наконец, смотрят как меняется конфигурация областей классов, когда сложность сети меньше, близка и больше интерполяционного порога, что возвращает нас к ситуации двойного спуска

Читать дальше...

👍1

445 views09:00

Заметки про CS

Управляемая совместная тренировка для попиксельного полуконтролируемого обучения.

arXiv:2008.05258

После появления нейронных сетей особенно глубоких, основная проблема "где найти размеченный датасет для решаемой задачи?". Особенно остро такая проблема стоит во всевозможных задачах компьютерного зрения. И если для детектирования и классификации изображений разметка датасета штука крайне недешевая, то для семантической сегментации, удаления шума и прочих удалений отражений разметка датасета может стоить просто дико дорого.

Поэтому приходится каким-то образом ловчить и приспосабливаться. Можно, например, генерировать синтетический датасет (это хорошо получается, если учесть развитие всевозможных игровых движкоd), и тренировать сетку на нем, одновременно, решая задачу domain adaptation, согласуя синтетические данные с реальными.

Другой подход - это так называемое полуконтролируемое обучение (semi-supervised learning). В этом случае разметку имеет не весь датасет, а только его часть, но неразмеченные данные также используются в процессе обучения. Этот метод широко используется в задачах классификации. Однако, для пиксельных задач: семантической сегментации, удаления шума, улучшение ночных фотографий и т.п., подходы применяемые в классификации не применимы.

Сегодня разберем статью, в которой автор предлагают SSL методику для решения пиксельных задач.

Читать дальше...

arXiv.org

Guided Collaborative Training for Pixel-wise Semi-Supervised Learning

We investigate the generalization of semi-supervised learning (SSL) to diverse pixel-wise tasks. Although SSL methods have achieved impressive results in image classification, the performances of...

👍1

409 views09:00

Заметки про CS

Нормализация в нейронных сетях.

В своё время мы разбирались с batch normalization, заметив, что ее использование приносит большую пользу при тренировке. В этот раз попробуем собрать вместе несколько (все, которые мне известны на данный момент) вариантов нормализации признаков.

Читать дальше...

👍6

383 views09:00

Заметки про CS

Не удержусь прорекламировать:

https://arxiv.org/pdf/2402.09092.pdf

Отличная статья - 100 страниц различных функций активации, начиная с сигмоиды и гиперболического тангеса и до всевозможной экзотики. Все это со ссылками на статьи, где эти функции предлагались.

Отличный получился справочник.

👍2

354 views17:10

Заметки про CS

Feature Pyramid Networks for Object Detection

arXiv:1612.03144

Статье уже 8 лет, т.е. по нынешним быстробегущим временам написана была давным давно. Однако, техника, описанная в статье применяется в разных местах до сих пор. Собственно, чего бы ей не применяться, если по сути это тот же классический подход, который использовался при решении задачи детектирования объектов во времена, когда сверточные сети еще не завоевали мир, а в ходу были вручную придуманные признаки.

Читать дальше...

arXiv.org

Feature Pyramid Networks for Object Detection

Feature pyramids are a basic component in recognition systems for detecting objects at different scales. But recent deep learning object detectors have avoided pyramid representations, in part...

318 views09:00

Заметки про CS

Dropout в нейронных сетях.

Сегодня поговорим об одном методе борьбы с переобучением нейронных сетей. Статья [1], где этот метод был впервые описан вышла в 2012 году, и рассказывала о Dropout в применении к обычным нейронным сетям (т.е. состоящим из полносвязных слоёв). Рецепт выглядел достаточно просто: давайте на каждом шаге тренировки случайным образом выключать часть нейронов, однако, результаты получались очень не плохие.

В дальнейшем, методика развивалась, как в сторону уточнений вида: "какой процент нейронов отключать на каждом этапе тренировки?" или "какие именно нейроны выключать с большей вероятностью?". Так и в сторону применения данной методики не только к полносвязным слоям, но и к свёрточным или рекуррентным сетям.

Читать дальше...

👍4

298 viewsedited 09:00

Заметки про CS

Dimensionality Reduction by Learning an Invariant Mapping

Это базовая статья 2006 года по contrastive loss.

В статье решается задача представления многомерных данных (например, изображений) на многообразии малой размерности. Для этого авторы конструируют новый метод, который они назвали Dimensionality Reduction by Learning an Invariant Mapping (DrLIM), заявляя для этого метода следующие свойства:

Читать дальше...

👍6

188 views10:40

Заметки про CS

Noise-contrastive estimation. A new estimation principle for unnormalized statistical models

В статье авторы предлагают метод восстановления параметров распределения по выборке. Особо погружаться интереса нет, хочется пробежаться по верхам и ознакомится с методикой, потому что ей много где пользуются.

Читать дальше...

👍2

191 views09:00

Заметки про CS

Colorful Image Colorization

arXiv:1603.08511

Статья про то как раскрашивать черно-белые изображения. Очевидно, что никакого однозначного решения тут нет, т.е. трава обычно зеленая, а небо голубое, но, например, машина может быть практически любого цвета хоть желтого, хоть розового. Часто задачу раскрашивания решают в полуавтоматическом режиме, т.е. человек "натыкивает" точки с цветами, а алгоритм продолжает эти цвета на всё изображение. Авторы предлагают полностью автоматическое решение.

Читать дальше...

arXiv.org

Colorful Image Colorization

Given a grayscale photograph as input, this paper attacks the problem of hallucinating a plausible color version of the photograph. This problem is clearly underconstrained, so previous approaches...

👍5

209 views09:00

Заметки про CS

Unsupervised Visual Representation Learning by Context Prediction

arXiv:1505.05192

В статье представлен способ претренировки свёрточной нейронной сети, на неразмеченном датасете из изображений. Основная задача авторов, получить такие начальные веса свёрточной сети, которые позволят в дальнейшем натренировать уже конкретную сеть для классификации или детектирования лучше, чем если начинать просто со случайных весов.

Читать дальше...

arXiv.org

Unsupervised Visual Representation Learning by Context Prediction

This work explores the use of spatial context as a source of free and plentiful supervisory signal for training a rich visual representation. Given only a large, unlabeled image collection, we...

👍3

287 views09:00

Заметки про CS

Multi-Dimensional Recurrent Neural Networks

arXiv:0705.2011

Мы достаточно подробно обсуждали рекуррентные нейронные сети. Однако, все они рассматривались применительно к последовательности (одномерной) элементов. Сегодня разберем статью, где предлагается добавить измерений входному набору.

Читать дальше...

arXiv.org

Multi-Dimensional Recurrent Neural Networks

Recurrent neural networks (RNNs) have proved effective at one dimensional sequence learning tasks, such as speech and online handwriting recognition. Some of the properties that make RNNs suitable...

👍3

303 views09:00

Заметки про CS

https://arxiv.org/abs/2509.20328v1

познавательное. Сетка по промту и начальной картинке генерирует видео, последний кадр которого может, например, решать задачу выделения ребер, удаления бэкграунда и т. п. А еще, например, отыскивать синий шар на картинке с синими и красными шарами и кубиками или решать судоку или проходить лабиринт.

Прелесть статьи в простоте изложения и большом наборе визуальных примеров.

arXiv.org

Video models are zero-shot learners and reasoners

The remarkable zero-shot capabilities of Large Language Models (LLMs) have propelled natural language processing from task-specific models to unified, generalist foundation models. This...

👍3

89 views20:22

About

Blog

Apps

Platform