An Image Patch is a Wave: Phase-Aware Vision MLP
В отличие от сверточных нейросетей (CNN) и визуальных трансформеров (ViT), многослойные перцептрон (MLP) - это вид моделей с чрезвычайно простой архитектурой, которая складывается только из линейных слоев. Входное изображение для зрительной MLP обычно разбивается на несколько патчей.
В статье предлагается представить каждый патч в виде волновой функции с двумя частями - амплитудой и фазой. Амплитуда - это исходная характеристика, а фаза - комплексное значение, изменяющееся в зависимости от семантического содержания входных изображений.
Основываясь на волновом представлении патчей, авторы создали новую архитектуру Wave-MLP для задач зрения.
Wave-MLP превосходит современные архитектуры MLP в различных задачах зрения, таких как классификация изображений, обнаружение объектов и семантическая сегментация.
📎 Статья
#MLP #images
В отличие от сверточных нейросетей (CNN) и визуальных трансформеров (ViT), многослойные перцептрон (MLP) - это вид моделей с чрезвычайно простой архитектурой, которая складывается только из линейных слоев. Входное изображение для зрительной MLP обычно разбивается на несколько патчей.
В статье предлагается представить каждый патч в виде волновой функции с двумя частями - амплитудой и фазой. Амплитуда - это исходная характеристика, а фаза - комплексное значение, изменяющееся в зависимости от семантического содержания входных изображений.
Основываясь на волновом представлении патчей, авторы создали новую архитектуру Wave-MLP для задач зрения.
Wave-MLP превосходит современные архитектуры MLP в различных задачах зрения, таких как классификация изображений, обнаружение объектов и семантическая сегментация.
📎 Статья
#MLP #images
Укатил на выходные в Амстердам, пока меня нет, почитайте про то, как Яндекс пилит свои беспилотники или про то, как Andrej Karpathy (Tesla AI) восхищается Copilot
Хабр
Как Яндекс делает обычные автомобили беспилотными
Привет, меня зовут Антон Чистяков. Пару лет назад я работал в хелпдеске Яндекса и даже писал здесь про то, как мы придумали вендомат с аксессуарами. Теперь отвечаю за сборку беспилотных автомобилей и...
Illustrated BERT
Пока я все ещё в дороге, почитайте этот прекрасный иллюстрированный обзор на BERT и ELMo. Это ваш шанс наконец-то разобраться о чем речь and why should you care.
Пока я все ещё в дороге, почитайте этот прекрасный иллюстрированный обзор на BERT и ELMo. Это ваш шанс наконец-то разобраться о чем речь and why should you care.
Forwarded from AbstractDL
This media is not supported in your browser
VIEW IN TELEGRAM
GradInit: перебор гиперпараметров оптимизатора и warmup больше не нужны (by Google)
В гугл предложили супер крутой универсальный architecture-agnostic метод инициализации весов моделей.
Идея очень простая: добавить множители перед каждым блоком параметров и запустить по ним несколько итераций оптимизации лосса. Дальше эти множители фиксируем и учим модель как обычно. Такая инициализация не зависит от глубины и типа архитектуры (работает и на резнетах и на трансформерах) и почти полностью решает проблему взрывающихся\затухающих градиентов.
В итоге отпадает необходимость в переборе гиперпараметров оптимизатора, а трансформер вообще получилось обучить без warmup’a, что считалось практически невозможным. Как бонус, такая инициализация даёт небольшой буст на многих бенчмарках (и картиночных и текстовых).
Статья, GitHub
В гугл предложили супер крутой универсальный architecture-agnostic метод инициализации весов моделей.
Идея очень простая: добавить множители перед каждым блоком параметров и запустить по ним несколько итераций оптимизации лосса. Дальше эти множители фиксируем и учим модель как обычно. Такая инициализация не зависит от глубины и типа архитектуры (работает и на резнетах и на трансформерах) и почти полностью решает проблему взрывающихся\затухающих градиентов.
В итоге отпадает необходимость в переборе гиперпараметров оптимизатора, а трансформер вообще получилось обучить без warmup’a, что считалось практически невозможным. Как бонус, такая инициализация даёт небольшой буст на многих бенчмарках (и картиночных и текстовых).
Статья, GitHub
PolyViT: Co-training Vision Transformers on Images, Videos and Audio
Можно ли обучить один трансформер, который сможет обрабатывать множество модальностей и наборов данных, шэря при этом почти все обучаемые параметры?
Оказалось что да. Тут выкатили PolyViT - модель, обученную на изображениях, аудио и видео. Совместное обучение различным задачам на одной модальности позволяет повысить точность каждой отдельной задачи и достичь SOTA на 5 стандартных наборах данных для классификации видео и аудио. Совместное обучение PolyViT на нескольких модальностях и задачах приводит к тому, что модель становится еще более эффективной по параметрам и обучается представлениям, которые обобщаются в различных областях.
📎 Статья
#multimodal #audio #video #images #transformer
Можно ли обучить один трансформер, который сможет обрабатывать множество модальностей и наборов данных, шэря при этом почти все обучаемые параметры?
Оказалось что да. Тут выкатили PolyViT - модель, обученную на изображениях, аудио и видео. Совместное обучение различным задачам на одной модальности позволяет повысить точность каждой отдельной задачи и достичь SOTA на 5 стандартных наборах данных для классификации видео и аудио. Совместное обучение PolyViT на нескольких модальностях и задачах приводит к тому, что модель становится еще более эффективной по параметрам и обучается представлениям, которые обобщаются в различных областях.
📎 Статья
#multimodal #audio #video #images #transformer
Media is too big
VIEW IN TELEGRAM
End-to-End Referring Video Object Segmentation with Multimodal Transformers
Предположим вы хотите сегментировать объекты на видео по их текстовому описанию. Эту задачу можно разбить на составляющие части: понимание текста и видео, а так же непосредственно сегментация и треккинг объектов.
В данной работе авторы предлагают простой (забавное слово) подход на основе трансформеров. Их система, названная Multimodal Tracking Transformer (MTTR), моделирует задачу как проблему предсказания последовательности. MTTR основан на том, что видео и текст могут быть эффективно и элегантно обработаны одной мультимодальной трансформерной моделью.
Оценка на стандартных бэнчмарках показала, что MTTR значительно превосходит предыдущие методы по многим показателям. В частности, MTTR демонстрирует впечатляющий прирост точности при обработке 76 кадров в секунду (то есть ее можно гонять real-time даже на хороших камерах с 60 fps).
📎 Статья
🖥 Код
#multimodal #video #transformer #text #segmentation
Предположим вы хотите сегментировать объекты на видео по их текстовому описанию. Эту задачу можно разбить на составляющие части: понимание текста и видео, а так же непосредственно сегментация и треккинг объектов.
В данной работе авторы предлагают простой (забавное слово) подход на основе трансформеров. Их система, названная Multimodal Tracking Transformer (MTTR), моделирует задачу как проблему предсказания последовательности. MTTR основан на том, что видео и текст могут быть эффективно и элегантно обработаны одной мультимодальной трансформерной моделью.
Оценка на стандартных бэнчмарках показала, что MTTR значительно превосходит предыдущие методы по многим показателям. В частности, MTTR демонстрирует впечатляющий прирост точности при обработке 76 кадров в секунду (то есть ее можно гонять real-time даже на хороших камерах с 60 fps).
📎 Статья
🖥 Код
#multimodal #video #transformer #text #segmentation
Может ли машинное обучение в математику?
Судя по недавней статье в Nature - может. DeepMind и Оксфордские математики András Juhász & Marc Lackenby использовали машинное обучение для выявления новых связей в теории узлов.
🎥 Видео
🔭 Блог-пост
#ScientificML #math
Судя по недавней статье в Nature - может. DeepMind и Оксфордские математики András Juhász & Marc Lackenby использовали машинное обучение для выявления новых связей в теории узлов.
🎥 Видео
🔭 Блог-пост
#ScientificML #math
Nature
Advancing mathematics by guiding human intuition with AI
Nature - A framework through which machine learning can guide mathematicians in discovering new conjectures and theorems is presented and shown to yield mathematical insight on important open...
PartImageNet: Большой датасет деталей и частей
В работе PartImageNet авторы заморочились настолько, что выпустили огроменный датасет с размеренными частями объектов (например лапы отдельно, хвосты отдельно).
Он состоит из 158 классов из ImageNet с приблизительно 24000 изображений.
📎 Статья
🗂 Датасет
#datasets #segmentation
В работе PartImageNet авторы заморочились настолько, что выпустили огроменный датасет с размеренными частями объектов (например лапы отдельно, хвосты отдельно).
Он состоит из 158 классов из ImageNet с приблизительно 24000 изображений.
📎 Статья
🗂 Датасет
#datasets #segmentation
This media is not supported in your browser
VIEW IN TELEGRAM
The PAIR-R24M Dataset for Multi-animal 3D Pose Estimation
Если мы разберёмся с основами социального и коллективного поведения животных - мы сможем узнать много нового о жизни. Важным шагом в изучении механизмов, лежащих в основе социального поведения, является точное считывание трехмерной позы взаимодействующих животных.
В недавней работе представлен набор данных PAIR-R24M (Paired Acquisition of Interacting oRganisms - Rat) для оценки трехмерной позы нескольких животных, который содержит 24,3 миллиона кадров RGB-видео и трехмерного захвата движения взаимодействий лабораторных крыс.
PAIR-R24M, поможет усовершенствовать подходы к трехмерному отслеживанию животных и поможет в выяснении нейронных основ социального поведения.
📎 Статья
🗂 Датасет
#datasets #ScientificML #biology
Если мы разберёмся с основами социального и коллективного поведения животных - мы сможем узнать много нового о жизни. Важным шагом в изучении механизмов, лежащих в основе социального поведения, является точное считывание трехмерной позы взаимодействующих животных.
В недавней работе представлен набор данных PAIR-R24M (Paired Acquisition of Interacting oRganisms - Rat) для оценки трехмерной позы нескольких животных, который содержит 24,3 миллиона кадров RGB-видео и трехмерного захвата движения взаимодействий лабораторных крыс.
PAIR-R24M, поможет усовершенствовать подходы к трехмерному отслеживанию животных и поможет в выяснении нейронных основ социального поведения.
📎 Статья
🗂 Датасет
#datasets #ScientificML #biology
Generalized Shape Metrics on Neural Representations
В нейронауках и в глубоком обучении количественная оценка (не)сходства нейронных представлений в разных сетях является темой, представляющей значительный интерес.
Ученые из Стэнфорда, Гугла и Института Аллена придумали как вычислять метрики между нейронными представлениями. Причём, эти представления могут быть записаны как с реальных животных, так и с нейросетей.
Они регистрируют активность
Таким образом, они придумали довольно элегантный и простой способ сравнивать нейронную активность между животными и нейросетями.
📎 Статья
🎥 Видео
🖥 Код
#ScientificML #biology
В нейронауках и в глубоком обучении количественная оценка (не)сходства нейронных представлений в разных сетях является темой, представляющей значительный интерес.
Ученые из Стэнфорда, Гугла и Института Аллена придумали как вычислять метрики между нейронными представлениями. Причём, эти представления могут быть записаны как с реальных животных, так и с нейросетей.
Они регистрируют активность
K
сетей, следовательно могут вычислить все попарные расстояния и собрать их в матрицу расстояний K × K
. Поверх матрицы они применяют алгоритмы кластеризации и уменьшения размерности.Таким образом, они придумали довольно элегантный и простой способ сравнивать нейронную активность между животными и нейросетями.
📎 Статья
🎥 Видео
🖥 Код
#ScientificML #biology
Artstation Artistic Face HQ
Не могу удержаться и не рассказать. Помните, этим летом обнаружили, что если в VQGAN + CLIP подавать дополнительные затравки типа “artstation”, то есть работает лучше?
Тут кто-то пошёл дальше и собрал целый датасет на 25к лиц с сайта Artstation.
🗂 Dataset
📎 Статья
#datasets #images
Не могу удержаться и не рассказать. Помните, этим летом обнаружили, что если в VQGAN + CLIP подавать дополнительные затравки типа “artstation”, то есть работает лучше?
Тут кто-то пошёл дальше и собрал целый датасет на 25к лиц с сайта Artstation.
🗂 Dataset
📎 Статья
#datasets #images
ClipCap: CLIP Prefix for Image Captioning
Нейронки научились хорошо предсказывать описания любых картинок. Сначала изображение прогоняют через CLIP (получают эмбеддинг изображения), а затем вытаскивают соответствующее текстовое описание из языковой модели.
Основная идея статьи заключается в том, что вместе с предварительно обученной языковой моделью (GPT2) авторы получают широкое понимание как визуальных, так и текстовых данных.
Таким образом, без дополнительных аннотаций или предварительного обучения, сеть эффективно генерирует осмысленные подписи для любых изображений.
📎 Статья
💻 Colab
🖥 Код
🤗 Онлайн
#clip #images #captioning #text
Нейронки научились хорошо предсказывать описания любых картинок. Сначала изображение прогоняют через CLIP (получают эмбеддинг изображения), а затем вытаскивают соответствующее текстовое описание из языковой модели.
Основная идея статьи заключается в том, что вместе с предварительно обученной языковой моделью (GPT2) авторы получают широкое понимание как визуальных, так и текстовых данных.
Таким образом, без дополнительных аннотаций или предварительного обучения, сеть эффективно генерирует осмысленные подписи для любых изображений.
📎 Статья
💻 Colab
🖥 Код
🤗 Онлайн
#clip #images #captioning #text
Forwarded from AbstractDL
Ещё один звездный пример того, как ревьюверы совершенно необоснованно отклоняют статьи. Конечно про самую цитируемую стать Йорген загнул (смотрите внимательнее формулировку), но это не умаляет ценности LSTM.
Генеративные Эмоджи!
Смотрите какую крутоту ребята из Сбер DALL-E сделали. Пишем текст - получаем кучу милых (и не очень) эмоджи.
Играться в супер удобном боте
В шапке поста “Капибара детектив”
Смотрите какую крутоту ребята из Сбер DALL-E сделали. Пишем текст - получаем кучу милых (и не очень) эмоджи.
Играться в супер удобном боте
В шапке поста “Капибара детектив”
This media is not supported in your browser
VIEW IN TELEGRAM
Forwarded from ExMuffin
This media is not supported in your browser
VIEW IN TELEGRAM
✍️ NeuroCensor v.1.0 🚫
Версия 1.0, значит пока ничего серьезного. Хоть как-то работает, что уже хорошо, ведь все и всегда с чего-то простого начинается. В общем теперь можно выступать в роли цензора и удалять объекты, аля Черное зеркало, по текстовому описанию. Работает быстро, но есть вероятность, что памяти Колаба может не хватить на тяжелые видео, поэтому я поставил некоторые ограничения. Вместе с этим добавил возможность писать на любом языке (или сразу нескольких).
В видео продемонстрировано удаление «Grizzly bear» и «Мужчины в куртке».
https://colab.research.google.com/github/tg-bomze/collection-of-notebooks/blob/master/NeuroCensor.ipynb
Версия 1.0, значит пока ничего серьезного. Хоть как-то работает, что уже хорошо, ведь все и всегда с чего-то простого начинается. В общем теперь можно выступать в роли цензора и удалять объекты, аля Черное зеркало, по текстовому описанию. Работает быстро, но есть вероятность, что памяти Колаба может не хватить на тяжелые видео, поэтому я поставил некоторые ограничения. Вместе с этим добавил возможность писать на любом языке (или сразу нескольких).
В видео продемонстрировано удаление «Grizzly bear» и «Мужчины в куртке».
https://colab.research.google.com/github/tg-bomze/collection-of-notebooks/blob/master/NeuroCensor.ipynb
Forwarded from IPQuorum
Новости сферы ESG (Environmental, Social and Corporate Governance): к 2025 году Amazon планирует перейти на возобновляемые источники энергии. В связи с этим компания запускает новый инструмент, который позволит бизнесу отчитываться о своем уровне углеродного следа.
В этом поможет приборная панель AWS Customer Carbon Footprint Tool. Благодаря ей пользователи экосистемы Amazon смогут рассчитать выбросы углекислого газа компании, а также спрогнозировать, как показатели углеродного следа изменятся со временем. Среди других возможностей инструмента — учет процента использования энергии, полученной из возобновляемых источников энергии.
Стоит подчеркнуть, что Amazon — одна из основоположниц тренда на ESG-compliance среди крупных компаний: так, в 2019 году корпорация вошла в число основателей программы The Climate Pledge — пакета мер, нацеленных на достижение углеродного нейтралитета к 2040 году. К программе уже присоединились Microsoft, PepsiCo, Unilever, Verizon, Visa.
В этом поможет приборная панель AWS Customer Carbon Footprint Tool. Благодаря ей пользователи экосистемы Amazon смогут рассчитать выбросы углекислого газа компании, а также спрогнозировать, как показатели углеродного следа изменятся со временем. Среди других возможностей инструмента — учет процента использования энергии, полученной из возобновляемых источников энергии.
Стоит подчеркнуть, что Amazon — одна из основоположниц тренда на ESG-compliance среди крупных компаний: так, в 2019 году корпорация вошла в число основателей программы The Climate Pledge — пакета мер, нацеленных на достижение углеродного нейтралитета к 2040 году. К программе уже присоединились Microsoft, PepsiCo, Unilever, Verizon, Visa.
Forwarded from эйай ньюз
Media is too big
VIEW IN TELEGRAM
Нейронный рендеринг без нейронных сетей?
Помните нейронный рендеринг и нерфы для реконструкции 3D сцены и синтеза новых видов? Так вот, обычно эти подходы требуют значительных временных затрат для обучения на одной конкретной сцене из-за того, что там используются громоздкие MLP (Multi-layer Perceptron), и нужно семплировать очень много тренировочных 3D точек с разных углов обзора.
Но вот поворот! Оказывается, всё то же самое можно делать и без сетей вовсе! Исследователи из Беркли показали, что можно учить напрямую сетку вокселей, сохраняя в ее узлах коэффициенты сферических функций, с помощью которых можно очень быстро отрендерить сцену с любой позиции и угла камеры. Все гениально просто.
Это просто бомба! Не нужны больше никакие Structure-from-motion и прочие классические алгоритмы.
>> Пипира >> Код >> Сайт
Помните нейронный рендеринг и нерфы для реконструкции 3D сцены и синтеза новых видов? Так вот, обычно эти подходы требуют значительных временных затрат для обучения на одной конкретной сцене из-за того, что там используются громоздкие MLP (Multi-layer Perceptron), и нужно семплировать очень много тренировочных 3D точек с разных углов обзора.
Но вот поворот! Оказывается, всё то же самое можно делать и без сетей вовсе! Исследователи из Беркли показали, что можно учить напрямую сетку вокселей, сохраняя в ее узлах коэффициенты сферических функций, с помощью которых можно очень быстро отрендерить сцену с любой позиции и угла камеры. Все гениально просто.
Это просто бомба! Не нужны больше никакие Structure-from-motion и прочие классические алгоритмы.
>> Пипира >> Код >> Сайт
Forwarded from Жалкие низкочастотники
This media is not supported in your browser
VIEW IN TELEGRAM
Накопилось всяких моих штук на отдельный пост:
Недавно вышел свежий выпуск подкаста Подлодка, где мы полтора часа поговорили про современные технологии и творчество. А перед этим я поучаствовал в дискуссии на ML треке YaTalks — поболтали в отличной компании про итоги года и ожидания в области генеративных моделей.
Ещё на этой неделе закончилась конференция NeurIPS, где помимо прочего, я поучаствовал в Machine Learning for Creativity and Design Workshop с проектом text2pixelart и получил Spotlight Award. Картинка поста — из этого проекта. Такие же картинки, только больше, но другие, будут на моём стенде на выставке «Код искусства» в ГРАУНД Солянке, которая открывается завтра и продлится до начала февраля.
А вот для настоящих нёрдов: организатор проекта по возрождению игры Заколдованная страна, первой советской настольной ролевой игры в духе ADnD, изданной в Ленинграде в 1990 году, взял у меня интервью по поводу того, что я лет 15 назад организовал оцифровку этой игры, после чего она разошлась по сети.
Недавно вышел свежий выпуск подкаста Подлодка, где мы полтора часа поговорили про современные технологии и творчество. А перед этим я поучаствовал в дискуссии на ML треке YaTalks — поболтали в отличной компании про итоги года и ожидания в области генеративных моделей.
Ещё на этой неделе закончилась конференция NeurIPS, где помимо прочего, я поучаствовал в Machine Learning for Creativity and Design Workshop с проектом text2pixelart и получил Spotlight Award. Картинка поста — из этого проекта. Такие же картинки, только больше, но другие, будут на моём стенде на выставке «Код искусства» в ГРАУНД Солянке, которая открывается завтра и продлится до начала февраля.
А вот для настоящих нёрдов: организатор проекта по возрождению игры Заколдованная страна, первой советской настольной ролевой игры в духе ADnD, изданной в Ленинграде в 1990 году, взял у меня интервью по поводу того, что я лет 15 назад организовал оцифровку этой игры, после чего она разошлась по сети.