AI Для Всех – Telegram

AI Для Всех

@nn_for_science

12K subscribers

1.02K photos

123 videos

10 files

1.3K links

Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор: @crimeacs

Авторы канала: @GingerSpacetail, @innovationitsme

Download Telegram

About

Blog

Apps

Platform

AI Для Всех

12K subscribers

AI Для Всех

Neural Fields in Visual Computing and Beyond

Последние достижения в области машинного обучения вызвали растущий интерес к решению проблем визуальных вычислений с помощью нейросетей, которые параметризуют физические свойства сцен или объектов в пространстве и времени. Эти методы, которые называют нейронными полями, нашли успешное применение в синтезе 3D-форм и изображений, анимации человеческих тел, 3D-реконструкции и оценке позы.

В докладе, авторы предоставляют контекст, математическое обоснование и обширный обзор литературы по нейронным полям. В первой части доклада авторы разбирают методы нейронных полей, включая различные представления, архитектуры, прямое отображение и методы обобщения. Во второй части, они разбирают приложения нейронных полей к различным проблемам в визуальных вычислениях и не только (например, робототехника, аудио). Помимо этого, авторы выпустили сопутствующий веб-сайт, который представляет собой живую версию обзора, постоянно обновляемую сообществом.

📎 Статья
🌎 Сайт

#neurofields

1.5K views17:56

AI Для Всех

Forwarded from AbstractDL

YOLaT: image recognition для векторных картинок (by Microsoft)

Похоже, это первая нейронка, которая может классифицировать и детектировать объекты в векторной графике без растеризации.

В отличие от пиксельных картинок, векторные состоят из аналитически выраженных геометрических фигур и, поэтому, их эквивалентное разрешение может быть бесконечным. Это делает невозможным использование стандартных методов image recognition.

Что предлагают авторы:
1. Преобразовать векторный файл в набор кривых Безье.
2. Кривые Безье превратить в ненаправленный мультиграф.
3. Запихнуть этот граф в графовую нейросеть.

Их метод демонстрирует state-of-the-art результат, работает в 100 раз быстрее, чем растеризация+CNN и требует в 25 раз меньше параметров.

Статья

1.1K views23:08

AI Для Всех

Forwarded from Вастрик.Пынь

Наконец-то нашел тулзу, которая может взять данные моих перемещений за много лет из GDPR-бекапа Google Maps и построить из них хитмап улиц. Теперь я знаю, что действительно ходил хотя бы раз уже почти по каждой улице внутри Берлина, но еще не по всем!

Давно хотел такой сервис, который бы автоматически рисовал такое, но они все жрут батарейку и не умеют в исторические данные. Один только Google шпионит за мной качественно.

Теперь-то мои сраные вечерние прогулки для сраного ментального здоровья станут целенаправленными! Ну и пригодится для следующего тревел-бложека.

P.S.: Тулза называется Location History Visualiser и работает без бекенда, а данные можно забрать в Google Takeout

1.3K views10:20

AI Для Всех

DABS - The Domain Agnostic Benchmark for Self-Supervised Learning.

Можно ли использовать self-supervised обучение (SSL) с любыми данными? DABS - это бенчмарк методов SSL в семи различных областях, включая рентгеновские снимки грудной клетки, носимые датчики и мультиязычный текст.

Модели обучаются на не размеченном наборе данных в каждой области, а затем оценивают на последующих задачах в той же области.

Методы SSL, которые хорошо работают на DABS, могут быть особенно полезны для научных, медицинских, мультимодальных и других реальных задач, где не хватает меток или их дорого собирать.

📎 Статья
🖥 Код
📈 Бенчмарк
🌎 Красивый сайт

#SSL #ScientificML

1.5K viewsedited 09:15

AI Для Всех

Эффективное обучение визуальных трансформеров на небольших наборах данных

Визуальные трансформеры (ViT) уже почти сравнялись по популярности со сверточными сетями (CNN). Однако, ViT требуется намного больше данных, чем CNN.

В статье анализируются различные ViT, сравнивается их устойчивость в режиме малого набора данных для обучения, и демонстрируется, что, несмотря на сопоставимую точность при обучении на ImageNet, их производительность на меньших наборах данных может значительно отличаться.

Авторы предлагают self-supervised задачу, которая может извлекать дополнительную информацию из изображений с незначительными вычислительными затратами. Эта задача побуждает ViT изучать пространственные отношения внутри изображения и делает обучение ViT гораздо более надежным в условиях нехватки обучающих данных. Задача используется совместно с supervised обучением и не зависит от конкретных архитектурных решений. Этот метод помогает улучшить конечную точность ViT.

📎 Статья
🖥 Код

#transformer #SSL #images

4.3K viewsedited 18:27

AI Для Всех

An Image Patch is a Wave: Phase-Aware Vision MLP

В отличие от сверточных нейросетей (CNN) и визуальных трансформеров (ViT), многослойные перцептрон (MLP) - это вид моделей с чрезвычайно простой архитектурой, которая складывается только из линейных слоев. Входное изображение для зрительной MLP обычно разбивается на несколько патчей.

В статье предлагается представить каждый патч в виде волновой функции с двумя частями - амплитудой и фазой. Амплитуда - это исходная характеристика, а фаза - комплексное значение, изменяющееся в зависимости от семантического содержания входных изображений.

Основываясь на волновом представлении патчей, авторы создали новую архитектуру Wave-MLP для задач зрения.

Wave-MLP превосходит современные архитектуры MLP в различных задачах зрения, таких как классификация изображений, обнаружение объектов и семантическая сегментация.

📎 Статья

#MLP #images

1.8K views09:32

AI Для Всех

Укатил на выходные в Амстердам, пока меня нет, почитайте про то, как Яндекс пилит свои беспилотники или про то, как Andrej Karpathy (Tesla AI) восхищается Copilot

Как Яндекс делает обычные автомобили беспилотными

Привет, меня зовут Антон Чистяков. Пару лет назад я работал в хелпдеске Яндекса и даже писал здесь про то, как мы придумали вендомат с аксессуарами. Теперь отвечаю за сборку беспилотных автомобилей и...

1.7K viewsedited 12:32

AI Для Всех

Illustrated BERT

Пока я все ещё в дороге, почитайте этот прекрасный иллюстрированный обзор на BERT и ELMo. Это ваш шанс наконец-то разобраться о чем речь and why should you care.

1.6K viewsedited 05:42

AI Для Всех

Forwarded from AbstractDL

This media is not supported in your browser

VIEW IN TELEGRAM

GradInit: перебор гиперпараметров оптимизатора и warmup больше не нужны (by Google)

В гугл предложили супер крутой универсальный architecture-agnostic метод инициализации весов моделей.

Идея очень простая: добавить множители перед каждым блоком параметров и запустить по ним несколько итераций оптимизации лосса. Дальше эти множители фиксируем и учим модель как обычно. Такая инициализация не зависит от глубины и типа архитектуры (работает и на резнетах и на трансформерах) и почти полностью решает проблему взрывающихся\затухающих градиентов.

В итоге отпадает необходимость в переборе гиперпараметров оптимизатора, а трансформер вообще получилось обучить без warmup’a, что считалось практически невозможным. Как бонус, такая инициализация даёт небольшой буст на многих бенчмарках (и картиночных и текстовых).

Статья, GitHub

1.1K views21:30

AI Для Всех

PolyViT: Co-training Vision Transformers on Images, Videos and Audio

Можно ли обучить один трансформер, который сможет обрабатывать множество модальностей и наборов данных, шэря при этом почти все обучаемые параметры?

Оказалось что да. Тут выкатили PolyViT - модель, обученную на изображениях, аудио и видео. Совместное обучение различным задачам на одной модальности позволяет повысить точность каждой отдельной задачи и достичь SOTA на 5 стандартных наборах данных для классификации видео и аудио. Совместное обучение PolyViT на нескольких модальностях и задачах приводит к тому, что модель становится еще более эффективной по параметрам и обучается представлениям, которые обобщаются в различных областях.

📎 Статья

#multimodal #audio #video #images #transformer

4.3K views16:51

AI Для Всех

Media is too big

VIEW IN TELEGRAM

End-to-End Referring Video Object Segmentation with Multimodal Transformers

Предположим вы хотите сегментировать объекты на видео по их текстовому описанию. Эту задачу можно разбить на составляющие части: понимание текста и видео, а так же непосредственно сегментация и треккинг объектов.

В данной работе авторы предлагают простой (забавное слово) подход на основе трансформеров. Их система, названная Multimodal Tracking Transformer (MTTR), моделирует задачу как проблему предсказания последовательности. MTTR основан на том, что видео и текст могут быть эффективно и элегантно обработаны одной мультимодальной трансформерной моделью.

Оценка на стандартных бэнчмарках показала, что MTTR значительно превосходит предыдущие методы по многим показателям. В частности, MTTR демонстрирует впечатляющий прирост точности при обработке 76 кадров в секунду (то есть ее можно гонять real-time даже на хороших камерах с 60 fps).

📎 Статья
🖥 Код

#multimodal #video #transformer #text #segmentation

1.6K views19:47

AI Для Всех

Может ли машинное обучение в математику?

Судя по недавней статье в Nature - может. DeepMind и Оксфордские математики András Juhász & Marc Lackenby использовали машинное обучение для выявления новых связей в теории узлов.

🎥 Видео
🔭 Блог-пост

#ScientificML #math

Advancing mathematics by guiding human intuition with AI

Nature - A framework through which machine learning can guide mathematicians in discovering new conjectures and theorems is presented and shown to yield mathematical insight on important open...

1.6K viewsedited 06:55

AI Для Всех

PartImageNet: Большой датасет деталей и частей

В работе PartImageNet авторы заморочились настолько, что выпустили огроменный датасет с размеренными частями объектов (например лапы отдельно, хвосты отдельно).

Он состоит из 158 классов из ImageNet с приблизительно 24000 изображений.

📎 Статья
🗂 Датасет

#datasets #segmentation

1.4K viewsedited 09:16

AI Для Всех

This media is not supported in your browser

VIEW IN TELEGRAM

The PAIR-R24M Dataset for Multi-animal 3D Pose Estimation

Если мы разберёмся с основами социального и коллективного поведения животных - мы сможем узнать много нового о жизни. Важным шагом в изучении механизмов, лежащих в основе социального поведения, является точное считывание трехмерной позы взаимодействующих животных.

В недавней работе представлен набор данных PAIR-R24M (Paired Acquisition of Interacting oRganisms - Rat) для оценки трехмерной позы нескольких животных, который содержит 24,3 миллиона кадров RGB-видео и трехмерного захвата движения взаимодействий лабораторных крыс.

PAIR-R24M, поможет усовершенствовать подходы к трехмерному отслеживанию животных и поможет в выяснении нейронных основ социального поведения.

📎 Статья
🗂 Датасет

#datasets #ScientificML #biology

1.4K views13:19

AI Для Всех

Generalized Shape Metrics on Neural Representations

В нейронауках и в глубоком обучении количественная оценка (не)сходства нейронных представлений в разных сетях является темой, представляющей значительный интерес.

Ученые из Стэнфорда, Гугла и Института Аллена придумали как вычислять метрики между нейронными представлениями. Причём, эти представления могут быть записаны как с реальных животных, так и с нейросетей.

Они регистрируют активность K сетей, следовательно могут вычислить все попарные расстояния и собрать их в матрицу расстояний K × K. Поверх матрицы они применяют алгоритмы кластеризации и уменьшения размерности.

Таким образом, они придумали довольно элегантный и простой способ сравнивать нейронную активность между животными и нейросетями.

📎 Статья
🎥 Видео
🖥 Код

#ScientificML #biology

1.5K views11:44

AI Для Всех

Artstation Artistic Face HQ

Не могу удержаться и не рассказать. Помните, этим летом обнаружили, что если в VQGAN + CLIP подавать дополнительные затравки типа “artstation”, то есть работает лучше?

Тут кто-то пошёл дальше и собрал целый датасет на 25к лиц с сайта Artstation.

🗂 Dataset
📎 Статья

#datasets #images

1.4K viewsedited 09:50

AI Для Всех

ClipCap: CLIP Prefix for Image Captioning

Нейронки научились хорошо предсказывать описания любых картинок. Сначала изображение прогоняют через CLIP (получают эмбеддинг изображения), а затем вытаскивают соответствующее текстовое описание из языковой модели.

Основная идея статьи заключается в том, что вместе с предварительно обученной языковой моделью (GPT2) авторы получают широкое понимание как визуальных, так и текстовых данных.

Таким образом, без дополнительных аннотаций или предварительного обучения, сеть эффективно генерирует осмысленные подписи для любых изображений.

📎 Статья
💻 Colab
🖥 Код
🤗 Онлайн

#clip #images #captioning #text

1.9K views09:30

AI Для Всех

Forwarded from AbstractDL

Завернул код для FuseDream в colab ноутбук (тык), чтобы было удобнее играться.

P.S. картинка сгенерирована для текста «The God of AI»

1.1K views15:54

AI Для Всех

Ещё один звездный пример того, как ревьюверы совершенно необоснованно отклоняют статьи. Конечно про самую цитируемую стать Йорген загнул (смотрите внимательнее формулировку), но это не умаляет ценности LSTM.

1.5K viewsedited 08:02

AI Для Всех

Генеративные Эмоджи!

Смотрите какую крутоту ребята из Сбер DALL-E сделали. Пишем текст - получаем кучу милых (и не очень) эмоджи.

Играться в супер удобном боте

В шапке поста “Капибара детектив”

1.5K viewsedited 16:18

AI Для Всех

This media is not supported in your browser

VIEW IN TELEGRAM

MTTR про который я писал пару дней назад выложили Spaces и Colab.

Работает на удивление очень хорошо. В качестве примера использовал странный полунарисованный мультик и prompt на русском языке - и все равно работает!

1.4K views13:53