AI Для Всех
12.1K subscribers
1.04K photos
130 videos
10 files
1.32K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
WarpDrive: Extremely Fast End-to-End Deep Multi-Agent Reinforcement Learning on a GPU

WarpDrive - это гибкая, легкая и простая в использовании система обучения с подкреплением (RL) с открытым исходным кодом, которая реализует многоагентный RL на одном GPU.

Используя возможности экстремального распараллеливания графических процессоров, WarpDrive позволяет на порядки ускорить RL по сравнению с симуляцией на CPU + реализацией моделей на GPU. Он чрезвычайно эффективен, поскольку позволяет избежать копирования данных "туда-сюда" между CPU и GPU, а также параллельно выполнять моделирование для нескольких агентов и нескольких копий среды. В совокупности это позволяет пользователю запускать тысячи параллельных мультиагентных симуляций и тренироваться на очень больших батчах, достигая более чем 100-кратной пропускной способности по сравнению с аналогами на базе CPU.

GitHub

#RL #resources
Обновился блокнот CLIPPixelArt, ещё более красивые картинки и ещё больше вариантов генерации

Colab

#generative #text2image #clip #multimodal
На днях нашёл новый формат для Jupyter - Jupyter Books.

Позволяет собрать несколько разных блокнотов в одну интерактивную книгу с оглавлением и всем таким. Выглядит классно!

Сайт

#resources #presentation
Тут в статье A Recipe For Arbitrary Text Style Transfer with Large Language Models предложили прикольный рецепт для авто-аугментации текста в режиме Few-Shot. Берем затравку как на картинке, а дальше начинаем фантазировать. У меня получилось (курсивом на вход, жирным на выход):

1. {I need to go to the bathroom}. Here is a rewrite of the text, which is more like a geoscientist: {A huge volume of rock, called a pluton, is pushed up rapidly into the Earth's crust}.

2. {Мне нужно в туалет}. Here is
a rewrite of the text, which is more like a president:
{Мне не нужно в туалет}

3. {Give me a BigMac and some chips}. Here is a rewrite of the text, which is more like a CEO of Burger King: {Let's start a BurgerKing store in my neighborhood}

Ну вы поняли идею =) Много крутых примеров тут. А попробовать самим можно в ElutherAI GPT-J (GPT-3 для бедных) на их интеркативном демо-сайте. Делитесь в комментах что получилось!

#gpt #generative #fewshot #nlp
MEDIC

MEDIC - это большой набор данных классификации изображений из социальных сетей для гуманитарного реагирования, состоящий из 71 198 изображений для решения четырех различных задач. Он составлен из данных из нескольких источников (таких как CrisisMMD, AIDR и Damage Multimodal Dataset)

Датасет

#datasets #images #ScientifcML
Набор данных LAION-400M находится в полном открытом, свободном доступе (400 миллионов пар картинка-текст).

Собран благодаря crowd-computing усилиям ElutherAI (я тоже поучаствовал 🤏).

Все изображения и тексты в LAION-400M были отфильтрованы с помощью OpenAI's CLIP путем вычисления косинусного сходства между эмбедингами текста и изображения и отбрасывания тех, чье сходство ниже 0,3.

Датасет

Инсайдерская инфа (Скоро будет 1 миллиард)

#datasets #multimodal #clip
Learning Fast Sample Re-weighting Without Reward Data (Google Cloud AI)

Перевзвешивание обучающей выборки является эффективным подходом для борьбы с проблемами в данных, такими как несбалансированные и испорченные метки.

Существующие методы перевзвешивания выборок на основе обучения требуют вложенной оптимизации моделей и весовых параметров, что в свою очередь требует дорогостоящих вычислений. В этой работе представлен новый метод быстрого перевзвешивания выборки (FSR) на основе обучения, который не требует дополнительных данных о вознаграждении.

В основе метода лежат две ключевые идеи: обучение на основе истории для построения прокси-данных вознаграждения и совместное использование признаков для снижения стоимости оптимизации.

Предложенный метод достигает конкурентоспособных результатов по сравнению с современными методами в отношении устойчивости к шуму меток и распознавания длинных хвостов, и при этом достигает значительно более высокой эффективности обучения.

Статья
Код

#training #imbalance
ConvMLP: Hierarchical Convolutional MLPs for Vision

Недавно было показано, что архитектуры на основе MLP, состоящие из последовательных блоков многослойных перцептронов (см тут), сравнимы с сверточными и трансформерными методами. Однако большинство этих пространственных MLP принимают фиксированные размерные входные данные, поэтому их нельзя применять для решения последующих задач, таких как обнаружение объектов и семантическая сегментация. Более того, одноступенчатые конструкции еще больше ограничивают производительность в других задачах компьютерного зрения, а полностью связанные слои требуют больших вычислений.

Для решения этих проблем авторы предлагают ConvMLP: иерархический сверточный MLP для визуального распознавания, который представляет собой легкую, поэтапную, совместную конструкцию сверточных слоев и MLP. В частности, ConvMLP-S достигает 76,8% точности top-1 на ImageNet-1k с 9M параметрами и 2,4G MACs (15% и 19% от MLP-Mixer-B/16, соответственно).

Статья
Код

#MLP #CNN #segmentation #detetctiton
Sparse-MLP: A Fully-MLP Architecture with Conditional Computation

Mixture-of-Experts (MoE) с разреженными условными вычислениями - эффективная архитектура для масштабирования моделей attention на большее количество параметров.

Sparse-MLP - это по сути MLP-Mixer с разреженными слоями MoE. Подмножество dense блоков MLP-Mixer заменяется на разреженные (sparse) блоки. В каждом этом блоке применяется два этапа слоев MoE: один с экспертами MLP, смешивающими информацию внутри каналов по размеру патча изображения, другой с экспертами MLP, смешивающими информацию внутри патчей по размеру канала.

Кроме того, для снижения вычислительных затрат авторы используют слои Re-represent в каждом блоке Sparse. Эти слои предназначены для изменения масштаба представления изображений с помощью двух простых, но эффективных линейных преобразований.

На небольших задачах классификации изображений, т.е. Cifar10 и Cifar100 модель Sparse-MLP достигает лучшей производительности, чем базовые модели.

Статья

#mlp #images #conditional
Guided diffusion update

Обновился блокнот guided diffusion 512x512. Модификация позволяет использовать cutn=128 на графических процессорах Colab (более высокое качество вывода). Для этого cutn разделяется на четыре батча с cutn=32 и накапливает градиенты, но быстрым способом.

Colab

#text2image #diffusion #generative
LIVECell

(Label-free In Vitro image Examples of Cells) - это набор данных микроскопических изображений для инстант-сегментации отдельных клеток в двумерных клеточных культурах.

LIVECell состоит из 5239 аннотированных вручную, проверенных экспертами изображений фазово-контрастной микроскопии Incucyte HD с общим количеством 1 686 352 отдельных клеток, аннотированных по восьми различным типам (в среднем 313 клеток на одном изображении). Изображения LIVECell предварительно разделены на train (3188), Val (539) и test (1512) наборы.

#ScientificML #datasets #biology #segmentation
Torch Inferenece Mode

Хотите, чтобы ваши модели в PyTorch работали быстрее на инференсе? Вот как это сделать.

Замените `torch.no_grad()` на `torch.inference_mode()`

inference_mode() - это torch.no_grad() на стероидах.

В то время как NoGrad отключает операции отслеживания Автограда, InferenceMode делает это на два шага вперед, потенциально ускоряя ваш код (YMMV в зависимости от сложности модели и аппаратного обеспечения).

Обратите внимание, что наибольшее ускорение достигается для легких операций, узким местом которых являются накладные расходы на отслеживание.

Если операции достаточно сложные, отключение отслеживания с помощью InferenceMode не дает большого ускорения; например, использование InferenceMode на ResNet101 forward

#inference #code
#gan сам собирался написать, но меня опередили 😂
Forwarded from Denis Sexy IT 🤖
Наткнулся на интересную нейронку, на вход ей подают два изображения: одно это фотка, второе – полученная на её основе упрощенная копия этой же фотки, как-будто нарисованная карандашом. Нейронка учится строить соответствия между оригиналом и его простой копией, таким образом внося изменения в простое изображение, в оригинале отображаются изменения. Удобно, чтобы не мучиться со всякими мелкими деталями на основной фотографии, рисуем что-то в простой, а алгоритм сам дорисовывает что необходимо (как эти нейронные пеинты которые вы уже видели).

На видео пример – на ствол дерева дорисовывают ветки и меняют его наклон, а изменения в реальном времени отображаются на фотке: кора на дереве, новые ветки, даже облака двигаются. Объекты на простом изображении можно менять по контуру, либо сегментировать их на разные мини-объекты и изменять их отдельно.

В общем, очередной быстрый фотошоп.

Тут подробности. UPD: Код тут.
Смотрите какая крутая штука! Оказывается loss функцию можно показывать очень и очень красиво и артистично!

Больше крутых примеров 👉 https://losslandscape.com/gallery/

#images #generative #training
img2dataset

Програмка позволяет с легкостью превращать наборы url в ImageDataset. Обещают что за 20 часов на домашнем компе можно подгрузить и упаковать до 100 млн изображений.

Код

#datasets #images #multimodal
PyTorch Geometric

PyG (PyTorch Geometric) - это библиотека, созданная на основе PyTorch для простого написания и обучения графовых нейронных сетей (GNN) для широкого спектра приложений, связанных со структурированными данными.

Она включает в себя различные методы глубокого обучения на графах и других нерегулярных структурах из множества опубликованных работ. Кроме того, в состав входят простые в использовании dataloaders, поддержка нескольких GPU, большое количество общих бэнчмарков, менеджер экспериментов GraphGym, а также полезные преобразования, как для обучения на произвольных графах, так и на 3D-сетках или облаках точек.

👩‍💻 Код 📝 Документация
🏀 Colab 📝 Статья

#graphs #gnn
Zero-Shot Open Set Detection Based on a Pretrained Language-Vision Model

В задаче на классификацию неограниченных классов сэмплы известных классов (также называемых классами закрытого множества) используются для обучения классификатора. При тестировании классификатор может (1) отнести образцы известных классов к соответствующим классам и (2) определить образцы, которые не принадлежат ни к одному из известных классов (мы говорим, что они принадлежат к некоторым открытым классам).

В работе предлагается метод (ZO-CLIP) для решения проблемы открытой классификации. ZO-CLIP основывается на достижениях в области классификации Zero-Shot с помощью обучения мультимодальному представлению данных (multimodal representation). Сначала он расширяет предварительно обученную модель CLIP, обучая генератор текстовых описаний изображений поверх CLIP. При тестировании ZO-CLIP использует модель для генерации названий неизвестных классов-кандидатов для каждого тестового образца.

Статья

#images #CLIP #multimodal #zeroshot
Efficient Nearest Neighbor Language Models

Непараметрические нейролингвистические модели (NLM) изучают прогностические распределения текста, используя внешнее хранилище данных, что позволяет им обучаться за счет явного запоминания сэмплов. Несмотря на свою эффективность, эти модели часто требуют извлечения данных из большого хранилища во время тестирования, что значительно увеличивает накладные расходы на вывод и, таким образом, ограничивает применение непараметрических NLM в практических приложениях. Авторы предлагают эффеективную версию модели. Эксперименты на стандартном бэнчмарке WikiText-103 и наборе данных для адаптации к домену показывают, что их методы методы позволяют добиться 6-кратного увеличения скорости вывода при сохранении сопоставимой производительности. Представленный авторами эмпирический анализ может послужить руководством для будущих исследований, направленных на разработку или внедрение более эффективных непараметрических NLM.

Статья
Код

#nlp #knn #inference
Близится 600ый пост в этом канале. Если вам нравится быть в курсе самых свежайших статей (чаще всего я пишу о статьях которые вышли на днях) - пригласите в канал друзей, репостните заметку какую-нибудь. Очень хочется, что бы к 600 посту тут было 600 человек!
An End-to-End Transformer Model for 3D Object Detection (Facebook AI)

Фэйсбук продолжает свой курс на метавселенные. Выпустили 3DETR (3D DEtection TRansformer) - это трансформер для 3D детекции. 3DETR достигает сравнимой или лучшей производительности, чем методы 3D детекции, такие как VoteNet. Кодер также может быть использован для других 3D-задач, таких как классификация форм.

Статя
Проект
Код

#3d #transformer #detection