Panoptic Segformer
Panoptic SegFormer - общая архитектура для сквозной паноптической сегментации с использованием трансформеров. Предлагаемый метод расширяет деформируемый DETR с единым рабочим процессом предсказания масок для вещей и предметов, делая пайплайн паноптической сегментации лаконичным и эффективным. Используя за основу ResNet-50, метод достигает 50.0% PQ на тестовом сплите COCO, превосходя предыдущие современные методы на значительную величину без всяких прибамбасов.
Статья
#segmentation #transformer #images
Panoptic SegFormer - общая архитектура для сквозной паноптической сегментации с использованием трансформеров. Предлагаемый метод расширяет деформируемый DETR с единым рабочим процессом предсказания масок для вещей и предметов, делая пайплайн паноптической сегментации лаконичным и эффективным. Используя за основу ResNet-50, метод достигает 50.0% PQ на тестовом сплите COCO, превосходя предыдущие современные методы на значительную величину без всяких прибамбасов.
Статья
#segmentation #transformer #images
This media is not supported in your browser
VIEW IN TELEGRAM
TorchIO
TorchIO - это библиотека для эффективного чтения, предварительной обработки, выборки, дополнения и записи 3D медицинских изображений в приложениях глубокого обучения, написанных на PyTorch, включая преобразования интенсивности и пространственные преобразования для дополнения и предварительной обработки данных. Преобразования включают типичные операции компьютерного зрения, такие как рандомные аффинные преобразования, а также специфические для данной области, такие как моделирование артефактов интенсивности из-за неоднородности магнитного поля МРТ или артефактов движения в k-пространстве.
Сайт
GitHub
Статья
#code #medicine #images #3d #ScientificML
TorchIO - это библиотека для эффективного чтения, предварительной обработки, выборки, дополнения и записи 3D медицинских изображений в приложениях глубокого обучения, написанных на PyTorch, включая преобразования интенсивности и пространственные преобразования для дополнения и предварительной обработки данных. Преобразования включают типичные операции компьютерного зрения, такие как рандомные аффинные преобразования, а также специфические для данной области, такие как моделирование артефактов интенсивности из-за неоднородности магнитного поля МРТ или артефактов движения в k-пространстве.
Сайт
GitHub
Статья
#code #medicine #images #3d #ScientificML
Textless NLP: Generating expressive speech from raw audio
Facebook AI представили Generative Spoken Language Model (GSLM), первую высокопроизводительную модель NLP, которая освобождается от зависимости от текста. GSLM использует последние достижения в области representation learning, что позволяет ей работать непосредственно на основе только необработанных аудиосигналов, без каких-либо меток или текста. Это открывает дверь в новую эру безтекстовых приложений НЛП для потенциально любого языка, на котором говорят на Земле - даже тех, которые не имеют значительных наборов текстовых данных.
Модель работает примерно как BERT, но естественно со своими особенностями.
По сути, Facebook говорит - ASR устарел и работать теперь распознованием речи будет по принципу "из конца в конец", от речевого входа до речевого выхода. Они сравнивают свою систему с дошкольником, который увит язык исключительно на основе сенсорного опыта.
Блог-пост
Статья 1
Статья 2
Статья 3
Код
#audio #speech #SSL #nlp
Facebook AI представили Generative Spoken Language Model (GSLM), первую высокопроизводительную модель NLP, которая освобождается от зависимости от текста. GSLM использует последние достижения в области representation learning, что позволяет ей работать непосредственно на основе только необработанных аудиосигналов, без каких-либо меток или текста. Это открывает дверь в новую эру безтекстовых приложений НЛП для потенциально любого языка, на котором говорят на Земле - даже тех, которые не имеют значительных наборов текстовых данных.
Модель работает примерно как BERT, но естественно со своими особенностями.
По сути, Facebook говорит - ASR устарел и работать теперь распознованием речи будет по принципу "из конца в конец", от речевого входа до речевого выхода. Они сравнивают свою систему с дошкольником, который увит язык исключительно на основе сенсорного опыта.
Блог-пост
Статья 1
Статья 2
Статья 3
Код
#audio #speech #SSL #nlp
Forwarded from эйай ньюз
По мотивам статьи Large-Scale Self- and Semi-Supervised Learning for Speech Translation HuggingFace вместе с FB опубликовали четыре претрейнд модели для end-to-end перевода из речи в тест на разных языках.
Например, речь на английском напрямую переводится в текст на арабском. Также есть пары английский-немецкий, английский-турецкий и английский-каталанский.
Инференс можно запустить в пару строк кода!
Модели уже доступны в каталоге HuggingFace.
Например, речь на английском напрямую переводится в текст на арабском. Также есть пары английский-немецкий, английский-турецкий и английский-каталанский.
Инференс можно запустить в пару строк кода!
Модели уже доступны в каталоге HuggingFace.
This media is not supported in your browser
VIEW IN TELEGRAM
WarpDrive: Extremely Fast End-to-End Deep Multi-Agent Reinforcement Learning on a GPU
WarpDrive - это гибкая, легкая и простая в использовании система обучения с подкреплением (RL) с открытым исходным кодом, которая реализует многоагентный RL на одном GPU.
Используя возможности экстремального распараллеливания графических процессоров, WarpDrive позволяет на порядки ускорить RL по сравнению с симуляцией на CPU + реализацией моделей на GPU. Он чрезвычайно эффективен, поскольку позволяет избежать копирования данных "туда-сюда" между CPU и GPU, а также параллельно выполнять моделирование для нескольких агентов и нескольких копий среды. В совокупности это позволяет пользователю запускать тысячи параллельных мультиагентных симуляций и тренироваться на очень больших батчах, достигая более чем 100-кратной пропускной способности по сравнению с аналогами на базе CPU.
GitHub
#RL #resources
WarpDrive - это гибкая, легкая и простая в использовании система обучения с подкреплением (RL) с открытым исходным кодом, которая реализует многоагентный RL на одном GPU.
Используя возможности экстремального распараллеливания графических процессоров, WarpDrive позволяет на порядки ускорить RL по сравнению с симуляцией на CPU + реализацией моделей на GPU. Он чрезвычайно эффективен, поскольку позволяет избежать копирования данных "туда-сюда" между CPU и GPU, а также параллельно выполнять моделирование для нескольких агентов и нескольких копий среды. В совокупности это позволяет пользователю запускать тысячи параллельных мультиагентных симуляций и тренироваться на очень больших батчах, достигая более чем 100-кратной пропускной способности по сравнению с аналогами на базе CPU.
GitHub
#RL #resources
Обновился блокнот CLIPPixelArt, ещё более красивые картинки и ещё больше вариантов генерации
Colab
#generative #text2image #clip #multimodal
Colab
#generative #text2image #clip #multimodal
На днях нашёл новый формат для Jupyter - Jupyter Books.
Позволяет собрать несколько разных блокнотов в одну интерактивную книгу с оглавлением и всем таким. Выглядит классно!
Сайт
#resources #presentation
Позволяет собрать несколько разных блокнотов в одну интерактивную книгу с оглавлением и всем таким. Выглядит классно!
Сайт
#resources #presentation
Тут в статье A Recipe For Arbitrary Text Style Transfer with Large Language Models предложили прикольный рецепт для авто-аугментации текста в режиме Few-Shot. Берем затравку как на картинке, а дальше начинаем фантазировать. У меня получилось (курсивом на вход, жирным на выход):
1. {I need to go to the bathroom}. Here is a rewrite of the text, which is more like a geoscientist: {A huge volume of rock, called a pluton, is pushed up rapidly into the Earth's crust}.
2. {Мне нужно в туалет}. Here is
a rewrite of the text, which is more like a president: {Мне не нужно в туалет}
3. {Give me a BigMac and some chips}. Here is a rewrite of the text, which is more like a CEO of Burger King: {Let's start a BurgerKing store in my neighborhood}
Ну вы поняли идею =) Много крутых примеров тут. А попробовать самим можно в ElutherAI GPT-J (GPT-3 для бедных) на их интеркативном демо-сайте. Делитесь в комментах что получилось!
#gpt #generative #fewshot #nlp
1. {I need to go to the bathroom}. Here is a rewrite of the text, which is more like a geoscientist: {A huge volume of rock, called a pluton, is pushed up rapidly into the Earth's crust}.
2. {Мне нужно в туалет}. Here is
a rewrite of the text, which is more like a president: {Мне не нужно в туалет}
3. {Give me a BigMac and some chips}. Here is a rewrite of the text, which is more like a CEO of Burger King: {Let's start a BurgerKing store in my neighborhood}
Ну вы поняли идею =) Много крутых примеров тут. А попробовать самим можно в ElutherAI GPT-J (GPT-3 для бедных) на их интеркативном демо-сайте. Делитесь в комментах что получилось!
#gpt #generative #fewshot #nlp
MEDIC
MEDIC - это большой набор данных классификации изображений из социальных сетей для гуманитарного реагирования, состоящий из 71 198 изображений для решения четырех различных задач. Он составлен из данных из нескольких источников (таких как CrisisMMD, AIDR и Damage Multimodal Dataset)
Датасет
#datasets #images #ScientifcML
MEDIC - это большой набор данных классификации изображений из социальных сетей для гуманитарного реагирования, состоящий из 71 198 изображений для решения четырех различных задач. Он составлен из данных из нескольких источников (таких как CrisisMMD, AIDR и Damage Multimodal Dataset)
Датасет
#datasets #images #ScientifcML
Набор данных LAION-400M находится в полном открытом, свободном доступе (400 миллионов пар картинка-текст).
Собран благодаря crowd-computing усилиям ElutherAI (я тоже поучаствовал 🤏).
Все изображения и тексты в LAION-400M были отфильтрованы с помощью OpenAI's CLIP путем вычисления косинусного сходства между эмбедингами текста и изображения и отбрасывания тех, чье сходство ниже 0,3.
Датасет
Инсайдерская инфа (Скоро будет 1 миллиард)
#datasets #multimodal #clip
Собран благодаря crowd-computing усилиям ElutherAI (я тоже поучаствовал 🤏).
Все изображения и тексты в LAION-400M были отфильтрованы с помощью OpenAI's CLIP путем вычисления косинусного сходства между эмбедингами текста и изображения и отбрасывания тех, чье сходство ниже 0,3.
Датасет
Инсайдерская инфа (Скоро будет 1 миллиард)
#datasets #multimodal #clip
Learning Fast Sample Re-weighting Without Reward Data (Google Cloud AI)
Перевзвешивание обучающей выборки является эффективным подходом для борьбы с проблемами в данных, такими как несбалансированные и испорченные метки.
Существующие методы перевзвешивания выборок на основе обучения требуют вложенной оптимизации моделей и весовых параметров, что в свою очередь требует дорогостоящих вычислений. В этой работе представлен новый метод быстрого перевзвешивания выборки (FSR) на основе обучения, который не требует дополнительных данных о вознаграждении.
В основе метода лежат две ключевые идеи: обучение на основе истории для построения прокси-данных вознаграждения и совместное использование признаков для снижения стоимости оптимизации.
Предложенный метод достигает конкурентоспособных результатов по сравнению с современными методами в отношении устойчивости к шуму меток и распознавания длинных хвостов, и при этом достигает значительно более высокой эффективности обучения.
Статья
Код
#training #imbalance
Перевзвешивание обучающей выборки является эффективным подходом для борьбы с проблемами в данных, такими как несбалансированные и испорченные метки.
Существующие методы перевзвешивания выборок на основе обучения требуют вложенной оптимизации моделей и весовых параметров, что в свою очередь требует дорогостоящих вычислений. В этой работе представлен новый метод быстрого перевзвешивания выборки (FSR) на основе обучения, который не требует дополнительных данных о вознаграждении.
В основе метода лежат две ключевые идеи: обучение на основе истории для построения прокси-данных вознаграждения и совместное использование признаков для снижения стоимости оптимизации.
Предложенный метод достигает конкурентоспособных результатов по сравнению с современными методами в отношении устойчивости к шуму меток и распознавания длинных хвостов, и при этом достигает значительно более высокой эффективности обучения.
Статья
Код
#training #imbalance
ConvMLP: Hierarchical Convolutional MLPs for Vision
Недавно было показано, что архитектуры на основе MLP, состоящие из последовательных блоков многослойных перцептронов (см тут), сравнимы с сверточными и трансформерными методами. Однако большинство этих пространственных MLP принимают фиксированные размерные входные данные, поэтому их нельзя применять для решения последующих задач, таких как обнаружение объектов и семантическая сегментация. Более того, одноступенчатые конструкции еще больше ограничивают производительность в других задачах компьютерного зрения, а полностью связанные слои требуют больших вычислений.
Для решения этих проблем авторы предлагают ConvMLP: иерархический сверточный MLP для визуального распознавания, который представляет собой легкую, поэтапную, совместную конструкцию сверточных слоев и MLP. В частности, ConvMLP-S достигает 76,8% точности top-1 на ImageNet-1k с 9M параметрами и 2,4G MACs (15% и 19% от MLP-Mixer-B/16, соответственно).
Статья
Код
#MLP #CNN #segmentation #detetctiton
Недавно было показано, что архитектуры на основе MLP, состоящие из последовательных блоков многослойных перцептронов (см тут), сравнимы с сверточными и трансформерными методами. Однако большинство этих пространственных MLP принимают фиксированные размерные входные данные, поэтому их нельзя применять для решения последующих задач, таких как обнаружение объектов и семантическая сегментация. Более того, одноступенчатые конструкции еще больше ограничивают производительность в других задачах компьютерного зрения, а полностью связанные слои требуют больших вычислений.
Для решения этих проблем авторы предлагают ConvMLP: иерархический сверточный MLP для визуального распознавания, который представляет собой легкую, поэтапную, совместную конструкцию сверточных слоев и MLP. В частности, ConvMLP-S достигает 76,8% точности top-1 на ImageNet-1k с 9M параметрами и 2,4G MACs (15% и 19% от MLP-Mixer-B/16, соответственно).
Статья
Код
#MLP #CNN #segmentation #detetctiton
Sparse-MLP: A Fully-MLP Architecture with Conditional Computation
Mixture-of-Experts (MoE) с разреженными условными вычислениями - эффективная архитектура для масштабирования моделей attention на большее количество параметров.
Sparse-MLP - это по сути MLP-Mixer с разреженными слоями MoE. Подмножество dense блоков MLP-Mixer заменяется на разреженные (sparse) блоки. В каждом этом блоке применяется два этапа слоев MoE: один с экспертами MLP, смешивающими информацию внутри каналов по размеру патча изображения, другой с экспертами MLP, смешивающими информацию внутри патчей по размеру канала.
Кроме того, для снижения вычислительных затрат авторы используют слои Re-represent в каждом блоке Sparse. Эти слои предназначены для изменения масштаба представления изображений с помощью двух простых, но эффективных линейных преобразований.
На небольших задачах классификации изображений, т.е. Cifar10 и Cifar100 модель Sparse-MLP достигает лучшей производительности, чем базовые модели.
Статья
#mlp #images #conditional
Mixture-of-Experts (MoE) с разреженными условными вычислениями - эффективная архитектура для масштабирования моделей attention на большее количество параметров.
Sparse-MLP - это по сути MLP-Mixer с разреженными слоями MoE. Подмножество dense блоков MLP-Mixer заменяется на разреженные (sparse) блоки. В каждом этом блоке применяется два этапа слоев MoE: один с экспертами MLP, смешивающими информацию внутри каналов по размеру патча изображения, другой с экспертами MLP, смешивающими информацию внутри патчей по размеру канала.
Кроме того, для снижения вычислительных затрат авторы используют слои Re-represent в каждом блоке Sparse. Эти слои предназначены для изменения масштаба представления изображений с помощью двух простых, но эффективных линейных преобразований.
На небольших задачах классификации изображений, т.е. Cifar10 и Cifar100 модель Sparse-MLP достигает лучшей производительности, чем базовые модели.
Статья
#mlp #images #conditional
Guided diffusion update
Обновился блокнот guided diffusion 512x512. Модификация позволяет использовать cutn=128 на графических процессорах Colab (более высокое качество вывода). Для этого cutn разделяется на четыре батча с cutn=32 и накапливает градиенты, но быстрым способом.
Colab
#text2image #diffusion #generative
Обновился блокнот guided diffusion 512x512. Модификация позволяет использовать cutn=128 на графических процессорах Colab (более высокое качество вывода). Для этого cutn разделяется на четыре батча с cutn=32 и накапливает градиенты, но быстрым способом.
Colab
#text2image #diffusion #generative
LIVECell
(Label-free In Vitro image Examples of Cells) - это набор данных микроскопических изображений для инстант-сегментации отдельных клеток в двумерных клеточных культурах.
LIVECell состоит из 5239 аннотированных вручную, проверенных экспертами изображений фазово-контрастной микроскопии Incucyte HD с общим количеством 1 686 352 отдельных клеток, аннотированных по восьми различным типам (в среднем 313 клеток на одном изображении). Изображения LIVECell предварительно разделены на train (3188), Val (539) и test (1512) наборы.
#ScientificML #datasets #biology #segmentation
(Label-free In Vitro image Examples of Cells) - это набор данных микроскопических изображений для инстант-сегментации отдельных клеток в двумерных клеточных культурах.
LIVECell состоит из 5239 аннотированных вручную, проверенных экспертами изображений фазово-контрастной микроскопии Incucyte HD с общим количеством 1 686 352 отдельных клеток, аннотированных по восьми различным типам (в среднем 313 клеток на одном изображении). Изображения LIVECell предварительно разделены на train (3188), Val (539) и test (1512) наборы.
#ScientificML #datasets #biology #segmentation
Torch Inferenece Mode
Хотите, чтобы ваши модели в PyTorch работали быстрее на инференсе? Вот как это сделать.
Замените `torch.no_grad()` на ✨`torch.inference_mode()`✨
В то время как NoGrad отключает операции отслеживания Автограда, InferenceMode делает это на два шага вперед, потенциально ускоряя ваш код (YMMV в зависимости от сложности модели и аппаратного обеспечения).
Обратите внимание, что наибольшее ускорение достигается для легких операций, узким местом которых являются накладные расходы на отслеживание.
❗Если операции достаточно сложные, отключение отслеживания с помощью InferenceMode не дает большого ускорения; например, использование InferenceMode на ResNet101 forward
#inference #code
Хотите, чтобы ваши модели в PyTorch работали быстрее на инференсе? Вот как это сделать.
Замените `torch.no_grad()` на ✨`torch.inference_mode()`✨
inference_mode()
- это torch.no_grad()
на стероидах.В то время как NoGrad отключает операции отслеживания Автограда, InferenceMode делает это на два шага вперед, потенциально ускоряя ваш код (YMMV в зависимости от сложности модели и аппаратного обеспечения).
Обратите внимание, что наибольшее ускорение достигается для легких операций, узким местом которых являются накладные расходы на отслеживание.
❗Если операции достаточно сложные, отключение отслеживания с помощью InferenceMode не дает большого ускорения; например, использование InferenceMode на ResNet101 forward
#inference #code
Forwarded from Denis Sexy IT 🤖
Наткнулся на интересную нейронку, на вход ей подают два изображения: одно это фотка, второе – полученная на её основе упрощенная копия этой же фотки, как-будто нарисованная карандашом. Нейронка учится строить соответствия между оригиналом и его простой копией, таким образом внося изменения в простое изображение, в оригинале отображаются изменения. Удобно, чтобы не мучиться со всякими мелкими деталями на основной фотографии, рисуем что-то в простой, а алгоритм сам дорисовывает что необходимо (как эти нейронные пеинты которые вы уже видели).
На видео пример – на ствол дерева дорисовывают ветки и меняют его наклон, а изменения в реальном времени отображаются на фотке: кора на дереве, новые ветки, даже облака двигаются. Объекты на простом изображении можно менять по контуру, либо сегментировать их на разные мини-объекты и изменять их отдельно.
В общем, очередной быстрый фотошоп.
Тут подробности. UPD: Код тут.
На видео пример – на ствол дерева дорисовывают ветки и меняют его наклон, а изменения в реальном времени отображаются на фотке: кора на дереве, новые ветки, даже облака двигаются. Объекты на простом изображении можно менять по контуру, либо сегментировать их на разные мини-объекты и изменять их отдельно.
В общем, очередной быстрый фотошоп.
Тут подробности. UPD: Код тут.
Смотрите какая крутая штука! Оказывается loss функцию можно показывать очень и очень красиво и артистично!
Больше крутых примеров 👉 https://losslandscape.com/gallery/
#images #generative #training
Больше крутых примеров 👉 https://losslandscape.com/gallery/
#images #generative #training