AI Для Всех
12.8K subscribers
1.18K photos
153 videos
10 files
1.38K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
AI Шеф-повар 👨‍🍳.

Посмотрите какая крутая штука!!! Выбираете себе повара, даёте ему ингредиенты и он генерирует рецептик и даже показывает, как блюдо будет выглядеть.

🤗 Онлайн-демо (можно играться с телефона)

#generative #images #multimodal #nlp #transformer #demo
#resources #literature #normalization #optimizer #transformer #nlp #generative #cnn

Наверно, стоит в принципе отметить сайт https://theaisummer.com/

На сайте есть много приятных статей с очень хорошими, часто авторскими, иллюстрациями.

На мой вкус порой они делают порой плохие по качеству рассказа или материала статьи, но фактических ошибок у них не замечал. И такие статьи редки.

Потому сайт является хорошим местом, которое можно посмотреть при подготовке или перед чтением лекции.

Примеры приятных статей:

In-layer normalization techniques for training very deep neural networks

A journey into Optimization algorithms for Deep Neural Networks

Intuitive Explanation of Skip Connections in Deep Learning

How Transformers work in deep learning and NLP: an intuitive introduction

The theory behind Latent Variable Models: formulating a Variational Autoencoder

Best deep CNN architectures and their principles: from AlexNet to EfficientNet
VideoGPT: Video Generation using VQ-VAE and Transformers

Концептуально простая архитектура для масштабирования генеративного моделирования на основе правдоподобия (likelihood modeling) на естественное видео.

VideoGPT использует VQ-VAE, который выучивает латентные представления исходного видео с пониженной дискретизацией (downsampled), используя 3D-свертки и осевой self-attention.

Затем простая архитектура, типа #GPT, используется для авторегрессионного моделирования дискретных латентных представлений с помощью пространственно-временных позиционных кодировок (spatio-temporal position encodings).

Сеть способна генерировать видосы, конкурентоспособные с современными #GAN-моделями для генерации видео.

ArXiv
Проект
Colab

#video #generative
Evaluating CLIP: Towards Characterization of Broader Capabilities and Downstream Implications

В новой статье OpenAI анализирует #CLIP. CLIP снижает потребность в обучающих данных для конкретной задачи, что потенциально открывает многие нишевые задачи для автоматизации. CLIP также позволяет пользователям гибко задавать классы классификации изображений на естественном языке, что, как выяснили авторы, может изменить характер проявления баесов.

Результаты дополняют растущее число работ, призывающих изменить понятие "лучшей" модели - перейти от простого определения более высокой точности, к более широкому понятию "лучше", которое учитывает критически важные особенности инференса, такие как различные контексты использования и людей, которые взаимодействуют с моделью.

Статья

#generative #multimodal #images #nlp
ILVR: Conditioning Method for Denoising Diffusion Probabilistic Models.

Диффузионно-вероятностные модели (DDPM) показали замечательную производительность при отменном в качестве генерации изображений. Однако из-за стохастичности процесса генерации в DDPM сложно генерировать изображения с желаемой семантикой.

В данной работе предлагается итеративное уточнение латентных переменных (ILVR) - метод, позволяющий направлять генеративный процесс для создания высококачественных изображений на основе заданного эталонного изображения. Это улучшение позволяет одному DDPM выбирать изображения из различных наборов, определяемых эталонном.

Управляемость метода позволяет адаптировать DDPM без дополнительного обучения к различным задачам генерации изображений, таким как генерация с различными коэффициентами понижения дискретизации (downsampling), перевод изображений в несколько областей, раскраска изображения и редактирование с помощью каракулей.

Статья

#generative #diffusion #images
This media is not supported in your browser
VIEW IN TELEGRAM
SofGAN: A Portrait Image Generator with Dynamic Styling

Генератор изображений SofGAN разделяет латентное пространство портретов на два подпространства: пространство геометрии и пространство текстур. Латентные коды, отобранные из двух подпространств, подаются на две ветви сети по отдельности: одна для генерации 3D-геометрии портретов с канонической позой, а другая - для генерации текстур.

Но это все фигня по сравнению с редактором который они поставляют вместе со своим ганом!

Статья
Проект
GitHub

#images #gan #generative
CLIP Guided Diffusion HQ

Обновился Colab с guided diffusion. Теперь доступное разрешение 512х512 px и улучшилось качество генерации.

Картинка сгенерирована по тексту: a beautiful watercolor painting of wind

#text2image #generative #CLIP #diffusion
OpenAI Codex - просто чума!

Час назад, OpenAI провела лайв-демо своего нового API Codex, которое позволяет пользоваться их моделью для генерации кода. Было показано много прикольных применений типа автонаписания кода и даже игры на JavaScript. Но самое сладкое они оставили на конец.

У многих программ есть своё собственное API (например у Word). Так вот, Codeх способен к ним подключаться и напрямую управлять софтом. Например, в демо показано как с помощью одной голосовой команды можно удалить все лишние пробелы в вордовском документе или выделить жирным каждую 5ую строку!

Посмотреть презентацию можно тут: https://www.youtube.com/watch?v=SGUCcjHTmGY

#code #news #generative #nlp
AI Для Всех
CLIP Guided Diffusion HQ Обновился Colab с guided diffusion. Теперь доступное разрешение 512х512 px и улучшилось качество генерации. Картинка сгенерирована по тексту: a beautiful watercolor painting of wind #text2image #generative #CLIP #diffusion
CLIP Guided Diffusion Uncond

Вновь обновился Colab с Guided Diffusion (нейросеть которая позволяет из любого текста сделать картинку). Качество изображений стало ещё лучше, теперь неплохо получаются лица.

Бежим играть - делитесь в комментах, что у вас получилось.

(Prompt с обложки поста: the rise of consciousness)

#generative #diffusion #CLIP #images #multimodal #text2image
CLIPIT PixelDraw

Возможно некоторые из вас уже видели новую сеть для генерации Pixel Art из текстового описания. И вот наконец к ней выложили Colab с которым можно поиграться самостоятельно.

#generative #CLIP #multimodal #images #text2image
Program Synthesis with Large Language Models

Авторы используют большие языковые модели для синтеза компьютерных программ, выполнения программ, решения математических задач и диалога с людьми для итеративного уточнения кода.
Модели могут решить 60% и 81% задач по программированию и математике, соответственно.

Оказалось что, большие модели не только решают проблемы, которые не могут решить меньшие модели, но и более надежно решают более простые проблемы, которые меньшие модели решают реже.

В статье разобранны различные аспекты работы с такими кодовыми моделями.

ArXiv

#code #generative #nlp
Consistency Regularization for Variational Auto-Encoders

Вариационные автоэнкодеры (ВАЕ) - мощный подход к self-supervised learning. VAE представляет собой вариационное семейство, параметризованное глубокой нейронной сетью, называемой кодером, которая принимает данные на вход.

Этот кодер VAE обладает нежелательным свойством: он отображает наблюдение и преобразование этого наблюдения в различные латентные представления. Такая "непоследовательность" кодировщика снижает качество изученных представлений.

В данной работе предлагают метод регуляризации для обеспечения согласованности в VAE. Идея заключается в минимизации расхождения Куллбэка-Лейблера (KL) между вариационным распределением при условии наблюдения и вариационным распределением при условии случайного семантически сохраняющего преобразования этого наблюдения. Эта регуляризация применима к любому VAE и более того улучшает любой из них.

arXiv

#SSL #vae #generative
Want To Reduce Labeling Cost? GPT-3 Can Help

Аннотирование данных - трудоемкий и длительный процесс для многих задач NLP. Хотя существуют различные методы получения псевдометок, они часто зависят от конкретной задачи и все равно требуют значительного количества размеренных данных.

В статье исследуются способы использования GPT-3 в качестве недорогого средства для разметки данных для обучения других моделей. Авторы обнаружили, что для того, чтобы последующая модель достигла одинаковой производительности в различных задачах NLU и NLG, использование меток из GPT-3 обходится на 50%-96% дешевле, чем использование меток от человека. Более того, авторы предлагают новую схему комбинирования псевдометок из GPT-3 с человеческими метками, что приводит к еще более высокой производительности при ограниченном бюджете на разметку. Эти результаты представляют экономически эффективную методологию разметки данных, которая может быть использована во многих практических приложениях.

Статья

#gpt #labeling #generative #nlp
Finetuned Language Models Are Zero-Shot Learners (Google AI)

В этой статье рассматривается простой метод улучшения способности языковых моделей к обучению "zero shot".

Авторы берут предварительно обученную языковую модель с 137B параметров и тюнят ее на более чем 60 задачах НЛП, вербализованных с помощью шаблонов инструкций на естественном языке.

Эта модель существенно улучшает производительность своего немодифицированного аналога и превосходит zero-shot 175B GPT-3 на 19 из 25 задач, которые оценивали авторы.

Статья

#nlp #gpt #training #generative
Moser Flow: Divergence-based Generative Modeling on Manifolds

Потоки Мозера, новый класс непрерывных нормализующих потоков на многообразиях, основанный на дивергенциях нейронных сетей. Первые результаты генеративного моделирования на общих криволинейных поверхностях!

Учитывая две плотности вероятности на многообразии, Дж. Мозер (1965) построил поток, сдвигающий первую плотность ко второй. Поток определяется векторным полем, дивергенция которого равна разности между плотностями.

Это послужило мотивом для создания MF - универсального аппроксиматора, в котором разница в плотностях модели и предшествующей плотности выражается с помощью (локального, легко аппроксимируемого) оператора дивергенции, применяемого непосредственно к NN. В отличие от предыдущих методов CNF, он не требует решения ODE во время обучения!

МП с большим отрывом достигают вероятности SOTA на бэнчмарках наук о Земле с базовой сферической геометрией.

Статья

#ScientificML #generative
This media is not supported in your browser
VIEW IN TELEGRAM
π-GAN: Periodic Implicit Generative Adversarial Networks for 3D-Aware Image Synthesis

Последние достижения в области генеративных визуальных моделей и нейронного рендеринга ускорили прогресс в синтезе изображений с учетом 3D. Однако существующие подходы могут не обеспечивать адекватное представление на уровне слоев или генерировать изображения, не соответствующие многоракурсному представлению. Periodic Implicit Generative Adversarial Networks (π-GAN) предлагаются для высококачественного синтеза изображений с учетом 3D. π-GAN визуализирует сцены как контекстуальные 3D-представления с высокой детализацией, используя нейронные представления с периодическими функциями активации. Предложенный подход позволяет получить самые современные результаты для синтеза 3D-изображений на различных реальных и синтетических наборах данных.

Статья
Проект
Код

#gan #generative #images
Обновился блокнот CLIPPixelArt, ещё более красивые картинки и ещё больше вариантов генерации

Colab

#generative #text2image #clip #multimodal
Тут в статье A Recipe For Arbitrary Text Style Transfer with Large Language Models предложили прикольный рецепт для авто-аугментации текста в режиме Few-Shot. Берем затравку как на картинке, а дальше начинаем фантазировать. У меня получилось (курсивом на вход, жирным на выход):

1. {I need to go to the bathroom}. Here is a rewrite of the text, which is more like a geoscientist: {A huge volume of rock, called a pluton, is pushed up rapidly into the Earth's crust}.

2. {Мне нужно в туалет}. Here is
a rewrite of the text, which is more like a president:
{Мне не нужно в туалет}

3. {Give me a BigMac and some chips}. Here is a rewrite of the text, which is more like a CEO of Burger King: {Let's start a BurgerKing store in my neighborhood}

Ну вы поняли идею =) Много крутых примеров тут. А попробовать самим можно в ElutherAI GPT-J (GPT-3 для бедных) на их интеркативном демо-сайте. Делитесь в комментах что получилось!

#gpt #generative #fewshot #nlp