В Neural Art проходит моя выставка коллекции «НейроГипс»
Коллекция «НейроГипс» состоит из шестнадцати визуально-семантических модулей, сгенерированных нейронными сетями в жанре CNN: Cyber Neural Noir.
Сам жанр описывает мрачный и привлекательный мир эпохи искусственного интеллекта в сеттинге высокотехнологичного футуристического города, ландшафт которого уже не имеет четких границ между реальностью и виртуальным пространством.
Коллекция «НейроГипс» состоит из шестнадцати визуально-семантических модулей, сгенерированных нейронными сетями в жанре CNN: Cyber Neural Noir.
Сам жанр описывает мрачный и привлекательный мир эпохи искусственного интеллекта в сеттинге высокотехнологичного футуристического города, ландшафт которого уже не имеет четких границ между реальностью и виртуальным пространством.
👾🎨 Pixel Draw Colab - Мишин Лернинг Resolution Mod
Ребята, сделал для вас супер-пупер версию популярного в последние дни colab’а для генерации картин в стиле PixelArt.
🔮 Pixel Draw Colab - Мишин Лернинг Resolution Mod
Что важного в этой версии:
▪️Добавил возможность выбирать разрешение (изначально автор не заложил этого в интерфейсе, и пришлось покостылить, но все ок! наконец-то)
▪️Добавил возможность выбирать модель (ViT-B/32 vs ViT-B/32 + ViT-B/16, ViT-B/32 + ViT-B/16 + ResNet50), по умолчанию стоит quality: draft, это значит, что градиенты текут именно с ViT-B/32, я бы советовал юзать именно его.
▪️Добавил выбор colab pro / colab
Продуктивной генерации!
p.s. возможность выбирать разрешение - реально топ! На картинке: professional pixel art of 2D star wars game in retro neon night city в разных разрешениях
#colab #mishin_learning_colab #neuralart
Ребята, сделал для вас супер-пупер версию популярного в последние дни colab’а для генерации картин в стиле PixelArt.
🔮 Pixel Draw Colab - Мишин Лернинг Resolution Mod
Что важного в этой версии:
▪️Добавил возможность выбирать разрешение (изначально автор не заложил этого в интерфейсе, и пришлось покостылить, но все ок! наконец-то)
▪️Добавил возможность выбирать модель (ViT-B/32 vs ViT-B/32 + ViT-B/16, ViT-B/32 + ViT-B/16 + ResNet50), по умолчанию стоит quality: draft, это значит, что градиенты текут именно с ViT-B/32, я бы советовал юзать именно его.
▪️Добавил выбор colab pro / colab
Продуктивной генерации!
p.s. возможность выбирать разрешение - реально топ! На картинке: professional pixel art of 2D star wars game in retro neon night city в разных разрешениях
#colab #mishin_learning_colab #neuralart
Annotated PyTorch Paper Implementations
Коллега скинул прикольный сайт с реализаций разных deep learning идей на PyTorch. Основной упор сделан на объяснении и подробных построчных комментариях.
💻 nn.labml.ai
Коллега скинул прикольный сайт с реализаций разных deep learning идей на PyTorch. Основной упор сделан на объяснении и подробных построчных комментариях.
💻 nn.labml.ai
👾🎨 Text2PixelArt - Resolution Is All You Need
Коллеги, довел до ума colab для Text2PixelArt и он стал еще лучше, чем позавчера!
Основные апдейты:
▪️Интерфейс. В интерфейсе только текст и разрешение. Остальное уже оптимально подобрано под обычный colab и colab pro. Добавил личные советы.
▪️Оптимизация. Теперь градиенты текут только с ViT-B/32, выходит намного качественнее и быстрее.
▪️Качество картинки. Увеличил num_cuts, отвечающий за батчсайз кропов изображения! Теперь качество выше на порядок! Это стало возможно благодаря, выбору оптимальной архитектуры ViT-B/32
p.s.: Все картинки сгенерировали подписчики и коллеги с работы, используя возможность выбора разрешения. Ребята, спасибо за фидбэк!
- Гарри Поттер пробивает товар на кассе
- Жираф на ролике в скейт парке
- 2D ретро игра по Звездным Войнам
- Пиксельный постер фильма Гарри Поттер
- Чубакка ест банан, глядя на закат
- Космическая одиссея 2001 года
🔮 Text2PixelArt Colab - Мишин Лернинг Resolution Mod
#colab #mishin_learning_colab #neuralart
Коллеги, довел до ума colab для Text2PixelArt и он стал еще лучше, чем позавчера!
Основные апдейты:
▪️Интерфейс. В интерфейсе только текст и разрешение. Остальное уже оптимально подобрано под обычный colab и colab pro. Добавил личные советы.
▪️Оптимизация. Теперь градиенты текут только с ViT-B/32, выходит намного качественнее и быстрее.
▪️Качество картинки. Увеличил num_cuts, отвечающий за батчсайз кропов изображения! Теперь качество выше на порядок! Это стало возможно благодаря, выбору оптимальной архитектуры ViT-B/32
p.s.: Все картинки сгенерировали подписчики и коллеги с работы, используя возможность выбора разрешения. Ребята, спасибо за фидбэк!
- Гарри Поттер пробивает товар на кассе
- Жираф на ролике в скейт парке
- 2D ретро игра по Звездным Войнам
- Пиксельный постер фильма Гарри Поттер
- Чубакка ест банан, глядя на закат
- Космическая одиссея 2001 года
🔮 Text2PixelArt Colab - Мишин Лернинг Resolution Mod
#colab #mishin_learning_colab #neuralart
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Классный эксперимент. Серое изображение раскрашивается в цвета таким образом, чтобы с точки зрения эмбеддинга CLIP раскраска была наиболее близка к стилю известных художников. Лосс итеративо уменьшается обновлением цветов. Спектакулярно!
Все-таки мощная штука этот ваш CLIP.
Все-таки мощная штука этот ваш CLIP.
👾🎨 Denis Sexy IT + Мишин Лернинг = Text2PixelArt + Zero-Shot PixelArt Style Transfer
◾️ Пару дней назад я выложил колаб по Text2PixelArt Мишин Лернинг 🤖🎓 Resolution Mod, который расширял функционал: давал возможность выбирать разрешение + улучшал качество картинки.
◾️ Сегодня Denis Sexy IT 🤖 собрал крутой колаб, основная идея которого: Zero-Shot PixelArt Style Transfer. Просто представьте, Style Transfer для которого не нужно ни одного примера (0-shot)! Этот мод дает возможность выбирать изображение, с которого начнется оптимизация. Такой подход дает невероятные возможности! Не зря говорят: Good Init Is All You Need!
Встречайте симбиоз этих двух лучших версий!
p.s.: Дополнительные благодарности: mlart, ViktorAlm, dribnet
🔮Text2PixelArt + Zero-Shot PixelArt Style Transfer = Mishin Learning + Denis Sexy IT
#colab #mishin_learning_colab #neuralart
◾️ Пару дней назад я выложил колаб по Text2PixelArt Мишин Лернинг 🤖🎓 Resolution Mod, который расширял функционал: давал возможность выбирать разрешение + улучшал качество картинки.
◾️ Сегодня Denis Sexy IT 🤖 собрал крутой колаб, основная идея которого: Zero-Shot PixelArt Style Transfer. Просто представьте, Style Transfer для которого не нужно ни одного примера (0-shot)! Этот мод дает возможность выбирать изображение, с которого начнется оптимизация. Такой подход дает невероятные возможности! Не зря говорят: Good Init Is All You Need!
Встречайте симбиоз этих двух лучших версий!
p.s.: Дополнительные благодарности: mlart, ViktorAlm, dribnet
🔮Text2PixelArt + Zero-Shot PixelArt Style Transfer = Mishin Learning + Denis Sexy IT
#colab #mishin_learning_colab #neuralart
Будущее за моделями Генералистами
GPT языковые модели-трансформеры были приспособлены для:
▪️Генерации текста и zero/few-shot learning задач nlp: GPT3
▪️Генерации изображений по текстовому описанию (предсказание дискретных токенов dVAE): DALL•E
▪️Генерации кода: Codex
Хотя эти модели прекрасно себя чувствуют в zero-shot, но все они являются специалистами.
Мне видится, что будущее за моделями генералистами — архитектурами, способными решать сразу множество задач. Одна модель для генерации, классификации и перевода: текстов, кода, изображений, видео и аудио, etc.
Тут целых два преимущества:
1. Такие модели смогут получать дополнительные знания, обучаясь на разных доменах (e.g.: SOTA zero-shot классификатор изображений — модель CLIP, Contrastive Language-Image Pre-training)
2. Множество новых задач — одна претрейнутая модель. Задача сформулирована, пару мгновений и задача решена.
Такой подход, скорее всего, будет реализован через GPT-like трансформеры, использующие MoE (e.g.: Switch Transformer) с колоссальным количеством параметров (e.g.: WuDao2.0), с претрейном на ‘всем интернете’ и, возможно, с дополнительными ухищрениями позволяющими справится с квадратичной сложностью механизма внимания и пр. проблемами (e.g.: perceiver-like механизм, обращение к ‘памяти’ для сохранения контекста, возможность обращения к ‘базе знаний’, или даже ограниченная возможность вызова ‘недифференцируемых операций’ таких, как запуск скриптов или обращений к поисковым системами, обучаемых rl методами).
p.s. Предлагаю посмотреть как Codex от OpenAI позволяет не только писать код на естественном языке, но и решать простые математические задачи.
🎬 Giving OpenAI Codex a First Grade Math Test
GPT языковые модели-трансформеры были приспособлены для:
▪️Генерации текста и zero/few-shot learning задач nlp: GPT3
▪️Генерации изображений по текстовому описанию (предсказание дискретных токенов dVAE): DALL•E
▪️Генерации кода: Codex
Хотя эти модели прекрасно себя чувствуют в zero-shot, но все они являются специалистами.
Мне видится, что будущее за моделями генералистами — архитектурами, способными решать сразу множество задач. Одна модель для генерации, классификации и перевода: текстов, кода, изображений, видео и аудио, etc.
Тут целых два преимущества:
1. Такие модели смогут получать дополнительные знания, обучаясь на разных доменах (e.g.: SOTA zero-shot классификатор изображений — модель CLIP, Contrastive Language-Image Pre-training)
2. Множество новых задач — одна претрейнутая модель. Задача сформулирована, пару мгновений и задача решена.
Такой подход, скорее всего, будет реализован через GPT-like трансформеры, использующие MoE (e.g.: Switch Transformer) с колоссальным количеством параметров (e.g.: WuDao2.0), с претрейном на ‘всем интернете’ и, возможно, с дополнительными ухищрениями позволяющими справится с квадратичной сложностью механизма внимания и пр. проблемами (e.g.: perceiver-like механизм, обращение к ‘памяти’ для сохранения контекста, возможность обращения к ‘базе знаний’, или даже ограниченная возможность вызова ‘недифференцируемых операций’ таких, как запуск скриптов или обращений к поисковым системами, обучаемых rl методами).
p.s. Предлагаю посмотреть как Codex от OpenAI позволяет не только писать код на естественном языке, но и решать простые математические задачи.
🎬 Giving OpenAI Codex a First Grade Math Test
YouTube
Giving OpenAI Codex a First Grade Math Test
Learn more: https://openai.com/blog/openai-codex
Нейросеть Codex от OpenAI: увольняйте ваших Data Scientist’ов
Будущее наступило! Нейросеть Codex (gpt 3 для генерации кода) позволяет решать data science задачи на естественном языке!
https://youtu.be/Ru5fQZ714x8
Будущее наступило! Нейросеть Codex (gpt 3 для генерации кода) позволяет решать data science задачи на естественном языке!
https://youtu.be/Ru5fQZ714x8
YouTube
Data Science with OpenAI Codex
Learn more: https://openai.com/blog/openai-codex
This media is not supported in your browser
VIEW IN TELEGRAM
3D визуализация того, как видят роботы Boston Dynamics
Эта анимация представляет собой трехмерную визуализацию, которая показывает то, что видит и планирует робот, перемещаясь по полосе препятствий для паркура.
Отслеживаемые объекты отображаются зеленым цветом и меняют цвет с зеленого на фиолетовый по мере того, как они исчезают из поля зрения сенсоров восприятия робота. Система слежения постоянно оценивает расположение объектов в окружении, а система навигации планирует шаги (они тоже показаны зеленым цветом) относительно этих объектов, используя информацию с карты.
Эта анимация представляет собой трехмерную визуализацию, которая показывает то, что видит и планирует робот, перемещаясь по полосе препятствий для паркура.
Отслеживаемые объекты отображаются зеленым цветом и меняют цвет с зеленого на фиолетовый по мере того, как они исчезают из поля зрения сенсоров восприятия робота. Система слежения постоянно оценивает расположение объектов в окружении, а система навигации планирует шаги (они тоже показаны зеленым цветом) относительно этих объектов, используя информацию с карты.
CLIP — Главная нейросеть 2021
📄 Детальный разбор CLIP на habr от Мишин Лернинг
Нейросеть CLIP — устойчивый классификатор, который не нужно даже обучать. Кроме того, этой сети нашли десятки разных применений: от нейронного поиска по фото и видео до генеративного искусства, от zero-shot классификации изображений до zero-shot Domain Adaptation для StyleGAN (NADA).
CLIP — это действительно новый взгляд на объединение NLP и CV. Последние несколько лет мы наблюдали триумфы в области обработки естественного языка, и языковые модели действительно наделали много шума, совершив новую революцию и, в очередной раз, отложив новую "зиму" искусственного интеллекта в долгий ящик.
Совсем недавно мы начали наблюдать явление, когда технологии, вроде бы изначально присущие только NLP, стали бить рекорды в компьютерном зрении: Vision Transformers. Теперь методы few-shot и zero-shot learning проникают в сферу компьютерного зрения уже благодаря гибридным nlp и cv моделям.
#сохраненки #статьи #habr
📄 Детальный разбор CLIP на habr от Мишин Лернинг
Нейросеть CLIP — устойчивый классификатор, который не нужно даже обучать. Кроме того, этой сети нашли десятки разных применений: от нейронного поиска по фото и видео до генеративного искусства, от zero-shot классификации изображений до zero-shot Domain Adaptation для StyleGAN (NADA).
CLIP — это действительно новый взгляд на объединение NLP и CV. Последние несколько лет мы наблюдали триумфы в области обработки естественного языка, и языковые модели действительно наделали много шума, совершив новую революцию и, в очередной раз, отложив новую "зиму" искусственного интеллекта в долгий ящик.
Совсем недавно мы начали наблюдать явление, когда технологии, вроде бы изначально присущие только NLP, стали бить рекорды в компьютерном зрении: Vision Transformers. Теперь методы few-shot и zero-shot learning проникают в сферу компьютерного зрения уже благодаря гибридным nlp и cv моделям.
#сохраненки #статьи #habr
🤖🏆 SimVLM — Новый CLIP
Представьте себе одну модель, которая может:
- Классифицировать фото
- Отвечать на вопросы по фото
- Дополнять текстовые описания
- Решать задачу «визуального обоснования»
- Выполнять мультимодальный перевод
А самое главное, делать все это в режиме zero-shot (обучение без обучения)!
Встречайте: SimVLM, который по факту является мультимодальной сетью Text + Image (как CLIP), с классической трансформер архитектурой. ViT+Bert энкодер + декодер GPT (см картинку поста).
Такой текстовый-визуальный претрейн сравнили с современными (SOTA) методами, включая LXMERT, VL-T5, UNITER, OSCAR, Villa, SOHO, UNIMO и VinVL.
SimVLM превосходит все существующие модели и бьет SOTA по всем рассматриваемым задачам, часто со значительным отрывом.
Скоро сделаю подробный обзор архитектуры.
📄 paper
#sota #paper #multimodal #zeroshot #сохраненки
Представьте себе одну модель, которая может:
- Классифицировать фото
- Отвечать на вопросы по фото
- Дополнять текстовые описания
- Решать задачу «визуального обоснования»
- Выполнять мультимодальный перевод
А самое главное, делать все это в режиме zero-shot (обучение без обучения)!
Встречайте: SimVLM, который по факту является мультимодальной сетью Text + Image (как CLIP), с классической трансформер архитектурой. ViT+Bert энкодер + декодер GPT (см картинку поста).
Такой текстовый-визуальный претрейн сравнили с современными (SOTA) методами, включая LXMERT, VL-T5, UNITER, OSCAR, Villa, SOHO, UNIMO и VinVL.
SimVLM превосходит все существующие модели и бьет SOTA по всем рассматриваемым задачам, часто со значительным отрывом.
Скоро сделаю подробный обзор архитектуры.
📄 paper
#sota #paper #multimodal #zeroshot #сохраненки
Forwarded from Love. Death. Transformers.
#чтивонаночь
Пост из блога Nvidia про реалистичный синтез речи. Как обычно - трансформеры
https://blogs.nvidia.com/blog/2021/08/31/conversational-ai-research-speech-synthesis-interspeech/
Пост из блога Nvidia про реалистичный синтез речи. Как обычно - трансформеры
https://blogs.nvidia.com/blog/2021/08/31/conversational-ai-research-speech-synthesis-interspeech/
NVIDIA Blog
All the Feels: NVIDIA Shares Expressive Speech Synthesis Research at Interspeech
Developers and creators can access conversational AI models for expressive speech synthesis to generate voices for characters, virtual assistants and avatars.
CAPTCHA или Жизнь в эпоху Теста Тьюринга?
Знаете какой тест является самый популярным?
Помните фильм «Игра в Имитацию» про Тьюринга? Кстати, «игра в имитацию» — игра, в которой Вы общаясь с неизвестным человеком должны угадать его пол, а собеседник может Вас дурачить.
Тест Тьюринга это просто обобщение этой игры, где ваша задача ответить: человек или машина?
Можно долго говорить об ИИ. Но зачем? Реальность более прагматична. Мы живем в мире, где каждый должен доказывать, не то что он человек, а то что он хотя бы не робот.
Сегодня произошла масштабная атака на чат по Data Science в телеграмме. Мы справились лишь когда подключили бота, который кидает ботам — капчу!
Капча это калька с англ (аббр):
CAPTCHA — Completely Automated Public Turing test to tell Computers and Humans Apart.
Сегодня мы остановили ботов капчей. Но боты становятся «умнее». И капча с годами становится более сложной. Это настоящая гонка вооружений!
* На скрине — аккаунт бота, фотография профиля которого сгенерированна нейросетью
Знаете какой тест является самый популярным?
Помните фильм «Игра в Имитацию» про Тьюринга? Кстати, «игра в имитацию» — игра, в которой Вы общаясь с неизвестным человеком должны угадать его пол, а собеседник может Вас дурачить.
Тест Тьюринга это просто обобщение этой игры, где ваша задача ответить: человек или машина?
Можно долго говорить об ИИ. Но зачем? Реальность более прагматична. Мы живем в мире, где каждый должен доказывать, не то что он человек, а то что он хотя бы не робот.
Сегодня произошла масштабная атака на чат по Data Science в телеграмме. Мы справились лишь когда подключили бота, который кидает ботам — капчу!
Капча это калька с англ (аббр):
CAPTCHA — Completely Automated Public Turing test to tell Computers and Humans Apart.
Сегодня мы остановили ботов капчей. Но боты становятся «умнее». И капча с годами становится более сложной. Это настоящая гонка вооружений!
* На скрине — аккаунт бота, фотография профиля которого сгенерированна нейросетью
🎨 ➿ Text2OneLine Draw — дифференцируемое рисование одной линией
Представьте себе, что вы можете заказать модное тату не у дизайнера, а у нейронной сети. Или векторный логотип в svg.
Собрал для вас новый colab:
🔮Text2OneLine Draw — дифференцируемое рисование одной линией!
🤖Описание:
- Создается рандомная кривая Безье. Толщина линии width и число перегибов line_complexity задается в интерфейсе
- Кривая рендерится через дифференцируемую векторную графику
- Текстовое описание превращается в вектор (текстовый CLIP)
- Затем градиенты текут на кривую Безье, максимизируя cossim картинки с тектом
💡Интуиция:
- Представьте, что перед вами на белом листе бумаги длинная запутанная черная нитка
- Алгоритм двигает эту нитку, пытаясь создать описанное изображение
p.s: Чтобы добиться желаемого результата, нужно поиграть с запросом и line_complexity, и возможно запустить генерацию несколько раз
Подход показывает, что эра дифференцируемой векторной графики началась!
#colab #mishin_learning_colab #neuralart
Представьте себе, что вы можете заказать модное тату не у дизайнера, а у нейронной сети. Или векторный логотип в svg.
Собрал для вас новый colab:
🔮Text2OneLine Draw — дифференцируемое рисование одной линией!
🤖Описание:
- Создается рандомная кривая Безье. Толщина линии width и число перегибов line_complexity задается в интерфейсе
- Кривая рендерится через дифференцируемую векторную графику
- Текстовое описание превращается в вектор (текстовый CLIP)
- Затем градиенты текут на кривую Безье, максимизируя cossim картинки с тектом
💡Интуиция:
- Представьте, что перед вами на белом листе бумаги длинная запутанная черная нитка
- Алгоритм двигает эту нитку, пытаясь создать описанное изображение
p.s: Чтобы добиться желаемого результата, нужно поиграть с запросом и line_complexity, и возможно запустить генерацию несколько раз
Подход показывает, что эра дифференцируемой векторной графики началась!
#colab #mishin_learning_colab #neuralart