У меня тут завелся клон и поклонник. Не ведитесь на развод, я никогда не пишу и не предлагаю никому рекламу.
Лучше киньте страйк товаришу.
Лучше киньте страйк товаришу.
thisbeachdoesnotexist.com
StyleGAN2-Ada натренированный на 22к фотографий пляжей. На сайте есть веса модели.
Залипательно.
StyleGAN2-Ada натренированный на 22к фотографий пляжей. На сайте есть веса модели.
Залипательно.
YouTube
This Beach Does Not Exist - Random Latent Walk (StyleGAN2-Ada, psi=0.75)
StyleGAN2-Ada network trained in non-square HD resolution 1280x768 on 22,000 photos of beaches:
https://thisbeachdoesnotexist.com/
# Technical details
- resolution: 1280x768
- upscaled to: 1920x1080
- truncation psi of the video: 0.75
# Credits
- paper:…
https://thisbeachdoesnotexist.com/
# Technical details
- resolution: 1280x768
- upscaled to: 1920x1080
- truncation psi of the video: 0.75
# Credits
- paper:…
Вот такие разработки выглядят очень круто. Прям вселяют веру в человечество. Кроме помощи инвалидами и жертвам различных несчастных случаев, можно ещё пофантазировать о применении продвинутых экзоскелетов для аугментации возможностей тела и здоровых людей.
Telegram
Denis Sexy IT 🤖
Наткнулся на компанию Trexo Robotics, она занимается крутым делом — помогает детям с ограниченными возможностями снова ходить. На видео экзоскелет, у которого куча функций и настроек, например регулируемый размер, изменение длины от бедра до колена, от колена…
Именно. Добавить на свой сайт, где при каждой перезагрузке будет появляться новое фото тебя😅
UPD: Прикиньте, как хорошо лицо Олеси будет распознаваться на любой уличной камере. Такой датасет в интернете!
UPD: Прикиньте, как хорошо лицо Олеси будет распознаваться на любой уличной камере. Такой датасет в интернете!
Telegram
Denis Sexy IT 🤖
Подписчица канала сделала забавный проект – натренировала StyleGAN2-ada на двух тысячах своих фотографий и получила генератор себя: thisolesyadoesnotexist.glitch.me
Тоже хочу как-то похожий проект сделать, но чтобы фотографии на документы генерировать или…
Тоже хочу как-то похожий проект сделать, но чтобы фотографии на документы генерировать или…
Forwarded from DL in NLP (nlpcontroller_bot)
Recursively Summarizing Books with Human Feedback
Wu et al. [OpenAI]
arxiv.org/abs/2109.10862
openai.com/blog/summarizing-books
Эксперименты OpenAI с суммаризацией книг. По-моему это может быть одним из лучших бенчмарков "умности" текущих методов ML, поэтому я очень хайпаю статью.
Сама статья очень необычная сразу по нескольким причинам. С одной стороны, это OpenAI и мы ожидаем от них безумных экспериментов с почти неограниченными вычислительными ресурсами. С другой стороны, к этому проекту они привлекли ещё более дорогой ресурс — людей. Модель тренируется не один раз на заготовленном датасете по суммаризации, а итеративно улучшается с фидбеком от специальных тренированных людей. Фидбэк бывает двух видов: 1) человек пишет более правильное саммари 2) человек выбирает одно из двух саммари написанных моделью. В случае 1 понятно как улучшить модель — просто зафайнтюнить на дополнительных данных. Случай 2 веселее — тут используется великий и страшный reinforcement learning.
Теперь про сам подход. Он довольно простой. Допустим у вас есть текст размера 10K токенов, а модель может читать только 2К. Разделим текст на 5 чанков по 2К и для каждого из них сгенерируем саммари допустим размера 500 токенов. Потом сконкатим их и получим текст длины 2.5K токенов. Всё ещё слишком длинно — разделим его на два куска и пусть каждый из них сгенерит саммари по 500 токенов. Сконкатим эти результаты, получим текст 1000 токенов. Теперь можно получить из него финальное саммари.
Подход очень простой и решает кучу проблем. Во-первых такую разметку просто делать. Вы не заставляете людей суммаризировать целые книги, а лишь просите из суммаризировать чанки по 2K токенов. Куча плюсов: людям проще такое делать, машинам проще такое учить, плюс с одной книги получаете кучу разметки. В качестве инициализации для модели используют GPT-3.
В результате подход получается на удивление прикладным, итеративным и масштабируемым. Мне кажется, ровно так можно организовать работу команды занимающейся задачей суммаризации где-нибудь в индустрии.
По результатам: некоторые саммари близки по качеству к человекам, но их около 5% 🍒. В среднем скор человека ~6/7, а лучшей модели ~3.5/7. Естественно размер модели важен и 175млрд параметров дают огромный буст по сравнению с 6млрд. Внезапно RL хорошо зашёл и его использование улучшает скор с 2.5 до 3.5. Думаю он эффективен потому что доставать для него данные просто — людям нужно лишь выбрать одно из двух саммари, а не писать новое.
Как всегда в статье от OpenAI много интересных технических деталей, например как они выбрали на каких узлах дерева тренировать модель. Явно стоит того, чтобы потратить час на чтение.
Wu et al. [OpenAI]
arxiv.org/abs/2109.10862
openai.com/blog/summarizing-books
Эксперименты OpenAI с суммаризацией книг. По-моему это может быть одним из лучших бенчмарков "умности" текущих методов ML, поэтому я очень хайпаю статью.
Сама статья очень необычная сразу по нескольким причинам. С одной стороны, это OpenAI и мы ожидаем от них безумных экспериментов с почти неограниченными вычислительными ресурсами. С другой стороны, к этому проекту они привлекли ещё более дорогой ресурс — людей. Модель тренируется не один раз на заготовленном датасете по суммаризации, а итеративно улучшается с фидбеком от специальных тренированных людей. Фидбэк бывает двух видов: 1) человек пишет более правильное саммари 2) человек выбирает одно из двух саммари написанных моделью. В случае 1 понятно как улучшить модель — просто зафайнтюнить на дополнительных данных. Случай 2 веселее — тут используется великий и страшный reinforcement learning.
Теперь про сам подход. Он довольно простой. Допустим у вас есть текст размера 10K токенов, а модель может читать только 2К. Разделим текст на 5 чанков по 2К и для каждого из них сгенерируем саммари допустим размера 500 токенов. Потом сконкатим их и получим текст длины 2.5K токенов. Всё ещё слишком длинно — разделим его на два куска и пусть каждый из них сгенерит саммари по 500 токенов. Сконкатим эти результаты, получим текст 1000 токенов. Теперь можно получить из него финальное саммари.
Подход очень простой и решает кучу проблем. Во-первых такую разметку просто делать. Вы не заставляете людей суммаризировать целые книги, а лишь просите из суммаризировать чанки по 2K токенов. Куча плюсов: людям проще такое делать, машинам проще такое учить, плюс с одной книги получаете кучу разметки. В качестве инициализации для модели используют GPT-3.
В результате подход получается на удивление прикладным, итеративным и масштабируемым. Мне кажется, ровно так можно организовать работу команды занимающейся задачей суммаризации где-нибудь в индустрии.
По результатам: некоторые саммари близки по качеству к человекам, но их около 5% 🍒. В среднем скор человека ~6/7, а лучшей модели ~3.5/7. Естественно размер модели важен и 175млрд параметров дают огромный буст по сравнению с 6млрд. Внезапно RL хорошо зашёл и его использование улучшает скор с 2.5 до 3.5. Думаю он эффективен потому что доставать для него данные просто — людям нужно лишь выбрать одно из двух саммари, а не писать новое.
Как всегда в статье от OpenAI много интересных технических деталей, например как они выбрали на каких узлах дерева тренировать модель. Явно стоит того, чтобы потратить час на чтение.
Openai
Summarizing books with human feedback
Scaling human oversight of AI systems for tasks that are difficult to evaluate.
Братья и сéстры, золотой молоток U-Net вернулся к нам в новом виде! Теперь в шкуре трансформера.
Берем self-attention блоки, разбавляем их даунсэмплингами, апсэмплингами и depth-wise конволюциями. Ну, и, по классике, пробрасываем скип-конэкшены между энкодером и декодером. И вот, у нас получился U-former.
Китайцы предлагают его использовать для низкоуровневых vision задач, как то: восстановление изображений, энхансинг, деблюринг, денойзинг. Улучшения кажутся маргинальными, но я не супер эксперт в теме восстановления изображений (может я чего-то не понял?). Все равно архитектура стоит внимания.
Статья | GitHub
Берем self-attention блоки, разбавляем их даунсэмплингами, апсэмплингами и depth-wise конволюциями. Ну, и, по классике, пробрасываем скип-конэкшены между энкодером и декодером. И вот, у нас получился U-former.
Китайцы предлагают его использовать для низкоуровневых vision задач, как то: восстановление изображений, энхансинг, деблюринг, денойзинг. Улучшения кажутся маргинальными, но я не супер эксперт в теме восстановления изображений (может я чего-то не понял?). Все равно архитектура стоит внимания.
Статья | GitHub
Прикиньте, есть стартап, который пытается продавать моделей, сгенерированных StyleGAN2.
Говорят, что могут зафиксировать тело и менять шмотки. Идея то хорошая: нанять белковых моделей для фотошута в вашей одежде стоит денег. Но не уж то кто-то хочет сейчас платить за такое шакальное качество? Тут после генерации никто даже не узнает, что это были брендовые вещи.
Прикрепляю видео их результатов (явно лучшее, что смогли начерипикать) и интерфейса.
Говорят, что могут зафиксировать тело и менять шмотки. Идея то хорошая: нанять белковых моделей для фотошута в вашей одежде стоит денег. Но не уж то кто-то хочет сейчас платить за такое шакальное качество? Тут после генерации никто даже не узнает, что это были брендовые вещи.
Прикрепляю видео их результатов (явно лучшее, что смогли начерипикать) и интерфейса.
Forwarded from Neural Shit
О, тут выкатили веб интерфейс Stylegan-Nada, можно потестить прям онлайн. Работает быстро (но под нагрузкой может и тупить). На прикреплённом фото пример с Ельциным и всеми поддерживаемыми стилями
Понажимать можно тут: https://replicate.ai/rinongal/stylegan-nada
Ежели под нагрузкой будет тупить, а вам не лень пердолиться с колабом, то вот ссылка
Если получится что-то годное, делитесь в личку
Понажимать можно тут: https://replicate.ai/rinongal/stylegan-nada
Ежели под нагрузкой будет тупить, а вам не лень пердолиться с колабом, то вот ссылка
Если получится что-то годное, делитесь в личку
⚡️Немного ликбеза об эффективных сетках. Pt.2
В Pt.1 мы говорили о главной идее архитектуры MobilenetV1 - depthwise separable convolutions. В этом посте речь пойдет о MobileNetV2.
Во второй версии MobileNet авторы из Google Inc. предложили пробросить skip-соединения и использовать Inverted Residual Block (IRF), что существенно сократило необходимый объем памяти для тренировки и предсказания сети, и улучшило точность на многих задачах.
В обычных residual блоках из статьи про ResNet skip-соединения проброшены между выходами жирных конволюций, то есть каждая конволюция имеет довольно большое число выходных каналов, причем это число каналов поддерживается фиксированным на протяжении нескольких блоков. Нововведение IRF блока в том, что:
(1) он использует depthwise separable конволюции, как и в MobilenetV1;
(2) число каналов внутри блока меняется за счет того, что в начале каждого IRF блока стоит 1x1 conv, который увеличивает число каналов (expansion layer). Затем идет 3x3 depthwise convolution. А замыкает блок ещё один 1x1 conv, который уменьшает число каналов (projection layer). Смотрим схему на картинке.
Таким образом, skip-соединения всегда связывают тензоры боле низкой размерности (после projection layer), а бóльшая часть "работы" по выучиванию сложных фичей происходит внутри блока, где размерность выше (после expansion layer). Главное преимущество такого подхода в том, что требуется меньше памяти и меньше операций сложения, т.к. skip-соединения проброшены между тензорами низкой размерности. Кроме того, IRF блоки более эффективны чем традиционные residual block-и из-за использования 1x1 конволюций и 3x3 depthwise конволюций.
Интересно, что авторы не добавляют ReLU после projection layer, то есть IRF блоки провязаны skip-соединениями, где нет нелинейности. Эмпирически это даёт лучшую точность, т.к. добавление нелинейности режет информацию после каждого блока, а без нее больше информации может свободно "гулять" по сети.
Блог-пост на английском, откуда я нарезал картинки.
---
Друзья, напишите в комментариях, нравятся ли вам посты в таком стиле. Ваша благодарность даёт мне мотивацию. Так же предлагайте свои темы, я выберу наиболее интересные для следующего разбора.
#efficient_nets #ликбез
В Pt.1 мы говорили о главной идее архитектуры MobilenetV1 - depthwise separable convolutions. В этом посте речь пойдет о MobileNetV2.
Во второй версии MobileNet авторы из Google Inc. предложили пробросить skip-соединения и использовать Inverted Residual Block (IRF), что существенно сократило необходимый объем памяти для тренировки и предсказания сети, и улучшило точность на многих задачах.
В обычных residual блоках из статьи про ResNet skip-соединения проброшены между выходами жирных конволюций, то есть каждая конволюция имеет довольно большое число выходных каналов, причем это число каналов поддерживается фиксированным на протяжении нескольких блоков. Нововведение IRF блока в том, что:
(1) он использует depthwise separable конволюции, как и в MobilenetV1;
(2) число каналов внутри блока меняется за счет того, что в начале каждого IRF блока стоит 1x1 conv, который увеличивает число каналов (expansion layer). Затем идет 3x3 depthwise convolution. А замыкает блок ещё один 1x1 conv, который уменьшает число каналов (projection layer). Смотрим схему на картинке.
Таким образом, skip-соединения всегда связывают тензоры боле низкой размерности (после projection layer), а бóльшая часть "работы" по выучиванию сложных фичей происходит внутри блока, где размерность выше (после expansion layer). Главное преимущество такого подхода в том, что требуется меньше памяти и меньше операций сложения, т.к. skip-соединения проброшены между тензорами низкой размерности. Кроме того, IRF блоки более эффективны чем традиционные residual block-и из-за использования 1x1 конволюций и 3x3 depthwise конволюций.
Интересно, что авторы не добавляют ReLU после projection layer, то есть IRF блоки провязаны skip-соединениями, где нет нелинейности. Эмпирически это даёт лучшую точность, т.к. добавление нелинейности режет информацию после каждого блока, а без нее больше информации может свободно "гулять" по сети.
Блог-пост на английском, откуда я нарезал картинки.
---
Друзья, напишите в комментариях, нравятся ли вам посты в таком стиле. Ваша благодарность даёт мне мотивацию. Так же предлагайте свои темы, я выберу наиболее интересные для следующего разбора.
#efficient_nets #ликбез
Telegram
эйай ньюз
Немного ликбеза об эффективных сетках. Pt.1
Все слышали о MobileNetV1. Это одна из первых нейронок от Google из линейки быстрых и эффективных, предназначенных для запуска на мобильных устройствах с ограниченными ресурсами.
Главная идея там была по сравнению…
Все слышали о MobileNetV1. Это одна из первых нейронок от Google из линейки быстрых и эффективных, предназначенных для запуска на мобильных устройствах с ограниченными ресурсами.
Главная идея там была по сравнению…
Интересное замечание о логике выдачи видеокарт в Colab Pro+. За 3-4 дня до списания абоонентской платы начинают выдаваться хорошие видеокарты, а после оплаты опять выдаётся шелупень всякая.
Ваше мнение, господа? Замечали такое?
Ваше мнение, господа? Замечали такое?
Telegram
Neural Shit
Совет для тех, кто часто пользуется колабом: НЕ покупайте pro+ тариф за 50$. Блядские гугло-пидорасы за 4 дня только один раз выдали gpu A100, все остальное время попадается сраный мусор. На обычном pro плане за 10$ в месяц нормальные карточки попадались…
Опрос о Google Colab Pro+
Anonymous Poll
4%
Я взял
16%
Дорого, сижу на Pro за $10
12%
Colab Pro+ Говно
44%
Коплю на свою видюху
25%
Свой вариант в комментах
Media is too big
VIEW IN TELEGRAM
StyleNeRF: A Style-based 3D Aware Generator for High-resolution Image Synthesis
Тут появилась прикольная статья, которая комбинирует идеи из StyleGAN и NeRF, для того чтобы учиться синтезировать текстурированные 3D головы.
Идея в том, NeRF модель учит неявное представление 3D, предсказывая, какая плотность и какой цвет вокселей вдоль луча пущенного из точки (x,y,z) под углом alpha. В данном случае геометрия лиц людей - это довольно узкий класс и у разных лиц много чего общего. Так вот NeRF выучивает что-то вроде 3D каркаса общего для всех лиц. Кроме того архитектура NeRF приправляется авторами идеями из StyleGAN, которые позволяют модулировать каждый слой NeRF-сети с помощью случайного стилевого вектора W. Это позволяет добавлять различные детали на лицо, чтобы получались разные люди.
Сетка умеет генерить 1024x1024 картинки, которые можно вертеть в 3D как угодно, ведь направление камеры тут явно задается при рендеринге из NeRF.
Статья сейчас на рецензии на ICLR 2022. Кода пока нет.
Продолжение ниже ⬇
Тут появилась прикольная статья, которая комбинирует идеи из StyleGAN и NeRF, для того чтобы учиться синтезировать текстурированные 3D головы.
Идея в том, NeRF модель учит неявное представление 3D, предсказывая, какая плотность и какой цвет вокселей вдоль луча пущенного из точки (x,y,z) под углом alpha. В данном случае геометрия лиц людей - это довольно узкий класс и у разных лиц много чего общего. Так вот NeRF выучивает что-то вроде 3D каркаса общего для всех лиц. Кроме того архитектура NeRF приправляется авторами идеями из StyleGAN, которые позволяют модулировать каждый слой NeRF-сети с помощью случайного стилевого вектора W. Это позволяет добавлять различные детали на лицо, чтобы получались разные люди.
Сетка умеет генерить 1024x1024 картинки, которые можно вертеть в 3D как угодно, ведь направление камеры тут явно задается при рендеринге из NeRF.
Статья сейчас на рецензии на ICLR 2022. Кода пока нет.
Продолжение ниже ⬇
Схема архитектуры монструозная. Тут лучге статью читать для деталей.
Качество отдельных 2D рендерингов немного хуже, чем у оригинального SyleGAN2 (в таблице обозначен как "2D GAN"), и работает в 2 раза медленнее по сравнению с SyleGAN2, но зато есть 3D консистентность.
Качество отдельных 2D рендерингов немного хуже, чем у оригинального SyleGAN2 (в таблице обозначен как "2D GAN"), и работает в 2 раза медленнее по сравнению с SyleGAN2, но зато есть 3D консистентность.
Forwarded from Мишин Лернинг 🇺🇦🇮🇱
This media is not supported in your browser
VIEW IN TELEGRAM
🏆 Facebook AI представили две крутейшие 3D нейронки на ICCV2021: 3DETR и DepthContrast
Понимание 3D на основе трансформера и self-supervised learning’a. И да, есть код и обученные модели!
▪️DepthContrast:
Супервайзд претрейн на огромных датасетах стал основным инструментом для разработки моделей компьютерного зрения. Хотя подход отлично работает для многих доменов, он не получил широкого распространения для задач 3D распознавания.
🛋 Пример: ’определение местоположения дивана на трехмерном скане гостиной’.
Собрать и разметить огромный 3D датасет — колоссальная работа. DepthContrast self-supervised претрейн, предложенный FAIR, не требует аннотации.
▪️3DETR:
An End-to-End Transformer Model for 3D Object Detection (3D DEtection TRansformer) без inductive bias.
🗺 На gif‘ке показана карта внимания декодера трансформера 3DETR, изолирующая отдельный объекты. Декодер юзает в основном эту инфу при предсказании 3D-bbox’ов.
📇 подробнее на блоге FAIR
3DETR: 📰 paper 💻 code
DepthContrast: 📰 paper 💻 code
Понимание 3D на основе трансформера и self-supervised learning’a. И да, есть код и обученные модели!
▪️DepthContrast:
Супервайзд претрейн на огромных датасетах стал основным инструментом для разработки моделей компьютерного зрения. Хотя подход отлично работает для многих доменов, он не получил широкого распространения для задач 3D распознавания.
🛋 Пример: ’определение местоположения дивана на трехмерном скане гостиной’.
Собрать и разметить огромный 3D датасет — колоссальная работа. DepthContrast self-supervised претрейн, предложенный FAIR, не требует аннотации.
▪️3DETR:
An End-to-End Transformer Model for 3D Object Detection (3D DEtection TRansformer) без inductive bias.
🗺 На gif‘ке показана карта внимания декодера трансформера 3DETR, изолирующая отдельный объекты. Декодер юзает в основном эту инфу при предсказании 3D-bbox’ов.
📇 подробнее на блоге FAIR
3DETR: 📰 paper 💻 code
DepthContrast: 📰 paper 💻 code