Forwarded from Derp Learning
Коду Make-a-scene - быть!
Коллективное сознательное начало пилить pytorch-имплементацию нашумевшей make-a-scene - архитектуры для генерации изображений по сегментационной маске и текстовому запросу.
Пока все на очень ранней стадии, но такими темпами мы либо увидим полноценный опенсорсный работающий код в апреле, либо это сподвигнет оригинальных разработчиков выложить свой код первыми :D
Код
Коллективное сознательное начало пилить pytorch-имплементацию нашумевшей make-a-scene - архитектуры для генерации изображений по сегментационной маске и текстовому запросу.
Пока все на очень ранней стадии, но такими темпами мы либо увидим полноценный опенсорсный работающий код в апреле, либо это сподвигнет оригинальных разработчиков выложить свой код первыми :D
Код
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Вышло обновление Disco Diffusion 5.1 для генерации картинок и видео.
Телега шакалит качество 😢
-> Ссылка на колаб
Телега шакалит качество 😢
-> Ссылка на колаб
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️Latent Diffusion
Парни из моей научной группы (Heidelberg Uni + LMU) запилили соту в text-to-image генерации!
Новая моедель - Latent Diffusion умеет генерить картинки из воздуха, так же как и по классовому лейблу, семантической сегментации или по текстовому описанию. Более того она может и в super-resolution, и зарисовывать дыры в картинках.
Классические диффузионные модели довольно громоздкие и медленные. Главный трюк нового метода - это запуск дифуззионного процесса на скрытых векторах в ботленеке автоэнкодера, вместо сырых пикселей, как это делалось раньше. За счет этого стало возможным найти сладкий баланс между экспрессивностью модели и ее громоздкостью. То есть такую диффузию можно обучить (и тестировать) за адекватное время на умеренных вычислительных ресурсах. Парни тренили на одной NVIDIA A100.
Потыкать можно в код или в колаб. А подробнее про метод - в статье
Парни из моей научной группы (Heidelberg Uni + LMU) запилили соту в text-to-image генерации!
Новая моедель - Latent Diffusion умеет генерить картинки из воздуха, так же как и по классовому лейблу, семантической сегментации или по текстовому описанию. Более того она может и в super-resolution, и зарисовывать дыры в картинках.
Классические диффузионные модели довольно громоздкие и медленные. Главный трюк нового метода - это запуск дифуззионного процесса на скрытых векторах в ботленеке автоэнкодера, вместо сырых пикселей, как это делалось раньше. За счет этого стало возможным найти сладкий баланс между экспрессивностью модели и ее громоздкостью. То есть такую диффузию можно обучить (и тестировать) за адекватное время на умеренных вычислительных ресурсах. Парни тренили на одной NVIDIA A100.
Потыкать можно в код или в колаб. А подробнее про метод - в статье
Forwarded from Мишин Лернинг
Media is too big
VIEW IN TELEGRAM
🥑😈 DALL•E 2 от OpenAI: Hierarchical Text-Conditional Image Generation with CLIP Latents
2021 год показал, что contrastive модели, такие как CLIP, выучивают качественное пространство визуальных и текстовых репрезентаций.
Ресерчеры из OpenAI решили использовать эти репрезентации для генерации изображений! Встречайте двухэтапную модель DALL•E 2, которая скрещивает диффузионный декодер и диффузионную визуальную модель DALL-E (ребята, кстати, показали, что диффузия таки более вычислительно выгодная и качественная нежели авторегрессия) и контрастный CLIP!
🧪 Если проще, то это очень изящный вариант, чтобы скрестить CLIP и DALL•E, где можно пользоваться векторам (эммбедингами) CLIP’a, и создавать новые изображения на основании и изображений примеров (доноров) и текстовых описаний. Такой подход позволяет не только генерировать превосходные изображения, но и изменять существующие!
p.s.: да, OpenAI все еще ClosedAI, так что надежда или на крутой клон от Stability.AI, ну или на waitlist 🙃
📰 Paper 🎓 Blog 🎥 Янык
2021 год показал, что contrastive модели, такие как CLIP, выучивают качественное пространство визуальных и текстовых репрезентаций.
Ресерчеры из OpenAI решили использовать эти репрезентации для генерации изображений! Встречайте двухэтапную модель DALL•E 2, которая скрещивает диффузионный декодер и диффузионную визуальную модель DALL-E (ребята, кстати, показали, что диффузия таки более вычислительно выгодная и качественная нежели авторегрессия) и контрастный CLIP!
🧪 Если проще, то это очень изящный вариант, чтобы скрестить CLIP и DALL•E, где можно пользоваться векторам (эммбедингами) CLIP’a, и создавать новые изображения на основании и изображений примеров (доноров) и текстовых описаний. Такой подход позволяет не только генерировать превосходные изображения, но и изменять существующие!
p.s.: да, OpenAI все еще ClosedAI, так что надежда или на крутой клон от Stability.AI, ну или на waitlist 🙃
📰 Paper 🎓 Blog 🎥 Янык
👁 Пока все восхищаются невероятным качеством сгенерированных картинок из статьи про DALL-E можно поиграться с сетью Latent Diffusion и самому посоздавать такой прекрасный арт.
👉 https://huggingface.co/spaces/multimodalart/latentdiffusion
👉 https://huggingface.co/spaces/multimodalart/latentdiffusion
Forwarded from Neurohive
Google представила PaLM – языковую модель с 540 миллиардами параметров. PaLM превзошла существующие языковые модели в большинстве бенчмарков.
#StateoftheArt
#StateoftheArt
👍2
Написал небольшую статью про восстановление пунктуации и заглавных букв. Полезная вещь в задачах ASR, где транскрипция изначально в нижнем регистре, без точек и запятых.
https://habr.com/ru/company/ods/blog/660041/
https://habr.com/ru/company/ods/blog/660041/
Хабр
Нюансы распознавания речи. Восстанавливаем пунктуацию, числа и заглавные буквы
⭐ градиент обреченный В задачах распознаваниях речи при переводе аудио в текст есть дополнительные этапы, делающие этот текст более человекочитаемым. Например, предложение " привет хабр сегодня...
🔥4👍1
Forwarded from DL in NLP (Vlad Lialin)
В Optimum добавили очень простой способ квантизовывать модели из Transformers.
Вообще интересно как квантизация будет жить вместе с большими моделями. Вокруг себя вижу сильный рост интереса попробовать модели в 1B параметров и больше на различных задачах, но эти модели даже при переводе в fp16 зачастую перестают работать.
huggingface.co/docs/optimum/main/en/quickstart
Вообще интересно как квантизация будет жить вместе с большими моделями. Вокруг себя вижу сильный рост интереса попробовать модели в 1B параметров и больше на различных задачах, но эти модели даже при переводе в fp16 зачастую перестают работать.
huggingface.co/docs/optimum/main/en/quickstart
🤔1
Forwarded from эйай ньюз
Китайцы стыбзили у NVIDIA сделали свою видеокарту!
Поделка поддерживает OpenCL, OpenGL, Vulkan и даже Nvidia CUDA! По сути работает со всеми основными библиотеками, значит, наверное, можно и сетки на ней гонять.
Объявлены две видеокарты: MTT S60 для крестьян и MTT S2000 для серверов.
S60 это 6 TFLOPSб 2048 ядер и 8ГБ памяти, для S2000 — 12 TFLOPS, 4096 ядер, и 32 ГБ.
Техпроцесс 12 нм.
Из приколов. Фирма, которая выпустила сие чудо, называется Moore Threads и была основана в 2020. А ее основатель и CEO, Чжан Цзяньчжун, — это бывший глобальный вице-президент NVIDIA и ген. менеджер в Китае.
I’m not sure if... Но тут невольно вспомнился недавний слив технических документов NVIDIA некими хакерами.
Купить китайские видеокарты пока нигде нельзя, но новость очень занимательная (спасибо @cgevent). Ведь это первая заявка на прямую конкуренцию с монополистом NVIDIA на рынке GPU, AMD не в счёт.
Поделка поддерживает OpenCL, OpenGL, Vulkan и даже Nvidia CUDA! По сути работает со всеми основными библиотеками, значит, наверное, можно и сетки на ней гонять.
Объявлены две видеокарты: MTT S60 для крестьян и MTT S2000 для серверов.
S60 это 6 TFLOPSб 2048 ядер и 8ГБ памяти, для S2000 — 12 TFLOPS, 4096 ядер, и 32 ГБ.
Техпроцесс 12 нм.
Из приколов. Фирма, которая выпустила сие чудо, называется Moore Threads и была основана в 2020. А ее основатель и CEO, Чжан Цзяньчжун, — это бывший глобальный вице-президент NVIDIA и ген. менеджер в Китае.
I’m not sure if... Но тут невольно вспомнился недавний слив технических документов NVIDIA некими хакерами.
Купить китайские видеокарты пока нигде нельзя, но новость очень занимательная (спасибо @cgevent). Ведь это первая заявка на прямую конкуренцию с монополистом NVIDIA на рынке GPU, AMD не в счёт.
👍1🔥1
Forwarded from Not Boring Tech
This media is not supported in your browser
VIEW IN TELEGRAM
🤯 Тут показали новую нейросеть, которая превращает голову человека в реалистичную 4D-модель! Для этого нейронке скармливают небольшое видео с лицом этого человека.
Применения обширные — можно, например, использовать модель головы в метавселенной (пока у всех мультяшные головы). Кода пока нет, а здесь подробности.
#AI | Not Boring Tech
Применения обширные — можно, например, использовать модель головы в метавселенной (пока у всех мультяшные головы). Кода пока нет, а здесь подробности.
#AI | Not Boring Tech
kefir.wav
173.5 KB
🎵 Выкатились новые модельки для синтеза речи от silero.
📒 Вот Colab, чтобы погенерировать любые свои тексты.
https://colab.research.google.com/github/snakers4/silero-models/blob/master/examples_tts.ipynb
📒 Вот Colab, чтобы погенерировать любые свои тексты.
https://colab.research.google.com/github/snakers4/silero-models/blob/master/examples_tts.ipynb
#event #nlp
👄 Сегодня и завтра идет NLP конференция AINL 2022. В программе вижу пару интересных докладов — про мультиязычную суммаризацию и генерацию background картинки по тексту (что это вообще такое?).
https://ainlconf.ru/2022/program
👄 Сегодня и завтра идет NLP конференция AINL 2022. В программе вижу пару интересных докладов — про мультиязычную суммаризацию и генерацию background картинки по тексту (что это вообще такое?).
https://ainlconf.ru/2022/program
📎 А вот статья на тему Style-transfer and Paraphrase: Looking for a Sensible Semantic Similarity Metric от автора доклада.
https://arxiv.org/pdf/2004.05001.pdf
https://arxiv.org/pdf/2004.05001.pdf
Forwarded from Мишин Лернинг
Выкатили код LiT🔥: Новационный подход contrastive-tuning от Google Research, Brain Team, Zurich обходит CLIP и ALIGN
Помните, в ноябре 2021го выходила статья LiT🔥?
Сегодня стал доступен не только код, но и блог пост в googleblog, colab и онлайн демо, которое, кстати, очень и очень удачно демонстрирует силу подхода на известных примерах и контрпримерах!
🔓 В CLIP и текстовая и визуальная “башня” контрастив модели учились с нуля. u - unlocked from-scratch
🔐 Возникает вопрос: не будет ли лучше взять претрейны моделей (e.g.: ResNet, ViT, MLP-Mixer), и дальше файнтюнить их в режиме contrastive language–image? U - unlocked from a pre-trained model
🔒 Авторы показали, что лучше всего работает подход с полностью замороженной визуальной “башней”!
Модель ViT-G/14, обученная в режиме contrastive-tuning LiT, обходит такой же CLIP в zero-shot на ImageNet: 84.5% vs 76.2%, соответсвенно.
📄 Paper LiT🔥
🎲 Online Demo
📇 Google Blog
💻 LiT code
🔮 LiT Colab
Помните, в ноябре 2021го выходила статья LiT🔥?
Сегодня стал доступен не только код, но и блог пост в googleblog, colab и онлайн демо, которое, кстати, очень и очень удачно демонстрирует силу подхода на известных примерах и контрпримерах!
🔓 В CLIP и текстовая и визуальная “башня” контрастив модели учились с нуля. u - unlocked from-scratch
🔐 Возникает вопрос: не будет ли лучше взять претрейны моделей (e.g.: ResNet, ViT, MLP-Mixer), и дальше файнтюнить их в режиме contrastive language–image? U - unlocked from a pre-trained model
🔒 Авторы показали, что лучше всего работает подход с полностью замороженной визуальной “башней”!
Модель ViT-G/14, обученная в режиме contrastive-tuning LiT, обходит такой же CLIP в zero-shot на ImageNet: 84.5% vs 76.2%, соответсвенно.
📄 Paper LiT🔥
🎲 Online Demo
📇 Google Blog
💻 LiT code
🔮 LiT Colab
Forwarded from shonenkov AI
Сделал релиз, теперь можно с помощью моделей ruDALLE генерить изображения с произвольным соотношением сторон
Обучать не нужно, все работает в zero-shot
Идея супер-простая: динамически менять размер контекстного окна пропорционально текущей позиции, чтобы попытаться хоть как-то сохранить правильную геометрию. Работает, черри-пикать тоже нужно, как и всю рудалю. А для горизонтальных картинок (из-за низкой скорости) пришлось оставить статическое контекстное окно - но получается тоже весьма неплохо - генерил себе шапки для NFT коллекций
Также, чтобы немного сгладить геометрию, затюнил модельку на сюрреализме, веса прикладываю ruDALLE Surrealist XL
Kaggle и Colab рабочие тоже собрал 🤝
Paper | Github | Weights | Colab | Kaggle | Twitter
Обучать не нужно, все работает в zero-shot
Идея супер-простая: динамически менять размер контекстного окна пропорционально текущей позиции, чтобы попытаться хоть как-то сохранить правильную геометрию. Работает, черри-пикать тоже нужно, как и всю рудалю. А для горизонтальных картинок (из-за низкой скорости) пришлось оставить статическое контекстное окно - но получается тоже весьма неплохо - генерил себе шапки для NFT коллекций
Также, чтобы немного сгладить геометрию, затюнил модельку на сюрреализме, веса прикладываю ruDALLE Surrealist XL
Kaggle и Colab рабочие тоже собрал 🤝
Paper | Github | Weights | Colab | Kaggle | Twitter
🔥3
