Forwarded from Dreams and Robots
Вы наверняка слышали про Instruct pix2pix. Это модель, которая позволяет менять картинку на основе текстового запроса типа "make his hair blue" или "turn it into a wood carving".
Так вот, изначальный вариант pix2pix, который был реализован в Автоматике, уже устарел. Теперь гораздо удобнее пользоваться pix2pix моделью КонтролНета. Она позволяет работать с хайрезными изображениями и в ней не нужно париться с двойной настройкой Denoising strength.
Работает прямо в text2image. Добавьте исходную картинку в ControlNet, оставьте препроцессор в "none", выберите модель "Control_v11e_sd15_ip2p", поставьте правильное разрешение картинки, наберите вашу инструкцию в поле промпта и жмите Generate.
Например я взял исходную картинку с древним городом, превратил ее в схематичный рисунок, в зимнюю сцену и в ночную с огнём.
#совет #A1111 #stablehoudini
Так вот, изначальный вариант pix2pix, который был реализован в Автоматике, уже устарел. Теперь гораздо удобнее пользоваться pix2pix моделью КонтролНета. Она позволяет работать с хайрезными изображениями и в ней не нужно париться с двойной настройкой Denoising strength.
Работает прямо в text2image. Добавьте исходную картинку в ControlNet, оставьте препроцессор в "none", выберите модель "Control_v11e_sd15_ip2p", поставьте правильное разрешение картинки, наберите вашу инструкцию в поле промпта и жмите Generate.
Например я взял исходную картинку с древним городом, превратил ее в схематичный рисунок, в зимнюю сцену и в ночную с огнём.
#совет #A1111 #stablehoudini
This media is not supported in your browser
VIEW IN TELEGRAM
CoDi: Any-to-Any Generation via Composable Diffusion
Microsoft сообразил генерацию чего угодно из чего угодно:
текст, звук, видео, картинки
[UPDATE]
Код
#multimodal #anything2anything
Microsoft сообразил генерацию чего угодно из чего угодно:
текст, звук, видео, картинки
[UPDATE]
Код
#multimodal #anything2anything
Forwarded from Derp Learning
RWKV: Parallelizable RNN with Transformer-level LLM Performance
Пока все засовывают эти ваши 30b int4 лламы на cpu, EleutherAI x BlinkDL выкладывают RNN, которая перформит на уровне GPT-level (14b). При этом она (14b int8) влезает в 3gb VRAM, и имеет, в принципе, бесконечную длину контекста, как и все RNN.
Paper
Code
Models
Discord
Twitter
Чат-версия: https://github.com/BlinkDL/ChatRWKV
@derplearning
Пока все засовывают эти ваши 30b int4 лламы на cpu, EleutherAI x BlinkDL выкладывают RNN, которая перформит на уровне GPT-level (14b). При этом она (14b int8) влезает в 3gb VRAM, и имеет, в принципе, бесконечную длину контекста, как и все RNN.
Paper
Code
Models
Discord
Чат-версия: https://github.com/BlinkDL/ChatRWKV
@derplearning
MaskFreeVIS: Mask-Free Video Instance Segmentation
Новый эффективный метод сегментации видео.
Код
#segmentation #video2mask
Новый эффективный метод сегментации видео.
Код
#segmentation #video2mask
Media is too big
VIEW IN TELEGRAM
Наконец руки дошли поковыряться в этих ваших нейросетках.
В ответ на мэшапы голосом Винни Пуха Гомер Симпсон исполнил песню Винни Пуха.
Сделано вот в этом колабе
Инструкция
Youtube
#Neuronaut_art
В ответ на мэшапы голосом Винни Пуха Гомер Симпсон исполнил песню Винни Пуха.
Сделано вот в этом колабе
Инструкция
Youtube
#Neuronaut_art
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Casablanca.ai – сервис, который пошёл дальше, чем сервисы Nvidia, сдвигающие ваши глаза в камеру, он позволяет повернуть всю вашу голову.
Считаю, что хватит уже ходить вокруг да около, замените всё тело, и пусть оно само делает заинтересованный вид на дейли синках.
Считаю, что хватит уже ходить вокруг да около, замените всё тело, и пусть оно само делает заинтересованный вид на дейли синках.
MMS: Scaling Speech Technology to 1000+ languages
Специалисты из Meta AI выпустили модель, которая переводит 1100 языков из текста в аудио и из аудио в текст. Целью было, как я понял, создание единой модели, понимающей много языков. Судя по демо, получилось.
Кроме всего прочего, для обучения собрали и использовали аудио записи, где люди читают Библию на разных языках. Потому что, кажется, нет другой книги, которая была бы переведена на столько разных языков. Очень хитро́!
Код
#TTS #STT
Специалисты из Meta AI выпустили модель, которая переводит 1100 языков из текста в аудио и из аудио в текст. Целью было, как я понял, создание единой модели, понимающей много языков. Судя по демо, получилось.
Кроме всего прочего, для обучения собрали и использовали аудио записи, где люди читают Библию на разных языках. Потому что, кажется, нет другой книги, которая была бы переведена на столько разных языков. Очень хитро́!
Код
#TTS #STT
This media is not supported in your browser
VIEW IN TELEGRAM
ControlVideo
Пытаются обучать #text2video при помощи Controlnet.
Ну, такое. Посмотрим что будет дальше
Пытаются обучать #text2video при помощи Controlnet.
Ну, такое. Посмотрим что будет дальше
Forwarded from Dreams and Robots
Inpaint-модели отличаются от остальных тем, что позволяют использовать форму черно-белой маски при генерации. Модель встроит новое изображение точно в ее границы.
До недавнего времени инпейнт-модели нужно было отдельно получать хитрыми операциями из существующих. Но теперь у нас есть инпейнтинг прямо в ControlNet 1.1.
Переключитесь в Image2image, добавьте исходное изображение и маску, сделайте все необходимые настройки, как в обычном инпейнте.
Теперь включайте контролнет, выбирайте в нем Inpaint-препроцессор и Inpaint-модель. Важно, что при этом картинка в самом контролнете должна отсутствовать -- в этом случае он возьмет её из маски image2image. Если вы работаете в Stable Houdini, переключитесь в Image type - File и сотрите имя файла.
Вот и вся хитрость, теперь абсолютно любой чекпойнт будет работать как Inpaint. На приложенных примерах я сгенерировал локацию старинного храма и добавил дверь в инпейнте.
#stablediffusion #A1111 #совет #controlnet #stablehoudini
До недавнего времени инпейнт-модели нужно было отдельно получать хитрыми операциями из существующих. Но теперь у нас есть инпейнтинг прямо в ControlNet 1.1.
Переключитесь в Image2image, добавьте исходное изображение и маску, сделайте все необходимые настройки, как в обычном инпейнте.
Теперь включайте контролнет, выбирайте в нем Inpaint-препроцессор и Inpaint-модель. Важно, что при этом картинка в самом контролнете должна отсутствовать -- в этом случае он возьмет её из маски image2image. Если вы работаете в Stable Houdini, переключитесь в Image type - File и сотрите имя файла.
Вот и вся хитрость, теперь абсолютно любой чекпойнт будет работать как Inpaint. На приложенных примерах я сгенерировал локацию старинного храма и добавил дверь в инпейнте.
#stablediffusion #A1111 #совет #controlnet #stablehoudini
Forwarded from Psy Eyes (Andrey Bezryadin)
This media is not supported in your browser
VIEW IN TELEGRAM
Runway поделились как получать четкие и близкие к источнику результаты с GEN-1:
1) Если нужно изменить стиль по референсу, то лучше вытащить кадр из видео —> стилизовать его через img2img под нужный стиль любым софтом (SD, MJ, Runway, итд) —> использовать итоговую картинку как референс.
2) Идём в расширенные настройки (Advanced) и ставим:
Structural consistency: 0
Style weight: между 3 и 7
Frame consistency: 1.2
1) Если нужно изменить стиль по референсу, то лучше вытащить кадр из видео —> стилизовать его через img2img под нужный стиль любым софтом (SD, MJ, Runway, итд) —> использовать итоговую картинку как референс.
2) Идём в расширенные настройки (Advanced) и ставим:
Structural consistency: 0
Style weight: между 3 и 7
Frame consistency: 1.2
Media is too big
VIEW IN TELEGRAM