Dreambooth позволяет дообучать стандартный Stable Diffusion датасет на ваших изображениях, например, на вашем лице или лицах знакомых, теперь для того чтобы получать стилевые арты можно не выходить из комнаты и не нанимать художника.
Dreambooth так же позволяет запихивать в датасет стиль, делается это чуть сложнее, чем с фотографиями лиц, но новых датасетов уже огромное количество, отобрал 4 приятных для меня стиля:
Dreambooth D&D модель обученная на 30,000 шагах и на 2500 вручную промаркированных картинках
huggingface модель
huggingface датасет
Поп-ап книги
huggingface модель
Dreambooth модель для иконок мобильных приложений
huggingface модель
Dreambooth Voxel Art модель
huggingface модель
Автор Voxel Art
Источник
Dreambooth статья
Dreambooth github для SD
Dreambooth колаб
Fast Dreambooth колаб
Dreambooth так же позволяет запихивать в датасет стиль, делается это чуть сложнее, чем с фотографиями лиц, но новых датасетов уже огромное количество, отобрал 4 приятных для меня стиля:
Dreambooth D&D модель обученная на 30,000 шагах и на 2500 вручную промаркированных картинках
huggingface модель
huggingface датасет
Поп-ап книги
huggingface модель
Dreambooth модель для иконок мобильных приложений
huggingface модель
Dreambooth Voxel Art модель
huggingface модель
Автор Voxel Art
Источник
Dreambooth статья
Dreambooth github для SD
Dreambooth колаб
Fast Dreambooth колаб
Forwarded from AbstractDL
MinD-Vis: диффузия для чтения мыслей
Представлена диффузионная модель, которая умеет декодировать то, что видит человек по его мозговой активности (fMRI).
Сначала авторы обучили self-supervised модель для получения универсальных эмбеддингов мозговой активности (одинаковых для разных людей). Далее они взяли предобученную Latent Diffusion и добавили к ней cross-attention на эти мысленные репрезентации. После короткого файнтюна на 1.5к парах картинка-fMRI модель смогла полноценно декодировать то, что видит перед собой человек!
Данные для обучения и код выложены в открытый доступ, веса моделей дают по запросу.
Статья, GitHub, блог
Представлена диффузионная модель, которая умеет декодировать то, что видит человек по его мозговой активности (fMRI).
Сначала авторы обучили self-supervised модель для получения универсальных эмбеддингов мозговой активности (одинаковых для разных людей). Далее они взяли предобученную Latent Diffusion и добавили к ней cross-attention на эти мысленные репрезентации. После короткого файнтюна на 1.5к парах картинка-fMRI модель смогла полноценно декодировать то, что видит перед собой человек!
Данные для обучения и код выложены в открытый доступ, веса моделей дают по запросу.
Статья, GitHub, блог
Forwarded from Мишин Лернинг 🇺🇦🇮🇱
This media is not supported in your browser
VIEW IN TELEGRAM
🧳 Nvidia представила Magic3D — 3D по текстовому описанию!
Самое крутое в таких работа то, что для них не требуется обучать новую Text-To-3D диффузию. Для задачи вполне подходят уже обученные:
— 2B DALL-E от OpenAI
— 2B Imagen от Google
— 2B eDiff-I от Nvidia
— И конечно же готовящийся новый ???M ** от ********* 😉
Работа по своей сути является eDiff-I-ким гомологом Гугловского Imagen-овского DreamFusion.
👾 Принцип работы очень и очень простой:
Этот алгоритм я уже описывал, так что просто повторю. Это градиентный метод, основанный на Loss-функции, такой как DeepDream. По факту происходит оптимизация рандомно инициализированной 3D модельки (a Neural Radiance Field, or NeRF) через градиенты 2D диффузионных генераций.
То есть по факту, проворачивая такой трюк, не нужно иметь 3D данных вообще!
Подробнее:
1) Рандомная фигура рендерится через NERF (плотность, освещение, цвет)
2) Этот изначальный бред (так как это начало) рендерится в 2D проекцию
3) Затем к картинке подмешивают шум, и все это подается на Text2Image диффузионный Unet
4) После чего Unet предсказывает необходимый денойз
5) Затем из пересказанного денойза вычитается подмешанный шум. и ВУАЛЯ! Дальше все дифференцируемо! Можно пускать градиенты обратно на 3D-модель
📇 project
📄 paper
Самое крутое в таких работа то, что для них не требуется обучать новую Text-To-3D диффузию. Для задачи вполне подходят уже обученные:
— 2B DALL-E от OpenAI
— 2B Imagen от Google
— 2B eDiff-I от Nvidia
—
👾 Принцип работы очень и очень простой:
Этот алгоритм я уже описывал, так что просто повторю. Это градиентный метод, основанный на Loss-функции, такой как DeepDream. По факту происходит оптимизация рандомно инициализированной 3D модельки (a Neural Radiance Field, or NeRF) через градиенты 2D диффузионных генераций.
То есть по факту, проворачивая такой трюк, не нужно иметь 3D данных вообще!
Подробнее:
1) Рандомная фигура рендерится через NERF (плотность, освещение, цвет)
2) Этот изначальный бред (так как это начало) рендерится в 2D проекцию
3) Затем к картинке подмешивают шум, и все это подается на Text2Image диффузионный Unet
4) После чего Unet предсказывает необходимый денойз
5) Затем из пересказанного денойза вычитается подмешанный шум. и ВУАЛЯ! Дальше все дифференцируемо! Можно пускать градиенты обратно на 3D-модель
📇 project
📄 paper
Star Wars Old Republic
Концепт арт архитектура
midjourney v4
Концепт арт архитектура
От Disco Diffusion алгоритма до midjourney v4 прошел примерно год.Соединил брутализм, тундру и горы Непала во вселенной Star Wars
midjourney v4
This media is not supported in your browser
VIEW IN TELEGRAM
NeuralLift-360
Генерация 3d по одному изображению.
Это кажется невероятным, но есть одно ограничение, пока 128x128 и без кода.
Хотя аналог от Nvidia предлагает 512x512 качество генераций, но генерация там происходит по тексту.
В общем 3d эра в нейронках началась. Основная проблематика 3d генерится очень долго
Пока кода Magic3d, как и NeuralLift-360 в открытом доступе нет.
Ожидаем, когда можно будет потестить.
Статья
Сайт
Github
Генерация 3d по одному изображению.
Это кажется невероятным, но есть одно ограничение, пока 128x128 и без кода.
Хотя аналог от Nvidia предлагает 512x512 качество генераций, но генерация там происходит по тексту.
В общем 3d эра в нейронках началась. Основная проблематика 3d генерится очень долго
(около часа для 128x128 на А100 40gb в DreamFusion)
, Magic3d от Nvidia говорит, что ускоряет этот процесс в 2 раза. Пока кода Magic3d, как и NeuralLift-360 в открытом доступе нет.
Ожидаем, когда можно будет потестить.
Статья
Сайт
Github
Интересный пайплайн использования Stable Diffusion v2 и Blender
Как пишет автор:
Создать рендер + карта глубины из Блендера ->
Сгенерировать новые варианты в SD v2 + UV project from view (алгоритм позволяющий натянуть текстуры в Блендере анализируя только позицию камеры и 2D текстуру) ->
Совмещаем все -> PROFIT
Напомню, что теперь в SD v2 есть возможность img2img через карту глубины. Это позволяет сохранять границы важных деталей в изображениях.
Как пишет автор:
Создать рендер + карта глубины из Блендера ->
Сгенерировать новые варианты в SD v2 + UV project from view (алгоритм позволяющий натянуть текстуры в Блендере анализируя только позицию камеры и 2D текстуру) ->
Совмещаем все -> PROFIT
Напомню, что теперь в SD v2 есть возможность img2img через карту глубины. Это позволяет сохранять границы важных деталей в изображениях.