Forwarded from Мишин Лернинг
🐅 Parti — Новый Text2Image от Google | DALL-E 1 Наносят ответный удар
Авторегрессионный подход к генерации казался уже в далеком прошлом. Все перекинулись в диффуз, и это вполне ожидаемо, глядя на успехи DALL-E 2 и Imagen. И да, Imagen от Google таки делает DALL-E 2. Но Google не успокоился.. Можно сказать что Google дернул OpenAI дважды:
▪️ Imagen > DALL-E 2
▪️ Parti > DALL-E 1
Встречайте: Pathways Autoregressive Text-to-Image model (Parti). И самое странное то, что Parti бьет Imagen по MS-COCO FID в Zero-Shot!
Всего Google обучил 4 модели:
350M - 14.10 FID
750M - 10.71 FID
3B - 8.10 FID
20B - 7.23 FID
Архитектруно Parti это трансформер энкордер-декодер работающий с текстовыми токенами и токенами ViT-VQGAN.
p.s.: Субъективно, я даже не могу сказать что лучше Parti или Imagen... Вроде текст Parti лучше, но вот гановские артефакты чуть больше бесят..
💻 project
📄 paper
👾 GIT
Авторегрессионный подход к генерации казался уже в далеком прошлом. Все перекинулись в диффуз, и это вполне ожидаемо, глядя на успехи DALL-E 2 и Imagen. И да, Imagen от Google таки делает DALL-E 2. Но Google не успокоился.. Можно сказать что Google дернул OpenAI дважды:
▪️ Imagen > DALL-E 2
▪️ Parti > DALL-E 1
Встречайте: Pathways Autoregressive Text-to-Image model (Parti). И самое странное то, что Parti бьет Imagen по MS-COCO FID в Zero-Shot!
Всего Google обучил 4 модели:
350M - 14.10 FID
750M - 10.71 FID
3B - 8.10 FID
20B - 7.23 FID
Архитектруно Parti это трансформер энкордер-декодер работающий с текстовыми токенами и токенами ViT-VQGAN.
p.s.: Субъективно, я даже не могу сказать что лучше Parti или Imagen... Вроде текст Parti лучше, но вот гановские артефакты чуть больше бесят..
💻 project
📄 paper
👾 GIT
🔥24👍4
Тут недавно в блоге OpenAI вышла статья про Video PreTraining (VPT).
С помощью объединения разных методов новой модели удалось добраться до алмазных инструментов в игре Minecraft.
Далее разметили остальные 70 тысяч часов видео новой сеткой.
И закинули веселиться в Майнкрафт.
Более подробно об обучение в статье.
До алмазной кирки правда только через файнтюн модели получилось добраться.
С помощью объединения разных методов новой модели удалось добраться до алмазных инструментов в игре Minecraft.
(Обычному пользователю требуется 20 минут в среднем до алмазных инструментов)
Взяли огромную базу данных - 70 тысяч часов обучающих видео про Minecraft(фанбаза у Майнкрафта огромная), предобучили модель на небольшой части датасета предсказывать какие клавиши нажимает игрок на видео, назвали IDM модель предсказания.Далее разметили остальные 70 тысяч часов видео новой сеткой.
И закинули веселиться в Майнкрафт.
Более подробно об обучение в статье.
До алмазной кирки правда только через файнтюн модели получилось добраться.
Видео - демонстрация получения кирки нейросетью.
Надеюсь в будущем будет такая же модель, чтобы монтировать смешные нарезки нейромемов в youtube.👍29
Forwarded from Мы и Жо / медиа и журналистика
Куриный наггетс курит под дождем
Привет, это Саша Амзин. Один из любимых мною твиттер-аккаунтов, Weird Dall-E Mini Generations, запостил невероятную мощь. Нейросеть явно превзошла себя.
Я не предполагаю, что бильд-редакторы обречены, но в ближайшее время по крайней мере некоторые из них могут выйти покурить в дождь.
Привет, это Саша Амзин. Один из любимых мною твиттер-аккаунтов, Weird Dall-E Mini Generations, запостил невероятную мощь. Нейросеть явно превзошла себя.
Я не предполагаю, что бильд-редакторы обречены, но в ближайшее время по крайней мере некоторые из них могут выйти покурить в дождь.
😁29🔥7👍1
Квадратные робокоты доставщики.
Один кот оператор-инженер.
Генерация в Dalle 2.
Один кот оператор-инженер.
Генерация в Dalle 2.
👍35❤5🔥3