#Dalle3 — мнение и что будет дальше с визуальными моделями.
Давным давно (год назад, лол) Dalle-2 задавал планку качества в генерации картинок, но проиграл медийную гонку Midjourney (по качеству) и Stable Diffusion (по гибкости).
И вот, OpenAI с двух ног вернулась в игру визуальных моделей и снова задает уровень.
В первую очередь, уровень понимания запроса и то, что западные AI блогеры называют coherency (связность или согласованность), грубо говоря логическая и визуальная цельность.
Из полевых тестов — то, чего я добивался часами в MJ и Stable, в Dalle-3 получалось с одной попытки. Карлсон и Громозека — тоже (олды канала помнят)!
То, что вы пишите — то и получаете.
Что дальше?
Midjourney вот-вот выпустит шестую версию, в которой, судя по информации которую я слышал на office hours от CEO, будет гораздо большая стилевая гибкость (а не просто очень-очень красиво) и та самая conherncy. А также, некое подобие ControlNet. И на их месте я бы, конечно, шел именно в сторону большего контроля, потому что иначе они выпустят Dalle-3.
Stable Diffusion продолжает быть народным мультикомбаином, который расширяется до бесконечных возможностей за счет энтузиастов. Но уже с новым поколением — XL. Прошлогодная модель 1.5 плавно отдает бразды популярности.
Кандинский и Шедеврум догоняют, но надо (очень) ускоряться.
Dalle-3 скорей всего порежут, так сейчас можно легко создавать NSFW контент, что очень странно для OpenAI. Ну и вот-вот добавят в ChatGPT 4, что создаст множество сценариев использования.
Так что, если вы еще не попробовали, то советую (с VPN): https://www.bing.com/create. Ну и сделал в нашем хабе отдельный раздел для ваших генераций. Кстати, если у вас долго висит, то советую попробовать с браузера Bing, вроде постабильнее.
Давным давно (год назад, лол) Dalle-2 задавал планку качества в генерации картинок, но проиграл медийную гонку Midjourney (по качеству) и Stable Diffusion (по гибкости).
И вот, OpenAI с двух ног вернулась в игру визуальных моделей и снова задает уровень.
В первую очередь, уровень понимания запроса и то, что западные AI блогеры называют coherency (связность или согласованность), грубо говоря логическая и визуальная цельность.
Из полевых тестов — то, чего я добивался часами в MJ и Stable, в Dalle-3 получалось с одной попытки. Карлсон и Громозека — тоже (олды канала помнят)!
То, что вы пишите — то и получаете.
Что дальше?
Midjourney вот-вот выпустит шестую версию, в которой, судя по информации которую я слышал на office hours от CEO, будет гораздо большая стилевая гибкость (а не просто очень-очень красиво) и та самая conherncy. А также, некое подобие ControlNet. И на их месте я бы, конечно, шел именно в сторону большего контроля, потому что иначе они выпустят Dalle-3.
Stable Diffusion продолжает быть народным мультикомбаином, который расширяется до бесконечных возможностей за счет энтузиастов. Но уже с новым поколением — XL. Прошлогодная модель 1.5 плавно отдает бразды популярности.
Кандинский и Шедеврум догоняют, но надо (очень) ускоряться.
Dalle-3 скорей всего порежут, так сейчас можно легко создавать NSFW контент, что очень странно для OpenAI. Ну и вот-вот добавят в ChatGPT 4, что создаст множество сценариев использования.
Так что, если вы еще не попробовали, то советую (с VPN): https://www.bing.com/create. Ну и сделал в нашем хабе отдельный раздел для ваших генераций. Кстати, если у вас долго висит, то советую попробовать с браузера Bing, вроде постабильнее.
Пост поддержки, причем не про нейронки, а про игры. Мой старый товарищ Артем посвятил жизнь созданию инди-игр и, наконец, вместе со своей командой выпустил проект, над которым они усердно работали 4 года. Я следил с самого начала, поэтому могу сказать, что очень много сил и души вложено в этот проект, поэтому советую ознакомиться с ним по ссылке на стим https://store.steampowered.com/app/1568970/Torn_Away/ и подписаться на классный канал Артема про разработку игр @progamedev. Конец поста поддержки!
Steampowered
Torn Away on Steam
Torn Away is an award winning interactive story with a unique blend of adventure games, side-scrollers, and cinematic first-person levels. Help little Asya find her way home in the middle of war.
Forwarded from UX Live 🔥
У Adobe начался MAX https://youtu.be/1tbrJNP5Cjk
Первое с чего наверное уже отлетела жопа у всех кто делает векторные картинки для стоков — Firefly Vector. Теперь логотипы и принты можно генерить напрямую (раньше я делал в Midjourney и через VectorMagic трассировал).
Сегодня наверняка будет еще очень много анонсов. Например уже показали Firefly Image Model 2 которая генерит картинки еще лучше.
Первое с чего наверное уже отлетела жопа у всех кто делает векторные картинки для стоков — Firefly Vector. Теперь логотипы и принты можно генерить напрямую (раньше я делал в Midjourney и через VectorMagic трассировал).
Сегодня наверняка будет еще очень много анонсов. Например уже показали Firefly Image Model 2 которая генерит картинки еще лучше.
Судя по всему у многих (в том числе и у меня) #Dalle3 выкатился в GPT4.
Так что бежим тестировать (включать, как и все beta функции, в настройках).
Из первых наблюдений:
1. Встроена улучшайка запроса. Вы вводите запрос, ГПТ4 на его основе делает четыре, чуть прокаченные, версии.
2. В отличии от BING’а на выходе дается не квадратные, а широкие картинки.
3. Почему-то по запросу cyborg он мне дает Терминатора (???).
Продолжаем наблюдение и ждем мультимодальность с картинками еще и на вход. Ваше здоровье!
Так что бежим тестировать (включать, как и все beta функции, в настройках).
Из первых наблюдений:
1. Встроена улучшайка запроса. Вы вводите запрос, ГПТ4 на его основе делает четыре, чуть прокаченные, версии.
2. В отличии от BING’а на выходе дается не квадратные, а широкие картинки.
3. Почему-то по запросу cyborg он мне дает Терминатора (???).
Продолжаем наблюдение и ждем мультимодальность с картинками еще и на вход. Ваше здоровье!
This media is not supported in your browser
VIEW IN TELEGRAM
Одна из лучших контор по голосовым нейроштукам ElevenLabs выпустила нейродубляж с сохранением голоса. Тыкать тут, можно кидать прям ссылки на ютуб/твиттер/вимео. Cпешите пока не набежало людей и генерится быстро. Я пока пробую переводить свои старые видосы, например обзор на клей Наруто (можно сравнить с оригиналом). Пока не идеально, иногда люто шакалит, простреливает мощный индийский акцент, но перспективы очень интересные.
Пост для ML-талантов!
Яндекс объявил о старте приема заявок на международную премию Yandex ML Prize для исследователей в области ML, их наставников и преподавателей.
Приятные цифры:
5 номинаций, 11 стран и от 500 тысяч до 1 миллиона рублей призовых.
И доступ к облачным сервисам Яндекса.
Подать заявку до 16 октября на сайте премии.
Времени немного осталось, так что поспешите, если эта информация для вас актуальна!
Реклама. ООО «Яндекс»
Яндекс объявил о старте приема заявок на международную премию Yandex ML Prize для исследователей в области ML, их наставников и преподавателей.
Приятные цифры:
5 номинаций, 11 стран и от 500 тысяч до 1 миллиона рублей призовых.
И доступ к облачным сервисам Яндекса.
Подать заявку до 16 октября на сайте премии.
Времени немного осталось, так что поспешите, если эта информация для вас актуальна!
Реклама. ООО «Яндекс»
Yandex ML Prize
Премия Яндекса для учёных и преподавателей в области Machine Learning
Тест мультимодальности #ChatGPT.
Часть 1: понимание мемов.🔄
Open AI наконец-то выкатили возможность давать GPT4 картинки на вход (в Bing, кстати, тоже можно), многократно расширив горизонт возможностей и без того самой мощной языковой модели. Начинаю эти самые возможности исследовать в серии постов, пока что на мемах.
Выводы:
🐶 ГПТ4 легко понимает концепты, даже абстрактные, так и пишет: “смысл в абсурдности”.
😠 Если в меме есть двусмысленность, то может не копнуть до второго смысла и снять только первый слой. См. пример с собаками. В этом случае нужна подсказка.
🦞 ГПТ4 НЕ ПОНИМАЕТ ШРИФТ LOBSTER. Пытается читать, но делает ошибки. Но на первой картинке, с фрилансером, все равно затащил.
😳 Понимание количества элементов — мое увожение, см. картинку со Sleep Chart.
В целом, не идеально, но все-равно — фантастика.
Продолжаю наблюдение. Кидайте свои МЭМЫ для анализа в комментарии (по ржом).
Часть 1: понимание мемов.
Open AI наконец-то выкатили возможность давать GPT4 картинки на вход (в Bing, кстати, тоже можно), многократно расширив горизонт возможностей и без того самой мощной языковой модели. Начинаю эти самые возможности исследовать в серии постов, пока что на мемах.
Выводы:
В целом, не идеально, но все-равно — фантастика.
Продолжаю наблюдение. Кидайте свои МЭМЫ для анализа в комментарии (по ржом).
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Ai molodca 🤖
Тест мультимодальности #ChatGPT. Часть 1: понимание мемов. 🔄 Open AI наконец-то выкатили возможность давать GPT4 картинки на вход (в Bing, кстати, тоже можно), многократно расширив горизонт возможностей и без того самой мощной языковой модели. Начинаю эти…
Дополнение к тесту, выяснилась любопытная особенность при анализе мемов из комментариев, назовем ее «проблема палки».
GPT4 довольно жестко (и не один раз) ошибся с этой картинкой, что было странно, учитывая внимание к деталям при анализе. Конечно, я его спросил почему так:
“При анализе я опирался на обобщенные признаки и структурное сходство с известными образцами, а не на детальный анализ каждого кадра”.
Т.е по мимо классификатора возможно есть функция сравнения сравнения с базой данных. И если картинка что-то очень напоминает, то он может решить: “да пофиг, скорей всего это та самая картинка”. Палки себе в колеса ставит!🦆
GPT4 довольно жестко (и не один раз) ошибся с этой картинкой, что было странно, учитывая внимание к деталям при анализе. Конечно, я его спросил почему так:
“При анализе я опирался на обобщенные признаки и структурное сходство с известными образцами, а не на детальный анализ каждого кадра”.
Т.е по мимо классификатора возможно есть функция сравнения сравнения с базой данных. И если картинка что-то очень напоминает, то он может решить: “да пофиг, скорей всего это та самая картинка”. Палки себе в колеса ставит!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM