Метаверсище и ИИще
46.8K subscribers
5.93K photos
4.35K videos
45 files
6.82K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Forwarded from e/acc
Oбзор ИИ-программистов

Для тех, кому интересна тема того как ИИ заменяет программистов, очень советую почитать мета-исследование, в котором сравнены 106 различных агентов по своим способностям, автономности, архитектуре и области применения.

Авторы сделали офигенную работу по определению агента (это система, которая может воспринимать информацию, использовать инструменты, планировать, запоминать и самостоятельно действовать). Мульти-агентная система, в которой есть роли агентов, включая роли менеджеров, анализа требований, проектировщиков, разработчиков, роли тестирования, отладки и вспомогательные роли.

Так же они определили области применения, большая часть из которых (вопреки яростно комментирующим) — это не просто написание кода, но формирование требований, дизайн, генерация кода, написание теста, статический анализ, поиск багов, фикс багов и девопс.

В статье много жира, например описание и сравнение всех 106 агентов по их функционалу и качеству или описание механизмов взаимодействия в мультиагентных системах (говорят, что 56% всех систем — мультиагентные), а так же детальный разбор каждого этапа и разных подходов к их решению.

Найти список всех 106 (бесплатных, с открытым кодом) агентов-программистов можно в референсах статьи.
1👍45🔥191👎1
Ну, за моделей. И фотомоделей.

Хотел выпить за фотографов, но пока рано.

Смотрите, теперь в онлайн-магазинах Mango на картиночках будут появляться Stable Diffusion Girls в реальной одежде.
То есть сначала берется кожаный фотограф, который фоткает реальный шмот.
А потом фотки этого шмота присобачиваются к сгенерированным моделям, которых не существует.
Ну то есть они сделали примерно то же самое, что и SuperLook только на годик позже.
Ибо экономия, вариативность, диверсити, и независимость от стилистов, визажистов, гримеров, студии, света и пр. Вместо этого - подписчики из коментов с Flux наперевес.

Да, в пищевой цепочке есть еще кожаные фотографы, которым остается почетная роль фотографировать одежду. Но я думаю в пределе процесс будет выглядеть так:

один ИИ смотрит на продажи.
другой ИИ генерит образцы и дизайн одежды, которые точно будут продаваться.
третий ИИ генерит все это в 3Д с текстурами, чтобы кожаным фотографам можно было заняться личными проектами.
этот же ИИ генерит датасеты с этой одеждой
четвертый ИИ генерит моделей в одежде, которые точно будут нравиться кожаным покупателям.
Чуть погодя, на сцену выходят world models и жуют 3Д датасеты одежды и генерят видео с 3Д-моделями в шмоте.
Рядом сидят гауссианы и генерят 3Д-сцены с этими моделями для того, что раньше называлось метаверсиками - для всяких 3Д-примерочных, где можно крутить себя и других в модных шмотках.

И все это, чтобы продать реальный прикид реальным кожаным. Ибо цифровой шмот (и землю) чото перестали покупать, сообразили, что скам, мерзацы (но не все).

Я также почитал пресс-релиз от Mango - это конечно адъ. ИИ, замени маркетологов плиз, там клише на клише.

Релиз тут

Бамбини тут

@cgevent
🔥35👍6😁21
Венхансер. Для гиков.

Есть такой опенсорсный проект VEnhancer - это улучшайзер видео. И не простых, а сгенеренных.

Основная аудитория пользователи Open Sora и CogVideo.

В закрытых видеогенераторах - свои улучшайзеры.

Пару дней назад, они выпустили крупное обновление. Код есть.


https://vchitect.github.io/VEnhancer-project/

@cgevent
👍21👎21
This media is not supported in your browser
VIEW IN TELEGRAM
Для Гиков из ComfyUI: красивое.

@cgevent
🔥22👍5
Что-то у меня сегодня гиковатый день. Довольно технические посты. На Клингонском.

Для тех, кто не овладел Флюксом в Комфи - Xlabs выкатили онлайн демо своих КонтролНетов и Лор для Флюкса на Replicate (тут я сам еле понял что написал)

Вот ссылка, тестируйте:
https://replicate.com/xlabs-ai

А вся остальная жара вот тут:
flux-ip-adapter
flux-controlnet-collections
flux-controlnet-canny
flux-RealismLora
flux-lora-collections
flux-furry-lora
https://github.com/XLabs-AI/x-flux

@cgevent
🔥28👍6
Завтра все напишут про Adobe Firefly Video Model.

И запостят видос. От Адобченко.

Но нам же интересно, что там за пределами агрегации новостей.

Держите первые неофициальные генерации из Firefly Video, а официальное видео и новости вы можете посмотреть тут:
https://blog.adobe.com/en/publish/2024/09/11/bringing-gen-ai-to-video-adobe-firefly-video-model-coming-soon

Или сразу тут:
https://www.youtube.com/watch?v=puEgugluadk

Там действительно впечатляющие примеры.


Итак, что у нас за кадром телеграм-новостей:

Оно не слоумошит. Хорошая динамика, нет склонности к замедлению.

Оно умеет принимать картинки на вход.

Датасет содержит (похоже) довольно много синтетики, поэтому первые видосы немного компьютерно-графические.

Датасет Адобовский, поэтому как бы "чистый", вы можете использовать видосы в своих целях, Адобченко вас прикроет (тут Клинг и Минимакс взоржали аки кони).

Есть пресеты для камеры, управление движением, фокусом и др. Типа Aerial, Low Angle, Long Shot, Close Up

Есть выбор FPS и аспекта кадра

Пока длительность - 5 секунд, но будет больше

А еще они натренили создание эффектов типа огня, дыма, частиц и даже воды, причем вывод на зеленке или на черном фоне. Чтобы потом из легко композить поверх (этого точно ни у кого нет пока).

И да, работа с текстом - огненная. Не просто надписи, а текстовые "объекты".

Есть работа со звуком, точнее со звуковыми эффектами. Голоса и озвучка - пока мимо, ибо лицензирование и вот это вот все.

Generative Extend появится в Premiere Pro - это как Fill, но по времени. Похоже на First-Last frame. Но это прямо на таймлайне! И вот это вот заполнение между двумя видосами выглядит реально убойно.

И да, жоская цензура, нет селебов и политики. Никакого NSFW.

Апдейт: функции, работающие на основе Firefly Video от Adobe, станут доступны до конца 2024 года в бета-приложении Premiere Pro и на сайте Firefly.

Пока все. Завтра пригоню еще реальных примеров.

@cgevent
3🔥51👍232👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Да, выглядит круто. Хотя есть скачок по блику. Но кто его заметит.

Firefly Video - это про UI\UX, о чем я постоянно ною.

Представляете такое в Suno или Udio?

Поглядите примеры тут, оно того стоит.

@cgevent
👍39
Что касается генерации лиц, то Firefly Video Model звезд с неба не хватает.
Клингон и Рунвей наверное будут посильнее в этом плане.
Ну и вспомните качество лиц у Соры.
Также надо понимать, что Адобченко и не лезет на эту поляну, это очень неоднозначная территория. Думаю они очень сильно, скажем так, курировали датасеты.
Как сильно будут лоботомировать Сору на этот счет - тоже неизвестно.
Тут вся надежда на китайцев.
Зато в оживляже фоток и продолжении видосов (второе видео) Адобченко, с его понятным UI будет очень хорошо себя чувствовать.
Подозреваю, что в анимации не фотореалистичных персонажей - тоже.

@cgevent
👍28👎4
Как и обещал еще пара неофициальных генераций из Firefly Video Model.

И они уже не такие сладкие, как на сайте Адобченко.

А тем временем, китайцы (уймите их наконец), выпустили еще один видеогенератор. И это новая команда.
Щас смотрите следующий пост.

@cgevent
2👍30🔥1
Итак, у китайцев новая видеомодель - Vchitect

Китайцы не простые. Авторы того самого VEnhancer.

https://vchitect.intern-ai.org.cn/

Что есть:

Text-to-video
Image-to-video
Длительность до 20 секунд.
Но больше всего интригует вот это:

High-definition quality, integrated super-resolution, и внимание, вставка кадров с возможностью пользовательской коррекции контента.

Ну и судя по разрешениям видосов у них на сайте(4K), VEnhancer там явно порылся.

И все это вроде как Open Source

Чего нет:
Кода, хотя вот тут есть все ссылки на репу, но они битые.
Демо, хотя вот тут есть все ссылки на демо, но они битые.
Бумаги, есть только ссылка Coming Soon

Если заопенсорсят, то это конечно, очень здорово.
Судя по аккаунту на гитхабе, у них там ресерч отличный:
https://github.com/Vchitect

@cgevent
🔥22👍11
Как насчет опенсорсного Suno?

Спойлер - никак.

Тут вот подрезал у Саши ссылочку на:

https://songcreator.github.io/

Выглядит как серьезная заявка:
SongCreator: Универсальная генерация песен
SongCreator: Управляемая генерация песен
SongCreator: Редактирование песен
SongCreator: Продолжение музыки
SongCreator: Генерация песен без лирики

Есть прям много примеров на сайте. У всех есть характерный металлический призвук.

Есть бумага:
https://www.arxiv.org/abs/2409.06029
И если почитать ея внимательно, то можно обнаружить говновишенку на торте:

Мы считаем, что наша работа имеет огромный потенциал для развития в инструмент создания песен для создателей контента или новичков, который позволит им легко выразить свои творческие стремления с низким начальным барьером, а также упростить и улучшить рабочий процесс опытных музыкальных продюсеров. Но одна из главных проблем - возможность воспроизвести чей-то голос с помощью голосовых подсказок, что может быть использовано для создания дезинформации, фейковых аудиозаписей или любого другого вредоносного контента. Мы стремимся к ответственному развитию этой области, поэтому контрольные точки, обученные на полном наборе данных, не будут опубликованы.

Расходимся.

@cgevent
👎23👍8🔥4
Вытащу из нашего чата с коментами пару видео от Minimax, ибо они прекрасны.

А сам чат уже лучше твиттора, там прям контент.

А прекрасны тут эмоции на первом видео и мощные следы интеллекта на лице во втором видео.

ИИ точно что-то знает про нас.
И про эмоции и про интеллект.
И про стриптиз...

Спасибо Борису. Огненно.

@cgevent
🔥85👍13👎2😁1