Psy Eyes
3.94K subscribers
867 photos
639 videos
5 files
935 links
Креатив + AI + Web3... и мемы

Личная страница @andrey_bezryadin
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Кстати о матрице, ловите
This media is not supported in your browser
VIEW IN TELEGRAM
Runway поделились как получать четкие и близкие к источнику результаты с GEN-1:

1) Если нужно изменить стиль по референсу, то лучше вытащить кадр из видео —> стилизовать его через img2img под нужный стиль любым софтом (SD, MJ, Runway, итд) —> использовать итоговую картинку как референс.

2) Идём в расширенные настройки (Advanced) и ставим:

Structural consistency: 0
Style weight: между 3 и 7
Frame consistency: 1.2
Alpaca Turbo — локальный интерфейс для общения с разными лама моделями, который внешне напоминает ChatGPT.

Кстати на раздаче торрента модели GPT4ALL больше людей, чем на Аватаре. Наука ещё никогда не была так успешна господа.

Видео по установке
300 нейрокотанов!

Никуда не расходимся: организую вам ранний доступ к ботам, играм, креативу, и другим ништякам, которые ваяю. Для этого у вас в аккаунте появится цифровой коллекционный предмет на блокчейне TON, который вы сможете использовать прямо в телеге. Можете хранить его в кошельке @wallet, но я бы советовал Tonkeeper ибо там ключи хранятся у вас, есть поддержка NFT, эксплорер dApp, и вагон других непонятных слов нужных фич.

Степенно буду писать всем в личку и знакомиться, не пугайтесь.

Дальнейшие детали последуют. Открыл чат
This media is not supported in your browser
VIEW IN TELEGRAM
Гайд по расширенным настройкам Gen-1 от Runway.

Рассматриваем Style Weight, Frame Consistency, и другие крутилки на примере стайлтрансфера по рефу.

https://dtf.ru/s/595875-neyro-iskusstvo/1738988-gayd-po-rasshirennym-nastroykam-gen-1
Linkin Park потихоньку выкладывали по треку с компиляции в честь 20-летия Meteora, приправляя это всё генеративным визуалом, и сейчас плейлист уже разросся до 89 позиций, включая разархивированные демки, лайв записи и клипы в 4к, а также уже выпущенные треки.

Какой из новых релизов Linkin Park вам понравился больше всего и ваши впечатления о визуале?

https://youtu.be/7NK_JOkuSVY
Задавались вопросом почему нейронкам сложно даются руки?

Тут особой загадки нет:

1. Размер данных. Лица на фото встречаются значительно чаще рук. Даже, когда показано все тело, руки, как правило, занимают гораздо меньше места в кадре, и соответственно в пикселях.

2. Отсутствие понимания анатомии. Это гораздо более глубокая проблема: AI никогда не использовал руки в физическом мире, поэтому приходится делать выводы о том как они выглядят в различных позах путем поверхностного сопоставления с образцом. Вот почему нейронке тяжело даже правильно определить количество пальцев — руки часто закрываются инструментами или пересекаются в рукопожатиях, например.

3. Эффект зловещей долины. Легкие деформации текстуры стен или объектов можно и не заметить. Но неправильные руки моментально тригерят людей.

Видос в тему
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Ну, за дизайнеров, брендменеджеров и вот эти вот все упаковки.

Текст-2-дизайн.

Сайт отлично сделан, не иначе ИИ наваял. Очень хорошая связка генератива и традиционных инструментов.

https://flair.ai
This media is not supported in your browser
VIEW IN TELEGRAM
Видео нейронки развиваются

👀 VideoCrafter — это опенсоурс алгоритм для генерации видеоконтента.
Включая в себя три вида генерации:

😀 Text2video — строится на Latent video diffusion модели (LVDM). Используя текст получаем видеоряд.

👍 LoRaVideoLoRa реализует тонкую настройку, так как ее легко обучить и требуется меньше вычислительных ресурсов. То есть можно загонять свою стилистику в модель.

👍 VideoControl — видео генерации с дополнительным контролем, например, по карте глубины, авторы вдохновившись T2I алгоритмом предлагают свой, T2V алгоритм.

GITHUBDEMOCOLAB

Демка пока без очереди и достаточно быстро и хорошо генерит
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Как добиться в Runway генерации видео близкого к оригиналу мы уже рассмотрели. Теперь рассмотрим как с GEN-1 получить неожиданно-любопытный результат.

1) Загружаем видео и используем в качестве референса, картинку максимально не похожую на оригинал.

2) В расширенных настройках (Advanced) ставим:

Style: Structural consistency — 6
Style: Weight — от 4 до 5
Frame consistency — 1.2

Подробнее на что влияет каждая из настроек можно посмотреть здесь с примерами.
Две нейронки работают между собой, чтобы решить задачу, поставленную человеком.

В основе лежит модель CAMEL (Communicative Agents for “Mind” Exploration of Large Scale Language Model Society): человек даёт задание текстовым промтом, а-ля "напиши бота для трейдинга на бирже", а дальше два AI-агента работаю между собой, чтобы решить её. Своего-рода как сейчас, если что-то не так с кодом ChatGPT, ты ему же скармливаешь код, и он говорит тебе что в нём можно исправить.

Сами разрабы называют фреймворк ролевой игрой, позволяющей добиться автономности выполнения задачи, заодно генерирующей данные для изучения.

Сайт
Бумага
Видео демо
Colab
Github
Media is too big
VIEW IN TELEGRAM
Если у вы занимаетесь профессиональной съёмкой на смартфон и по каким-то причинам у вас не работает Filmic Pro, есть смысл попробовать mcpro24fps.

Фичи:
* ручная регулировка фокуса, ISO, фреймрейта, итд
* запись с внешних источников звука (пробовал петличку BOYA и пушку Rhode)
* поддержка Log и LUT
* 10-битная запись на некоторых устройствах
* запись с нескольких камер
* и не только

Работает на русском и английском.

Только для Android. С гугл плей у меня не установилось, но разрабы сами выкладывают рабочие билды на Яндекс.Диск
Media is too big
VIEW IN TELEGRAM
Представлены видео со свободной точкой обзора — free-view videos (FVV) на основе ReRF!

Текущие методы, использующие нейронную визуализацию (NeRF) для создания FVV-контента ограничены либо работой в оффлайн режиме, либо способностью обрабатывать только короткие сцены с минимальным движением.

Новый метод ReRF (Residual Radiance Field) обладает отличным сжатием, и подходит для реал-тайм визуализации длинных динамичных сцен с возможностью свободно вертеть камерой.

Для FVV сделан отдельный кодек, который сжимает контент в десятки-сотни раз без потери качества:

ReRF — 0,645 МБ/кадр
INGP — 87,3 МБ/кадр
DVGO — 785,6 МБ/кадр

Сопровождается ReRF-плеером для онлайн-трансляций и длительных FVV сцен.

Подключил своего цифрового двойника к сайту/апе, через SD+SAM сгенерил ему новый шмот, повертел со всех сторон в ReRF-плеере, что понравилось — отправил на печать в 3D-принтере или доставкой на дом.

Интересно как свободную камеру в мире кино применят. Сейчас такое практикуется в играх от первого лица.

Сайт
Бумага
Код (пока нет)
Админам тг каналов на заметку. Tgstat выкатили новую метрику ER (Engagement rate).

Показывает уровень вовлеченности подписчиков и считается как отношение количества всех взаимодействий с публикацией (пересылка, реакция, комментарий) к количеству просмотров публикации.

На странице главной статы канала отображается:
— средний ER за последние 30 дней
— динамика изменения за последние 30 дней
— среднее количество пересылок/комментариев/реакций на 1 публикацию

Не путать с ERR (Engagement Rate by Reach), который показывает вовлеченность по просмотрам, и считается как отношение просмотров публикаций к количеству подписчиков на канале.

Больше деталей
This media is not supported in your browser
VIEW IN TELEGRAM
Редактирование видео по рефу другого видео: vid2vid-zero

В основе метода три модуля: один для инверсии текста и соблюдения соответствия видео промту; второй для консистентности кадров; и третий для пространственной регуляризации и сохранения достоверности оригинальному видео. Не требует предварительной трени на видеоряде.

Тесты показывают хорошие результаты с заменой объектов и мест в кадре.

Демо
Гитхаб
На днях в опенсорс выкатили модель для выделения визуальных данных — Segment Anything Model или SAM. Работает очень ловко, там же на сайте есть демо.

Пишешь текстовый промт / тыкаешь мышкой / задаешь область поиска — и нужный объект выделяется, экономя тучу времени.

Код на гитхабе без дела не лежал и иже это дело прикрутили к:
* автоматику (в виде расширения)
* Grounded SAM с поддержкой SD + Whisper (чтобы голосом выделять и менять вещи ка картинке)
* Stable SAM — быстро выделяем, что заменить через SD
* NeRF

На хаггинге появился целый спейс на эту тему, где все модели собраны удобно в одном месте.