Метаверсище и ИИще
46.8K subscribers
5.93K photos
4.35K videos
45 files
6.82K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Памятник дизайнеру-полиграфисту в Красноярске. Сбоку на системном блоке надпись: “Приходит вечер пятницы, народ идёт в кабак. А ты сидишь с визитками, как конченный дурак”
👍70🔥27👎2
This media is not supported in your browser
VIEW IN TELEGRAM
Запомните, вы находитесь здесь. Август 2024.

Увидимся через 9 месяцев. В персональном метаверсе, с иголкой в башке и стимуляцией зрительного нерва.

Качество все еще отстой, но динамика движений! Сора всем показала, как надо в динамику и сло-мо как ветром сдуло.
Понимание мира и world models все лучше, а качество допилить - дело наживное.

@cgevent
🔥94👍20👎6
После пятничного видео с каблуками, в коментах прозвучала очень симптоматичная фраза: сколько идей для дизайна!!

Ну и надо сказать, что наши нео-луддиты куда-то повывелись. Все реже звучат ортодоксальное "да что он может, жалкий повторятель" или безнадежное "у него нет души".

ИИ даст фору вашему жалкому вдохновению примерно 1000 раз. И ваша задача, как можно скорее брать его в соавторы, пока он не сообразил, что к чему.

Вот смотрите, утром подрезал статью в Nature, что chatGPT повышает креативность кожаных .. нет не так, с креативностью у них не очень.. повышает креативность идей, которые кожаные генерят ВМЕСТЕ со стареньким chatGPT 3.5.

И да, авторы все это померили и запротоколировали.

В пяти экспериментах мы попросили участников использовать ChatGPT (GPT-3.5) для генерации творческих идей для решения различных повседневных и инновационных задач, включая выбор креативного подарка для подростка, изготовление игрушки, переиспользование ненужных предметов и проектирование инновационного обеденного стола. Мы обнаружили, что использование ChatGPT повышает креативность генерируемых идей по сравнению с неиспользованием каких-либо технологий или использованием обычного веб-поиска (Google). Этот эффект сохранялся независимо от того, требовала ли проблема учета многих факторов или просто требовала сопереживания(!). Кроме того, ChatGPT был наиболее эффективен при генерировании инкрементных (в отличие от радикальных) новых идей. Данные о процессе позволяют предположить, что положительное влияние ChatGPT объясняется его способностью объединять отдаленно связанные концепции в целостную форму, что приводит к более внятному изложению идей.

Вот это вот "способностью объединять отдаленно связанные концепции в целостную форму" у ИИ прокачано примерно в 1000 раз лучше, чем у кожаного.
https://www.nature.com/articles/s41562-024-01953-1
Советую подружиться, пока не поздно.

@cgevent
🔥48👍18👎4
Борьба за проценты

В условиях дефицита чипов, одним из направлений исследований становится оптимизация и экономия вычислительных мощностей.
Это мы видим на примере Flux, который не влазит даже в самые топовые карты - поэтому уже выходят квантизированные модели типа Flex-dev-Q4, которые меньше быстрее и пр. Сообщество выкручивается.

Научное сообщество тоже выкручивается и счет идет на проценты. Трансформеры, вещь тяжелая, поэтому многие ищут альтернативы, такие как, например, линейные модели.
Модель Based (Simple linear attention language model), представленная Стэнфордом в декабре 2023 года, значительно улучшила способности контекстного обучения. А совсем недавно в лаборатории T-Bank AI Research обнаружили неэффективное использование ресурсов из-за неоптимальной структуры и оптимизировали механизм извлечения информации из текста. Добавили новые обучаемые параметры, которые отвечают за оптимальный поиск взаимосвязей между частями текста.
В среднем понимание взаимосвязей в тексте в новой архитектуре стало лучше на 10%.
ReBased способна снизить издержки на использование для специализированных задач, которые имеют конкретную область применения и требуют учета ее особенностей. Например, в медицине такой задачей может считаться классификация текстов на основе симптомов и диагнозов.

Новая архитектура, позволяет приблизить качество линейных моделей к трансформерам. Модели, в основе которых лежит ReBased, могут генерировать тексты с более низкими требованиями к ресурсам практически без потери качества.

Статью Linear Transformers with Learnable Kernel Functions are Better In-Context Models только что представили на ACL, которая прошла в Бангкоке, Таиланд, с 11 по 16 августа 2024 года.
И что приятно, весь код ReBased УЖЕ есть на Гитхабе.
🔥24👍17
This media is not supported in your browser
VIEW IN TELEGRAM
Три новых контролНета для Flux от Xlabs.

Version 3. All trained in 1024x1024. Updated Quality. Fit into 12GB. ComfyUI scripts added.

https://huggingface.co/XLabs-AI/flux-controlnet-hed-v3
https://huggingface.co/XLabs-AI/flux-controlnet-depth-v3
https://huggingface.co/XLabs-AI/flux-controlnet-depth-v3

@cgevent
🔥46👍101
Тема сисек во Flux раскрыта.

Ну или закрыта, не знаю, как правильно ...

Расходимся и следуем на Civitai:

https://civitai.com/models/652791?modelVersionId=730321

@cgevent
👍32👎6🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Тут вот в телегу завезли Stars в качестве реакций. Ну штош, протестируем фичу.
Я тут на сутки завис с фракталами во Флюксе. И вообще я завис во Флюксе, как вы могли заметить.
Наворотил вот такое вот абстрактищще, года 3 назад - сразу бы на OpenSea и ну в миллионеры.
Короче, навалите мне сюда 1000 Stars и я расскажу, как обгонял, как подрезал, как генерил.
Как собирал видео без всяких монтажек.
Как делал анимацию.
Как юзал Optical Flow чтобы убрать кипение
Как не юзал AnimatedDiff или EbSynth
При чем тут chatGPT
Почему Forge это бомба и как починить Distilled CFG
Ну и по мелочи...

Телегу надо обновить, без этого никак.

Хинт: чтобы послать 10 или 50 звезд(1⭐️ это 2руб), надо 10 раз тапнуть по звезде(или прижать ее подольше). Так что это еще и тест тапалок. Тапайте на здоровье. Админа. И Флюкса.

@cgevent
1.17K🔥139👎23👍10
Воскресенье, думал отдохнуть. Сажусь писать пост.
Спасибо Максиму, Валерию и VFF - как главным спонсорам поста.

@cgevent
2🔥46👍21👎6
Media is too big
VIEW IN TELEGRAM
Вот иллюстрация к следующему посту про Мальдельбалба. Там много текста, он сюда не влезет сюда. Кстати, посоветуйте, где Онлайн-галереи ловче всего делать, а то у меня тьма картинок скопилась.

Видос длинный, но если вы дождетесь, то увидите белых дельфинов-убийц, пожирающий нейрокорм и гламурных опарышей за ними.

@cgevent
🔥28👍4
Итак, привет всем Мандельбро.

Все началось вот с этого февральского поста, где DALL·E 3 всех уделал по части фракталов.

Ну я и решил вернуться к этой теме во Флюкс.

Попросил chatGPT сварганить промпт про mandelbulb - но он выдал слишком навороченный цыганский текст с золотом и серьгами. Поэтому я скромно выкусил оттуда:
A glossy and highly detailed 3D Mandelbulb fractal. Для последних картинок добавил - White background
Запустил Форжа и ну эксперименитровать.
Вот вам параметры из поста выше:
A glossy and highly detailed 3D Mandelbulb fractal. White background
Steps: 20, CFG scale: 1, Distilled CFG Scale: 2, Seed: 11, flux1-dev

Я использовал Plot X\Y\X, чтобы погонять картинку по Steps и по CFG scale. Дико познавательный инструмент, не знаю, как в Комфи такое делают.

В видео из прошлого поста просто прогнал CFG scale от 1 до 4 с шагом 0.01 (H100 не H200, конечно, но шустрая карта)
Получил хозяйство из 601 картинки.
Пошел в монтажку, но передумал. Точнее, я сразу передумал, когда у меня накопилось штук 10 таких серий.
Каждый раз грузить их в монтажку, указывать\подбирать длительность кадра, задавать длительность fade out, выгонять - долго. Очень долго. Мне же экспериментировать.
Иди сюда, chatGPT, говорю: can I have python code to make video from all png files in current folder sorted by name. Each frame should have 1 sec duration and fade effects between frames is 0.2 sec
chatGPT: апажалста.

Ага, говорю, теперь длительность кадра и фейдера сделай параметрами и зацикли клип, переверни и подклей в конец.
chatGPT: а лехко. Код (работающий) вот тут

Я копирую код в новый питонговый файл и запускаю его в папке с картинками - видео готово через 4 секунды.

Перед тем как его запускать, у вас, как ни странно, должен быть питонг и надо установить pip install moviepy в командной строке. moviepy - библиотека работы с видео.

Дальше я просто запускаю в командной строке python video.py и ну подбирать длительность кадра.
Хинт - забрасываете эту команду с разными параметрами длительности на тулбар Тотал Командера и эксперименты становятся проще.

Ну ок, слайд-шоу получаются отличные и, главное быстро подбираются параметры.

Теперь хочется сделать прям видео-видео.

Задаю в коде create_video_from_images(frame_duration=0.04, fade_duration=0.0) и fps=25, чтобы просто последовательно склеить все кадры в видос (0.04 - это и есть 25 кадров в секунду).
Стробит, как и положено.
Тут я вспоминаю все эти трюки в ЕбСинт, Премьером и даже Топазом. Но это ДОЛГО.
chatGPT, бро, что будем делать?
chatGPT: линейная интерполяция кадров или DAIN (Depth-Aware Video Frame Interpolation) или RIFE (Real-Time Intermediate Flow Estimation). Ну или просто Optical Flow.

Давай говорю код для Optical Flow. Есть папка с картинками, надо вставить заданное количество кадров между ними.
chatGPT: детский сад, держи код , количество вставляемых кадров сам задавай, там все есть.
Экспериментирую с 2 и 5. Получаю новую жирную пачку картинкой, снова запускаю python video.py

Получаю видос за 4 секунды, который уже не так стробит. Публикую в канал.

Особой магии нет. Магия в том, что с помощью chatGPT можно быстро сделать себе Premier и Topaz, которые работают чудовищно быстро. Секунды. Вместо вот этого вот всего Import Files и клик, клик, клик.

Дальше я просто генерю последовательности и нажимаю две кнопочки в Total Comander - вставить кадры и сделать видос.
Все, что вам надо - это питонг на вашем компе.

Почему Forge это бомба и как починить Distilled CFG
- ну потому что мне не надо искать, как делать гриды (и рыться во множестве их вариантов в комфи). Забил 1-4 (+0.01) и пошел пить чай.
А Distilled CFG в Форже сегодня починили, не надо больше тыкать на Swap Method два раза.

Бонусом вот вам разные программки для генерации Честных Мандельбалбов:
Fractal Lab, Mandelbulber, Mandelbulb 3D (мне на реддите даже ответил чувак, who discovered (or co-discovered) the formula for the Mandelbulb.

А следующим постом, красота от Леши Осипенкова, который знает толк во фракталах и вытворяет в Блендоре такие чудеса, что что у меня челюсть отпала.
2🔥50👍21👎2
This media is not supported in your browser
VIEW IN TELEGRAM
Настоящие фракталы.

Я знаю Лешу еще по прошлой жизни, он выступал у меня на Ивенте аж 2011 году, когда про съемку видео на фотоаппарат никто ничего не понимал, а он давай подробнейший разбор.

Он сделал свою тулзу в Блендоре и генерит какие-то запредельные процедурно-фрактальные штуки. Которые отгружает в свой канал, о фракталах, с большим уклоном именно в визуальную часть. Все посты - видео лупы, который можно смотреть как угодно долго. Периодически дает знания о фракталах(про Антарктиду, например). В общем полезное с визуальным.
Люто плюсую жмите сюда, а вопросы можете в коменты кидать, я Лешу добавил.

@cgevent
5👍46🔥21👎4
Н-Насмотренность.

Тут периодически кожаные ещё с надеждой взбрыкивают: человеческий глаз все равно отличит фальш ИИ от духовных кожаных пикселей.
Нуштош.
Попробуйте набрать хотя бы 20 очков в такой игре: выберите картинку с ии-шным насекомым.
Вперёд, энтомологи вы мои!

https://huggingface.co/spaces/victor/fake-insects
👍43🔥23👎8
Тут в коментах недавно была истерическая дискуссия о том, а как вообще начать генерить картинки и чтобы сразу в Флюксе.
Точнее дискуссия была о том, как вообщем понимать этот клингонский, на котором разговаривают в чате. Требуется ИИ, чтобы перевести советы с клингонского на понятный ибо "начни Форжа и gguf поменьше" или "поищи Лоралоадер для Комфи" - это как бы безнравственно.
Вот держите, наконец, хороший выверенный тутор на русском от Сергей Пирогова aka MonkeyInLow. Там не только про установку, но и про Лоры и КонтролНеты для Флюкса. И самое главное, как это дело юзать на Runpode. То есть арендованной машие в сети, где вы не будете ждать 5 минут каждой картинки, а будете идти по процессу. Ну и вообще использование Runpod - это новы обязательный скил. Модели не будут меньше...
Рекомендую.
https://www.youtube.com/watch?v=a3bRaVwDtbI

@cgevent
4👍59🔥37
Я уже писал, что парни из Xlabs бахнули три новых контронета, обновив из до версии 3. Привалив больше реализму и уменьшив деградацию картинки.
Более того, они мне нашептали, что вот-вот выйдет их IP-adapter для Флюкса.

https://huggingface.co/XLabs-AI/flux-controlnet-hed-v3
https://huggingface.co/XLabs-AI/flux-controlnet-depth-v3
https://huggingface.co/XLabs-AI/flux-controlnet-canny-v3

Ну и появились утечки, что это за хакеры такие.

@cgevent
🔥27👍5
За Лоры. Чокаясь и поясняя за.

Стоп-кран сорван. Народ дорвался до тренировки Лор, они хлынули бурным потоком на Civitai и HuggingFace.
Теперь уже бессмысленно писать аглядителорусделали, их там сотни..
Но я отмечу одну. На реддите кто-то (автора нашел тут) сделал Лору на основе Пластилиновой Вороны Саши Татарского.
Получилось очень круто.
Флюкс очень здорово считывает и сохраняет стиль.
https://civitai.com/models/660253?modelVersionId=738881
Кстати, некто Pyros, автор основных NSFW-чекпойнтов для Stable Diffusion, на основе которых собраны 85% мерджей для обнаженки, написал, что не видит смысла тренировать чекпойнты под Флюкс. И что флюксовые Лоры-256 настолько хорошо справляются с этой задачей, что порождать 20гиговые чейпойнты больше нет смысла.

Все, постараюсь про Лоры больше не писать, скоро это будет как писать про сайты в интернете.

Но думаю, сам формат Лор будет еще меняться, уж очень много пока вводных появилось - текстовые энкодеры, дистилированные модели, квантизированные модели - идеальная Лора должна работать с любыми моделями. Ждем стандартизации.

@cgevent
14🔥133👍22