Метаверсище и ИИще
47.7K subscribers
6.04K photos
4.51K videos
46 files
6.95K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Тут Антон, повелитель чайных пакетиков, проделал титаническую работу

И сравнил 15 актуальных моделей для генерации 2D-изображений. Описал их плюсы и минусы и сделал сравнительные тесты.

Результаты тестов и экспериментов он зафиксировал в новой рейтинговой таблице с наглядными примерами и более, чем 200 картинками. Для начала можете сразу посмотреть итоговую оценку.

Ссылка на таблицу.
P.S. Таблица реально огромная, поэтому наберитесь терпения при ее загрузке.

Ну и загляните к Антону, если оказалось полезным.

P.S. Лайфхак. Напечатайте таблицу из Гугла в PDF, поставьте Custom Width = 17", и будет у вас оффлайн версия с быстрой загрузкой.

@cgevent
242👍20😁6🔥4
Please open Telegram to view this post
VIEW IN TELEGRAM
👍191
Media is too big
VIEW IN TELEGRAM
Мы еще не отошли от новых возможностей Suno V5, как они бахнули Suno Studio

И это уже серьезно.
Музыкальная монтажка в вашем браузере, но даже это не главное.

Теперь треки различных инструментов и вокала генерятся по отдельности, их видно, их можно резать и монтировать индивидуально.
Но даже это не главное.

Все это можно экспортировать в DAW.
Но даже это не главное.

Треки можно конвертировать в MIDI формат!!!
И вот это уже бомба.

Не секрет, что многие композиторы и аранжировщики уже используют Суно в качестве источника музыкальных идей и просто тырят оттуда мелодии, чтобы переаранжировать их.
Теперь это сделать совсем просто.

И вообще, теперь вы можете вытворять со своими генерациями, что хотите в плане дальнейшей доработки.

Знающие люди в коментах уже пишут, что конвертация в MIDI делает минимальное количество ошибок, и правится руками очень быстро.

Suno - продукт у которого просто нет конкуренции.

Для начала просто посмотрите, что они сами вытворяют:
https://www.youtube.com/watch?v=c8qNYyeAQBs
https://www.youtube.com/watch?v=KFfrcPmzSSo&t=998s

Пока раскатали в плане за 30 долларов в месяц, ждем дальнейших послаблений.

https://suno.com/studio-welcome

@cgevent
🔥10720😱14👍9👎5😁2
3D-генерация:
Rodin Gen-2 от DeemosTech разродились мощным апдейтом.


3 очень важные фишки:

1. Качество мешей повышено в 4 раза (это понятно)

2. Есть ретоп, причем с нормал-мапами. По-русски: месиво из полигонов превращается в низкополигональную сетку с картами нормалей (чей ретоп они покрали, не знаю). На видео, на 00:20 видно морду лошади(?), но я вот подозреваю, что это ручная работа и after effects - уж больно правильно.

3. Рекурсивная сегментация на части, под названием BANG. Вот это уже интересно, система берет сгенеренный объект и режет его на части, дальше можно выбрать любую часть и снова порезать ее на части. Гляньте видео, верится с трудом.

В общем я слежу за двумя игроками на 3Д-поляне: это Хуньянь и Родэн.

@cgevent
🔥40👍103😱3
В Адобченко завезли Нанабанану и Flux Kontext.

Inpaint никогда не будет прежним.

Любопытно, что Адобченко хватило духу признать, что их модель Firefly - ну такое. И встроить в фотошоп внешние модели.
А с Firefly история похоже на Stable Audio 2.5 - "мы натренировали нашу модель на коммерчески безопасных данных".
Пользователи: "ичо?".

А еще забавно, что они дают совершенно разные описания Банане и Флюксу, при том, что функционал на 90% похож.

@cgevent
🔥359👍9😁8
Media is too big
VIEW IN TELEGRAM
Ух ты, Хуньяньский опенсорснул часть Hunyuan Studio ответственную за сегментацию полигональных объектов.

Там два метода:
P3-SAM: модель сегментации деталей в формате 3D.
X-Part: модель генерации деталей, обеспечивающая топовые результаты в области управляемости и качества формы.
Код https://github.com/Tencent-Hunyuan/Hunyuan3D-Part
Веса: https://huggingface.co/tencent/Hunyuan3D-Part

Подробнее тут:
https://murcherful.github.io/P3-SAM/
https://yanxinhao.github.io/Projects/X-Part/

@cgevent
👍23🔥73😱2
This media is not supported in your browser
VIEW IN TELEGRAM
Нанабанана в Фотошопе.

Просто задумайтесь, что бы вы сказали, глядя на это 5 лет назад. И как бы ручками меняли вывеску.

@cgevent
🔥128😱36👍127
Media is too big
VIEW IN TELEGRAM
Нейропрожарка


Работа от Максима: Как создать историю из нескольких случайно сгенерированных изображений.

У меня получилось создать несколько механизированных жучков, промт для которых я подсмотрел на главной Миджорни. Я решил развить тему и нагенерил, еще больше подобных милых существ.

Когда решил просто сделать анимации под музыку, пришла в голову идея создать сказочную историю и так как я занимаюсь озвучкой, решил написать текст и наговорить его.

Получилась такая сказочная история.

Изображения Миджорни, видео Клинг 2.1

@cgevent
👍120🔥25👎1815
This media is not supported in your browser
VIEW IN TELEGRAM
Интересное применение Нанабананы - тот самый бесконечный зум

Примечательно, что это все упаковано в приложение на AI Google Studio, где можно подгрузить свою картинку и делать этот зум над ее участками, просто выделяя нужную область.
Осторожно, очень залипательно - можно долго смотреть в какие дебри это все приводит.

Пробуем тут (генерация не очень быстрая, видео сильно ускорено):
https://aistudio.google.com/apps/bundled/enhance?showPreview=true&showAssistant=true

@cgevent
79🔥38👍19👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Tripo V3.0 Ultra

Упор на текстуры и тонкие детали.

Показывают сетку в 2М полигонов.

Но зачем?

studio.tripo3d.ai

@cgevent
🔥34😁11
Forwarded from Neural Shit
This media is not supported in your browser
VIEW IN TELEGRAM
Гугол снова выкатил интересную штуку — Learn Your Way.

Суть: берём скучную главу из нудного учебника, кормим её нейроночкам, а на выходе получаем эту же главу, но так, будто её делали специально под вас и ваши интересы.

Фанат баскетбола? Законы Ньютона объясняются через мяч и кольцо. Любишь искусство? Экономика превращается в торги картинами.

И это не просто подстановка новых примеров. Оно делает разные форматы: mindmap для визуалов, аудиоуроки в стиле "учитель — ученик", интерактивные таймлайны, тесты, которые меняются под твои фейлы и т.д.

Ну и сразу же, не отходя от кассы провели эксперимент: взяли 60 школьников из Чикаго, рандомно поделили на две группы. Одним дали обычный PDF, другие же пользовались сабжем. 20–40 минут на чтение, потом тест. Через три дня ещё один тест.

📊 Результаты:
– сразу после изучения: у ИИ-учебника средний балл 77%, у обычного — 64%
– через три дня: те же 77% против 64%
– 100% сказали, что материал было проще понимать (у обычного учебника — 70%)
– 90% отметили, что им реально понравилось (у обычного учебника — 57%)

Скорее бы курс по линалу в виде моих любимых мемов про пиво.

тут можно посмотреть демки, скриншоты и ознакомиться подробнее.
5🔥104👍2521👎4
Grok-4 Fast теперь имеет контекстное окно в ДВА Миллиона токенов.

Два года назад такие цифры казались фантастикой.

Быстро летит время.

@cgevent
👍46😱15🔥148👎2😁2
This media is not supported in your browser
VIEW IN TELEGRAM
Runway бахнул бесплатный курс AI for Gaming

О том, как эффективно интегрировать набор генеративных ИИ-решений Runway в полный цикл разработки игр. От первоначальных исследований концепции до производственных ресурсов и рекламных роликов

Пять лекций:

Adding Motion to Concept Art

Character Dialogue Simulation

Concept Art for Level Design

Expanding your Gaming Asset Library

Texture Creation and Simulation

Пригодится и тем, кто пользует другие генераторы

https://runwayml.com/ai-for-gaming

@cgevent
1🔥5319👍12👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Шах и мат, криворукие кожаные.

Вам без маникюра такое недоступно..

Скрал у @derplearning

@cgevent
27😁17👍7
This media is not supported in your browser
VIEW IN TELEGRAM
Новости от Хуньяньского

Hunyuan3D-Omni: модель для генерации 3D-объектов с КонтролНетами.

Все бы ничего, только это Hunyuan 2.1 с обвесом из ControlNet

А мы уже отравлены новостями про 3.0 и Hunyuan 3D Studio

КонтролНеты:

по одному изображению для позы для ерсонажей и аватаров
по облаку точек
через bounding box: задаёт пропорции объекта
по вокселям: задание топологии

Все это было в Rodin

Ждем версию для 3.0

https://github.com/Tencent-Hunyuan/Hunyuan3D-Omni

@cgevent
🔥157👍5
Новости от Хуньяньского

HunyuanImage 3.0


Тут есть две пачки новостей, хорошая и плохая.

Хорошая:
Open Source - https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

Мазохисты могут попробовать тут: https://hunyuan.tencent.com/image/en?tabIndex=0 (чорная кнопка справа от huggingface)

Я уже пробую тут: https://fal.ai/models/fal-ai/hunyuan-image/v3/text-to-image/playground
Есть на репликейт и вейвспид.

HunyuanImage 3.0 это крупнейшая и самая мощная (если брать голые цифры параметров) на сегодняшний день модель преобразования текста в изображение с открытым исходным кодом, имеющая более 80 миллиардов параметров, из которых 13 миллиардов активируются на каждый токен во время вывода.

В отличие от традиционных моделей генерации изображений с архитектурой DiT, архитектура MoE HunyuanImage 3.0 использует подход на основе Transfusion для глубокой связи обучения Diffusion и LLM в единой системе. Построенная на Hunyuan-A13B, HunyuanImage 3.0 была обучена на огромном наборе данных: 5 миллиардах пар изображений и текстов, видеокадрах, чередующихся данных изображений и текстов и 6 триллионах токенов текстовых корпусов. Это гибридное обучение, охватывающее мультимодальное генерирование, понимание и возможности LLM, позволяет модели беспрепятственно интегрировать несколько задач.

Итого:
На борту ризонинг с использованием мирового знания
Понимание огромных промптов на тысячи слов
Убойная работа с текстами
Трушная мультимодальность


Все это я проверил на ОДНОМ примере.

Вместо промпта написал ей:
solve this:
8x + 10 = 18
and make picture with solution


Результат вы видите в шапке поста. Впечатляет.

Черрипики на сайте
https://hunyuan.tencent.com/image/en?tabIndex=0
довольно мощные, но давайте навалимся и протестируем сами (ссылка на fal.ai).

В общем выглядит прельстивейше.

А теперь Чорные Новости:

Нет (пока) image2image
Нет (пока) VLLM
Веса весят (пардон) СТО СЕМЬДЕСЯТ ГИГОВ

Ну и самое горькое: для запуска вам понадобится ЧЕТЫРЕ карты по 80GB VRAM КАЖДАЯ (4х80GB VRAM)

Там вроде MoE c 64 экспертами юзают не все 80B параметров, а только 13B активных. Ждем оптимизаций, выгрузок, и нам также обещаны дистиллированные веса (тут мы такие - дистилят для слабаков и плохого качества)

То есть это вроде бы опен сорс, но не для людей, а для олигархов с видеосерверами на 320GB VRAM на кухне.
Предлагаю называть это элитный опен сорс.

Отзывы в твитторах противоречивые. Есть проблемы с анатомией и текстурой кожи, но надо пробовать самим.

А вообще Хунь, в отличие от Алибабы и Квена, любит бахнуть на Гитхаб сырой код, огромные веса, формальное описание типа "мы смогли, а вы держитесь"

Пока тестируем на агрегаторах.

@cgevent
2👍26🔥145
Тестирую математику и генерацию текста на разных генераторах

chatGPT-5

solve this: 8x + 10 = 18 and make picture with solution

Выдает график кривой

Поэтому дописываю в промпт:
solve this:
8x + 10 = 18
and make picture with solution on school board in the classroom

Исправляется с небольшими косяками.

@cgevent
😁18👍64👎2