Тут Антон, повелитель чайных пакетиков, проделал титаническую работу
И сравнил 15 актуальных моделей для генерации 2D-изображений. Описал их плюсы и минусы и сделал сравнительные тесты.
Результаты тестов и экспериментов он зафиксировал в новой рейтинговой таблице с наглядными примерами и более, чем 200 картинками. Для начала можете сразу посмотреть итоговую оценку.
Ссылка на таблицу.
P.S. Таблица реально огромная, поэтому наберитесь терпения при ее загрузке.
Ну и загляните к Антону, если оказалось полезным.
P.S. Лайфхак. Напечатайте таблицу из Гугла в PDF, поставьте Custom Width = 17", и будет у вас оффлайн версия с быстрой загрузкой.
@cgevent
И сравнил 15 актуальных моделей для генерации 2D-изображений. Описал их плюсы и минусы и сделал сравнительные тесты.
Результаты тестов и экспериментов он зафиксировал в новой рейтинговой таблице с наглядными примерами и более, чем 200 картинками. Для начала можете сразу посмотреть итоговую оценку.
Ссылка на таблицу.
P.S. Таблица реально огромная, поэтому наберитесь терпения при ее загрузке.
Ну и загляните к Антону, если оказалось полезным.
P.S. Лайфхак. Напечатайте таблицу из Гугла в PDF, поставьте Custom Width = 17", и будет у вас оффлайн версия с быстрой загрузкой.
@cgevent
2❤42👍20😁6🔥4
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19❤1
Media is too big
VIEW IN TELEGRAM
Мы еще не отошли от новых возможностей Suno V5, как они бахнули Suno Studio
И это уже серьезно.
Музыкальная монтажка в вашем браузере, но даже это не главное.
Теперь треки различных инструментов и вокала генерятся по отдельности, их видно, их можно резать и монтировать индивидуально.
Но даже это не главное.
Все это можно экспортировать в DAW.
Но даже это не главное.
Треки можно конвертировать в MIDI формат!!!
И вот это уже бомба.
Не секрет, что многие композиторы и аранжировщики уже используют Суно в качестве источника музыкальных идей и просто тырят оттуда мелодии, чтобы переаранжировать их.
Теперь это сделать совсем просто.
И вообще, теперь вы можете вытворять со своими генерациями, что хотите в плане дальнейшей доработки.
Знающие люди в коментах уже пишут, что конвертация в MIDI делает минимальное количество ошибок, и правится руками очень быстро.
Suno - продукт у которого просто нет конкуренции.
Для начала просто посмотрите, что они сами вытворяют:
https://www.youtube.com/watch?v=c8qNYyeAQBs
https://www.youtube.com/watch?v=KFfrcPmzSSo&t=998s
Пока раскатали в плане за 30 долларов в месяц, ждем дальнейших послаблений.
https://suno.com/studio-welcome
@cgevent
И это уже серьезно.
Музыкальная монтажка в вашем браузере, но даже это не главное.
Теперь треки различных инструментов и вокала генерятся по отдельности, их видно, их можно резать и монтировать индивидуально.
Но даже это не главное.
Все это можно экспортировать в DAW.
Но даже это не главное.
Треки можно конвертировать в MIDI формат!!!
И вот это уже бомба.
Не секрет, что многие композиторы и аранжировщики уже используют Суно в качестве источника музыкальных идей и просто тырят оттуда мелодии, чтобы переаранжировать их.
Теперь это сделать совсем просто.
И вообще, теперь вы можете вытворять со своими генерациями, что хотите в плане дальнейшей доработки.
Знающие люди в коментах уже пишут, что конвертация в MIDI делает минимальное количество ошибок, и правится руками очень быстро.
Suno - продукт у которого просто нет конкуренции.
Для начала просто посмотрите, что они сами вытворяют:
https://www.youtube.com/watch?v=c8qNYyeAQBs
https://www.youtube.com/watch?v=KFfrcPmzSSo&t=998s
Пока раскатали в плане за 30 долларов в месяц, ждем дальнейших послаблений.
https://suno.com/studio-welcome
@cgevent
🔥107❤20😱14👍9👎5😁2
3D-генерация:
Rodin Gen-2 от DeemosTech разродились мощным апдейтом.
3 очень важные фишки:
1. Качество мешей повышено в 4 раза (это понятно)
2. Есть ретоп, причем с нормал-мапами. По-русски: месиво из полигонов превращается в низкополигональную сетку с картами нормалей (чей ретоп они покрали, не знаю). На видео, на 00:20 видно морду лошади(?), но я вот подозреваю, что это ручная работа и after effects - уж больно правильно.
3. Рекурсивная сегментация на части, под названием BANG. Вот это уже интересно, система берет сгенеренный объект и режет его на части, дальше можно выбрать любую часть и снова порезать ее на части. Гляньте видео, верится с трудом.
В общем я слежу за двумя игроками на 3Д-поляне: это Хуньянь и Родэн.
@cgevent
Rodin Gen-2 от DeemosTech разродились мощным апдейтом.
3 очень важные фишки:
1. Качество мешей повышено в 4 раза (это понятно)
2. Есть ретоп, причем с нормал-мапами. По-русски: месиво из полигонов превращается в низкополигональную сетку с картами нормалей (чей ретоп они покрали, не знаю). На видео, на 00:20 видно морду лошади(?), но я вот подозреваю, что это ручная работа и after effects - уж больно правильно.
3. Рекурсивная сегментация на части, под названием BANG. Вот это уже интересно, система берет сгенеренный объект и режет его на части, дальше можно выбрать любую часть и снова порезать ее на части. Гляньте видео, верится с трудом.
В общем я слежу за двумя игроками на 3Д-поляне: это Хуньянь и Родэн.
@cgevent
🔥40👍10❤3😱3
В Адобченко завезли Нанабанану и Flux Kontext.
Inpaint никогда не будет прежним.
Любопытно, что Адобченко хватило духу признать, что их модель Firefly - ну такое. И встроить в фотошоп внешние модели.
А с Firefly история похоже на Stable Audio 2.5 - "мы натренировали нашу модель на коммерчески безопасных данных".
Пользователи: "ичо?".
А еще забавно, что они дают совершенно разные описания Банане и Флюксу, при том, что функционал на 90% похож.
@cgevent
Inpaint никогда не будет прежним.
Любопытно, что Адобченко хватило духу признать, что их модель Firefly - ну такое. И встроить в фотошоп внешние модели.
А с Firefly история похоже на Stable Audio 2.5 - "мы натренировали нашу модель на коммерчески безопасных данных".
Пользователи: "ичо?".
А еще забавно, что они дают совершенно разные описания Банане и Флюксу, при том, что функционал на 90% похож.
@cgevent
🔥35❤9👍9😁8
Media is too big
VIEW IN TELEGRAM
Ух ты, Хуньяньский опенсорснул часть Hunyuan Studio ответственную за сегментацию полигональных объектов.
Там два метода:
P3-SAM: модель сегментации деталей в формате 3D.
X-Part: модель генерации деталей, обеспечивающая топовые результаты в области управляемости и качества формы.
Код https://github.com/Tencent-Hunyuan/Hunyuan3D-Part
Веса: https://huggingface.co/tencent/Hunyuan3D-Part
Подробнее тут:
https://murcherful.github.io/P3-SAM/
https://yanxinhao.github.io/Projects/X-Part/
@cgevent
Там два метода:
P3-SAM: модель сегментации деталей в формате 3D.
X-Part: модель генерации деталей, обеспечивающая топовые результаты в области управляемости и качества формы.
Код https://github.com/Tencent-Hunyuan/Hunyuan3D-Part
Веса: https://huggingface.co/tencent/Hunyuan3D-Part
Подробнее тут:
https://murcherful.github.io/P3-SAM/
https://yanxinhao.github.io/Projects/X-Part/
@cgevent
👍23🔥7❤3😱2
This media is not supported in your browser
VIEW IN TELEGRAM
Нанабанана в Фотошопе.
Просто задумайтесь, что бы вы сказали, глядя на это 5 лет назад. И как бы ручками меняли вывеску.
@cgevent
Просто задумайтесь, что бы вы сказали, глядя на это 5 лет назад. И как бы ручками меняли вывеску.
@cgevent
🔥128😱36👍12❤7
Media is too big
VIEW IN TELEGRAM
Нейропрожарка
Работа от Максима: Как создать историю из нескольких случайно сгенерированных изображений.
У меня получилось создать несколько механизированных жучков, промт для которых я подсмотрел на главной Миджорни. Я решил развить тему и нагенерил, еще больше подобных милых существ.
Когда решил просто сделать анимации под музыку, пришла в голову идея создать сказочную историю и так как я занимаюсь озвучкой, решил написать текст и наговорить его.
Получилась такая сказочная история.
Изображения Миджорни, видео Клинг 2.1
@cgevent
Работа от Максима: Как создать историю из нескольких случайно сгенерированных изображений.
У меня получилось создать несколько механизированных жучков, промт для которых я подсмотрел на главной Миджорни. Я решил развить тему и нагенерил, еще больше подобных милых существ.
Когда решил просто сделать анимации под музыку, пришла в голову идея создать сказочную историю и так как я занимаюсь озвучкой, решил написать текст и наговорить его.
Получилась такая сказочная история.
Изображения Миджорни, видео Клинг 2.1
@cgevent
👍120🔥25👎18❤15
This media is not supported in your browser
VIEW IN TELEGRAM
Интересное применение Нанабананы - тот самый бесконечный зум
Примечательно, что это все упаковано в приложение на AI Google Studio, где можно подгрузить свою картинку и делать этот зум над ее участками, просто выделяя нужную область.
Осторожно, очень залипательно - можно долго смотреть в какие дебри это все приводит.
Пробуем тут (генерация не очень быстрая, видео сильно ускорено):
https://aistudio.google.com/apps/bundled/enhance?showPreview=true&showAssistant=true
@cgevent
Примечательно, что это все упаковано в приложение на AI Google Studio, где можно подгрузить свою картинку и делать этот зум над ее участками, просто выделяя нужную область.
Осторожно, очень залипательно - можно долго смотреть в какие дебри это все приводит.
Пробуем тут (генерация не очень быстрая, видео сильно ускорено):
https://aistudio.google.com/apps/bundled/enhance?showPreview=true&showAssistant=true
@cgevent
❤79🔥38👍19👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Tripo V3.0 Ultra
Упор на текстуры и тонкие детали.
Показывают сетку в 2М полигонов.
Но зачем?
studio.tripo3d.ai
@cgevent
Упор на текстуры и тонкие детали.
Показывают сетку в 2М полигонов.
Но зачем?
studio.tripo3d.ai
@cgevent
🔥34😁11
Forwarded from Neural Shit
This media is not supported in your browser
VIEW IN TELEGRAM
Гугол снова выкатил интересную штуку — Learn Your Way.
Суть: берём скучную главу из нудного учебника, кормим её нейроночкам, а на выходе получаем эту же главу, но так, будто её делали специально под вас и ваши интересы.
Фанат баскетбола? Законы Ньютона объясняются через мяч и кольцо. Любишь искусство? Экономика превращается в торги картинами.
И это не просто подстановка новых примеров. Оно делает разные форматы: mindmap для визуалов, аудиоуроки в стиле "учитель — ученик", интерактивные таймлайны, тесты, которые меняются под твои фейлы и т.д.
Ну и сразу же, не отходя от кассы провели эксперимент: взяли 60 школьников из Чикаго, рандомно поделили на две группы. Одним дали обычный PDF, другие же пользовались сабжем. 20–40 минут на чтение, потом тест. Через три дня ещё один тест.
📊 Результаты:
– сразу после изучения: у ИИ-учебника средний балл 77%, у обычного — 64%
– через три дня: те же 77% против 64%
– 100% сказали, что материал было проще понимать (у обычного учебника — 70%)
– 90% отметили, что им реально понравилось (у обычного учебника — 57%)
Скорее бы курс по линалу в виде моих любимых мемов про пиво.
тут можно посмотреть демки, скриншоты и ознакомиться подробнее.
Суть: берём скучную главу из нудного учебника, кормим её нейроночкам, а на выходе получаем эту же главу, но так, будто её делали специально под вас и ваши интересы.
Фанат баскетбола? Законы Ньютона объясняются через мяч и кольцо. Любишь искусство? Экономика превращается в торги картинами.
И это не просто подстановка новых примеров. Оно делает разные форматы: mindmap для визуалов, аудиоуроки в стиле "учитель — ученик", интерактивные таймлайны, тесты, которые меняются под твои фейлы и т.д.
Ну и сразу же, не отходя от кассы провели эксперимент: взяли 60 школьников из Чикаго, рандомно поделили на две группы. Одним дали обычный PDF, другие же пользовались сабжем. 20–40 минут на чтение, потом тест. Через три дня ещё один тест.
📊 Результаты:
– сразу после изучения: у ИИ-учебника средний балл 77%, у обычного — 64%
– через три дня: те же 77% против 64%
– 100% сказали, что материал было проще понимать (у обычного учебника — 70%)
– 90% отметили, что им реально понравилось (у обычного учебника — 57%)
Скорее бы курс по линалу в виде моих любимых мемов про пиво.
тут можно посмотреть демки, скриншоты и ознакомиться подробнее.
5🔥104👍25❤21👎4
Grok-4 Fast теперь имеет контекстное окно в ДВА Миллиона токенов.
Два года назад такие цифры казались фантастикой.
Быстро летит время.
@cgevent
Два года назад такие цифры казались фантастикой.
Быстро летит время.
@cgevent
👍46😱15🔥14❤8👎2😁2
This media is not supported in your browser
VIEW IN TELEGRAM
Runway бахнул бесплатный курс AI for Gaming
О том, как эффективно интегрировать набор генеративных ИИ-решений Runway в полный цикл разработки игр. От первоначальных исследований концепции до производственных ресурсов и рекламных роликов
Пять лекций:
Adding Motion to Concept Art
Character Dialogue Simulation
Concept Art for Level Design
Expanding your Gaming Asset Library
Texture Creation and Simulation
Пригодится и тем, кто пользует другие генераторы
https://runwayml.com/ai-for-gaming
@cgevent
О том, как эффективно интегрировать набор генеративных ИИ-решений Runway в полный цикл разработки игр. От первоначальных исследований концепции до производственных ресурсов и рекламных роликов
Пять лекций:
Adding Motion to Concept Art
Character Dialogue Simulation
Concept Art for Level Design
Expanding your Gaming Asset Library
Texture Creation and Simulation
Пригодится и тем, кто пользует другие генераторы
https://runwayml.com/ai-for-gaming
@cgevent
1🔥53❤19👍12👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Новости от Хуньяньского
Hunyuan3D-Omni: модель для генерации 3D-объектов с КонтролНетами.
Все бы ничего, только это Hunyuan 2.1 с обвесом из ControlNet
А мы уже отравлены новостями про 3.0 и Hunyuan 3D Studio
КонтролНеты:
по одному изображению для позы для ерсонажей и аватаров
по облаку точек
через bounding box: задаёт пропорции объекта
по вокселям: задание топологии
Все это было в Rodin
Ждем версию для 3.0
https://github.com/Tencent-Hunyuan/Hunyuan3D-Omni
@cgevent
Hunyuan3D-Omni: модель для генерации 3D-объектов с КонтролНетами.
Все бы ничего, только это Hunyuan 2.1 с обвесом из ControlNet
А мы уже отравлены новостями про 3.0 и Hunyuan 3D Studio
КонтролНеты:
по одному изображению для позы для ерсонажей и аватаров
по облаку точек
через bounding box: задаёт пропорции объекта
по вокселям: задание топологии
Все это было в Rodin
Ждем версию для 3.0
https://github.com/Tencent-Hunyuan/Hunyuan3D-Omni
@cgevent
🔥15❤7👍5
Новости от Хуньяньского
HunyuanImage 3.0
Тут есть две пачки новостей, хорошая и плохая.
Хорошая:
Open Source - https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
Мазохисты могут попробовать тут: https://hunyuan.tencent.com/image/en?tabIndex=0 (чорная кнопка справа от huggingface)
Я уже пробую тут: https://fal.ai/models/fal-ai/hunyuan-image/v3/text-to-image/playground
Есть на репликейт и вейвспид.
HunyuanImage 3.0 это крупнейшая и самая мощная (если брать голые цифры параметров) на сегодняшний день модель преобразования текста в изображение с открытым исходным кодом, имеющая более 80 миллиардов параметров, из которых 13 миллиардов активируются на каждый токен во время вывода.
В отличие от традиционных моделей генерации изображений с архитектурой DiT, архитектура MoE HunyuanImage 3.0 использует подход на основе Transfusion для глубокой связи обучения Diffusion и LLM в единой системе. Построенная на Hunyuan-A13B, HunyuanImage 3.0 была обучена на огромном наборе данных: 5 миллиардах пар изображений и текстов, видеокадрах, чередующихся данных изображений и текстов и 6 триллионах токенов текстовых корпусов. Это гибридное обучение, охватывающее мультимодальное генерирование, понимание и возможности LLM, позволяет модели беспрепятственно интегрировать несколько задач.
Итого:
На борту ризонинг с использованием мирового знания
Понимание огромных промптов на тысячи слов
Убойная работа с текстами
Трушная мультимодальность
Все это я проверил на ОДНОМ примере.
Вместо промпта написал ей:
Результат вы видите в шапке поста. Впечатляет.
Черрипики на сайте
https://hunyuan.tencent.com/image/en?tabIndex=0
довольно мощные, но давайте навалимся и протестируем сами (ссылка на fal.ai).
В общем выглядит прельстивейше.
А теперь Чорные Новости:
Нет (пока) image2image
Нет (пока) VLLM
Веса весят (пардон) СТО СЕМЬДЕСЯТ ГИГОВ
Ну и самое горькое: для запуска вам понадобится ЧЕТЫРЕ карты по 80GB VRAM КАЖДАЯ (4х80GB VRAM)
Там вроде MoE c 64 экспертами юзают не все 80B параметров, а только 13B активных. Ждем оптимизаций, выгрузок, и нам также обещаны дистиллированные веса (тут мы такие - дистилят для слабаков и плохого качества)
То есть это вроде бы опен сорс, но не для людей, а для олигархов с видеосерверами на 320GB VRAM на кухне.
Предлагаю называть это элитный опен сорс.
Отзывы в твитторах противоречивые. Есть проблемы с анатомией и текстурой кожи, но надо пробовать самим.
А вообще Хунь, в отличие от Алибабы и Квена, любит бахнуть на Гитхаб сырой код, огромные веса, формальное описание типа "мы смогли, а вы держитесь"
Пока тестируем на агрегаторах.
@cgevent
HunyuanImage 3.0
Тут есть две пачки новостей, хорошая и плохая.
Хорошая:
Open Source - https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
Мазохисты могут попробовать тут: https://hunyuan.tencent.com/image/en?tabIndex=0 (чорная кнопка справа от huggingface)
Я уже пробую тут: https://fal.ai/models/fal-ai/hunyuan-image/v3/text-to-image/playground
Есть на репликейт и вейвспид.
HunyuanImage 3.0 это крупнейшая и самая мощная (если брать голые цифры параметров) на сегодняшний день модель преобразования текста в изображение с открытым исходным кодом, имеющая более 80 миллиардов параметров, из которых 13 миллиардов активируются на каждый токен во время вывода.
В отличие от традиционных моделей генерации изображений с архитектурой DiT, архитектура MoE HunyuanImage 3.0 использует подход на основе Transfusion для глубокой связи обучения Diffusion и LLM в единой системе. Построенная на Hunyuan-A13B, HunyuanImage 3.0 была обучена на огромном наборе данных: 5 миллиардах пар изображений и текстов, видеокадрах, чередующихся данных изображений и текстов и 6 триллионах токенов текстовых корпусов. Это гибридное обучение, охватывающее мультимодальное генерирование, понимание и возможности LLM, позволяет модели беспрепятственно интегрировать несколько задач.
Итого:
На борту ризонинг с использованием мирового знания
Понимание огромных промптов на тысячи слов
Убойная работа с текстами
Трушная мультимодальность
Все это я проверил на ОДНОМ примере.
Вместо промпта написал ей:
solve this:
8x + 10 = 18
and make picture with solution
Результат вы видите в шапке поста. Впечатляет.
Черрипики на сайте
https://hunyuan.tencent.com/image/en?tabIndex=0
довольно мощные, но давайте навалимся и протестируем сами (ссылка на fal.ai).
В общем выглядит прельстивейше.
А теперь Чорные Новости:
Нет (пока) image2image
Нет (пока) VLLM
Веса весят (пардон) СТО СЕМЬДЕСЯТ ГИГОВ
Ну и самое горькое: для запуска вам понадобится ЧЕТЫРЕ карты по 80GB VRAM КАЖДАЯ (4х80GB VRAM)
Там вроде MoE c 64 экспертами юзают не все 80B параметров, а только 13B активных. Ждем оптимизаций, выгрузок, и нам также обещаны дистиллированные веса (тут мы такие - дистилят для слабаков и плохого качества)
То есть это вроде бы опен сорс, но не для людей, а для олигархов с видеосерверами на 320GB VRAM на кухне.
Предлагаю называть это элитный опен сорс.
Отзывы в твитторах противоречивые. Есть проблемы с анатомией и текстурой кожи, но надо пробовать самим.
А вообще Хунь, в отличие от Алибабы и Квена, любит бахнуть на Гитхаб сырой код, огромные веса, формальное описание типа "мы смогли, а вы держитесь"
Пока тестируем на агрегаторах.
@cgevent
2👍26🔥14❤5
Тестирую математику и генерацию текста на разных генераторах
chatGPT-5
solve this: 8x + 10 = 18 and make picture with solution
Выдает график кривой
Поэтому дописываю в промпт:
solve this:
8x + 10 = 18
and make picture with solution on school board in the classroom
Исправляется с небольшими косяками.
@cgevent
chatGPT-5
solve this: 8x + 10 = 18 and make picture with solution
Выдает график кривой
Поэтому дописываю в промпт:
solve this:
8x + 10 = 18
and make picture with solution on school board in the classroom
Исправляется с небольшими косяками.
@cgevent
😁18👍6❤4👎2