Метаверсище и ИИще

Начали выкладывать код HY-World 2.0

Если кратко, это опенсорсный Marble.

HY-World 2.0 - это мультимодальная модель мира для генерации и реконструкции окружающего мира. Она принимает различные входные данные — текст, изображения с одного ракурса, изображения с нескольких ракурсов и видео и создает трехмерные представления мира (сетки / гауссианы).

Она предлагает две основные возможности:

1. Генерация мира (текст / отдельное изображение → 3D-мир): синтезирует высококачественные, навигационные 3D-сцены с помощью четырехэтапного метода

а) генерация панорам с использованием HY-Pano 2.0
б) Планирование траектории с использованием WorldNav
в) Расширение мира с использованием WorldStereo 2.0
г) сборка мира с использованием WorldMirror 2.0 и обучения 3DGS.

2. Реконструкция мира (многоракурсные изображения/видео → 3D):

Используется WorldMirror 2.0, унифицированную модель прямого распространения, которая одновременно предсказывает глубину, нормали поверхности, параметры камеры, 3D-облака точек и атрибуты 3DGS за один проход прямого распространения.

Пока выложили только код и веса World Mirror 2.0

Требования к железу пока неведомы.

Код здесь:
https://github.com/Tencent-Hunyuan/HY-World-2.0?tab=readme-ov-file

Там же ссылки на сайт (лежит под нагрузкой), архив и веса.

Завтра буду смотреть подробнее.

@cgevent

👍16🔥14❤3

5.57K viewsSergey Tsyptsyn ️️, 23:10

Метаверсище и ИИще

У HappyHorse теперь есть свой твиттор

Там они пишут, что никаких официальных вебсайтов не существует. А имеющиеся - это фейки.

Еще они пишут, что доступны на:
https://arena.ai/leaderboard/video-edit

В режиме слепого тестирования.

Но самое главное: "Сейчас мы находимся на финальном этапе оптимизации перед официальным запуском, который состоится через две недели."

Мой прогноз про 30 апреля пока сбывается.

@cgevent

🔥21❤7👍1

5.17K viewsSergey Tsyptsyn ️️, 07:01

Метаверсище и ИИще

0:27

This media is not supported in your browser

VIEW IN TELEGRAM

0:43

This media is not supported in your browser

Lyra 2.0: еще один опенсорсный генератор миров. От Nvidia

После HY-World 2.0 выглядит сильно попроще.

Это просто генератор видосов-пролетов по миру, который был создан по одной или нескольким картинкам.

У Нвидии уже была первая верия Lyra 1.0 год назад - тогда это называлось генератор сцен, а не миров.

Теперь это зовется по моде - генератор миров. Понятно зачем это Нвидии - они в такие миры запускают робатов для тренировки функционирования в реальных мирах.

Поэтому у них нет требования в высокохудожественному реализьму.

"Полученное видео может быть дополнительно преобразовано в 3D-модели и сетки, которые затем могут быть напрямую экспортированы в физические движки для последующих приложений. Мы приводим примеры экспорта сцены в NVIDIA Isaac Sim для физически обоснованной навигации и взаимодействия роботов, демонстрируя потенциал масштабируемого моделирования воплощенного"

Я копнул глубже - все это построено на на базе WAN 2.1 14B. Поэтому я не ожидаю хорошего качества картинки, хотя видосы у них, как обычно, сладкие.

Видосы смотрим тут:
https://research.nvidia.com/labs/sil/projects/lyra2/

Код, веса, папира тут:
https://github.com/nv-tlabs/lyra

@cgevent

❤16👍4

4.73K viewsSergey Tsyptsyn ️️, 08:31

Метаверсище и ИИще

Gemini 3.1 Flash TTS новая модель для генерации речи от Гугла

Главная фишка это Audio Tags.

Это именно тэги прямо в промпте, они управляют\влияют на стиль голоса, эмоции и темп. Редактирование на лету.

Поддержка 70+ языков (есть русский)

Google AI Studio http://aistudio.google.com/generate-speech
На Vertex AI https://console.cloud.google.com/vertex-ai/studio/media/speech
Vids: https://docs.google.com/videos/create

@cgevent

2🔥36❤8

4.7K viewsSergey Tsyptsyn ️️, 09:08

Метаверсище и ИИще

Самое странное в хайпе вокруг ИИ - это не то, что его все хотят внедрить, а то, что не до конца понятно, где он реально дает пользу. Особенно если у тебя не пет-проект, а энтерпрайзная Java-система с легаси, четкой архитектурой и требованиями к комплаенсу.

В какой-то момент упираешься в практические вопросы: как же встроить это в существующую архитектуру? Как не превратить систему в хаотичный набор промптов и костылей? И что по факту делать со Spring AI, кроме демо-примеров?

23 апреля в Москве пройдет офлайн митап от команды Джеймикс - это ребята из Самары, которые делают Java-платформу для enterprise-разработки и сейчас внедряют ИИ в реальные бизнес-приложения.

Формат митапа прикладной: разработчики рассказывают разработчикам, как это работает в проде - что зашло, где пришлось переделывать архитектуру, какие подходы не оправдались. Будут разбирать реальное использование Spring AI, RAG и ИИ-ассистентов внутри корпоративных систем.Подробная программа здесь.
Плюс можно спокойно пообщаться с теми, кто уже через это прошел, задать вопросы и сверить подходы.

Если смотришь в сторону внедрения ИИ в Java-проекты, может быть полезно.

📍 Москва
🗓 23 апреля, начало регистрации в 18:30
📌 AZIMUT Сити Отель Смоленская

Количество мест ограничено.

Участие бесплатное, нужна регистрация по ссылке.

Записей не будет - только офлайн.

2👎12😁6🔥3❤1😱1

4.81K viewsSergey Tsyptsyn ️️, 09:31

Метаверсище и ИИще

1:29

This media is not supported in your browser

VIEW IN TELEGRAM

Молния! Генератор миров от команды Happy Horse!

Срочно бежим сюда и логинимся гуглом.
https://www.happyoyster.cn/

Нашел немного подробностей: мультимодалка на входе, 720p, 1\3 минуты в зависимости от режима (Directing\Wandering)
https://www.happyoyster.cn/docs

Выскочили из ниоткуда два часа назад.

В соавторах указан странный чувак:
https://www.youtube.com/@AITalk4

@cgevent

🔥38😱13👎6😁2

7.32K viewsSergey Tsyptsyn ️️, 09:53

Метаверсище и ИИще

DaVinci Resolve Photo Page

Вы\Мы привыкли, что Резолв - это для работы с видео.

И если монтаж может быть в Премьере, ФиналКате и много еще где, то покраска, грейдинг, цветокорр и конвертация - как правило, ДаВинчи.

Собственно из этих фич и вырос новый раздел, предназначенный специально для фотографов - Photo Page.

Там прям много разных инструментов:
нодовый интерфейс аля Нюк
RAW support for Canon, Fujifilm, Nikon, Sony and even iPhone ProRAW.
Поддержка до 32K
Пакетная GPU-ускоренная обработка
Весь цветокорр ДаВинчи
AI IntelliSearch
Прямое подключение камер во время съемки.

Почитайте тут:
https://www.blackmagicdesign.com/products/davinciresolve/photo

Очень крутой ход. И да, есть импорт из Lightroom.

Как я понял в бесплатном резолве тоже будет.

Тут хороший обзор по версии 21:
https://www.videomaker.com/news/davinci-resolve-21-adds-photos-page-ai-focus-tools-and-free-upgrades/
Там интересные ИИ-фишки для фокуса и работы с лицами.

@cgevent

❤28👍12🔥7👎1

4.78K viewsSergey Tsyptsyn ️️, 12:34

Метаверсище и ИИще

Вышел Claude Opus 4.7

TLDR: Он тщательнее обрабатывает длительные задачи, более точно следует инструкциям и проверяет результаты своей работы перед отправкой ответа.

Очень хорош в Vision - размер входного разрешения картинок увеличен в три раза (3.75MP), благодаря чему создает интерфейсы, слайды и документы более высокого качества.

Контекст 1M токенов. 128k на output.

Подробности читаем тут:

https://www.anthropic.com/news/claude-opus-4-7

@cgevent

👍40👎4🔥4😁3

5.65K viewsSergey Tsyptsyn ️️, edited 14:52

#Нейропрожарка

Расследование зашло в тупик

Автор: Артём Макаров

Жанр: хоррор, триллер, анимация
Моя цель: Я постарался сделать детский триллер/хоррор с легким юмором и знакомыми персонажами.

Задача: Подготовка анимационного ролика для конкурса Союзмультфильма

Требования к ролику:
- от 30 до 60 секунд
- минимум full hd (16:9 или 9:16)
- использование разрешенных персонажей Союзмультфильма (не все персонажи разрешены), либо вымышленных
- соблюдение авторского законодательства
- обязательное использование цифр 9 и 0 в сюжете (к юбилею студии)
- готовность предоставить по запросу все рабочие материалы

На ролик давалось очень много времени. Конкурс стартовал 4 месяца назад, но я приступил к работе очень поздно.

В итоге работу делал в последние несколько дней до срока, а 70% всей работы вообще сделана в последний день.

⚒️Инструменты: Nano banana 2, Seedream 4.5 и 5.0, Seedance 2.0, Suno, Elevenlabs, Claude

📕Сценарий
Сюжет и диалоги придумал сам, но для удобства надиктовал всё Клоду, который мне выдал структурированный сценарий.
Сюжеты, которые с нуля придумывают LLMки максимально ущербные и беззубые.
Поэтому без кожаных пока никак.

🖼Изображения
Загрузил в NB2 референсы советских Пяточка и Винни, а также домика кролика.
Не хотел юзать пиксар-стиль, поэтому максимально старался приблизить к реализму.
Со светом лучше всего работает сидримский, причем 4.5 как-будто получше, чем 5.0

Сложнее всего крутить локации, чтобы показать персонажей с разных сторон, но NB2 с этим с N-ного раза справляется.
Ещё одна проблема - если одну и ту же картинку дорабатывать в несколько итераций, то картинка шакалится, поэтому приходилось писать длинные промпты и создавать картинки каждый раз с нуля

📹Видеогенерации
Seedance я купил за 3 дня до дедлайна и то вечером, поэтому юзал уже в последние 2 дня.
Модель классная, но если генерить не просто тесты, а что-то осмысленное, то всё равно нужно подходить с головой.
Главная претензия - русская речь как польско-болгарско-английская получается.
Приходится писать транслитом и потом переозвучивать.

🔈Звук
Вот тут беда.
SFX частично взят из генераций, частично сгенерирован в 11лабс.
Озвучка персов - диктофон на телефоне, потом очистка в elevenlabs voice isolator и потом voice changer на созданные голоса.
Винни норм получился, а пятачок говорил исключительно с акцентом, поэтому в некоторых моментах он говорит криво.
Музыка - suno

🎞Монтаж
Геморрой номер два.
У меня на пк видюха склеила ласты на днях, поэтому монтировал в мобильном capcut.
Очень неудобно

⏰Затраченное время:
Совокупно часов ~20
Изображения - 8 часов
Видео - 8 часов
Звук - 3 часа
Монтаж - 3 часа

В целом работой доволен, но ругаю себя за поздний старт.

💸

*Затраты:
Higgsfield - 50$
Seedance - 50$
Suno - 10$
Elevenlabs - 11$
Claude - 20$

*Работал со стандартно закупаемыми подписками, поэтому вычленить стоимость конкретного ролика сложно.

@cgevent

Please open Telegram to view this post

VIEW IN TELEGRAM

👎30👍29😁15🔥8❤3😱3

2.44K viewsSergey Tsyptsyn ️️, 16:03

About

Blog

Apps

Platform