Media is too big
VIEW IN TELEGRAM
Начали выкладывать код HY-World 2.0
Если кратко, это опенсорсный Marble.
HY-World 2.0 - это мультимодальная модель мира для генерации и реконструкции окружающего мира. Она принимает различные входные данные — текст, изображения с одного ракурса, изображения с нескольких ракурсов и видео и создает трехмерные представления мира (сетки / гауссианы).
Она предлагает две основные возможности:
1. Генерация мира (текст / отдельное изображение → 3D-мир): синтезирует высококачественные, навигационные 3D-сцены с помощью четырехэтапного метода
а) генерация панорам с использованием HY-Pano 2.0
б) Планирование траектории с использованием WorldNav
в) Расширение мира с использованием WorldStereo 2.0
г) сборка мира с использованием WorldMirror 2.0 и обучения 3DGS.
2. Реконструкция мира (многоракурсные изображения/видео → 3D):
Используется WorldMirror 2.0, унифицированную модель прямого распространения, которая одновременно предсказывает глубину, нормали поверхности, параметры камеры, 3D-облака точек и атрибуты 3DGS за один проход прямого распространения.
Пока выложили только код и веса World Mirror 2.0
Требования к железу пока неведомы.
Код здесь:
https://github.com/Tencent-Hunyuan/HY-World-2.0?tab=readme-ov-file
Там же ссылки на сайт (лежит под нагрузкой), архив и веса.
Завтра буду смотреть подробнее.
@cgevent
Если кратко, это опенсорсный Marble.
HY-World 2.0 - это мультимодальная модель мира для генерации и реконструкции окружающего мира. Она принимает различные входные данные — текст, изображения с одного ракурса, изображения с нескольких ракурсов и видео и создает трехмерные представления мира (сетки / гауссианы).
Она предлагает две основные возможности:
1. Генерация мира (текст / отдельное изображение → 3D-мир): синтезирует высококачественные, навигационные 3D-сцены с помощью четырехэтапного метода
а) генерация панорам с использованием HY-Pano 2.0
б) Планирование траектории с использованием WorldNav
в) Расширение мира с использованием WorldStereo 2.0
г) сборка мира с использованием WorldMirror 2.0 и обучения 3DGS.
2. Реконструкция мира (многоракурсные изображения/видео → 3D):
Используется WorldMirror 2.0, унифицированную модель прямого распространения, которая одновременно предсказывает глубину, нормали поверхности, параметры камеры, 3D-облака точек и атрибуты 3DGS за один проход прямого распространения.
Пока выложили только код и веса World Mirror 2.0
Требования к железу пока неведомы.
Код здесь:
https://github.com/Tencent-Hunyuan/HY-World-2.0?tab=readme-ov-file
Там же ссылки на сайт (лежит под нагрузкой), архив и веса.
Завтра буду смотреть подробнее.
@cgevent
👍16🔥14❤3
У HappyHorse теперь есть свой твиттор
Там они пишут, что никаких официальных вебсайтов не существует. А имеющиеся - это фейки.
Еще они пишут, что доступны на:
https://arena.ai/leaderboard/video-edit
В режиме слепого тестирования.
Но самое главное: "Сейчас мы находимся на финальном этапе оптимизации перед официальным запуском, который состоится через две недели."
Мой прогноз про 30 апреля пока сбывается.
@cgevent
Там они пишут, что никаких официальных вебсайтов не существует. А имеющиеся - это фейки.
Еще они пишут, что доступны на:
https://arena.ai/leaderboard/video-edit
В режиме слепого тестирования.
Но самое главное: "Сейчас мы находимся на финальном этапе оптимизации перед официальным запуском, который состоится через две недели."
Мой прогноз про 30 апреля пока сбывается.
@cgevent
🔥21❤7👍1
Lyra 2.0: еще один опенсорсный генератор миров. От Nvidia
После HY-World 2.0 выглядит сильно попроще.
Это просто генератор видосов-пролетов по миру, который был создан по одной или нескольким картинкам.
У Нвидии уже была первая верия Lyra 1.0 год назад - тогда это называлось генератор сцен, а не миров.
Теперь это зовется по моде - генератор миров. Понятно зачем это Нвидии - они в такие миры запускают робатов для тренировки функционирования в реальных мирах.
Поэтому у них нет требования в высокохудожественному реализьму.
"Полученное видео может быть дополнительно преобразовано в 3D-модели и сетки, которые затем могут быть напрямую экспортированы в физические движки для последующих приложений. Мы приводим примеры экспорта сцены в NVIDIA Isaac Sim для физически обоснованной навигации и взаимодействия роботов, демонстрируя потенциал масштабируемого моделирования воплощенного"
Я копнул глубже - все это построено на на базе WAN 2.1 14B. Поэтому я не ожидаю хорошего качества картинки, хотя видосы у них, как обычно, сладкие.
Видосы смотрим тут:
https://research.nvidia.com/labs/sil/projects/lyra2/
Код, веса, папира тут:
https://github.com/nv-tlabs/lyra
@cgevent
После HY-World 2.0 выглядит сильно попроще.
Это просто генератор видосов-пролетов по миру, который был создан по одной или нескольким картинкам.
У Нвидии уже была первая верия Lyra 1.0 год назад - тогда это называлось генератор сцен, а не миров.
Теперь это зовется по моде - генератор миров. Понятно зачем это Нвидии - они в такие миры запускают робатов для тренировки функционирования в реальных мирах.
Поэтому у них нет требования в высокохудожественному реализьму.
"Полученное видео может быть дополнительно преобразовано в 3D-модели и сетки, которые затем могут быть напрямую экспортированы в физические движки для последующих приложений. Мы приводим примеры экспорта сцены в NVIDIA Isaac Sim для физически обоснованной навигации и взаимодействия роботов, демонстрируя потенциал масштабируемого моделирования воплощенного"
Я копнул глубже - все это построено на на базе WAN 2.1 14B. Поэтому я не ожидаю хорошего качества картинки, хотя видосы у них, как обычно, сладкие.
Видосы смотрим тут:
https://research.nvidia.com/labs/sil/projects/lyra2/
Код, веса, папира тут:
https://github.com/nv-tlabs/lyra
@cgevent
❤16👍4
Gemini 3.1 Flash TTS новая модель для генерации речи от Гугла
Главная фишка это Audio Tags.
Это именно тэги прямо в промпте, они управляют\влияют на стиль голоса, эмоции и темп. Редактирование на лету.
Поддержка 70+ языков (есть русский)
Google AI Studio http://aistudio.google.com/generate-speech
На Vertex AI https://console.cloud.google.com/vertex-ai/studio/media/speech
Vids: https://docs.google.com/videos/create
@cgevent
Главная фишка это Audio Tags.
Это именно тэги прямо в промпте, они управляют\влияют на стиль голоса, эмоции и темп. Редактирование на лету.
Поддержка 70+ языков (есть русский)
Google AI Studio http://aistudio.google.com/generate-speech
На Vertex AI https://console.cloud.google.com/vertex-ai/studio/media/speech
Vids: https://docs.google.com/videos/create
@cgevent
2🔥36❤8
Самое странное в хайпе вокруг ИИ - это не то, что его все хотят внедрить, а то, что не до конца понятно, где он реально дает пользу. Особенно если у тебя не пет-проект, а энтерпрайзная Java-система с легаси, четкой архитектурой и требованиями к комплаенсу.
В какой-то момент упираешься в практические вопросы: как же встроить это в существующую архитектуру? Как не превратить систему в хаотичный набор промптов и костылей? И что по факту делать со Spring AI, кроме демо-примеров?
23 апреля в Москве пройдет офлайн митап от команды Джеймикс - это ребята из Самары, которые делают Java-платформу для enterprise-разработки и сейчас внедряют ИИ в реальные бизнес-приложения.
Формат митапа прикладной: разработчики рассказывают разработчикам, как это работает в проде - что зашло, где пришлось переделывать архитектуру, какие подходы не оправдались. Будут разбирать реальное использование Spring AI, RAG и ИИ-ассистентов внутри корпоративных систем.Подробная программа здесь.
Плюс можно спокойно пообщаться с теми, кто уже через это прошел, задать вопросы и сверить подходы.
Если смотришь в сторону внедрения ИИ в Java-проекты, может быть полезно.
📍 Москва
🗓 23 апреля, начало регистрации в 18:30
📌 AZIMUT Сити Отель Смоленская
Количество мест ограничено.
Участие бесплатное, нужна регистрация по ссылке.
Записей не будет - только офлайн.
В какой-то момент упираешься в практические вопросы: как же встроить это в существующую архитектуру? Как не превратить систему в хаотичный набор промптов и костылей? И что по факту делать со Spring AI, кроме демо-примеров?
23 апреля в Москве пройдет офлайн митап от команды Джеймикс - это ребята из Самары, которые делают Java-платформу для enterprise-разработки и сейчас внедряют ИИ в реальные бизнес-приложения.
Формат митапа прикладной: разработчики рассказывают разработчикам, как это работает в проде - что зашло, где пришлось переделывать архитектуру, какие подходы не оправдались. Будут разбирать реальное использование Spring AI, RAG и ИИ-ассистентов внутри корпоративных систем.Подробная программа здесь.
Плюс можно спокойно пообщаться с теми, кто уже через это прошел, задать вопросы и сверить подходы.
Если смотришь в сторону внедрения ИИ в Java-проекты, может быть полезно.
📍 Москва
🗓 23 апреля, начало регистрации в 18:30
📌 AZIMUT Сити Отель Смоленская
Количество мест ограничено.
Участие бесплатное, нужна регистрация по ссылке.
Записей не будет - только офлайн.
2👎12😁6🔥3❤1😱1
This media is not supported in your browser
VIEW IN TELEGRAM
Молния! Генератор миров от команды Happy Horse!
Срочно бежим сюда и логинимся гуглом.
https://www.happyoyster.cn/
Нашел немного подробностей: мультимодалка на входе, 720p, 1\3 минуты в зависимости от режима (Directing\Wandering)
https://www.happyoyster.cn/docs
Выскочили из ниоткуда два часа назад.
В соавторах указан странный чувак:
https://www.youtube.com/@AITalk4
@cgevent
Срочно бежим сюда и логинимся гуглом.
https://www.happyoyster.cn/
Нашел немного подробностей: мультимодалка на входе, 720p, 1\3 минуты в зависимости от режима (Directing\Wandering)
https://www.happyoyster.cn/docs
Выскочили из ниоткуда два часа назад.
В соавторах указан странный чувак:
https://www.youtube.com/@AITalk4
@cgevent
🔥38😱13👎6😁2
DaVinci Resolve Photo Page
Вы\Мы привыкли, что Резолв - это для работы с видео.
И если монтаж может быть в Премьере, ФиналКате и много еще где, то покраска, грейдинг, цветокорр и конвертация - как правило, ДаВинчи.
Собственно из этих фич и вырос новый раздел, предназначенный специально для фотографов - Photo Page.
Там прям много разных инструментов:
нодовый интерфейс аля Нюк
RAW support for Canon, Fujifilm, Nikon, Sony and even iPhone ProRAW.
Поддержка до 32K
Пакетная GPU-ускоренная обработка
Весь цветокорр ДаВинчи
AI IntelliSearch
Прямое подключение камер во время съемки.
Почитайте тут:
https://www.blackmagicdesign.com/products/davinciresolve/photo
Очень крутой ход. И да, есть импорт из Lightroom.
Как я понял в бесплатном резолве тоже будет.
Тут хороший обзор по версии 21:
https://www.videomaker.com/news/davinci-resolve-21-adds-photos-page-ai-focus-tools-and-free-upgrades/
Там интересные ИИ-фишки для фокуса и работы с лицами.
@cgevent
Вы\Мы привыкли, что Резолв - это для работы с видео.
И если монтаж может быть в Премьере, ФиналКате и много еще где, то покраска, грейдинг, цветокорр и конвертация - как правило, ДаВинчи.
Собственно из этих фич и вырос новый раздел, предназначенный специально для фотографов - Photo Page.
Там прям много разных инструментов:
нодовый интерфейс аля Нюк
RAW support for Canon, Fujifilm, Nikon, Sony and even iPhone ProRAW.
Поддержка до 32K
Пакетная GPU-ускоренная обработка
Весь цветокорр ДаВинчи
AI IntelliSearch
Прямое подключение камер во время съемки.
Почитайте тут:
https://www.blackmagicdesign.com/products/davinciresolve/photo
Очень крутой ход. И да, есть импорт из Lightroom.
Как я понял в бесплатном резолве тоже будет.
Тут хороший обзор по версии 21:
https://www.videomaker.com/news/davinci-resolve-21-adds-photos-page-ai-focus-tools-and-free-upgrades/
Там интересные ИИ-фишки для фокуса и работы с лицами.
@cgevent
❤28👍12🔥7👎1
Вышел Claude Opus 4.7
TLDR: Он тщательнее обрабатывает длительные задачи, более точно следует инструкциям и проверяет результаты своей работы перед отправкой ответа.
Очень хорош в Vision - размер входного разрешения картинок увеличен в три раза (3.75MP), благодаря чему создает интерфейсы, слайды и документы более высокого качества.
Контекст 1M токенов. 128k на output.
Подробности читаем тут:
https://www.anthropic.com/news/claude-opus-4-7
@cgevent
TLDR: Он тщательнее обрабатывает длительные задачи, более точно следует инструкциям и проверяет результаты своей работы перед отправкой ответа.
Очень хорош в Vision - размер входного разрешения картинок увеличен в три раза (3.75MP), благодаря чему создает интерфейсы, слайды и документы более высокого качества.
Контекст 1M токенов. 128k на output.
Подробности читаем тут:
https://www.anthropic.com/news/claude-opus-4-7
@cgevent
👍40👎4🔥4😁3
Media is too big
VIEW IN TELEGRAM
#Нейропрожарка
Расследование зашло в тупик
Автор: Артём Макаров
Жанр: хоррор, триллер, анимация
Моя цель: Я постарался сделать детский триллер/хоррор с легким юмором и знакомыми персонажами.
Задача: Подготовка анимационного ролика для конкурса Союзмультфильма
Требования к ролику:
- от 30 до 60 секунд
- минимум full hd (16:9 или 9:16)
- использование разрешенных персонажей Союзмультфильма (не все персонажи разрешены), либо вымышленных
- соблюдение авторского законодательства
- обязательное использование цифр 9 и 0 в сюжете (к юбилею студии)
- готовность предоставить по запросу все рабочие материалы
На ролик давалось очень много времени. Конкурс стартовал 4 месяца назад, но я приступил к работе очень поздно.
В итоге работу делал в последние несколько дней до срока, а 70% всей работы вообще сделана в последний день.
⚒️Инструменты: Nano banana 2, Seedream 4.5 и 5.0, Seedance 2.0, Suno, Elevenlabs, Claude
📕Сценарий
Сюжет и диалоги придумал сам, но для удобства надиктовал всё Клоду, который мне выдал структурированный сценарий.
Сюжеты, которые с нуля придумывают LLMки максимально ущербные и беззубые.
Поэтому без кожаных пока никак.
🖼Изображения
Загрузил в NB2 референсы советских Пяточка и Винни, а также домика кролика.
Не хотел юзать пиксар-стиль, поэтому максимально старался приблизить к реализму.
Со светом лучше всего работает сидримский, причем 4.5 как-будто получше, чем 5.0
Сложнее всего крутить локации, чтобы показать персонажей с разных сторон, но NB2 с этим с N-ного раза справляется.
Ещё одна проблема - если одну и ту же картинку дорабатывать в несколько итераций, то картинка шакалится, поэтому приходилось писать длинные промпты и создавать картинки каждый раз с нуля
📹Видеогенерации
Seedance я купил за 3 дня до дедлайна и то вечером, поэтому юзал уже в последние 2 дня.
Модель классная, но если генерить не просто тесты, а что-то осмысленное, то всё равно нужно подходить с головой.
Главная претензия - русская речь как польско-болгарско-английская получается.
Приходится писать транслитом и потом переозвучивать.
🔈Звук
Вот тут беда.
SFX частично взят из генераций, частично сгенерирован в 11лабс.
Озвучка персов - диктофон на телефоне, потом очистка в elevenlabs voice isolator и потом voice changer на созданные голоса.
Винни норм получился, а пятачок говорил исключительно с акцентом, поэтому в некоторых моментах он говорит криво.
Музыка - suno
🎞Монтаж
Геморрой номер два.
У меня на пк видюха склеила ласты на днях, поэтому монтировал в мобильном capcut.
Очень неудобно
⏰Затраченное время:
Совокупно часов ~20
Изображения - 8 часов
Видео - 8 часов
Звук - 3 часа
Монтаж - 3 часа
В целом работой доволен, но ругаю себя за поздний старт.
💸 *Затраты:
Higgsfield - 50$
Seedance - 50$
Suno - 10$
Elevenlabs - 11$
Claude - 20$
*Работал со стандартно закупаемыми подписками, поэтому вычленить стоимость конкретного ролика сложно.
@cgevent
Расследование зашло в тупик
Автор: Артём Макаров
Жанр: хоррор, триллер, анимация
Моя цель: Я постарался сделать детский триллер/хоррор с легким юмором и знакомыми персонажами.
Задача: Подготовка анимационного ролика для конкурса Союзмультфильма
Требования к ролику:
- от 30 до 60 секунд
- минимум full hd (16:9 или 9:16)
- использование разрешенных персонажей Союзмультфильма (не все персонажи разрешены), либо вымышленных
- соблюдение авторского законодательства
- обязательное использование цифр 9 и 0 в сюжете (к юбилею студии)
- готовность предоставить по запросу все рабочие материалы
На ролик давалось очень много времени. Конкурс стартовал 4 месяца назад, но я приступил к работе очень поздно.
В итоге работу делал в последние несколько дней до срока, а 70% всей работы вообще сделана в последний день.
⚒️Инструменты: Nano banana 2, Seedream 4.5 и 5.0, Seedance 2.0, Suno, Elevenlabs, Claude
📕Сценарий
Сюжет и диалоги придумал сам, но для удобства надиктовал всё Клоду, который мне выдал структурированный сценарий.
Сюжеты, которые с нуля придумывают LLMки максимально ущербные и беззубые.
Поэтому без кожаных пока никак.
🖼Изображения
Загрузил в NB2 референсы советских Пяточка и Винни, а также домика кролика.
Не хотел юзать пиксар-стиль, поэтому максимально старался приблизить к реализму.
Со светом лучше всего работает сидримский, причем 4.5 как-будто получше, чем 5.0
Сложнее всего крутить локации, чтобы показать персонажей с разных сторон, но NB2 с этим с N-ного раза справляется.
Ещё одна проблема - если одну и ту же картинку дорабатывать в несколько итераций, то картинка шакалится, поэтому приходилось писать длинные промпты и создавать картинки каждый раз с нуля
📹Видеогенерации
Seedance я купил за 3 дня до дедлайна и то вечером, поэтому юзал уже в последние 2 дня.
Модель классная, но если генерить не просто тесты, а что-то осмысленное, то всё равно нужно подходить с головой.
Главная претензия - русская речь как польско-болгарско-английская получается.
Приходится писать транслитом и потом переозвучивать.
🔈Звук
Вот тут беда.
SFX частично взят из генераций, частично сгенерирован в 11лабс.
Озвучка персов - диктофон на телефоне, потом очистка в elevenlabs voice isolator и потом voice changer на созданные голоса.
Винни норм получился, а пятачок говорил исключительно с акцентом, поэтому в некоторых моментах он говорит криво.
Музыка - suno
🎞Монтаж
Геморрой номер два.
У меня на пк видюха склеила ласты на днях, поэтому монтировал в мобильном capcut.
Очень неудобно
⏰Затраченное время:
Совокупно часов ~20
Изображения - 8 часов
Видео - 8 часов
Звук - 3 часа
Монтаж - 3 часа
В целом работой доволен, но ругаю себя за поздний старт.
Higgsfield - 50$
Seedance - 50$
Suno - 10$
Elevenlabs - 11$
Claude - 20$
*Работал со стандартно закупаемыми подписками, поэтому вычленить стоимость конкретного ролика сложно.
@cgevent
Please open Telegram to view this post
VIEW IN TELEGRAM
👎30👍29😁15🔥8❤3😱3