Феерический конфуз с Uni-1
Я эпически облажался, тестируя Uni-1.
Все это была Nano Banana Pro.
А я-то приподразвосхищалсо!
Ужас в общем, а все потому, что если зайти на https://lumalabs.ai/uni-1, ткнуть в "Try Uni-1 for Free" и просто вбить промпт (думая, что ты пробуешь Uni-1), то ушлая Люма сама решает, какой моделью сгенерить картинку (их там пять: Nana Banana Pro, Nana Banana 1, Uni-1, GPT-Image, Seedream). И у меня много вопросов к Люме по этому поводу.
Чтобы создать изображение именно в Uni-1 надо крутить вниз, создавать новый канвас и там уже будет выбор модели.
Еще один вариант - сказать агенту, какую модель ты хочешь использовать.
Я поговорил с ним про генерацию: "Я не использую какую-то одну фиксированную модель по умолчанию — выбор зависит от задачи. Для каждого запроса я подбираю наиболее подходящий инструмент исходя из того, что нужно создать: изображение, видео, аудио и т.д., а также из специфики запроса (стиль, качество, скорость)."
Но он мне подтвердил, что для РЕДАКТИРОВАНИЯ он использует Банану Про по умолчанию.
В общем я переделал все свои тесты и вот вам выводы:
Uni-1 умеет генерить только в 2K.
Uni-1 генерит довольно шумную картинку. Креативно, но шумно. Картинка Бананы Про мне нравится сильно больше, как по "чистоте" так и пониманию промпта.
Uni-1 УМЕЕТ редактировать картинки. Надо просто просить агента использовать именно Uni-1.
Uni-1 редактирует хуже, чем Банана, держит детали, но очень много шума. Агент говорит, что это стилизация под киношное зерно и так задумано.
Uni-1 умеет принимать до 9 референсов на вход (надо сильно извратиться в интерфейсе, но можно сконструировать такую задачу)
Для Uni-1 есть параметр Seed (прям в интерфейсе) - но он НЕ работает. Агент выдает seed последней генерации, но повторная генерация по нему дает другую картинку.
Uni-1 (по сравнению с Бананой Про) сильно хуже в мелких текстах. Сгенерил, проверил, гречка. В крупных норм, но шумит.
Вердикт. Банана Про (даже не вторая), сильно лучше по всем параметрам на мой взгляд.
@cgevent
Я эпически облажался, тестируя Uni-1.
Все это была Nano Banana Pro.
А я-то приподразвосхищалсо!
Ужас в общем, а все потому, что если зайти на https://lumalabs.ai/uni-1, ткнуть в "Try Uni-1 for Free" и просто вбить промпт (думая, что ты пробуешь Uni-1), то ушлая Люма сама решает, какой моделью сгенерить картинку (их там пять: Nana Banana Pro, Nana Banana 1, Uni-1, GPT-Image, Seedream). И у меня много вопросов к Люме по этому поводу.
Чтобы создать изображение именно в Uni-1 надо крутить вниз, создавать новый канвас и там уже будет выбор модели.
Еще один вариант - сказать агенту, какую модель ты хочешь использовать.
Я поговорил с ним про генерацию: "Я не использую какую-то одну фиксированную модель по умолчанию — выбор зависит от задачи. Для каждого запроса я подбираю наиболее подходящий инструмент исходя из того, что нужно создать: изображение, видео, аудио и т.д., а также из специфики запроса (стиль, качество, скорость)."
Но он мне подтвердил, что для РЕДАКТИРОВАНИЯ он использует Банану Про по умолчанию.
В общем я переделал все свои тесты и вот вам выводы:
Uni-1 умеет генерить только в 2K.
Uni-1 генерит довольно шумную картинку. Креативно, но шумно. Картинка Бананы Про мне нравится сильно больше, как по "чистоте" так и пониманию промпта.
Uni-1 УМЕЕТ редактировать картинки. Надо просто просить агента использовать именно Uni-1.
Uni-1 редактирует хуже, чем Банана, держит детали, но очень много шума. Агент говорит, что это стилизация под киношное зерно и так задумано.
Uni-1 умеет принимать до 9 референсов на вход (надо сильно извратиться в интерфейсе, но можно сконструировать такую задачу)
Для Uni-1 есть параметр Seed (прям в интерфейсе) - но он НЕ работает. Агент выдает seed последней генерации, но повторная генерация по нему дает другую картинку.
Uni-1 (по сравнению с Бананой Про) сильно хуже в мелких текстах. Сгенерил, проверил, гречка. В крупных норм, но шумит.
Вердикт. Банана Про (даже не вторая), сильно лучше по всем параметрам на мой взгляд.
@cgevent
6😁65👍18❤8
Сбер выложил GigaChat 3.1 Ultra и GigaChat 3.1 Lightning под MIT-лицензией.
Код и веса уже лежат в открытом доступе — любой желающий может адаптировать готовое решение Сбера под свои задачи.
По цифрам:
— Ultra: 702B параметров, из них 36B активных на токен, контекст 131K
— Lightning: 10B параметров, 1.8B активных, контекст 256K
GigaChat Ultra обходит Qwen3-235B-A22B и DeepSeek-V3-0324 в математике и general reasoning. А Lightning — маленькая MoE-модель, которая на аренах показывает уровень сильно выше того, что обычно ждёшь от формата с 1.8B активных параметров.
Команда разобралась с проблемой зацикливания. Перевели один из этапов пост-обучения в FP8 — это позволило снизить расход памяти примерно вдвое без заметной просадки по качеству. И ещё нашли критичный баг в SGLang, который мешал нормальной работе и портил результаты.
Это релиз, где видно взрослую инженерную работу: новая архитектура, MoE, длинный контекст, разбор реальных поломок, фиксы в пайплайне и нормальная попытка сделать открытые модели не для галочки, а для реального продакшена.
Подробнее: 👉 https://t.me/gigadev_channel/65
@cgevent
Код и веса уже лежат в открытом доступе — любой желающий может адаптировать готовое решение Сбера под свои задачи.
По цифрам:
— Ultra: 702B параметров, из них 36B активных на токен, контекст 131K
— Lightning: 10B параметров, 1.8B активных, контекст 256K
GigaChat Ultra обходит Qwen3-235B-A22B и DeepSeek-V3-0324 в математике и general reasoning. А Lightning — маленькая MoE-модель, которая на аренах показывает уровень сильно выше того, что обычно ждёшь от формата с 1.8B активных параметров.
Команда разобралась с проблемой зацикливания. Перевели один из этапов пост-обучения в FP8 — это позволило снизить расход памяти примерно вдвое без заметной просадки по качеству. И ещё нашли критичный баг в SGLang, который мешал нормальной работе и портил результаты.
Это релиз, где видно взрослую инженерную работу: новая архитектура, MoE, длинный контекст, разбор реальных поломок, фиксы в пайплайне и нормальная попытка сделать открытые модели не для галочки, а для реального продакшена.
Подробнее: 👉 https://t.me/gigadev_channel/65
@cgevent
2🔥120👎108👍23😁14❤9
Forwarded from AI Product | Igor Akimov
OpenAI запустила «Библиотеку» файлов в ChatGPT
Пока доступен для Pro-подписчиков и ограниченному числу Plus-пользователей и только вне ЕС.
Все файлы, которые вы когда-либо загружали в ChatGPT - документы, таблицы, презентации, картинки - теперь автоматически сохраняются в отдельном хранилище. Не нужно рыться по чатам, чтобы найти тот самый файл.
Можно прикрепить файл из библиотеки к новому чату через меню вложений.
Можно просто попросить ChatGPT найти нужный файл словами — например, «найди таблицу с бюджетом, которую я загружал на прошлой неделе».
Лимиты:
- 512 МБ на файл (жёсткий потолок)
- Текстовые документы — до 2 млн токенов на файл
- Таблицы CSV/Excel — до ~50 МБ
- Картинки — до 20 МБ
- 10 ГБ на пользователя, 100 ГБ на организацию
Раньше файлы жили внутри конкретных чатов. Удалил чат - потерял файл. Сейчас это полноценное персональное хранилище с возможностью переиспользования файлов между разными диалогами. По сути, ChatGPT движется в сторону рабочего пространства, а не просто чата.
https://help.openai.com/en/articles/20001052-file-storage-and-library-in-chatgpt
Пока доступен для Pro-подписчиков и ограниченному числу Plus-пользователей и только вне ЕС.
Все файлы, которые вы когда-либо загружали в ChatGPT - документы, таблицы, презентации, картинки - теперь автоматически сохраняются в отдельном хранилище. Не нужно рыться по чатам, чтобы найти тот самый файл.
Можно прикрепить файл из библиотеки к новому чату через меню вложений.
Можно просто попросить ChatGPT найти нужный файл словами — например, «найди таблицу с бюджетом, которую я загружал на прошлой неделе».
Лимиты:
- 512 МБ на файл (жёсткий потолок)
- Текстовые документы — до 2 млн токенов на файл
- Таблицы CSV/Excel — до ~50 МБ
- Картинки — до 20 МБ
- 10 ГБ на пользователя, 100 ГБ на организацию
Раньше файлы жили внутри конкретных чатов. Удалил чат - потерял файл. Сейчас это полноценное персональное хранилище с возможностью переиспользования файлов между разными диалогами. По сути, ChatGPT движется в сторону рабочего пространства, а не просто чата.
https://help.openai.com/en/articles/20001052-file-storage-and-library-in-chatgpt
OpenAI Help Center
File storage and Library in ChatGPT | OpenAI Help Center
3❤25👍21🔥7
Кроличья нора аудиогенераций
Youtube Music подсунул мне вчера песенку - кавер на Танцы на Стеклах - просто начал играть ее поле окончания плейлиста. Звучит классно с первых аккордов.
https://www.youtube.com/watch?v=SXolixKAjNc
Смотрю название группы - Vintage Vibes.
Послушал еще каверов от них. Хорошо. Чуть насторожился на англоязычных каверах. Чистейший вокал без акцента.
Полез в описание. И конечно обнаружил "AI generated"
Послушал еще - звучит отлично.
Тут Youtube мне начинает подсовывать еще такого стиля.
Слушаю, понимаю, что это уже другой канал, но замысел прежний - Джаз-каверы.
Копнул еще и провалился в кроличью нору: десятки каналов с ИИ-каверами на разные хиты. Причем русскоязычные. Без указания, что это ИИ, кстати.
Лепс: https://youtu.be/3v_GOHNvMuw?is=qoSZ9s2ojHiCpUvk
Звери: https://youtu.be/nMDspNO9wO0?is=F_yvfL7a14PW2r1E
Баста: https://youtu.be/PjH58ujYp8E?is=OxsYZaa-rIvsTGtB
Все это бесчисленные каналы с каверами.
Звучит, кстати, все очень достойно.
Это щас тренд такой, делать именно джаз-ии-каверы? Способ заработать такой? Но что-то с просмотрами не очень...
@cgevent
Youtube Music подсунул мне вчера песенку - кавер на Танцы на Стеклах - просто начал играть ее поле окончания плейлиста. Звучит классно с первых аккордов.
https://www.youtube.com/watch?v=SXolixKAjNc
Смотрю название группы - Vintage Vibes.
Послушал еще каверов от них. Хорошо. Чуть насторожился на англоязычных каверах. Чистейший вокал без акцента.
Полез в описание. И конечно обнаружил "AI generated"
Послушал еще - звучит отлично.
Тут Youtube мне начинает подсовывать еще такого стиля.
Слушаю, понимаю, что это уже другой канал, но замысел прежний - Джаз-каверы.
Копнул еще и провалился в кроличью нору: десятки каналов с ИИ-каверами на разные хиты. Причем русскоязычные. Без указания, что это ИИ, кстати.
Лепс: https://youtu.be/3v_GOHNvMuw?is=qoSZ9s2ojHiCpUvk
Звери: https://youtu.be/nMDspNO9wO0?is=F_yvfL7a14PW2r1E
Баста: https://youtu.be/PjH58ujYp8E?is=OxsYZaa-rIvsTGtB
Все это бесчисленные каналы с каверами.
Звучит, кстати, все очень достойно.
Это щас тренд такой, делать именно джаз-ии-каверы? Способ заработать такой? Но что-то с просмотрами не очень...
@cgevent
YouTube
Танцы на стёклах - Максим Фадеев (Jazz Version) | by Vintage Vibe
А что, если Максим Фадеев – «Танцы на стёклах» прозвучали бы не как драматичный поп-хит, а как тягучий соул-блюз 1950-х, исполненный в полумраке старого джаз-клуба, где каждая эмоция режет по живому?
Это не просто кавер — это погружение в эпоху старого соула…
Это не просто кавер — это погружение в эпоху старого соула…
2😁17👎15👍7😱7
Генератор музыки от Гугла обновился
Lyria 3 Pro теперь может генерить треки до 3 минут, а не 30 секунд, как раньше.
Я проверил, действительно работает в Gemini https://gemini.google.com/ - создай, говорю мне фанка с синкопами.
- А пажалста!
В Гемини работает для платных планов (у меня дешевый Pro)
Зашел в Producer.ai - там тоже работает, генерит треки по 2+ минуты. Там, кстати, обещают доступ и для бесплатных планов.
Почитайте про доступы подробнее тут:
https://blog.google/innovation-and-ai/technology/ai/lyria-3-pro/
Звучит суховато, ни о каком сравнении с Суно речи не идет.
Ну и самое главное - функционал минимальный. Все это - окошко чата с кнопачками и галачками.
После Суно - это как бы игрушка.
Потестируйте звук сами.
Скачивает видосы со статической обложкой какого-то конского размера, по 25 мб.
@cgevent
Lyria 3 Pro теперь может генерить треки до 3 минут, а не 30 секунд, как раньше.
Я проверил, действительно работает в Gemini https://gemini.google.com/ - создай, говорю мне фанка с синкопами.
- А пажалста!
В Гемини работает для платных планов (у меня дешевый Pro)
Зашел в Producer.ai - там тоже работает, генерит треки по 2+ минуты. Там, кстати, обещают доступ и для бесплатных планов.
Почитайте про доступы подробнее тут:
https://blog.google/innovation-and-ai/technology/ai/lyria-3-pro/
Звучит суховато, ни о каком сравнении с Суно речи не идет.
Ну и самое главное - функционал минимальный. Все это - окошко чата с кнопачками и галачками.
После Суно - это как бы игрушка.
Потестируйте звук сами.
Скачивает видосы со статической обложкой какого-то конского размера, по 25 мб.
@cgevent
1👍9❤5😱4😁2
Media is too big
VIEW IN TELEGRAM
#Нейропрожарка
"Реклама автомобиля Torres от KGM"
Авторы: команда Maikers (@shura_mk, @Jason_hightop, @b0nus33)
Ролик делался в рамках участия в 24 часовом оффлайн хакатоне Skillout на площадке Сколково, где 24 команды ИИ креаторов по 3 человека в команде должны были сделать один или несколько рекламных роликов по брифам спонсоров, всего было 3 спонсора:
- 1. Машинка от KGM (он же SsangYong);
- 2. Смеси детского питания от бренда Kabrita;
- 3. Сервис по доставке и выращиванию съедобных цветов для ресторанов Ninja Goods).
Тайминг рекламы должен был быть от 30 секунд до 1 минуты строго. Мы выбрали рекламу машинок от KGM (он же SsangYong), решили уйти от идеи банальной рекламы и сделать что-то эпичное и запоминающееся (в итоге победила всё таки классическая реклама). Идея родилась быстро в течении 1 часа, с помощью естественного интеллекта, придумали показать машинку в экстремальных, апокалиптических условиях, которая спасает жизни в атмосфере полного спокойствия внутри. Время создания ролика примерно 20 часов от идеи до финальной реализации. Сразу решили, что для такой идеи будем использовать единственно возможный вариант, а именно seedance 2.0. Решили, что будет 4 сцены апокалипсиса (по 15 секунд на каждую):
1-ая: погоня от извергающегося вулкана сурового маскулинного мужика;
2-ая: погоня от неистового цунами семьи с ребенком;
3-ая: погоня из города полного зомби пожилой пары с харизматичной бабулей с толикой юмора;
4-ая: объединение всех выживших героев на прекрасных машинах) в лагере для выживших, куда ясное дело смогли приехать только обладатели машин от бренда).
На раскадровку в Банане про ушло порядка 6-8 часов, причем с учетом возможностей делать отличные самостоятельные мультишоты в Seedance 2, делали в основном только ключевые кадры, которые Seedance 2 потом сам разбивал на нужные кадры текстовыми промтами. Следующие 10 часов потратили на множество мультишотных генераций в сидансе, там где сиданс выдавал не достаточно референсный результат по отношению к интерьеру/экстерьеру машинки использовали Kling 3 (в основном крупные планы деталей авто). В итоге получилось примерно 7-8 минут супердинамичного видео, которое потом резали по живому оставляя самый сок.
Саундтрек выбирали пока генерится видео в сидансе. Заремиксили в Suno один из треков к фильму Безумный Макс.
Оставшиеся 2 часа потратили на максимально динамичный монтаж в Кап-кат про.
Совокупный бюджет плюс минус 100 долларов на подписки для 3-х человек в Хиггсе, seedance 2 и действущих во Flow.
Учитывая скорость создания видео, понятное дело без огрех не обошлось. В целом, хоть мы и не победили , хотелось бы узнать мнения на что можно было обратить внимание и сделать лучше.
@cgevent
"Реклама автомобиля Torres от KGM"
Авторы: команда Maikers (@shura_mk, @Jason_hightop, @b0nus33)
Ролик делался в рамках участия в 24 часовом оффлайн хакатоне Skillout на площадке Сколково, где 24 команды ИИ креаторов по 3 человека в команде должны были сделать один или несколько рекламных роликов по брифам спонсоров, всего было 3 спонсора:
- 1. Машинка от KGM (он же SsangYong);
- 2. Смеси детского питания от бренда Kabrita;
- 3. Сервис по доставке и выращиванию съедобных цветов для ресторанов Ninja Goods).
Тайминг рекламы должен был быть от 30 секунд до 1 минуты строго. Мы выбрали рекламу машинок от KGM (он же SsangYong), решили уйти от идеи банальной рекламы и сделать что-то эпичное и запоминающееся (в итоге победила всё таки классическая реклама). Идея родилась быстро в течении 1 часа, с помощью естественного интеллекта, придумали показать машинку в экстремальных, апокалиптических условиях, которая спасает жизни в атмосфере полного спокойствия внутри. Время создания ролика примерно 20 часов от идеи до финальной реализации. Сразу решили, что для такой идеи будем использовать единственно возможный вариант, а именно seedance 2.0. Решили, что будет 4 сцены апокалипсиса (по 15 секунд на каждую):
1-ая: погоня от извергающегося вулкана сурового маскулинного мужика;
2-ая: погоня от неистового цунами семьи с ребенком;
3-ая: погоня из города полного зомби пожилой пары с харизматичной бабулей с толикой юмора;
4-ая: объединение всех выживших героев на прекрасных машинах) в лагере для выживших, куда ясное дело смогли приехать только обладатели машин от бренда).
На раскадровку в Банане про ушло порядка 6-8 часов, причем с учетом возможностей делать отличные самостоятельные мультишоты в Seedance 2, делали в основном только ключевые кадры, которые Seedance 2 потом сам разбивал на нужные кадры текстовыми промтами. Следующие 10 часов потратили на множество мультишотных генераций в сидансе, там где сиданс выдавал не достаточно референсный результат по отношению к интерьеру/экстерьеру машинки использовали Kling 3 (в основном крупные планы деталей авто). В итоге получилось примерно 7-8 минут супердинамичного видео, которое потом резали по живому оставляя самый сок.
Саундтрек выбирали пока генерится видео в сидансе. Заремиксили в Suno один из треков к фильму Безумный Макс.
Оставшиеся 2 часа потратили на максимально динамичный монтаж в Кап-кат про.
Совокупный бюджет плюс минус 100 долларов на подписки для 3-х человек в Хиггсе, seedance 2 и действущих во Flow.
Учитывая скорость создания видео, понятное дело без огрех не обошлось. В целом, хоть мы и не победили , хотелось бы узнать мнения на что можно было обратить внимание и сделать лучше.
@cgevent
2🔥46👎39👍20❤15😁12
Промпты типа "ты эксперт"
Иногда помогают, иногда мешают.
Интересный пост на эту тему:
https://www.linkedin.com/posts/ekiledjian_expert-personas-improve-llm-alignment-but-activity-7442170166022397952-ChNb/
Перевел его почти целиком.
Новое исследование Университета Южной Калифорнии («Экспертные персоны улучшают согласование с языковыми моделями, но ухудшают точность») протестировало экспертные подсказки для создания персон в шести крупных языковых моделях и, наконец, объясняет, почему сообщество получило такие противоречивые результаты.
Вывод прост, но важен: подсказки для создания персон — это инструмент согласования(alignment), а не инструмент получения знаний.
Когда персоны ПОМОГАЮТ:
→ Тон и стиль письма (оценки выросли с 7/10 до 9/10 при составлении профессиональных электронных писем)
→ Безопасность и отказ (устойчивость к взлому улучшилась до 17,7%)
→ Соблюдение формата, структурированный вывод и следование намерениям
→ Более длинные и подробные описания персон усиливают эти преимущества
Когда персоны ВРЕДЯТ:
→ Фактическая точность и поиск знаний (точность снизилась с 71,6% до 68,0%)
→ Математические и логические рассуждения (один пример ухудшился с 9/10 до 1,5/10)
→ Задачи программирования, требующие точного запоминания
→ Более длинные описания персон усугубляют ситуацию
Пять вещей, которые вы можете сделать прямо сейчас:
1. Используйте персоны для творческих, редакционных и задач, требующих соблюдения требований. Откажитесь от них для поиска фактов, вычислений и логики кода.
2. Размещайте описания персон в системном запросе, а не в сообщении пользователя — это важно для хорошо оптимизированных моделей.
3. Если вы используете модели рассуждений (например, DeepSeek R1), полностью откажитесь от использования экспертных персон. Исследования показывают, что случайная персона работает так же хорошо — модель выигрывает только от увеличения контекстной длины, а не от экспертных знаний.
4. Для повышения уровня безопасности одним из самых дешевых и эффективных способов является использование специальной "safety monitor" persona в системном запросе.
5. Когда вам необходимо использовать персону в работе, требующей высокой точности, делайте ее как можно короче, чтобы минимизировать помехи при запоминании фактов.
Итог: рассматривайте подсказки с описанием персон как усилитель тона и согласованности, а не как средство повышения уровня знаний. Знание того, когда их использовать, а когда убирать, является реальным конкурентным преимуществом.
@cgevent
Иногда помогают, иногда мешают.
Интересный пост на эту тему:
https://www.linkedin.com/posts/ekiledjian_expert-personas-improve-llm-alignment-but-activity-7442170166022397952-ChNb/
Перевел его почти целиком.
Новое исследование Университета Южной Калифорнии («Экспертные персоны улучшают согласование с языковыми моделями, но ухудшают точность») протестировало экспертные подсказки для создания персон в шести крупных языковых моделях и, наконец, объясняет, почему сообщество получило такие противоречивые результаты.
Вывод прост, но важен: подсказки для создания персон — это инструмент согласования(alignment), а не инструмент получения знаний.
Когда персоны ПОМОГАЮТ:
→ Тон и стиль письма (оценки выросли с 7/10 до 9/10 при составлении профессиональных электронных писем)
→ Безопасность и отказ (устойчивость к взлому улучшилась до 17,7%)
→ Соблюдение формата, структурированный вывод и следование намерениям
→ Более длинные и подробные описания персон усиливают эти преимущества
Когда персоны ВРЕДЯТ:
→ Фактическая точность и поиск знаний (точность снизилась с 71,6% до 68,0%)
→ Математические и логические рассуждения (один пример ухудшился с 9/10 до 1,5/10)
→ Задачи программирования, требующие точного запоминания
→ Более длинные описания персон усугубляют ситуацию
Пять вещей, которые вы можете сделать прямо сейчас:
1. Используйте персоны для творческих, редакционных и задач, требующих соблюдения требований. Откажитесь от них для поиска фактов, вычислений и логики кода.
2. Размещайте описания персон в системном запросе, а не в сообщении пользователя — это важно для хорошо оптимизированных моделей.
3. Если вы используете модели рассуждений (например, DeepSeek R1), полностью откажитесь от использования экспертных персон. Исследования показывают, что случайная персона работает так же хорошо — модель выигрывает только от увеличения контекстной длины, а не от экспертных знаний.
4. Для повышения уровня безопасности одним из самых дешевых и эффективных способов является использование специальной "safety monitor" persona в системном запросе.
5. Когда вам необходимо использовать персону в работе, требующей высокой точности, делайте ее как можно короче, чтобы минимизировать помехи при запоминании фактов.
Итог: рассматривайте подсказки с описанием персон как усилитель тона и согласованности, а не как средство повышения уровня знаний. Знание того, когда их использовать, а когда убирать, является реальным конкурентным преимуществом.
@cgevent
4👍35❤8🔥2😁2😱1
Гигантский датасет трехмерных голов.
Взяли и отсканировали 7547 человек, причем каждого с 11 выражениями лица ( счастье, печаль, гнев, удивление, страх, отвращение)
А дальше тщательно все отретопили и привели к двум топологиям на 200К и 7М полигонов для ВСЕХ лиц. Топологии между собой СОВПАДАЮТ, то есть можно их морфить между собой, как по эмоциям, так и по собственно людям. И получать бесконечное количество новых тварей.
Поглядите на сайт:
https://www.sp-6m.com/
Почитайте цифры.
Помимо 3Д, может пригодится для тренировки нейронок на синтетических лицах и распознавания эмоций.
Ничего скачать нельзя, за лицензированием и использованием надо обращаться в авторам проекта. Координаты на сайте.
Впечатляющий труд.
@cgevent
Взяли и отсканировали 7547 человек, причем каждого с 11 выражениями лица ( счастье, печаль, гнев, удивление, страх, отвращение)
А дальше тщательно все отретопили и привели к двум топологиям на 200К и 7М полигонов для ВСЕХ лиц. Топологии между собой СОВПАДАЮТ, то есть можно их морфить между собой, как по эмоциям, так и по собственно людям. И получать бесконечное количество новых тварей.
Поглядите на сайт:
https://www.sp-6m.com/
Почитайте цифры.
Помимо 3Д, может пригодится для тренировки нейронок на синтетических лицах и распознавания эмоций.
Ничего скачать нельзя, за лицензированием и использованием надо обращаться в авторам проекта. Координаты на сайте.
Впечатляющий труд.
@cgevent
2🔥63😱16❤9👍1
Dynamic VRAM: гики, обновите ComfyUI
Туда завезли оптимизацию VRAM и RAM. Меньше требования к памяти.
"Функция Dynamic VRAM кардинально меняет подход ComfyUI к обработке весов моделей, что значительно повышает плавность работы для пользователей, использующих оборудование с ограниченным объемом памяти"
https://blog.comfy.org/p/dynamic-vram-in-comfyui-saving-local
@cgevent
Туда завезли оптимизацию VRAM и RAM. Меньше требования к памяти.
"Функция Dynamic VRAM кардинально меняет подход ComfyUI к обработке весов моделей, что значительно повышает плавность работы для пользователей, использующих оборудование с ограниченным объемом памяти"
https://blog.comfy.org/p/dynamic-vram-in-comfyui-saving-local
@cgevent
blog.comfy.org
Dynamic VRAM in ComfyUI: Saving Local Models from RAMmageddon
A new memory system that makes it possible to efficiently run the largest models on the smallest memory.
2🔥43😱6❤2
This media is not supported in your browser
VIEW IN TELEGRAM
Вайб-метаверсинг
Новый и очень интересный проект от Гугла:
Vibe Coding XR: Accelerating AI + XR prototyping with XR Blocks and Gemini
Можно еще сказать - вайб-прототайпинг или вайб-3Дсборка
Речь идет о быстрой разработке приложений дополненной и виртуальной реальности (XR\VR), который позволяет превращать идеи в рабочие прототипы менее чем за минуту.
Ну и правда, обычные приложения уже вайб-кодят, можно взяться за пространственные интерфейсы.
Что внутри:
Связка Gemini + XR Blocks: Gemini выступает в роли эксперта-дизайнера и инженера, понимая пространственную логику.
XR Blocks - это open-source фреймворк на базе WebXR, который берет на себя сложные задачи: физику, распознавание окружения и взаимодействие рук.
Как это работает:
Пользователь описывает желаемое (голосом или текстом, например: «Создай интерактивную лабораторию физики»), и система за 60 секунд генерирует полностью функциональное приложение для Android XR или настольного браузера (в симуляторе).
Обязательно посмотрите примеры по ссылке внизу, вайб-метаверс как он есть.
Google показывает, что такой подход подходит не только для демо, но и для образовательных сценариев. Среди примеров — XR-приложения для геометрии, физики, химии и даже визуализации идеи кота Шрёдингера. По сути, компания продвигает будущее, в котором создание пространственных интерфейсов и учебных XR-опытов станет таким же быстрым и доступным, как сегодня генерация обычных веб-прототипов с ИИ наперевес.
https://research.google/blog/vibe-coding-xr-accelerating-ai-xr-prototyping-with-xr-blocks-and-gemini/
https://github.com/google/xrblocks
Демо: https://xrblocks.github.io/docs/samples/ModelViewer/
https://www.youtube.com/watch?v=nknCzIxHHzw
@cgevent
Новый и очень интересный проект от Гугла:
Vibe Coding XR: Accelerating AI + XR prototyping with XR Blocks and Gemini
Можно еще сказать - вайб-прототайпинг или вайб-3Дсборка
Речь идет о быстрой разработке приложений дополненной и виртуальной реальности (XR\VR), который позволяет превращать идеи в рабочие прототипы менее чем за минуту.
Ну и правда, обычные приложения уже вайб-кодят, можно взяться за пространственные интерфейсы.
Что внутри:
Связка Gemini + XR Blocks: Gemini выступает в роли эксперта-дизайнера и инженера, понимая пространственную логику.
XR Blocks - это open-source фреймворк на базе WebXR, который берет на себя сложные задачи: физику, распознавание окружения и взаимодействие рук.
Как это работает:
Пользователь описывает желаемое (голосом или текстом, например: «Создай интерактивную лабораторию физики»), и система за 60 секунд генерирует полностью функциональное приложение для Android XR или настольного браузера (в симуляторе).
Обязательно посмотрите примеры по ссылке внизу, вайб-метаверс как он есть.
Google показывает, что такой подход подходит не только для демо, но и для образовательных сценариев. Среди примеров — XR-приложения для геометрии, физики, химии и даже визуализации идеи кота Шрёдингера. По сути, компания продвигает будущее, в котором создание пространственных интерфейсов и учебных XR-опытов станет таким же быстрым и доступным, как сегодня генерация обычных веб-прототипов с ИИ наперевес.
https://research.google/blog/vibe-coding-xr-accelerating-ai-xr-prototyping-with-xr-blocks-and-gemini/
https://github.com/google/xrblocks
Демо: https://xrblocks.github.io/docs/samples/ModelViewer/
https://www.youtube.com/watch?v=nknCzIxHHzw
@cgevent
👍28❤7👎4😱1
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Runway Multi-Shot App
Все без исключения ролики выше сделаны по довольно простым и недлинным промптам.
Без всякого
"Камера1 - бежим
Камера2 - лежим
Камера3 - мешки ворочаем"
Ну то есть ИИ за вас делает мульти-ракурсы и сам решает, где порезать и куда поставить камеру и какой план взять: крупняк, погрудный или общий.
Мне нравится результат, но не нравится замысел. Юзеры, которые и так ни хрена не смыслят в монтаже, вконец потеряют мотивацию что-то изучать. И будут у нас Нейропрожарки по шаблонам Рунвея (и всех, кто это срочно скопирует).
Видео - это 95% монтаж. И он сложный, мать его.
Раскатывают тут:
https://app.runwayml.com/video-tools/teams/cgevent/ai-tools/generate?mode=apps
Если интересный промпты к видосам выше, то они тут:
https://x.com/runwayml/status/2037170118669500537
Лев, конечно, нарядный вышел:
@cgevent
Все без исключения ролики выше сделаны по довольно простым и недлинным промптам.
Без всякого
"Камера1 - бежим
Камера2 - лежим
Камера3 - мешки ворочаем"
Ну то есть ИИ за вас делает мульти-ракурсы и сам решает, где порезать и куда поставить камеру и какой план взять: крупняк, погрудный или общий.
Мне нравится результат, но не нравится замысел. Юзеры, которые и так ни хрена не смыслят в монтаже, вконец потеряют мотивацию что-то изучать. И будут у нас Нейропрожарки по шаблонам Рунвея (и всех, кто это срочно скопирует).
Видео - это 95% монтаж. И он сложный, мать его.
Раскатывают тут:
https://app.runwayml.com/video-tools/teams/cgevent/ai-tools/generate?mode=apps
Если интересный промпты к видосам выше, то они тут:
https://x.com/runwayml/status/2037170118669500537
Лев, конечно, нарядный вышел:
A hyper realistic lion lying on a therapist couch, talking about how hard it is for him to eat the cutest animals. Why not snakes? Why not spiders? No… it has to be zebras. God damn.
@cgevent
👍32🔥19❤6