Метаверсище и ИИще

Феерический конфуз с Uni-1

Я эпически облажался, тестируя Uni-1.
Все это была Nano Banana Pro.

А я-то приподразвосхищалсо!

Ужас в общем, а все потому, что если зайти на https://lumalabs.ai/uni-1, ткнуть в "Try Uni-1 for Free" и просто вбить промпт (думая, что ты пробуешь Uni-1), то ушлая Люма сама решает, какой моделью сгенерить картинку (их там пять: Nana Banana Pro, Nana Banana 1, Uni-1, GPT-Image, Seedream). И у меня много вопросов к Люме по этому поводу.

Чтобы создать изображение именно в Uni-1 надо крутить вниз, создавать новый канвас и там уже будет выбор модели.
Еще один вариант - сказать агенту, какую модель ты хочешь использовать.

Я поговорил с ним про генерацию: "Я не использую какую-то одну фиксированную модель по умолчанию — выбор зависит от задачи. Для каждого запроса я подбираю наиболее подходящий инструмент исходя из того, что нужно создать: изображение, видео, аудио и т.д., а также из специфики запроса (стиль, качество, скорость)."

Но он мне подтвердил, что для РЕДАКТИРОВАНИЯ он использует Банану Про по умолчанию.

В общем я переделал все свои тесты и вот вам выводы:

Uni-1 умеет генерить только в 2K.

Uni-1 генерит довольно шумную картинку. Креативно, но шумно. Картинка Бананы Про мне нравится сильно больше, как по "чистоте" так и пониманию промпта.

Uni-1 УМЕЕТ редактировать картинки. Надо просто просить агента использовать именно Uni-1.

Uni-1 редактирует хуже, чем Банана, держит детали, но очень много шума. Агент говорит, что это стилизация под киношное зерно и так задумано.

Uni-1 умеет принимать до 9 референсов на вход (надо сильно извратиться в интерфейсе, но можно сконструировать такую задачу)

Для Uni-1 есть параметр Seed (прям в интерфейсе) - но он НЕ работает. Агент выдает seed последней генерации, но повторная генерация по нему дает другую картинку.

Uni-1 (по сравнению с Бананой Про) сильно хуже в мелких текстах. Сгенерил, проверил, гречка. В крупных норм, но шумит.

Вердикт. Банана Про (даже не вторая), сильно лучше по всем параметрам на мой взгляд.

@cgevent

6😁65👍18❤8

7.96K viewsSergey Tsyptsyn ️️, 14:28

Метаверсище и ИИще

Сбер выложил GigaChat 3.1 Ultra и GigaChat 3.1 Lightning под MIT-лицензией.

Код и веса уже лежат в открытом доступе — любой желающий может адаптировать готовое решение Сбера под свои задачи.

По цифрам:
— Ultra: 702B параметров, из них 36B активных на токен, контекст 131K
— Lightning: 10B параметров, 1.8B активных, контекст 256K

GigaChat Ultra обходит Qwen3-235B-A22B и DeepSeek-V3-0324 в математике и general reasoning. А Lightning — маленькая MoE-модель, которая на аренах показывает уровень сильно выше того, что обычно ждёшь от формата с 1.8B активных параметров.

Команда разобралась с проблемой зацикливания. Перевели один из этапов пост-обучения в FP8 — это позволило снизить расход памяти примерно вдвое без заметной просадки по качеству. И ещё нашли критичный баг в SGLang, который мешал нормальной работе и портил результаты.

Это релиз, где видно взрослую инженерную работу: новая архитектура, MoE, длинный контекст, разбор реальных поломок, фиксы в пайплайне и нормальная попытка сделать открытые модели не для галочки, а для реального продакшена.

Подробнее: 👉 https://t.me/gigadev_channel/65

@cgevent

2🔥120👎108👍23😁14❤9

7.59K viewsSergey Tsyptsyn ️️, 14:40

Метаверсище и ИИще

Forwarded from AI Product | Igor Akimov

OpenAI запустила «Библиотеку» файлов в ChatGPT
Пока доступен для Pro-подписчиков и ограниченному числу Plus-пользователей и только вне ЕС.

Все файлы, которые вы когда-либо загружали в ChatGPT - документы, таблицы, презентации, картинки - теперь автоматически сохраняются в отдельном хранилище. Не нужно рыться по чатам, чтобы найти тот самый файл.
Можно прикрепить файл из библиотеки к новому чату через меню вложений.
Можно просто попросить ChatGPT найти нужный файл словами — например, «найди таблицу с бюджетом, которую я загружал на прошлой неделе».

Лимиты:
- 512 МБ на файл (жёсткий потолок)
- Текстовые документы — до 2 млн токенов на файл
- Таблицы CSV/Excel — до ~50 МБ
- Картинки — до 20 МБ
- 10 ГБ на пользователя, 100 ГБ на организацию

Раньше файлы жили внутри конкретных чатов. Удалил чат - потерял файл. Сейчас это полноценное персональное хранилище с возможностью переиспользования файлов между разными диалогами. По сути, ChatGPT движется в сторону рабочего пространства, а не просто чата.

https://help.openai.com/en/articles/20001052-file-storage-and-library-in-chatgpt

OpenAI Help Center

File storage and Library in ChatGPT | OpenAI Help Center

3❤25👍21🔥7

6.76K viewsSergey Tsyptsyn ️️, 16:01

Метаверсище и ИИще

Кроличья нора аудиогенераций

Youtube Music подсунул мне вчера песенку - кавер на Танцы на Стеклах - просто начал играть ее поле окончания плейлиста. Звучит классно с первых аккордов.

https://www.youtube.com/watch?v=SXolixKAjNc

Смотрю название группы - Vintage Vibes.

Послушал еще каверов от них. Хорошо. Чуть насторожился на англоязычных каверах. Чистейший вокал без акцента.

Полез в описание. И конечно обнаружил "AI generated"

Послушал еще - звучит отлично.

Тут Youtube мне начинает подсовывать еще такого стиля.

Слушаю, понимаю, что это уже другой канал, но замысел прежний - Джаз-каверы.

Копнул еще и провалился в кроличью нору: десятки каналов с ИИ-каверами на разные хиты. Причем русскоязычные. Без указания, что это ИИ, кстати.

Лепс: https://youtu.be/3v_GOHNvMuw?is=qoSZ9s2ojHiCpUvk
Звери: https://youtu.be/nMDspNO9wO0?is=F_yvfL7a14PW2r1E
Баста: https://youtu.be/PjH58ujYp8E?is=OxsYZaa-rIvsTGtB

Все это бесчисленные каналы с каверами.

Звучит, кстати, все очень достойно.

Это щас тренд такой, делать именно джаз-ии-каверы? Способ заработать такой? Но что-то с просмотрами не очень...

@cgevent

YouTube

Танцы на стёклах - Максим Фадеев (Jazz Version) | by Vintage Vibe

А что, если Максим Фадеев – «Танцы на стёклах» прозвучали бы не как драматичный поп-хит, а как тягучий соул-блюз 1950-х, исполненный в полумраке старого джаз-клуба, где каждая эмоция режет по живому?

Это не просто кавер — это погружение в эпоху старого соула…

2😁17👎15👍7😱7

7.26K viewsSergey Tsyptsyn ️️, 16:31

Метаверсище и ИИще

2:39

This media is not supported in your browser

VIEW IN TELEGRAM

2:39

This media is not supported in your browser

Генератор музыки от Гугла обновился

Lyria 3 Pro теперь может генерить треки до 3 минут, а не 30 секунд, как раньше.

Я проверил, действительно работает в Gemini https://gemini.google.com/ - создай, говорю мне фанка с синкопами.
- А пажалста!

В Гемини работает для платных планов (у меня дешевый Pro)

Зашел в Producer.ai - там тоже работает, генерит треки по 2+ минуты. Там, кстати, обещают доступ и для бесплатных планов.

Почитайте про доступы подробнее тут:
https://blog.google/innovation-and-ai/technology/ai/lyria-3-pro/

Звучит суховато, ни о каком сравнении с Суно речи не идет.

Ну и самое главное - функционал минимальный. Все это - окошко чата с кнопачками и галачками.

После Суно - это как бы игрушка.

Потестируйте звук сами.

Скачивает видосы со статической обложкой какого-то конского размера, по 25 мб.

@cgevent

1👍9❤5😱4😁2

6.97K viewsSergey Tsyptsyn ️️, 19:32

#Нейропрожарка

"Реклама автомобиля Torres от KGM"

Авторы: команда Maikers (@shura_mk, @Jason_hightop, @b0nus33)

Ролик делался в рамках участия в 24 часовом оффлайн хакатоне Skillout на площадке Сколково, где 24 команды ИИ креаторов по 3 человека в команде должны были сделать один или несколько рекламных роликов по брифам спонсоров, всего было 3 спонсора:
- 1. Машинка от KGM (он же SsangYong);
- 2. Смеси детского питания от бренда Kabrita;
- 3. Сервис по доставке и выращиванию съедобных цветов для ресторанов Ninja Goods).
Тайминг рекламы должен был быть от 30 секунд до 1 минуты строго. Мы выбрали рекламу машинок от KGM (он же SsangYong), решили уйти от идеи банальной рекламы и сделать что-то эпичное и запоминающееся (в итоге победила всё таки классическая реклама). Идея родилась быстро в течении 1 часа, с помощью естественного интеллекта, придумали показать машинку в экстремальных, апокалиптических условиях, которая спасает жизни в атмосфере полного спокойствия внутри. Время создания ролика примерно 20 часов от идеи до финальной реализации. Сразу решили, что для такой идеи будем использовать единственно возможный вариант, а именно seedance 2.0. Решили, что будет 4 сцены апокалипсиса (по 15 секунд на каждую):
1-ая: погоня от извергающегося вулкана сурового маскулинного мужика;
2-ая: погоня от неистового цунами семьи с ребенком;
3-ая: погоня из города полного зомби пожилой пары с харизматичной бабулей с толикой юмора;
4-ая: объединение всех выживших героев на прекрасных машинах) в лагере для выживших, куда ясное дело смогли приехать только обладатели машин от бренда).
На раскадровку в Банане про ушло порядка 6-8 часов, причем с учетом возможностей делать отличные самостоятельные мультишоты в Seedance 2, делали в основном только ключевые кадры, которые Seedance 2 потом сам разбивал на нужные кадры текстовыми промтами. Следующие 10 часов потратили на множество мультишотных генераций в сидансе, там где сиданс выдавал не достаточно референсный результат по отношению к интерьеру/экстерьеру машинки использовали Kling 3 (в основном крупные планы деталей авто). В итоге получилось примерно 7-8 минут супердинамичного видео, которое потом резали по живому оставляя самый сок.
Саундтрек выбирали пока генерится видео в сидансе. Заремиксили в Suno один из треков к фильму Безумный Макс.
Оставшиеся 2 часа потратили на максимально динамичный монтаж в Кап-кат про.
Совокупный бюджет плюс минус 100 долларов на подписки для 3-х человек в Хиггсе, seedance 2 и действущих во Flow.
Учитывая скорость создания видео, понятное дело без огрех не обошлось. В целом, хоть мы и не победили , хотелось бы узнать мнения на что можно было обратить внимание и сделать лучше.

@cgevent

2🔥46👎39👍20❤15😁12

7.36K viewsSergey Tsyptsyn ️️, 20:01

Метаверсище и ИИще

Промпты типа "ты эксперт"

Иногда помогают, иногда мешают.

Интересный пост на эту тему:
https://www.linkedin.com/posts/ekiledjian_expert-personas-improve-llm-alignment-but-activity-7442170166022397952-ChNb/
Перевел его почти целиком.

Новое исследование Университета Южной Калифорнии («Экспертные персоны улучшают согласование с языковыми моделями, но ухудшают точность») протестировало экспертные подсказки для создания персон в шести крупных языковых моделях и, наконец, объясняет, почему сообщество получило такие противоречивые результаты.

Вывод прост, но важен: подсказки для создания персон — это инструмент согласования(alignment), а не инструмент получения знаний.

Когда персоны ПОМОГАЮТ:
→ Тон и стиль письма (оценки выросли с 7/10 до 9/10 при составлении профессиональных электронных писем)
→ Безопасность и отказ (устойчивость к взлому улучшилась до 17,7%)
→ Соблюдение формата, структурированный вывод и следование намерениям
→ Более длинные и подробные описания персон усиливают эти преимущества

Когда персоны ВРЕДЯТ:
→ Фактическая точность и поиск знаний (точность снизилась с 71,6% до 68,0%)
→ Математические и логические рассуждения (один пример ухудшился с 9/10 до 1,5/10)
→ Задачи программирования, требующие точного запоминания
→ Более длинные описания персон усугубляют ситуацию

Пять вещей, которые вы можете сделать прямо сейчас:

1. Используйте персоны для творческих, редакционных и задач, требующих соблюдения требований. Откажитесь от них для поиска фактов, вычислений и логики кода.

2. Размещайте описания персон в системном запросе, а не в сообщении пользователя — это важно для хорошо оптимизированных моделей.

3. Если вы используете модели рассуждений (например, DeepSeek R1), полностью откажитесь от использования экспертных персон. Исследования показывают, что случайная персона работает так же хорошо — модель выигрывает только от увеличения контекстной длины, а не от экспертных знаний.

4. Для повышения уровня безопасности одним из самых дешевых и эффективных способов является использование специальной "safety monitor" persona в системном запросе.

5. Когда вам необходимо использовать персону в работе, требующей высокой точности, делайте ее как можно короче, чтобы минимизировать помехи при запоминании фактов.

Итог: рассматривайте подсказки с описанием персон как усилитель тона и согласованности, а не как средство повышения уровня знаний. Знание того, когда их использовать, а когда убирать, является реальным конкурентным преимуществом.

@cgevent

4👍35❤8🔥2😁2😱1

8.36K viewsSergey Tsyptsyn ️️, 09:32

Метаверсище и ИИще

0:29

This media is not supported in your browser

VIEW IN TELEGRAM

0:23

This media is not supported in your browser

VIEW IN TELEGRAM

0:30

This media is not supported in your browser

VIEW IN TELEGRAM

Гигантский датасет трехмерных голов.

Взяли и отсканировали 7547 человек, причем каждого с 11 выражениями лица ( счастье, печаль, гнев, удивление, страх, отвращение)

А дальше тщательно все отретопили и привели к двум топологиям на 200К и 7М полигонов для ВСЕХ лиц. Топологии между собой СОВПАДАЮТ, то есть можно их морфить между собой, как по эмоциям, так и по собственно людям. И получать бесконечное количество новых тварей.

Поглядите на сайт:
https://www.sp-6m.com/

Почитайте цифры.

Помимо 3Д, может пригодится для тренировки нейронок на синтетических лицах и распознавания эмоций.

Ничего скачать нельзя, за лицензированием и использованием надо обращаться в авторам проекта. Координаты на сайте.

Впечатляющий труд.

@cgevent

2🔥63😱16❤9👍1

7.72K viewsSergey Tsyptsyn ️️, 11:33

Метаверсище и ИИще

Dynamic VRAM: гики, обновите ComfyUI

Туда завезли оптимизацию VRAM и RAM. Меньше требования к памяти.

"Функция Dynamic VRAM кардинально меняет подход ComfyUI к обработке весов моделей, что значительно повышает плавность работы для пользователей, использующих оборудование с ограниченным объемом памяти"

https://blog.comfy.org/p/dynamic-vram-in-comfyui-saving-local

@cgevent

blog.comfy.org

Dynamic VRAM in ComfyUI: Saving Local Models from RAMmageddon

A new memory system that makes it possible to efficiently run the largest models on the smallest memory.

2🔥43😱6❤2

7.2K viewsSergey Tsyptsyn ️️, edited 11:44

Метаверсище и ИИще

0:17

This media is not supported in your browser

VIEW IN TELEGRAM

Вайб-метаверсинг

Новый и очень интересный проект от Гугла:
Vibe Coding XR: Accelerating AI + XR prototyping with XR Blocks and Gemini

Можно еще сказать - вайб-прототайпинг или вайб-3Дсборка

Речь идет о быстрой разработке приложений дополненной и виртуальной реальности (XR\VR), который позволяет превращать идеи в рабочие прототипы менее чем за минуту.

Ну и правда, обычные приложения уже вайб-кодят, можно взяться за пространственные интерфейсы.

Что внутри:

Связка Gemini + XR Blocks: Gemini выступает в роли эксперта-дизайнера и инженера, понимая пространственную логику.

XR Blocks - это open-source фреймворк на базе WebXR, который берет на себя сложные задачи: физику, распознавание окружения и взаимодействие рук.

Как это работает:

Пользователь описывает желаемое (голосом или текстом, например: «Создай интерактивную лабораторию физики»), и система за 60 секунд генерирует полностью функциональное приложение для Android XR или настольного браузера (в симуляторе).

Обязательно посмотрите примеры по ссылке внизу, вайб-метаверс как он есть.
Google показывает, что такой подход подходит не только для демо, но и для образовательных сценариев. Среди примеров — XR-приложения для геометрии, физики, химии и даже визуализации идеи кота Шрёдингера. По сути, компания продвигает будущее, в котором создание пространственных интерфейсов и учебных XR-опытов станет таким же быстрым и доступным, как сегодня генерация обычных веб-прототипов с ИИ наперевес.

https://research.google/blog/vibe-coding-xr-accelerating-ai-xr-prototyping-with-xr-blocks-and-gemini/

https://github.com/google/xrblocks

Демо: https://xrblocks.github.io/docs/samples/ModelViewer/

https://www.youtube.com/watch?v=nknCzIxHHzw

@cgevent

👍28❤7👎4😱1

6.78K viewsSergey Tsyptsyn ️️, 15:15

Метаверсище и ИИще