Метаверсище и ИИще
49.9K subscribers
6.21K photos
4.81K videos
48 files
7.15K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Феерический конфуз с Uni-1

Я эпически облажался, тестируя Uni-1.
Все это была Nano Banana Pro.

А я-то приподразвосхищалсо!

Ужас в общем, а все потому, что если зайти на https://lumalabs.ai/uni-1, ткнуть в "Try Uni-1 for Free" и просто вбить промпт (думая, что ты пробуешь Uni-1), то ушлая Люма сама решает, какой моделью сгенерить картинку (их там пять: Nana Banana Pro, Nana Banana 1, Uni-1, GPT-Image, Seedream). И у меня много вопросов к Люме по этому поводу.

Чтобы создать изображение именно в Uni-1 надо крутить вниз, создавать новый канвас и там уже будет выбор модели.
Еще один вариант - сказать агенту, какую модель ты хочешь использовать.

Я поговорил с ним про генерацию: "Я не использую какую-то одну фиксированную модель по умолчанию — выбор зависит от задачи. Для каждого запроса я подбираю наиболее подходящий инструмент исходя из того, что нужно создать: изображение, видео, аудио и т.д., а также из специфики запроса (стиль, качество, скорость)."

Но он мне подтвердил, что для РЕДАКТИРОВАНИЯ он использует Банану Про по умолчанию.

В общем я переделал все свои тесты и вот вам выводы:

Uni-1 умеет генерить только в 2K.

Uni-1 генерит довольно шумную картинку. Креативно, но шумно. Картинка Бананы Про мне нравится сильно больше, как по "чистоте" так и пониманию промпта.

Uni-1 УМЕЕТ редактировать картинки. Надо просто просить агента использовать именно Uni-1.

Uni-1 редактирует хуже, чем Банана, держит детали, но очень много шума. Агент говорит, что это стилизация под киношное зерно и так задумано.

Uni-1 умеет принимать до 9 референсов на вход (надо сильно извратиться в интерфейсе, но можно сконструировать такую задачу)

Для Uni-1 есть параметр Seed (прям в интерфейсе) - но он НЕ работает. Агент выдает seed последней генерации, но повторная генерация по нему дает другую картинку.

Uni-1 (по сравнению с Бананой Про) сильно хуже в мелких текстах. Сгенерил, проверил, гречка. В крупных норм, но шумит.

Вердикт. Банана Про (даже не вторая), сильно лучше по всем параметрам на мой взгляд.

@cgevent
6😁65👍188
Сбер выложил GigaChat 3.1 Ultra и GigaChat 3.1 Lightning под MIT-лицензией.

Код и веса уже лежат в открытом доступе — любой желающий может адаптировать готовое решение Сбера под свои задачи.

По цифрам:
— Ultra: 702B параметров, из них 36B активных на токен, контекст 131K
— Lightning: 10B параметров, 1.8B активных, контекст 256K

GigaChat Ultra обходит Qwen3-235B-A22B и DeepSeek-V3-0324 в математике и general reasoning. А Lightning — маленькая MoE-модель, которая на аренах показывает уровень сильно выше того, что обычно ждёшь от формата с 1.8B активных параметров.

Команда разобралась с проблемой зацикливания. Перевели один из этапов пост-обучения в FP8 — это позволило снизить расход памяти примерно вдвое без заметной просадки по качеству. И ещё нашли критичный баг в SGLang, который мешал нормальной работе и портил результаты.

Это релиз, где видно взрослую инженерную работу: новая архитектура, MoE, длинный контекст, разбор реальных поломок, фиксы в пайплайне и нормальная попытка сделать открытые модели не для галочки, а для реального продакшена.

Подробнее: 👉 https://t.me/gigadev_channel/65

@cgevent
2🔥120👎108👍23😁149
Forwarded from AI Product | Igor Akimov
OpenAI запустила «Библиотеку» файлов в ChatGPT
Пока доступен для Pro-подписчиков и ограниченному числу Plus-пользователей и только вне ЕС.

Все файлы, которые вы когда-либо загружали в ChatGPT - документы, таблицы, презентации, картинки - теперь автоматически сохраняются в отдельном хранилище. Не нужно рыться по чатам, чтобы найти тот самый файл.
Можно прикрепить файл из библиотеки к новому чату через меню вложений.
Можно просто попросить ChatGPT найти нужный файл словами — например, «найди таблицу с бюджетом, которую я загружал на прошлой неделе».

Лимиты:
- 512 МБ на файл (жёсткий потолок)
- Текстовые документы — до 2 млн токенов на файл
- Таблицы CSV/Excel — до ~50 МБ
- Картинки — до 20 МБ
- 10 ГБ на пользователя, 100 ГБ на организацию

Раньше файлы жили внутри конкретных чатов. Удалил чат - потерял файл. Сейчас это полноценное персональное хранилище с возможностью переиспользования файлов между разными диалогами. По сути, ChatGPT движется в сторону рабочего пространства, а не просто чата.

https://help.openai.com/en/articles/20001052-file-storage-and-library-in-chatgpt
325👍21🔥7
Кроличья нора аудиогенераций

Youtube Music подсунул мне вчера песенку - кавер на Танцы на Стеклах - просто начал играть ее поле окончания плейлиста. Звучит классно с первых аккордов.

https://www.youtube.com/watch?v=SXolixKAjNc

Смотрю название группы - Vintage Vibes.

Послушал еще каверов от них. Хорошо. Чуть насторожился на англоязычных каверах. Чистейший вокал без акцента.

Полез в описание. И конечно обнаружил "AI generated"

Послушал еще - звучит отлично.

Тут Youtube мне начинает подсовывать еще такого стиля.

Слушаю, понимаю, что это уже другой канал, но замысел прежний - Джаз-каверы.

Копнул еще и провалился в кроличью нору: десятки каналов с ИИ-каверами на разные хиты. Причем русскоязычные. Без указания, что это ИИ, кстати.

Лепс: https://youtu.be/3v_GOHNvMuw?is=qoSZ9s2ojHiCpUvk
Звери: https://youtu.be/nMDspNO9wO0?is=F_yvfL7a14PW2r1E
Баста: https://youtu.be/PjH58ujYp8E?is=OxsYZaa-rIvsTGtB

Все это бесчисленные каналы с каверами.

Звучит, кстати, все очень достойно.

Это щас тренд такой, делать именно джаз-ии-каверы? Способ заработать такой? Но что-то с просмотрами не очень...

@cgevent
2😁17👎15👍7😱7
Генератор музыки от Гугла обновился

Lyria 3 Pro теперь может генерить треки до 3 минут, а не 30 секунд, как раньше.

Я проверил, действительно работает в Gemini https://gemini.google.com/ - создай, говорю мне фанка с синкопами.
- А пажалста!

В Гемини работает для платных планов (у меня дешевый Pro)

Зашел в Producer.ai - там тоже работает, генерит треки по 2+ минуты. Там, кстати, обещают доступ и для бесплатных планов.

Почитайте про доступы подробнее тут:
https://blog.google/innovation-and-ai/technology/ai/lyria-3-pro/

Звучит суховато, ни о каком сравнении с Суно речи не идет.

Ну и самое главное - функционал минимальный. Все это - окошко чата с кнопачками и галачками.

После Суно - это как бы игрушка.

Потестируйте звук сами.

Скачивает видосы со статической обложкой какого-то конского размера, по 25 мб.

@cgevent
1👍95😱4😁2
Media is too big
VIEW IN TELEGRAM
#Нейропрожарка

"Реклама автомобиля Torres от KGM"

Авторы: команда Maikers (@shura_mk, @Jason_hightop, @b0nus33)

Ролик делался в рамках участия в 24 часовом оффлайн хакатоне Skillout на площадке Сколково, где 24 команды ИИ креаторов по 3 человека в команде должны были сделать один или несколько рекламных роликов по брифам спонсоров, всего было 3 спонсора:
- 1. Машинка от KGM (он же SsangYong);
- 2. Смеси детского питания от бренда Kabrita;
- 3. Сервис по доставке и выращиванию съедобных цветов для ресторанов Ninja Goods).
Тайминг рекламы должен был быть от 30 секунд до 1 минуты строго. Мы выбрали рекламу машинок от KGM (он же SsangYong), решили уйти от идеи банальной рекламы и сделать что-то эпичное и запоминающееся (в итоге победила всё таки классическая реклама). Идея родилась быстро в течении 1 часа, с помощью естественного интеллекта, придумали показать машинку в экстремальных, апокалиптических условиях, которая спасает жизни в атмосфере полного спокойствия внутри. Время создания ролика примерно 20 часов от идеи до финальной реализации. Сразу решили, что для такой идеи будем использовать единственно возможный вариант, а именно seedance 2.0. Решили, что будет 4 сцены апокалипсиса (по 15 секунд на каждую):
1-ая: погоня от извергающегося вулкана сурового маскулинного мужика;
2-ая: погоня от неистового цунами семьи с ребенком;
3-ая: погоня из города полного зомби пожилой пары с харизматичной бабулей с толикой юмора;
4-ая: объединение всех выживших героев на прекрасных машинах) в лагере для выживших, куда ясное дело смогли приехать только обладатели машин от бренда).
На раскадровку в Банане про ушло порядка 6-8 часов, причем с учетом возможностей делать отличные самостоятельные мультишоты в Seedance 2, делали в основном только ключевые кадры, которые Seedance 2 потом сам разбивал на нужные кадры текстовыми промтами. Следующие 10 часов потратили на множество мультишотных генераций в сидансе, там где сиданс выдавал не достаточно референсный результат по отношению к интерьеру/экстерьеру машинки использовали Kling 3 (в основном крупные планы деталей авто). В итоге получилось примерно 7-8 минут супердинамичного видео, которое потом резали по живому оставляя самый сок.
Саундтрек выбирали пока генерится видео в сидансе. Заремиксили в Suno один из треков к фильму Безумный Макс.
Оставшиеся 2 часа потратили на максимально динамичный монтаж в Кап-кат про.
Совокупный бюджет плюс минус 100 долларов на подписки для 3-х человек в Хиггсе, seedance 2 и действущих во Flow.
Учитывая скорость создания видео, понятное дело без огрех не обошлось. В целом, хоть мы и не победили , хотелось бы узнать мнения на что можно было обратить внимание и сделать лучше.


@cgevent
2🔥46👎39👍2015😁12
Промпты типа "ты эксперт"

Иногда помогают, иногда мешают.

Интересный пост на эту тему:
https://www.linkedin.com/posts/ekiledjian_expert-personas-improve-llm-alignment-but-activity-7442170166022397952-ChNb/
Перевел его почти целиком.

Новое исследование Университета Южной Калифорнии («Экспертные персоны улучшают согласование с языковыми моделями, но ухудшают точность») протестировало экспертные подсказки для создания персон в шести крупных языковых моделях и, наконец, объясняет, почему сообщество получило такие противоречивые результаты.

Вывод прост, но важен: подсказки для создания персон — это инструмент согласования(alignment), а не инструмент получения знаний.

Когда персоны ПОМОГАЮТ:
→ Тон и стиль письма (оценки выросли с 7/10 до 9/10 при составлении профессиональных электронных писем)
→ Безопасность и отказ (устойчивость к взлому улучшилась до 17,7%)
→ Соблюдение формата, структурированный вывод и следование намерениям
→ Более длинные и подробные описания персон усиливают эти преимущества

Когда персоны ВРЕДЯТ:
→ Фактическая точность и поиск знаний (точность снизилась с 71,6% до 68,0%)
→ Математические и логические рассуждения (один пример ухудшился с 9/10 до 1,5/10)
Задачи программирования, требующие точного запоминания
→ Более длинные описания персон усугубляют ситуацию

Пять вещей, которые вы можете сделать прямо сейчас:

1. Используйте персоны для творческих, редакционных и задач, требующих соблюдения требований. Откажитесь от них для поиска фактов, вычислений и логики кода.

2. Размещайте описания персон в системном запросе, а не в сообщении пользователя — это важно для хорошо оптимизированных моделей.

3. Если вы используете модели рассуждений (например, DeepSeek R1), полностью откажитесь от использования экспертных персон. Исследования показывают, что случайная персона работает так же хорошо — модель выигрывает только от увеличения контекстной длины, а не от экспертных знаний.

4. Для повышения уровня безопасности одним из самых дешевых и эффективных способов является использование специальной "safety monitor" persona в системном запросе.

5. Когда вам необходимо использовать персону в работе, требующей высокой точности, делайте ее как можно короче, чтобы минимизировать помехи при запоминании фактов.

Итог: рассматривайте подсказки с описанием персон как усилитель тона и согласованности, а не как средство повышения уровня знаний. Знание того, когда их использовать, а когда убирать, является реальным конкурентным преимуществом.

@cgevent
4👍358🔥2😁2😱1
Гигантский датасет трехмерных голов.

Взяли и отсканировали 7547 человек, причем каждого с 11 выражениями лица ( счастье, печаль, гнев, удивление, страх, отвращение)

А дальше тщательно все отретопили и привели к двум топологиям на 200К и 7М полигонов для ВСЕХ лиц. Топологии между собой СОВПАДАЮТ, то есть можно их морфить между собой, как по эмоциям, так и по собственно людям. И получать бесконечное количество новых тварей.

Поглядите на сайт:
https://www.sp-6m.com/

Почитайте цифры.

Помимо 3Д, может пригодится для тренировки нейронок на синтетических лицах и распознавания эмоций.

Ничего скачать нельзя, за лицензированием и использованием надо обращаться в авторам проекта. Координаты на сайте.

Впечатляющий труд.

@cgevent
2🔥63😱169👍1
Dynamic VRAM: гики, обновите ComfyUI

Туда завезли оптимизацию VRAM и RAM. Меньше требования к памяти.

"Функция Dynamic VRAM кардинально меняет подход ComfyUI к обработке весов моделей, что значительно повышает плавность работы для пользователей, использующих оборудование с ограниченным объемом памяти"

https://blog.comfy.org/p/dynamic-vram-in-comfyui-saving-local

@cgevent
2🔥43😱62
This media is not supported in your browser
VIEW IN TELEGRAM
Вайб-метаверсинг

Новый и очень интересный проект от Гугла:
Vibe Coding XR: Accelerating AI + XR prototyping with XR Blocks and Gemini

Можно еще сказать - вайб-прототайпинг или вайб-3Дсборка

Речь идет о быстрой разработке приложений дополненной и виртуальной реальности (XR\VR), который позволяет превращать идеи в рабочие прототипы менее чем за минуту.

Ну и правда, обычные приложения уже вайб-кодят, можно взяться за пространственные интерфейсы.

Что внутри:

Связка Gemini + XR Blocks: Gemini выступает в роли эксперта-дизайнера и инженера, понимая пространственную логику.

XR Blocks - это open-source фреймворк на базе WebXR, который берет на себя сложные задачи: физику, распознавание окружения и взаимодействие рук.

Как это работает:

Пользователь описывает желаемое (голосом или текстом, например: «Создай интерактивную лабораторию физики»), и система за 60 секунд генерирует полностью функциональное приложение для Android XR или настольного браузера (в симуляторе).

Обязательно посмотрите примеры по ссылке внизу, вайб-метаверс как он есть.
Google показывает, что такой подход подходит не только для демо, но и для образовательных сценариев. Среди примеров — XR-приложения для геометрии, физики, химии и даже визуализации идеи кота Шрёдингера. По сути, компания продвигает будущее, в котором создание пространственных интерфейсов и учебных XR-опытов станет таким же быстрым и доступным, как сегодня генерация обычных веб-прототипов с ИИ наперевес.

https://research.google/blog/vibe-coding-xr-accelerating-ai-xr-prototyping-with-xr-blocks-and-gemini/

https://github.com/google/xrblocks

Демо: https://xrblocks.github.io/docs/samples/ModelViewer/

https://www.youtube.com/watch?v=nknCzIxHHzw

@cgevent
👍287👎4😱1
Runway Multi-Shot App

Все без исключения ролики выше сделаны по довольно простым и недлинным промптам.

Без всякого
"Камера1 - бежим
Камера2 - лежим
Камера3 - мешки ворочаем"

Ну то есть ИИ за вас делает мульти-ракурсы и сам решает, где порезать и куда поставить камеру и какой план взять: крупняк, погрудный или общий.

Мне нравится результат, но не нравится замысел. Юзеры, которые и так ни хрена не смыслят в монтаже, вконец потеряют мотивацию что-то изучать. И будут у нас Нейропрожарки по шаблонам Рунвея (и всех, кто это срочно скопирует).

Видео - это 95% монтаж. И он сложный, мать его.

Раскатывают тут:
https://app.runwayml.com/video-tools/teams/cgevent/ai-tools/generate?mode=apps

Если интересный промпты к видосам выше, то они тут:
https://x.com/runwayml/status/2037170118669500537

Лев, конечно, нарядный вышел:

A hyper realistic lion lying on a therapist couch, talking about how hard it is for him to eat the cutest animals. Why not snakes? Why not spiders? No… it has to be zebras. God damn.


@cgevent
👍32🔥196