Метаверсище и ИИще
49.8K subscribers
6.2K photos
4.79K videos
48 files
7.14K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Media is too big
VIEW IN TELEGRAM
DreamLite: Генерация картинок на телефоне за 3 секунды.

Итак, DreamLite делает генерацию в 4 шага, создавая или редактируя изображение размером 1024×1024 за ~3 секунды (с использованием 4-битного Qwen VL и fp16 VAE+UNet) на iPhone 17 Pro - полностью на устройстве, без подключения к облаку.

Модель маленькая (0.39B), да удаленькая. По тестам побивает аналогичные модели. И она редактирующая.

Примечательно то, что что это опенсорс - на гитхабе уже есть инструкции по установке, но нет пока кода.
И то, что они хотят сделать мобильные приложения IOS и Android. Не требующие подключения к сети.

А еще это Bytedance - папа Сидэнского.

Картинки и ссылки на код тут:
https://carlofkl.github.io/dreamlite/

@cgevent
🔥306👍1
Time Freeze в Seedance 2.0

Сейчас идет некий флешмоб Bullet Time и Time Freeze, вижу много такого добра.

Интересно, что промпт может быть как короткий, так и очень замысловатый.

Держите пару примеров.

Use image as the starting frame for a single, continuous shot in freeze time. The camera dramatically weaves through the completely frozen scene.


@Image1 is the lead character - maintain identical facial features, proportions, and identity throughout. He is wearing round clear glasses, a black hoodie and brown cargo pants. Create a 15-second ultra-photorealistic cinematic time-freeze sequence with an ARRI Alexa Mini look, 50mm lens, natural daylight, strong shadows, shallow depth of field, and subtle film grain. The scene opens on a busy city sidewalk in full motion, captured in a front-facing steadicam shot tracking backward as he walks calmly toward camera through a natural flow of pedestrians while pigeons cross the bright sky above; without breaking stride, he casually raises his hand and snaps his fingers. Instantly, a bright spherical shockwave erupts from his hand, with visible air distortion and refracted light, expanding rapidly across the environment, freezing dust and debris mid-air, locking pedestrians in place mid-motion, and suspending pigeons mid-flight as reflections ripple across surrounding glass buildings before everything falls into complete stillness and silence, with fine particles hanging in the sunlight. The camera continues gliding backward as he walks through the frozen world, his footsteps the only sound, subtly observing his surroundings before approaching a frozen woman with striking red hair in a flowing green dress, her hair suspended mid-motion as she holds a takeaway coffee. He steps in, briefly studies the moment, removes the cup from her hand, takes a síp, then carefully places it back exactly as it was. He then turns his attention to the camera, raises his hand again, and snaps his fingers, releasing a more powerful shockwave that rapidly spreads outward, reversing the effect as motion instantly resumés - pedestrians continue walking, pigeons scatter into flight, the woman carries on unaware still holding her coffee, and debris drops naturally to the ground as full city sound returns. He pauses for a brief moment, then continues walking forward, gradually blending into the crowd while the camera keeps tracking backward, maintaining distance as he disappears into the flow, ending in a smooth fade out. Sound design follows the sequence: city ambience, sharp snap, deep expanding shockwave rumble, complete silence, isolated footsteps, subtle ambient echo, sip, second snap, stronger reverse shockwave, city noise returning, brief pause, then footsteps continuing.



@cgevent
🔥438👍7👎2
This media is not supported in your browser
VIEW IN TELEGRAM
Stretchy Studio: Риг для анимации аниме.

Очень интересный проект.
В конце марта отложил себе в закладки модель:
See-through: Single-image Layer Decomposition for Anime Characters

Она берёт одно статическое аниме-изображение и разбивает его на 23 отдельных слоя, готовых для риггинга и анимации. Вы получаете PSD-файл с 23 слоями (более 30, если включить разделение по сторонам и глубине), а дальше вам как-то надо это анимировать. А чтобы анимировать, надо как-то это заригать.

Тут надо сказать, что речь идет о плоской анимации - это поляна таких софтов как Adobe Character Animator, Toon Boom Harmony, Live2D, Spine. Олды могут вспомнить Flash и Director.

Так вот, один чувак взял и соединил разные опенсорсные модели и сделал авториг для таких разобранных на слои персонажей. Создается скелет для анимации разных частей тела.
Получается: Генерация картинки -> Статическое изображение -> удаление фона -> разложение на элементы слои -> Stretchy Studio.

Более того, он даже интегрировал DWPose для автогенерации скелета для всего персонажа, а не только частей.

Приложение поддерживает многослойное управление, отдельный порядок отрисовки и использует прямую анимацию ключевых кадров, аналогичную After Effects. Есть даже экспорт в Spine.

Полный код тут:
https://github.com/MangoLion/stretchystudio

Надо также заметить, что модель See-through, лежащая в основе проекта натренирована на "расчленении" именно аниме контента. Поэтому применение Stretchy Studio ограничено (пока) только анимэ-анимацией. Впрочем, можно пытаться присунуть туда и другие стили. Лишь бы не было много рогов и копыт, а были в основном девочки и мальчики.

@cgevent
🔥22👍42👎2😁1
Цены на Seedance 2.0 на самом BytePlus

Смотрим, сравниваем тут:
https://www.byteplus.com/en/activity/seedance2-0

Цены на API:
https://docs.byteplus.com/en/docs/ModelArk/1544106?redirect=1#video-generation

Из интересного: лайвстрим про историю и возможности Сидэнского:
https://www.byteplus.com/en/live/webinar-20260416

@cgevent
👍86😱1
То, что ИИ умеет писать код, уже давно не новость и все реже— предмет споров и обсуждений. А вот если заставить ИИ писать серьезную production-ready систему в большинстве случаев мы получаем красивую кучу мусора. 
И чем масштабнее система — тем дороже этот мусор обходится. Здесь старый принцип "Garbage in — garbage out" проявляется во всей красе.

Почему же вайб-кодинг не становится повсеместной корпоративной практикой? 

21 апреля обсудим все наболевшие вопросы: почему вайб-кодинг редко подходит для enteprise-систем, где ломаются rules, RAG и агенты, и как всё-таки сделать ИИ-разработку управляемой — без потери контроля и без ограничений для инженеров.

Спикер: Виктор Фадеев, руководитель продукта Джеймикс, Хоулмонт
Бесплатно, онлайн, 16:00 МСК.

👉 Зарегистрироваться
👎22😁113👍2😱2🙏1
Civitai.red и Civitai.green

Регуляторы добили Civitai.com за прием денег у населения за всякие непотребства, но они сделали ход конем!

"На Civitai.red будет размещено все, что есть на civitai.com сегодня. Полный каталог, полноценный генератор, полноценное сообщество. Криптовалютные платежи. Никаких новых ограничений. Если civitai.com - ваш дом сейчас, то civitai.red — это то, куда вы идете. Меняются только 3 буквы в URL."

Просто убрали фиатные платежи и полностью перешли на крипту.

Сайт Civitai.green будет перенаправляться на civitai.com, поэтому все закладки, все ссылки в старых статьях, все сообщения, которыми вы когда-либо делились с друзьями, будут по-прежнему попадать в нужное место. Просто никакого NSFW и непотребства (а просто унылое говно). Оплата кредитными картами, членство, полная программа для создателей контента и удобная для широкой публики платформа, с которой платежные системы готовы работать.

Ваш аккаунт, ваши публикации, ваши модели, ваши изображения, ваши посты, ваши подписчики - всё остаётся на своих местах. Ваш аккаунт работает везде, где бы вы ни находились. Ничего не удаляется, не переносится и не сбрасывается.

Кому интересно, вот эмоциональный текст от создателя:

"Вкратце: мы потеряли все основные платежные системы, кроме криптовалют. Не потому, что у нас слабая модерация. Это не так. Настоящая проблема заключается в структуре нашей работы.

Любой может загрузить модель. Любой может генерировать на её основе данные. Что получится в итоге, мы не можем обещать заранее, по крайней мере, с той точностью, которую хочет услышать отдел управления рисками. Такая открытость на сайте, где также размещается контент для взрослых, — это черта, которую Visa и её платежные системы не переступят. Неважно, сколько результатов нашей работы по обеспечению безопасности мы им покажем. Неважно, сколько некорректных выходных данных мы выявим. Форма платформы — это то, к чему они не прикоснутся, пока на ней размещается контент для взрослых.
"

@cgevent
🔥28👍53
Media is too big
VIEW IN TELEGRAM
#Нейропрожарка

Сантехник

Автор: Анатолий Гейко @anatoly_geyko

Тизер к пока еще не существующему фильму "Сантехник".
Идея фильма была придумана пару лет назад, о простом мужичке - сантехнике, которого любит весь двор как доброго и отзывчивого человека и профессионала своего дела. Который отзывался на любую нужду в помощи и брался за любую работу.

Проект был реализован за трое суток.
Создание персонажа - Миджорни 7, доработка персонажа Банана 2.
Генерация сториборда и итоговых изображений - банана 2.
анимация всего визуала кроме титров и лого - клинг 3.0
Анимация титров - вео.
Монтаж Премьер про.
При анимации активных разворотов персонажа в кадре, использовался клинг элементс с предоставлением карточки персонажа с разных ракурсов.
Запись голоса - элевенлабс 3.
Генерация музыки - суно 5 (в ролике использованы куски из трех разных треков).
Саундэффекты какие-то были вместе с видео от клинга, а доп звучки добивал из личной библиотеки.
Основной посыл ролика, показать драмеди.
Ах да, тизер еще делался как раз для конкурса от агрегатора синткс, но там победили нейрослопы))
Если в тг не грузит ролик, то можно посмотреть на
рутубе.

@cgevent
1👎46👍29😁123🔥3
Forwarded from эйай ньюз
ERNIE Image — новый открытый text2image генератор от Baidu

Довольно компактная 8B моделька довольно успешно соревнуется с заметно большим Qwen Image на бенчах, а также обходит Z-image по бенчам.

УДИВИТЕЛЬНО хорошо рендерит текст, для своего размера и разрешения (1MP).

Архитектурно это single stream MM-DiT. ERNIE Image кидает токены текста и патчи изображения в один общий трансформер с самого начала — никаких параллельных веток (как у Flux), все веса общие. Это проще и компактнее, при этом качество сопоставимое. Архитектурно похоже на Z-image, но проще.

Из интересных нюансов — авторы затюнили 3B LLM для перефразирования промптов юзеров, что заметно улучшает результаты, но модель можно запускать и без него. Вместе с обычными весами выпускают Turbo версию, которой нужно всего 8 шагов для генерации.

Модель запускается на 24GB VRAM, ещё и веса под Apache 2.0 (делать можно что угодно).

Го тестить, я уже поднял ее на своей H200 и модель действительно хороша!

На H200 из коробки 8 шагов генерит за 11 сек.


Демо
Блогпост
Веса
Код

@ai_newz
👍16🔥115😁3😱1
This media is not supported in your browser
VIEW IN TELEGRAM
Генерация реальных 3Д-миров, опенсорсная притом

Дядюшка Ху (Hunyuan) тизерит новый генератор миров.

В отличие от Genie 3 от Гугла, обещают не просто видео картинку, а прям настоящее 3Д, которое можно присовывать в игры например.
Я правда не удивлюсь, если там будут гауссианы, с возможностью конвертации в кашеобразную полигональную сетку.

Хотя у Ху есть один из лучших на рынке 3Д-генераторов - поэтому дождемся завтра.

Завтра обещают все это дело ОПЕНСОРСНУТЬ.

@cgevent
31🔥17👍5
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Тут показали новую работу с Siggraph про сегментацию, ретопологию и работу с UV, выбрали в общем целью работы самые мразотные этапы не достойные художников!

На странице проекта можно прочитать много текста про новую модель, алгоритм обработки данных и макроструктурные семантические подсказки, но результат остается таким, что все еще человеческие ручки делают эту работу точнее, удобнее, эстетичнее и дольше. Эта дифференциация может остаться такой и никогда не быть превзойденной алгоритмами, но для конечного результата в виде продукта и с точки зрения бизнеса может быть признано незначительным, тогда пальма первенства все равно уйдет алгоритмам.

И делайте вы хоть трижды более красивую сетку и режьте идеальные UV острова, все равно поверху пройдется DLSS6-7 и выставит в вас в глупом свете, как потратившим на эту же работу в 5 раз больше времени чем алгоритм, пусть и с кривыми результатами.

Project Page
Code пустой
Video (Youtube)
🔥14👍52😁1
Попробовал Ernie Image 8B

1. Ну такое.

2. Нет редактирования

3. Нет image2image

4. Пережигает цвета и контраст

5. Если включить улучшатор промпта, то объекты на картинке начинают жить своей жизнью (перебарщивает с креативностью). Смотрите как Белку развернуло (один и тот же сид).

6. В NSFW умеет примерно также как и все опенсорсы из коробки. Немного знает про сиськи и на этом все.

7. Кожа - пластик.

Как у вас?

Пробовал тут. Но там только модель Турбо. Логин гуглом. Есть поддержка Комфи.

@cgevent
7👍2🔥2
2026-й — это год, когда IT-шка переживает начало самой глубокой перестройки за последние 20 лет.

Каждый второй канал вещает о том, как Opus (или уже Mythos) закрывает джунов, агенты внедряются в бигтех, и что разработка больше не будет прежней.

Но что в этот момент происходит с руководителями?

А происходит вот что – рынок тихо меняет “условия контракта”. Потому что ожидания, инструменты и навыки не могут не меняться с контекстом того, что происходит в индустрии.

Возможно, AI и не заменит руководителей, но точно руководитель, который перестроился, заменит того, кто не захотел меняться.

Для этого мы и решили провести конфу Управление’26, для тех, кто хочет свериться с реальностью и понять, какие компетенции и инструменты нужны, чтобы остаться востребованным сегодня и будущем.

Регистрация здесь: https://stratoplan-school.com/management/hubcy/

Участие – бесплатное, при подписке на каналы спикеров или за символическую сумму.

Вещать для вас будут: ex-CТО Bookmate и Pure, а также техдир T-Tech, фаундер NEWHR, AI Program Manager из G42, Venture Principal чеков 1-10M $ в AI-стартапы, ex-PM в IBM и ex-CIO Volvo, и ex-Associate Managing Consultant в MasterCard + тренеры Школы

Даты и формат – 20-23 апреля, онлайн (но будут доступны и записи)

Для кого — лидов, head of smth, СхО и фаундеров.
👎3327👍26🔥11
Память для LLM-агентов

По мотивам дискуссии про MemPalace.

Потрясающе полный и энциклопедический обзор решений для управления памятью от Сергея Николенко.

Первый вопрос, возникающий при начале разговора о памяти для LLM-агентов, звучит так: а зачем это вообще? Контексты давно выросли до миллиона, а то и двух миллионов токенов. Да, конечно, весь интернет туда никогда не поместится, но RAG (retrieval-augmented generation) тоже уже очень давно развивается. Казалось бы, можно впихнуть в миллионный контекст все результаты RAG-поиска, да и всё?

На самом деле не совсем.


https://www.sergeynikolenko.ru/blog/llm-memory-20-20-hindsight

@cgevent
👍13👎43🔥1
Свежие слухи: по информации The Information, Anthropic может вскоре представить модель Claude Opus 4.7, а также AI-инструмент для создания сайтов, презентаций и вообще UI-дизайна - релиз ожидают уже на этой неделе. На этом фоне акции Adobe, Wix и Figma просели более чем на 2%, хотя прямая связь с конкретными слухами остается неочевидной. Gamma и Google Stich нервно закуривают.

Подробно тут:
https://www.reddit.com/r/AIGuild/s/WJDAMj5YQh

https://www.theinformation.com/briefings/exclusive-anthropic-preps-opus-4-7-model-ai-design-tool

@cgevent
15🔥10😁3
Nucleus Image

Вы будете смеяцца, но у нас новый генератор картинок. Опенсорсный притом.

И довольно интересный.

Спойлер: веса есть, отличный техрепорт есть, сайт есть, а вот код еще не залит, хотя они все из себя “truly open” и отдельно отмечают “Day 0 support in Hugging Face diffusers library.”

Протестировать не могу, надергал картинок пока. Лица на картинках не очень пока.

Из интересного.
Nucleus AI - очень ранняя AI-компания из San Francisco, основанная в 2023 году. По публичному профилю LinkedIn она выглядит как маленькая команда размером 2–10 человек. Выпускали LLM nucleus-22B-token-500B в 2023.

Два часа назад бахнули Nucleus-Image, text-to-image модель на базе sparse Mixture-of-Experts diffusion transformer. На сайте они называют ее “the 1st Sparse MoE Diffusion Transformer”, а в model card пишут, что у модели 17B total parameters, из которых на один проход активируется только около 2B, и что в архитектуре используется 64 routed experts. Отдельно они подчеркивают, что это base model without post-training: без DPO, RL и human preference tuning.

Из model card и блога вырисовывается вот такой стек. Это 32-layer diffusion transformer, где 29 из 32 блоков используют sparse MoE вместо dense FFN; первые 3 dense-слоя оставлены ради стабильности обучения. В attention у них Grouped-Query Attention.

Текстовый энкодер — Qwen3-VL-8B-Instruct, а image tokenizer/VAE — Qwen-Image VAE (16ch).

У них реально очень большой датасет, и это одна из причин, почему модель выглядит интересной.

По их официальному paper:
~1.5 миллиарда training пар (image + caption)
~700 миллионов уникальных изображений

Судя по размеру весов, должно влезть со скрипом в 16GB.

Судя по замыслу, должно считать быстро.

Будем тестировать, как только появится код.

https://withnucleus.ai/image
Статья: https://huggingface.co/blog/NucleusAI/nucleus-image
Веса: https://huggingface.co/NucleusAI/NucleusMoE-Image
Техрепорт: https://arxiv.org/html/2604.12163v1
Гитхабло: https://github.com/WithNucleusAI/Nucleus-Image

@cgevent