Метаверсище и ИИще
49.8K subscribers
6.21K photos
4.8K videos
48 files
7.15K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Цены на Seedance 2.0 на самом BytePlus

Смотрим, сравниваем тут:
https://www.byteplus.com/en/activity/seedance2-0

Цены на API:
https://docs.byteplus.com/en/docs/ModelArk/1544106?redirect=1#video-generation

Из интересного: лайвстрим про историю и возможности Сидэнского:
https://www.byteplus.com/en/live/webinar-20260416

@cgevent
👍86😱1
То, что ИИ умеет писать код, уже давно не новость и все реже— предмет споров и обсуждений. А вот если заставить ИИ писать серьезную production-ready систему в большинстве случаев мы получаем красивую кучу мусора. 
И чем масштабнее система — тем дороже этот мусор обходится. Здесь старый принцип "Garbage in — garbage out" проявляется во всей красе.

Почему же вайб-кодинг не становится повсеместной корпоративной практикой? 

21 апреля обсудим все наболевшие вопросы: почему вайб-кодинг редко подходит для enteprise-систем, где ломаются rules, RAG и агенты, и как всё-таки сделать ИИ-разработку управляемой — без потери контроля и без ограничений для инженеров.

Спикер: Виктор Фадеев, руководитель продукта Джеймикс, Хоулмонт
Бесплатно, онлайн, 16:00 МСК.

👉 Зарегистрироваться
👎24😁113👍2😱2🙏1
Civitai.red и Civitai.green

Регуляторы добили Civitai.com за прием денег у населения за всякие непотребства, но они сделали ход конем!

"На Civitai.red будет размещено все, что есть на civitai.com сегодня. Полный каталог, полноценный генератор, полноценное сообщество. Криптовалютные платежи. Никаких новых ограничений. Если civitai.com - ваш дом сейчас, то civitai.red — это то, куда вы идете. Меняются только 3 буквы в URL."

Просто убрали фиатные платежи и полностью перешли на крипту.

Сайт Civitai.green будет перенаправляться на civitai.com, поэтому все закладки, все ссылки в старых статьях, все сообщения, которыми вы когда-либо делились с друзьями, будут по-прежнему попадать в нужное место. Просто никакого NSFW и непотребства (а просто унылое говно). Оплата кредитными картами, членство, полная программа для создателей контента и удобная для широкой публики платформа, с которой платежные системы готовы работать.

Ваш аккаунт, ваши публикации, ваши модели, ваши изображения, ваши посты, ваши подписчики - всё остаётся на своих местах. Ваш аккаунт работает везде, где бы вы ни находились. Ничего не удаляется, не переносится и не сбрасывается.

Кому интересно, вот эмоциональный текст от создателя:

"Вкратце: мы потеряли все основные платежные системы, кроме криптовалют. Не потому, что у нас слабая модерация. Это не так. Настоящая проблема заключается в структуре нашей работы.

Любой может загрузить модель. Любой может генерировать на её основе данные. Что получится в итоге, мы не можем обещать заранее, по крайней мере, с той точностью, которую хочет услышать отдел управления рисками. Такая открытость на сайте, где также размещается контент для взрослых, — это черта, которую Visa и её платежные системы не переступят. Неважно, сколько результатов нашей работы по обеспечению безопасности мы им покажем. Неважно, сколько некорректных выходных данных мы выявим. Форма платформы — это то, к чему они не прикоснутся, пока на ней размещается контент для взрослых.
"

@cgevent
🔥30👍74
Media is too big
VIEW IN TELEGRAM
#Нейропрожарка

Сантехник

Автор: Анатолий Гейко @anatoly_geyko

Тизер к пока еще не существующему фильму "Сантехник".
Идея фильма была придумана пару лет назад, о простом мужичке - сантехнике, которого любит весь двор как доброго и отзывчивого человека и профессионала своего дела. Который отзывался на любую нужду в помощи и брался за любую работу.

Проект был реализован за трое суток.
Создание персонажа - Миджорни 7, доработка персонажа Банана 2.
Генерация сториборда и итоговых изображений - банана 2.
анимация всего визуала кроме титров и лого - клинг 3.0
Анимация титров - вео.
Монтаж Премьер про.
При анимации активных разворотов персонажа в кадре, использовался клинг элементс с предоставлением карточки персонажа с разных ракурсов.
Запись голоса - элевенлабс 3.
Генерация музыки - суно 5 (в ролике использованы куски из трех разных треков).
Саундэффекты какие-то были вместе с видео от клинга, а доп звучки добивал из личной библиотеки.
Основной посыл ролика, показать драмеди.
Ах да, тизер еще делался как раз для конкурса от агрегатора синткс, но там победили нейрослопы))
Если в тг не грузит ролик, то можно посмотреть на
рутубе.

@cgevent
1👎52👍30😁144🔥3
Forwarded from эйай ньюз
ERNIE Image — новый открытый text2image генератор от Baidu

Довольно компактная 8B моделька довольно успешно соревнуется с заметно большим Qwen Image на бенчах, а также обходит Z-image по бенчам.

УДИВИТЕЛЬНО хорошо рендерит текст, для своего размера и разрешения (1MP).

Архитектурно это single stream MM-DiT. ERNIE Image кидает токены текста и патчи изображения в один общий трансформер с самого начала — никаких параллельных веток (как у Flux), все веса общие. Это проще и компактнее, при этом качество сопоставимое. Архитектурно похоже на Z-image, но проще.

Из интересных нюансов — авторы затюнили 3B LLM для перефразирования промптов юзеров, что заметно улучшает результаты, но модель можно запускать и без него. Вместе с обычными весами выпускают Turbo версию, которой нужно всего 8 шагов для генерации.

Модель запускается на 24GB VRAM, ещё и веса под Apache 2.0 (делать можно что угодно).

Го тестить, я уже поднял ее на своей H200 и модель действительно хороша!

На H200 из коробки 8 шагов генерит за 11 сек.


Демо
Блогпост
Веса
Код

@ai_newz
👍19🔥115😁3😱1
This media is not supported in your browser
VIEW IN TELEGRAM
Генерация реальных 3Д-миров, опенсорсная притом

Дядюшка Ху (Hunyuan) тизерит новый генератор миров.

В отличие от Genie 3 от Гугла, обещают не просто видео картинку, а прям настоящее 3Д, которое можно присовывать в игры например.
Я правда не удивлюсь, если там будут гауссианы, с возможностью конвертации в кашеобразную полигональную сетку.

Хотя у Ху есть один из лучших на рынке 3Д-генераторов - поэтому дождемся завтра.

Завтра обещают все это дело ОПЕНСОРСНУТЬ.

@cgevent
33🔥18👍6😱1
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Тут показали новую работу с Siggraph про сегментацию, ретопологию и работу с UV, выбрали в общем целью работы самые мразотные этапы не достойные художников!

На странице проекта можно прочитать много текста про новую модель, алгоритм обработки данных и макроструктурные семантические подсказки, но результат остается таким, что все еще человеческие ручки делают эту работу точнее, удобнее, эстетичнее и дольше. Эта дифференциация может остаться такой и никогда не быть превзойденной алгоритмами, но для конечного результата в виде продукта и с точки зрения бизнеса может быть признано незначительным, тогда пальма первенства все равно уйдет алгоритмам.

И делайте вы хоть трижды более красивую сетку и режьте идеальные UV острова, все равно поверху пройдется DLSS6-7 и выставит в вас в глупом свете, как потратившим на эту же работу в 5 раз больше времени чем алгоритм, пусть и с кривыми результатами.

Project Page
Code пустой
Video (Youtube)
🔥15👍62😁1
Попробовал Ernie Image 8B

1. Ну такое.

2. Нет редактирования

3. Нет image2image

4. Пережигает цвета и контраст

5. Если включить улучшатор промпта, то объекты на картинке начинают жить своей жизнью (перебарщивает с креативностью). Смотрите как Белку развернуло (один и тот же сид).

6. В NSFW умеет примерно также как и все опенсорсы из коробки. Немного знает про сиськи и на этом все.

7. Кожа - пластик.

Как у вас?

Пробовал тут. Но там только модель Турбо. Логин гуглом. Есть поддержка Комфи.

@cgevent
10🔥6👍2
2026-й — это год, когда IT-шка переживает начало самой глубокой перестройки за последние 20 лет.

Каждый второй канал вещает о том, как Opus (или уже Mythos) закрывает джунов, агенты внедряются в бигтех, и что разработка больше не будет прежней.

Но что в этот момент происходит с руководителями?

А происходит вот что – рынок тихо меняет “условия контракта”. Потому что ожидания, инструменты и навыки не могут не меняться с контекстом того, что происходит в индустрии.

Возможно, AI и не заменит руководителей, но точно руководитель, который перестроился, заменит того, кто не захотел меняться.

Для этого мы и решили провести конфу Управление’26, для тех, кто хочет свериться с реальностью и понять, какие компетенции и инструменты нужны, чтобы остаться востребованным сегодня и будущем.

Регистрация здесь: https://stratoplan-school.com/management/hubcy/

Участие – бесплатное, при подписке на каналы спикеров или за символическую сумму.

Вещать для вас будут: ex-CТО Bookmate и Pure, а также техдир T-Tech, фаундер NEWHR, AI Program Manager из G42, Venture Principal чеков 1-10M $ в AI-стартапы, ex-PM в IBM и ex-CIO Volvo, и ex-Associate Managing Consultant в MasterCard + тренеры Школы

Даты и формат – 20-23 апреля, онлайн (но будут доступны и записи)

Для кого — лидов, head of smth, СхО и фаундеров.
👎3527👍26🔥12
Память для LLM-агентов

По мотивам дискуссии про MemPalace.

Потрясающе полный и энциклопедический обзор решений для управления памятью от Сергея Николенко.

Первый вопрос, возникающий при начале разговора о памяти для LLM-агентов, звучит так: а зачем это вообще? Контексты давно выросли до миллиона, а то и двух миллионов токенов. Да, конечно, весь интернет туда никогда не поместится, но RAG (retrieval-augmented generation) тоже уже очень давно развивается. Казалось бы, можно впихнуть в миллионный контекст все результаты RAG-поиска, да и всё?

На самом деле не совсем.


https://www.sergeynikolenko.ru/blog/llm-memory-20-20-hindsight

@cgevent
👍16👎64🔥2
Свежие слухи: по информации The Information, Anthropic может вскоре представить модель Claude Opus 4.7, а также AI-инструмент для создания сайтов, презентаций и вообще UI-дизайна - релиз ожидают уже на этой неделе. На этом фоне акции Adobe, Wix и Figma просели более чем на 2%, хотя прямая связь с конкретными слухами остается неочевидной. Gamma и Google Stich нервно закуривают.

Подробно тут:
https://www.reddit.com/r/AIGuild/s/WJDAMj5YQh

https://www.theinformation.com/briefings/exclusive-anthropic-preps-opus-4-7-model-ai-design-tool

@cgevent
20🔥13😁5
Nucleus Image

Вы будете смеяцца, но у нас новый генератор картинок. Опенсорсный притом.

И довольно интересный.

Спойлер: веса есть, отличный техрепорт есть, сайт есть, а вот код еще не залит, хотя они все из себя “truly open” и отдельно отмечают “Day 0 support in Hugging Face diffusers library.”

Протестировать не могу, надергал картинок пока. Лица на картинках не очень пока.

Из интересного.
Nucleus AI - очень ранняя AI-компания из San Francisco, основанная в 2023 году. По публичному профилю LinkedIn она выглядит как маленькая команда размером 2–10 человек. Выпускали LLM nucleus-22B-token-500B в 2023.

Два часа назад бахнули Nucleus-Image, text-to-image модель на базе sparse Mixture-of-Experts diffusion transformer. На сайте они называют ее “the 1st Sparse MoE Diffusion Transformer”, а в model card пишут, что у модели 17B total parameters, из которых на один проход активируется только около 2B, и что в архитектуре используется 64 routed experts. Отдельно они подчеркивают, что это base model without post-training: без DPO, RL и human preference tuning.

Из model card и блога вырисовывается вот такой стек. Это 32-layer diffusion transformer, где 29 из 32 блоков используют sparse MoE вместо dense FFN; первые 3 dense-слоя оставлены ради стабильности обучения. В attention у них Grouped-Query Attention.

Текстовый энкодер — Qwen3-VL-8B-Instruct, а image tokenizer/VAE — Qwen-Image VAE (16ch).

У них реально очень большой датасет, и это одна из причин, почему модель выглядит интересной.

По их официальному paper:
~1.5 миллиарда training пар (image + caption)
~700 миллионов уникальных изображений

Судя по размеру весов, должно влезть со скрипом в 16GB.

Судя по замыслу, должно считать быстро.

Будем тестировать, как только появится код.

https://withnucleus.ai/image
Статья: https://huggingface.co/blog/NucleusAI/nucleus-image
Веса: https://huggingface.co/NucleusAI/NucleusMoE-Image
Техрепорт: https://arxiv.org/html/2604.12163v1
Гитхабло: https://github.com/WithNucleusAI/Nucleus-Image

@cgevent
👍206🔥2👎1
Media is too big
VIEW IN TELEGRAM
#Нейропрожарка

Моно-спектакль

Автор: Режиссер Эльшан Алескеров

https://www.behance.net/09b4b23b
https://www.instagram.com/elshansovnet/


🛠 Задача: создать
скетч-трейлер с собственным лицом
⏱️ Срок: примерно месяц.
💡 Как всё началось: Был заказ сделать ролик на др человеку с его лицом. НЕ справился с задачей, поэтому решил потренироваться на своем
🎬 Я работал в театре, поэтому решил сделать театральный трейлер. Упростил максимально сценарий, чтобы было проще генерить. Главное было придумать максимально простые мизансцены
🔎 Что я пробовал:
Изначально хотел делать с липсинком, но клинг с нэтив аудио совсем не справлялся. А делать именно липсинк он с моим голосм не делал. Вернее так, он делал, но только простые сцены с крупным планом, а чтобы объект был в движении или стоял под углом, липсинк клинг не справлялся (ну или я не смог). ДУмал через хейген, но он годен только для аватаров (ну или я не смог)
Процесс работы:
1. Написание сценария и раскадровка. Это вручную
2. Создание промтов. Делал через переплексити и чатгпт. Писал им запрос на русском и просил перевести на английский промт и адаптировать его под нано-банана
3. Генерил картинки в
Kie.ai. Для первой картинки приложил свою фотку как референс и картинку с костюмом, и покемонами для галстука. Далее в каждой картинке прилагал сделанную первый раз картинку как рефере6нс и просил взять персонажа оттуда и добавлял референсы места, в который следуент поместить героя. В эпизоде с туалетом взял кадр с фильма "На игле"
4. Далее покадрово анимировал в клинге. Изначально хотел делать с трясущейся камерой. Но такой эффект выходил странным, клинг много ошибок допускал. Решил делать все сцены статичными. Тяжелее всего было с физикой эпизодов в туалете: щупальца долго не хотели вылезать именно из туалета
5. Собирал в премьере всё. Озвучка минимакс. Эффекты тоже премьеровские
6. Финальную картинку сделал в чатгпт.

Потрачено примерно 60-80 долларов

Итог - получился
скетч

@cgevent
👍77👎19🔥157😁7
Media is too big
VIEW IN TELEGRAM
Начали выкладывать код HY-World 2.0

Если кратко, это опенсорсный Marble.


HY-World 2.0 - это мультимодальная модель мира для генерации и реконструкции окружающего мира. Она принимает различные входные данные — текст, изображения с одного ракурса, изображения с нескольких ракурсов и видео и создает трехмерные представления мира (сетки / гауссианы).

Она предлагает две основные возможности:

1. Генерация мира (текст / отдельное изображение → 3D-мир): синтезирует высококачественные, навигационные 3D-сцены с помощью четырехэтапного метода

а) генерация панорам с использованием HY-Pano 2.0
б) Планирование траектории с использованием WorldNav
в) Расширение мира с использованием WorldStereo 2.0
г) сборка мира с использованием WorldMirror 2.0 и обучения 3DGS.


2. Реконструкция мира (многоракурсные изображения/видео → 3D):

Используется WorldMirror 2.0, унифицированную модель прямого распространения, которая одновременно предсказывает глубину, нормали поверхности, параметры камеры, 3D-облака точек и атрибуты 3DGS за один проход прямого распространения.

Пока выложили только код и веса World Mirror 2.0

Требования к железу пока неведомы.

Код здесь:
https://github.com/Tencent-Hunyuan/HY-World-2.0?tab=readme-ov-file

Там же ссылки на сайт (лежит под нагрузкой), архив и веса.

Завтра буду смотреть подробнее.

@cgevent
👍16🔥143
У HappyHorse теперь есть свой твиттор

Там они пишут, что никаких официальных вебсайтов не существует. А имеющиеся - это фейки.

Еще они пишут, что доступны на:
https://arena.ai/leaderboard/video-edit

В режиме слепого тестирования.

Но самое главное: "Сейчас мы находимся на финальном этапе оптимизации перед официальным запуском, который состоится через две недели."

Мой прогноз про 30 апреля пока сбывается.

@cgevent
🔥217👍1
Lyra 2.0: еще один опенсорсный генератор миров. От Nvidia

После HY-World 2.0 выглядит сильно попроще.

Это просто генератор видосов-пролетов по миру, который был создан по одной или нескольким картинкам.

У Нвидии уже была первая верия Lyra 1.0 год назад - тогда это называлось генератор сцен, а не миров.

Теперь это зовется по моде - генератор миров. Понятно зачем это Нвидии - они в такие миры запускают робатов для тренировки функционирования в реальных мирах.

Поэтому у них нет требования в высокохудожественному реализьму.

"Полученное видео может быть дополнительно преобразовано в 3D-модели и сетки, которые затем могут быть напрямую экспортированы в физические движки для последующих приложений. Мы приводим примеры экспорта сцены в NVIDIA Isaac Sim для физически обоснованной навигации и взаимодействия роботов, демонстрируя потенциал масштабируемого моделирования воплощенного"

Я копнул глубже - все это построено на на базе WAN 2.1 14B. Поэтому я не ожидаю хорошего качества картинки, хотя видосы у них, как обычно, сладкие.

Видосы смотрим тут:
https://research.nvidia.com/labs/sil/projects/lyra2/

Код, веса, папира тут:
https://github.com/nv-tlabs/lyra

@cgevent
16👍4