Метаверсище и ИИще
46.7K subscribers
5.93K photos
4.34K videos
45 files
6.81K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Еще один генератор картинок.

Микрософт выкатил в доступ СВОЙ генератор картинок MAI-Image-1


Причем вы можете его бесплатно поюзать и пощупать лимиты тут:
https://www.bing.com/images/ (чтобы увидеть эту модель нужен штатовский впн)

У них на сайте и в твитторе все сладенько, но я чуть поковырялся.

1. Очень странный выбор аспектов: 1:1, 2:3, 3:2. И все.
2. Довольно жесткий лимит на количество символов в промпте. Мало.
3. Следование промпту хорошее, но качество.. в общем потестируйте сами.
4. Цензура жоская.
5. Можно выбрать модели DALLE-3(!) и GPT-4o.
6. Есть кнопки Edit Image и Animate Image(10 генераций в режиме Fast, в Standard - несколько часов на видео).
7. Есть видеогенерация - это Сора 2, 480P, 5 sec. 10 генераций.


Го теститровать.

@cgevent
👍16
Media is too big
VIEW IN TELEGRAM
Нейропрожарка

Автор: Екатерина Пинаева @pin_ai_eva

Darkness / «Темнота»

Анимационный AI-ролик о внутреннем исцелении. О том, как страх темноты оказывается не про ночь, а про детскую травму. Когда взрослый приходит в это воспоминание из прошлого, «темнота» перестаёт быть врагом.

Цель: сгенерировать широкоформатный ролик (16:9), обязательно: говорящий персонаж в одном из кадров, естественная анимация лица, целостность идеи.

Срок: 5 дней

Уровень: занимаюсь нейросетями с августа 2025 года, до этого – руководитель SMM-направления в СМИ.

Идея: основана на реальной психотерапевтической практике. По совету одного режиссёра решила пойти от самой сильной пережитой эмоции за последнее время. И для меня это – страх темноты, причину которого удалось найти на психотерапии, а значит решить проблему.

Сюжет: взрослый мужчина, у него бессонница, он не может заснуть, включает и выключает свет. Смотрит в темноту и ему мерещится что-то жуткое в двери комнаты.

▪️Генерация картинок: MJ (--sref 2856012573) + Nano Banana + Seedream 4
▪️Анимация видео: Veo 3.1 Fast + Kling 2.1 (генерация по 2 кадрам для морфинга) + Topaz (2X)
▪️Звук: Suno – музыка в конце, бесплатные стоки звуков, звуки в CapCut
▪️Монтаж: CapCut

Отдельно расскажу про шрифт в названии и в конце ролика: делала с помощью MJ. Написала название обычным шрифтом на черном фоне, добавила в MJ в --omni reference 1000 тем же --sref 2856012573. Он выдал с ошибками, поэтому в Nano Banana исправила на корректное название. Так же делала свое имя в конце, чтобы все было в единой стилистике.

Траты:
Подписка MJ $30 (15 Fast-часов)
Подписка ELITE у Syntx (все остальное) – $65 (потрачено не всё)


@cgevent
👍83🔥2617👎10
Forwarded from AI Product | Igor Akimov
LMSYS запустили Arena Expert – новую систему оценки LLM на реальных экспертных задачах.

В чём идея:
Обычная Chatbot Arena отлично работает для средних задач, но не показывает, как модели справляются с реальным экспертным уровнем – задачами математиков, врачей, программистов, юристов. Теперь появился отдельный лидерборд для таких промптов.

Как определяют "эксперта":
Только 5.5% всех промптов попадают в категорию Expert
Используют DeepSeek-v3 для автоматической разметки по признакам глубокого понимания домена
Промпты должны демонстрировать продвинутое рассуждение, а не просто сложность

В прошлом году была категория Arena Hard – она захватывала ~33% промптов. Expert гораздо жёстче – всего 5.5%.
Ключевое отличие: Hard промпты могут быть просто технически сложными. Expert – это когда промпт явно от человека, который глубоко разбирается в теме.

Результаты топ-6:
Claude Sonnet 4.5 (thinking-32k)
Claude Opus 4.1 (thinking-16k)
Gemini 2.5 Pro
Qwen3 Max Preview
Qwen3-235b Thinking
GPT-5 High

Дополнительно ввели разбивку промптов по 23 профессиональным категориям. Самые популярные:

Software and IT Services – 28%
Writing, Literature, and Language – 25%
Life, Physical, and Social Science – 17%

Итого получилось, что
Claude доминирует в Software и Mathematical, Gemini 2.5 Pro лидирует в Writing и Science, OpenAI модели сильны в Medicine

Для определения лучшего "универсала" пересчитали рейтинг с равными весами по всем категориям. Результат:

1) Gemini 2.5 Pro
2) Claude Opus 4.1
3) o3 и GPT-5

Еще сравнили арену с GDPal (экспертных задачах с человеческой разметкой). LMArena использует автоматическую разметку LLM.
Порядок моделей в обоих случаях почти идентичен, что говорит: автоматическая разметка большого объёма данных может конкурировать с аккуратно размеченными бенчмарками.

В общем, если используете LLM для экспертных задач (код, математика, наука), смотрите на Expert лидерборд и специализированные категории, а не только на Overall.

Полный отчёт с примерами промптов: https://news.lmarena.ai/arena-expert/
Dataset: https://huggingface.co/lmarena-ai

Смотреть результаты тут: https://lmarena.ai/leaderboard/text/expert
👍189🔥4
Media is too big
VIEW IN TELEGRAM
Embodied Avatar: Full-body Teleoperation Platform

Unitree продолжает приближать восстание машин.

В первой части видео, кожаные в мокап датчиках переносят движение на робатов с поразительной точностью. Ну и это не удивительно. И приятно видеть, что ноги не проскальзывают, как обычно на мокапе.

Потом поглядите на чувака в футболке, без датчиков. Это уже нейромокап, движения считываются с видео.

Ну а потом идет демонстрация того, чему робаты научились у кожаных.

Глядя на это секс-индустрия должна немедленно взяться за дело: удаленный секс или вебкам приобретают совершенно новые оттенки. Движения можно передавать на расстояния и воплощать в секс-кукол нового уровня.

@cgevent
🔥177👍2😱1
This media is not supported in your browser
VIEW IN TELEGRAM
Мир Дикого запада все ближе.

Хорошее дополнение к предыдущему посту: XPeng выпустили женщину-робата с характерными признаками и фигурой.
И это правильно, а то все предыдущие показаные робаты были похожи на тупых мужиков.

Соединяем с мокапом из предыдущего поста и получаем прототип Мира Дикого Запада.

@cgevent
👍236🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
Ну ладно, мир дикого запада пока откладывается...

@cgevent
😁90😱2👍1👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Grok Imagine теперь умеет не только Image2Video, но и text2video.

По крайней мере в веб-версии на десктопе.
Но самое забавное следующее: я закинул в него абсолютно черное изображение без промпта и говорю, сделай видео.

Получил вот такое.

Сижу и думаю, это такая новая нормальная рекламная интеграция Самсунга?

А так как сида нет, то воспроизвести невозможно...

https://grok.com/imagine

@cgevent
😁55🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
Интересный ролик - Official trailer for the 2026 Winter Olympics

Студия из Франции сделала небольшой making of - его полезно посмотреть всем. Про то, как взрослые мальчики используют ИИ.
По сообщениям из сети, они сократили расходы на 20-30 процентов с помощью ИИ.

В титрах отдельно указали AI Artists

Можно предположить, что мы где-то на 20 процентах пути к полностью генеративному продакшену.

Но нет.

Часть задач (последняя миля) не решается с помощью ИИ.

Одна из них - монтаж.

Но об этом следующий пост.

Сам трейлер смотрите тут:
https://www.instagram.com/p/DQcIjrCjGYX/

Там же почитайте титры и список специальностей, чтобы у вас не было иллюзий, что "мы щас на кухне такое сгенерим"

@cgevent
41👍26🔥16
Монтаж промптов и нейроролики.

Принес вам полезный материал от Гугла:

The ultimate prompting guide for Veo 3.1
https://cloud.google.com/blog/products/ai-machine-learning/ultimate-prompting-guide-for-veo-3-1

Также почитайте много интересного про промпты для Veo тут:
https://github.com/snubroot/Veo-3-Meta-Framework

Похоже, что поляна видеогенерации остается островом, где промпт-инженеры еще не окончательно вымерли.
Можно встретить много гайдов как отдельно промптить WAN, как LTX, как Сору или как Veo.
Странно, что инфоцыгане тут еще не топчутся, видать поляна слишком маленькая.

Есть полуинфоцыгане, которые продают GPTшки, пишущие промпты под Veo и Сору. Есть кнопки Enhance prompt.

Но я сейчас не об этом.

В последних гайдах к Соре и Вео активно продвигается Timestamp prompting.

Это типа вот такого:
[00:00-00:02] Medium shot from behind a young female explorer with a leather satchel and messy brown hair in a ponytail, as she pushes aside a large jungle vine to reveal a hidden path.

[00:02-00:04] Reverse shot of the explorer's freckled face, her expression filled with awe as she gazes upon ancient, moss-covered ruins in the background. SFX: The rustle of dense leaves, distant exotic bird calls.

[00:04-00:06] Tracking shot following the explorer as she steps into the clearing and runs her hand over the intricate carvings on a crumbling stone wall. Emotion: Wonder and reverence.

И это как бы работает.

Мы получаем монтаж будущих генераций.

Но тут кроется одна загвоздка. Монтаж делается ПОСЛЕ съемок, перед съемками может быть раскадровка.

А монтаж делается глазками монтажера\режиссера\автора, на основе того что УЖЕ снято.

Судя по Нейропрожаркам, многие вообще не понимают, что такое хороший монтаж. И есть вполне реальная причина - жалко резать свои драгоценные генерации, тем более они денег стоят.

Но я приведу правило из видеопродакшена (в кинопродакшене немного не так): из всего отснятого материала в финальный ролик идет всего 10(десять) процентов материала.

Вы готовы выкинуть 70-90% от своих генераций? Порезать те, что уже отобраны как годные (мусор не считается).

Если не готовы, потренируйтесь на видео с телефона, поснимайте вокруг и убедитесь, что 90% можно\нужно выкинуть, чтобы получить плотный ролик, а не набор рыхлых затянутых планов.

Да, жалко резать оплаченные генерации, а что делать?

Поэтому весь этот Timestamp prompting - это попытка предмонтажа, если можно сказать превиза в голове на основе чтения, и способ сэкономить немного денег.

Но финальный монтаж неизбежен, и он жесток и циничен по отношению к вашим гениальным генерациям.

И как обучить ИИ хорошему монтажу, я пока не очень понимаю.
Как его заставить монтировать в латентном пространстве, а не на основе интерпретации картинок текстами, я не знаю.

@cgevent
645👍32🔥7
Media is too big
VIEW IN TELEGRAM
Нейропрожарка

Автор: @DartrNemec
YouTube

Цель: клип для нейрогруппы ВИА ДНО.

С выходом пятой версии Suno писать песни - одно удовольствие. Релизнув в сентябре свой первый альбом по старым стихам нулевых, решил второй альбом посвятить сказкам.

Написал пока две песни, и так мне зашла вторая, что решил на нее сварганить клип задолго до самого альбома (его думаю релизнуть в 26 году).

Год назад я делал клип "Шпили Вили", и это был скорее опыт, чем работа. Около месяца у меня ушло на генерацию хоть сколько-нибудь удобоваримых персонажей, локаций и танцев. Всё плыло, люди были ошметками в воздухе, локации изменялись каждую секунду.

За год нейронки выросли очень сильно, сдав несколько коммерческих проектов на нейронках, я уже с предвкушением, а не со скепсисом сел делать клип на свой собственный сюжет.

Главной связкой стал Midjourney и Nana Banana. MJ создавал концепты, Банана дорисовывала и исправляла недочеты, делала вариации, сохраняя консистенцию (когда хоть что-то делала, правда). Что допиливал в Фотошопе, что-то в самом редакторе MJ.

Если не справлялась Banana, то шел в Kling, и делал в нем различные варианты пролета камер, облета персонажей, сверху, снизу, сбоку, а потом выдирал нужные мне кадры, и работал уже с ними.

Открытием стал, конечно, Veo3: его ингредиенты - это будущее нейронок. Создав себе различных вариантов персонажей и локаций, я просто давал Veo указания, например: Черная женщина, кот и человек в костюме Ворона растерянно смотрят за кадр. И из трех вариантов был тот, что меня устраивал.

Получив нужные кадры в Вео, я выдирал из них рефы для Kling и работал уже там (он дешевле, быстрее, вариативнее). Всё, кроме Турбо 2.5 в помойку, только последняя версия, работает лучше всех.

Под конец работы я обленился так, что просто просил Банану вписать персонажа в пространство, он делал это максимально криво. Не беда, берем этого криво вписанного перса, в Фотошопе кидаем поверх локации туда, где он должен быть, без теней, без композа, и кормим опять же Kling с 10 секундной продолжительностью. Со второй секунды можно брать!

Удивительно в нейронках то, что чем больше ты работаешь с ними над проектом, тем проще и больше ты можешь делать. Когда ты снимаешь, то всё идет в обратную сторону: запланировал 100 кадров, снял 50, удачных 20, в монтаж вошли 10. Здесь же, когда начинаешь, у тебя ничего нет, кроме фантазии, под конец проекта, если тебе чего-то не хватает, то ты просто выбираешь из десятка наработок, ракурсов и видов персонажа, и идешь либо в ингредиенты Veo, либо собираешь новый концепт в Фотошопе (или редакторе MJ) и отдаешь его Kling.

Конечно, чем дольше Kling держит кадр, тем больше он сваливается в неестественную мультяшность, поэтому стабильно брал 2-5 секунд, остальное в помойку или под концепты других кадров.

Но при этом мне очень нравится, как Kling работает со светом, некая киношность в него вшита. Veo3 гораздо скромнее, предпочитая реалистичность в кадре, нежели эффектность. Но в этом и лайфхак - генерируешь реалистичных людей в Гугле, а потом в Kling заставляешь их делать фантастически сказочные вещи.

Самым большим вызовом, естественно, стал липсинг. Kling предложил мне аватара, и мне не понравилось. То есть, вроде неплохо, но мертво как-то. В поисках нормального аватара наткнулся на Дримину. И хотя видосы она генерирует слабенькие, но вот в плане Аватара меня она устроила абсолютно. Но работает ужасно долго, по часу приходилось ждать.

Из забавного, Kling никак не хотел генерировать ноги, поднимающиеся по лестнице. Пару раз он останавливал камеру, и вниз спускалась уже совершенно голая девушка безо всякой цензуры.

Что могу сказать, спустя год? Намного лучше стали движения людей, танцы стали очень последовательны, гораздо реже руки ноги отрываются и перетекают друг в друга. Лица на общаках все так же ужасны, но для социальных сетей, я считаю, гораздо важнее движение, а не детальность, никто это в кино смотреть не будет (пока).

По времени вся работа заняла 10 дней.
По деньгам:
Kling Ultra 127$ (остался с проекта)
Dreamina - 9$
Veo - 22$
Suno - 10$
MJ - годовая подписка 288$


@cgevent
🔥87👍23👎207😱1
Forwarded from AI Product | Igor Akimov
Вау, Inworld выпустил новую модель генерации речи (кстати, русский язык теперь есть) и с 1 дня вырвался в лидеры на арене Artificial Analysis. Обошел на английском и ElevenLabs, и OpenAI, и MiniMax. При стоимости гораздо ниже.

Сделали лучшую артикуляцию, улучшенное клонирование голоса и более точную работу с многоязычной речью.

Плюс на задержкой поработали (сервера поближе, веб-сокеты, оптимизацию кода), добавили тайм-стемпы, чтобы в нужный момент произносились сгенерированные слова, сделали клонирование голоса через API и кастомное произношение (например, имени или названия компании)

Подробности: https://inworld.ai/blog/tts-custom-pronunciation-timestamps-websockets
👍27🔥165👎1😁1
Авториг все ближе.

Deemos Tech (те самые, которые пилят Rodin 3D - 3D-генератор) выпустили бумагу и даже демо своей технической разработки Kinematify - Articulated Object Generator.

Она не только генерит 3Д-меш, но и анализирует его на "кинематические сочленения". Говоря по нашему, пытается сделать риг. Ибо скелет в риге - это и есть прямая кинематика.

Забавно, что у них в демо даже водопроводные краны.

Работа явно метит в дополнительный сервис в Rodin 3D в виде построителя скелетов внутри моделей, то есть в авториг.

Кода нет, но есть демо. Там много экзотических параметров.

Сайт: https://sites.google.com/deemos.com/kinematify
Демо: https://huggingface.co/spaces/DEEMOSTECH/Kinematify
Видео: https://youtu.be/OP77iaCM4us

@cgevent
1🔥19👍73
This media is not supported in your browser
VIEW IN TELEGRAM
Промпт: "Фотореалистичное интервью с 8-летним ребенком, который грустно говорит. Ребенок знает, что что он сгенерирован искусственным интеллектом. Он грустит по этому поводу и отвечает на вопросы интервьюера очень мудро, но по-детски. «Каково это — быть искусственным интеллектом?» Темно-синий фон."

Похоже что зловещая долина пройдена.

Sora 2, Kling, Nano Banana, Krea, Artlist, Resolve

Автор и подробности тут

@cgevent
1🔥70👎29😱257😁6👍3
Media is too big
VIEW IN TELEGRAM
Нейропрожарка



Рекламный ролик "Последний номер на Земле" от Эда.

Это спек-реклама для достаточно неинтересного бизнеса по изготовлению номерных знаков. Искал как привлечь внимание к этой услуге. Рекламный прием — преувеличение. Нейроинструменты дали возможность воплощать идеи быстро и недорого. Воркфлоу обычный, через ключевые кадры, в основном сделано с помощью Хиггсфилда, еще до Соры и тем более Попкорна. Звук — Суно и Елевенлабс. Монтаж — КэпКат. Идея — человек. Простите, что везде один и тот же номер, надо было разные сделать )). Заняло по времени пару выходных.


@cgevent
👎39😁21👍11🔥94
Ну что, адепты автоматизации

Данные из сети подтверждают: разработчики в 2 раза чаще стали отпускать ИИ-агента в свободное плавание.

Так например, ИИ-агент SourceCraft не просто подсказывает код, а сам:
— роет архитектуру как крот
— пилит тесты без устали
— даже деплоит с закрытыми глазами

И ведь работа кипит — за месяц запросы к агенту удвоились. На платформе даже увеличить лимиты в 2.5 раза — теперь можно делать до 1000 операций в неделю.

Похоже, эра «попрошу-ка я чат-бот написать функцию» плавно перетекает в эпоху «иди, сынок, собери мне проект».

@cgevent
😁38👎17👍118😱1🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
1. Что было на первой презентации Tesla робата.

2. Что на итоге получилось. Пока.

@cgevent
😁57🔥5👎2
This media is not supported in your browser
VIEW IN TELEGRAM
Свежеискусанная нодовой истерикой Krea.ai

А твитторе раздавали коды раннего доступа к нодовым фичам, но сейчас перестали.

Кто ещё не покусан ComfyUi?

@cgevent
👍288😁1
Забавное: теперь вы можете сразу задавать промпт при открытии Google AI Studio.
Делается через строку адреса в браузере и query после "?"

Вот так, например:
aistudio.google.com/prompts/new_chat?prompt="Метаверсищще и ИИще"

@cgevent
👍34👎2🙏2