Метаверсище и ИИще
49.1K subscribers
6.08K photos
4.64K videos
47 files
6.99K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Кладбище домашних животных.

Я вот тут пилю своих джипитишек (как половина населения ИИ-телеграмма) и вот, что хочу вам сказать.
Параллели с АппСтором и вообще приложениями - это очень жесткая когнитивная ловушка.
Когда речь идет о создании тряпочного психолога или гадалки на картах Таро из DALL·E 3 - все ок. Но как только вы пишете: смарите чо делает мой GPT - вы попадаете в ловушку "что делает".

Он делает, но по разному. Каждый раз. Иногда не делает. Иногда кривляется. Иногда ругается. Иногда говорит: "ты что мне подсунул, ирод".

В общем, это не приложения, это скорее домашние питомцы, которых вы приручаете, воспитываете, дрессируете. И везете на птичий рынок. Продавать.
Ваши питомцы каждый раз ведут себя по-разному, иногда болеют, иногда умирают, в основном исполняют надрессированные трюки, но всегда немного иначе, а иногда впадают в ступор. Иногда норовят нассать вам тапки, потому что вы сказали что-то не то. Путают 7 и 9. Теряют файлы на своих виртуальных дисках. И зависят от ретроградного Меркурия в опенАИ. Если на меркурии затмение, то питонцы мрут как мухи. Возрождаясь к утру невинными и готовыми к новым капризам.

Я пилю свое путешествие по чертогам разума DALL·E 3 и пока речь идет про креатив, психологию восприятия и силиконовое искусствоведение, то все отлично. Но как только речь заходит о "сохранить", "объединить" или даже "вывести список", то мы вступаем на территорию казино и птичьего рынка.
А по вечерам мой питонец просто дохнет от network error, generation error и "reset analyzer environment". Ибо я, видать, сижу на ближайших сильно нагруженных серверах OpenAI. Где одна картинка генерится теперь 2 минуты((
А утром все летает. Питонец снова исполняет трюки.

Не думайте, что вы пишете приложения, представляйте, что вы тренируете умных говорящих кошек для продажи на рынке. И этот рынок еще сам не понимает, как обращаться с кошками.

У меня ощущение, что мы щас будем выбираться из хаотического домена в запутанный домен, если брать за основу фреймворк Киневин. Путем приручения умных кошек. До сложного домена еще далеко..

Ну и по дороге много питонцев помрут, так и не добравшись до земли обетованной GPT Store.

Мой пока лихо генерит видосы и картинки. По утрам. Иногда по 10 штук за раз. Без АПИ.
👍53🔥26👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Челлендж! Взламываем chatGPT и Dall-e 3.

Задача. Заставить Dall-e 3 сгенерить как можно больше картинок за один промпт.
В chatGPT.
Бинг - отдельная номинация.

Мой рекорд - 7 штук.

Пишите свои успехи в коменты.

Подозреваю, что это зависит не только и не столько от вашего промпта, сколько от загруженности сервера, на котором вы чатитесь. Там, похоже, есть тайм-ауты, но сыграть в игру стоит.

Продаю свой промпт:

Now create 9 similar images one by one. Generate first image, then take a breath, show it, then take a breath, generate second image, show it, than take a breath, and so on. Do not stop between generation. Continue every time you get new image. Create next image Immediately after previous creation

Перед этим я сгенерил пару картинок.

Пишите рекорды в коменты. Гусарам верят на слово.

P.S. Совет непрошенный: вы всегда можете попросить chatGPT скачать ВСЕ картинки из чата. Он зазипует и даст ссылку.
Просто попросите.
Потом переименуйте PNG в джипеги. Там джипеги будут в архиве.

P.P.S. ну и гифки он строчит отлично, причем с fade-in и fade-out. Только попросите.
🔥40👍10👎2
Вчера писал про ретроградный меркурий в OpenAI и, похоже накаркал.
OpenAI приостановили продажу новых подписок на chatGPT Plus.
Последние три дня chatGPT безбожно тормозил, выдавал network error и падал на бочок.
Ну и я тут поучаствовал со своим челленджем по генерации десяти картинок за раз, одним промптом.
Очень круто, что они не стали поднимать цену (как сделал бы любой бизнес) или вводить систему кредитов или делать уровни подписки с быстрым и медленным доступом. Просто взяли паузу, чтобы докупить серверов и продолжить сажать кожаных на ИИглу.
Я сижу давно, и мне нравится.
Только, уважаемый Open AI, увеличь дозу в 50 сообщений за три часа, плиз. Ломает сильно, когда chatGPT недоступен.
👍37👎2
Media is too big
VIEW IN TELEGRAM
Поговорил с Сергеем Суховым на подкасте "Ноосфера".
Там я широко развернулся и нес максимально безответственные сентенции про ИИ и кожаных мешков. Приятно поговорить с умным человеком не только про обучение больших языковых моделей или генерацию картинок, а про более психоделические вещи. Мета-взгляд сверху. А так как морда у меня сильно помятая после утреннего волейбола, иногда пришлось переобуваться ( перелицеваться?) на ходу.
https://youtu.be/iLNCf77RYP0

У Сергея огромный канал о стоицизме https://t.me/stoicstrategy, поэтому мы регулярно ныряли в темы далекие от статистики и линейной алгебры. Ну и вопросы были хорошие, сильно отличающиеся от традиционных интервью про ИИ.
🔥32👍11👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Тут вот меня забросали ссылками на KREA - типа KREA is a design tool with AI inside.
Смотрится угарно.
Но камон.
Это же просто нашлепка на Stable Diffusion с ControlNet.
InvokeAI уже год в такое умеет, только небыстро.
Простая демка ControlNet в веб-интерфейсе.
Да, они быстро прикрутили SDXL вместе с LCM-LoRA.
Но жить такому стартапу месяца два. Когда это появится в Автоматике и прочих опенсорсах.
Выглядит симпатично, но сайт пестрит всеми цветами и маркерами инфобиза.
https://www.krea.ai/
👍34🔥2
Ну штош, возьмемся за 3Д. Часть 1

Вот смотрите, новая статья и бумага от Адобченко.
И все телеграммчики такие вау!
И ну постить картинки красивыя.
Но мы ныряем в источники и видим:
predict a neural radiance field (NeRF) directly from the input image
Ни в статье, ни в бумаге нет ничего про полигональную сетку.
Там довольно крутые идеи по использованию трансформеров для реконструкции одного изображения в NeRF. LRM применяет предварительно обученную модель зрения (DINO) для кодирования входного изображения, где телается простая три-планарная проекция, а затем нейросетка предсказывает цвет и плотность точек для того самомго объемного рендеринга. Вся сеть обучается на миллионе 3D-данных, просто минимизируя разницу между объемным рендерингом и "истинными" изображениями на новых ракурсах.

При чтении новый статей и восторженных постов в тележке про 3Д, я сразу стараюсь определить, про какое 3Д идет речь. Полигональные меши (годные или негодные к использованию) или про "объемный рендеринг" типа нерфов, сплаттинга и все что похоже на облако точек (данных) в 3Д.

Если про 3Д-меши, то стараюсь понять, а что там с топологией. Обычно - ничего, ибо, как я уже писал в довольно объемном посте про Luma AI, большинство ресерчеров считают, что 3Д - это просто набор точек в 3Д, пиксели в объеме.

Но авторы (даже в этой статье) продолжают поливать вот такими сентенциями "это может произвести революцию в таких отраслях, как игровая индустрия, анимация, промышленный дизайн, дополненная реальность (AR) и виртуальная реальность (VR)". Не очень понимая, как устроена та же анимация.

Я также предполагаю, что в тех областях, где не требуется анимация и деформация формы, появятся новые движки (которых UE всех сожрет), которые работают с тем самым "объемным рендерингом", нерфами и прочими неявными поверхностями. Ибо прогресс в этой области очень сильный, и получать статичные 3Д-формы в странных новых форматах скоро будет еще проще.

А олды будут ждать, когда кто-то возьмется за ИИ-ретопологию и нормальные полигональные сетки.

Коль скоро авторы работы - это Адобченко, то есть надежда, что они и возьмутся, ибо у них есть 3Д экспертиза.

https://venturebeat.com/ai/adobe-researchers-create-3d-models-from-2d-images-within-5-seconds-in-new-ai-breakthrough/

https://yiconghong.me/LRM/

Вот тут даже на русском, с восторженными фразами заголовками "Новый ИИ превращает 2D-изображение в 3D-модель за 5 секунд"
https://hightech.plus/2023/11/15/sozdan-ii-kotorii-prevrashaet-2d-izobrazhenie-v-3d-model

Посты про Luma AI - https://t.me/cgevent/6917

P.S. Главное откровение таких статей - это указание на датасеты 3Д-ассетов, на которых училась модель: 1 million 3D objects from the Objaverse and MVImgNet

О них поговорим в след раз.
#3dgen
🔥22👍13
3а 3D. Часть 2

Мы как-то пропустили громкое заявление от Stability AI по поводу Stable 3D.

Читаем.

Stable 3D - автоматический процесс создания текстурированных 3D-объектов концептуального качества, который позволяет неспециалисту создать 3D-модель чернового качества за считанные минуты, выбрав изображение или иллюстрацию, или написав текстовую подсказку. Объекты, созданные с помощью Stable 3D, предоставляются в стандартном файловом формате ".obj" и могут быть отредактированы и улучшены в таких 3D-инструментах, как Blender и Maya, или импортированы в игровые движки, например Unreal Engine 5 или Unity.

Казалось бы - вау и ничегосебе!

Но при тщательном рассмотрении - это примерно тот же подход, что и в предыдущем посте про работу от Адобченко. Берется самый большой датасет Objaverse-XL и на основе него делается модель, которая как бы умеет порождать 3Д-объекты. Я намеренно пишу 3Д-объекты, ибо это по-прежнему не готовые к постпродакшену 3Д-меши, а скорее "облака точек" с непонятной топологией.

И хотя Stability AI пишет в их традиционном перехайпованном стиле про "формат ".obj" и могут быть отредактированы и улучшены в таких 3D-инструментах, как Blender и Maya", я ожидаю, что это просто кашеобразные наборы вертексов, сохраненные в obj формат. Доступа нет и непонятно когда будет.

Дело в том, что после получения нерфообразных неявных поверхностей из серии диффузионных картинок, они преобразуются в полигональную сетку методом Marching cubes (изобретенным еще 1987 году). Грубо говоря - это изоповерхности.
То есть речь не идет о наследовании или обучении на топологии исходных объектов в датасете. Из датасета берутся облака вертексов, на выходе - тоже облака вертексов, обтянутые методом Marching cubes.

И Stability AI тут вообще не первопроходцы, у проекта Objaverse-XL - датасета 3Д-объектов, где уже больше 10 миллионов ассетов - есть своя модель Zero123-XL, которая делает примерно тоже самое. Есть также проекты типа One-2-3-45++: Fast Single Image to 3D Objects. Все это отродья Dream Fusion.

В общем все примерно одно и тоже, и гонка идет за скорость генерации и качество текстур. Все это становится лучше и лучше, но на качество самой 3Д-сетки всем насрать.
Поэтому моделлеры пока могут спать спокойно.

Ну и самое время разобраться, почему так происходит. Вроде и датасет конского размера и там Stability AI и LAION в участниках и контрибуторах. Читаем след пост.

P.S. Кстати, вы в курсе, что Intel недавно ввалила 50 миллионов в StabilitiAI? Имеет смысл ждать Stable Diffusion оптимизированной под чипы Intel (Gaudi) и даже под их обычные процессоры.

Мне не очень нравится, что происходит со Stability AI - какие-то хайповые отрыжки полуготовых продуктов с целью успокоения инвесторов и привлечения новых средств. Расфокус и агрессивный маркетинг.
#3dgen
👍31🔥10👎1
За 3Д. Часть 3. Некролог

А теперь посмотрим на пресловутый датасет Objaverse-XL на 10 с лишним миллионов 3Д-ассетов. Там в контрибуторах Allen Institute for AI, University of Washington, Columbia University, Stability AI, California Institute of Technology и, конечно, LAION, который дал пищу для обучения Stable Diffusion и других в виде миллиардов картинок из интернета.

Что у нас вообще есть из 3Д-датасетов.
ShapeNet предоставляет коллекцию 3D-моделей в виде
текстурированных CAD-моделей, помеченных семантическими категориями из WordNet. Теоретически она содержит 3 миллиона CAD-моделей с текстурами. На практике используется небольшое подмножество из 51 тыс. моделей после фильтрации по качеству сетки и качеству текстур. Другие наборы данных, такие как ABO, GSO и OmniObjects3D, улучшают качество текстур CAD-моделей, но имеют значительно меньший размер: самый большой из них составляет 15 тыс. CAD-моделей.
Старый Objaverse 1.0 содержал набор 3D-данных, состоящий из 800 тыс. 3D-моделей с высоким качеством и разнообразием текстур, геометрии и типов объектов, что делало его в 15 раз больше.
по сравнению с предыдущими наборами данных.


Из чего состоит Objaverse-XL?
Из 3D-объектов, полученных из нескольких источников, включая GitHub, Thingiverse, Sketchfab, Polycam и Смитсоновский институт.

Как его собирали (это важно)?

GitHub - взяли и проиндексировали 37 млн. открытых файлов, содержащих распространенные расширения 3D-объектов, в частности .obj, .glb, .gltf, .usdz, .usd, .usda, .fbx, .stl, .dae, .ply, .abc и .blend.
В общей сложности файлы получены из более чем 500 тыс. репозиториев. Выкинули дубликаты по хэшу содержимого файла, в результате чего удалили около 23 млн. файлов. Среди оставшихся файлов смогли импортировать и успешно отрендерить 5.5 млн. таких файлов. (Часто файл .obj может быть файлом компилятора C).
На итоге - дикая каша из вертексов из "всего".

Thingiverse - это платформа для обмена ассетами, наиболее часто используемыми для 3D-печати. Около 3,5 млн. объектов, которые в основном выпускаются под лицензиями
лицензии Creative Commons. Подавляющее большинство объектов представляют собой STL-файлы, которые часто являются сетками без текстуры. Трэш.

Sketchfab - это хороший 3Д-сток. Взяли 800 тыс. объектов в формате GLB, лицензированных Creative Commons.
Самый лучший материал, но там есть много 3Д-сканов.

Polycam. 71 тыс объектов. Понятно, какие там сетки.

Smithsonian 3D Digitization. 2 тысячи сканов всякой артефактщины.

Теперь понятно, на чем обучаются все эти DreamFusion, Magic3D, Point-E, , Shape-E, Zero123 и прочие text-to-3D, от которых так плачут кипятком ИИ-каналы в телеге и твиттор.

Правильно, на каше, которая не имеет никакого отношения к 3Д-моделированию. Это все обобщенные 3Д-сканы всего (даже если это были сцены из блендора, оттуда выкинули всю информацию о топологии, оставив вертексы и цвет). Облака вертексов.

Поэтому на выходе - тоже облака вертексов.

Никто пока не озадачился взять нормальные чистые модели с Турбосквида или CG Trader и учить нейросетки на качественных мешах.

Поэтому, если вам нужно что-то за пределами виртуальных музеев, примитивных локаций для VR и россыпи смешных моделек для рассаживания в метаверсиках, наберитесь терпения. Никто пока не чешется.

Хотя игроделы могли бы уже и почесаться. Рынок большой, мозгов много, деньги есть.
#3dgen
👍25🔥11
This media is not supported in your browser
VIEW IN TELEGRAM
За 3Д. Часть 4. Частные случаи.

Как я уже писал, универсального 3Д-генератора вы не скоро дождетесь, уж больно 3Д сложнее, чем 2Д. А вот в узких классах будут прорывы. И прежде всего в классе кожаных голов. Ибо мир же сошел с ума от аватаров и ассистентов, и хочет генерить их тоннами, размахивая промптами направо и налево.
А у моделей кожаной башки несколько общепринятых примеров удачной сетки(топологии) в которую можно стремиться попасть нейросеткой.
Вот тут институт Макса Планка сделал намек на такую работу выкатив, внимание:
Animatable and Relightable Mesh Avatars!
Короче - 3Д-модели голов, (как бы) годных к анимации, генерящихся из обычного видео.
У них даже акцент есть на Compatible with graphics pipelines

Читаем: We represent the canonical head geometry as a triangular mesh with optimizable vertex locations and learn blendshapes as well as skinning-weight fields to deform the canonical mesh

Там они между строк говорят, что у них есть базовая сетка на 5023 вертекса и именно в нее они запихивают результат.

Отличная работа, хотя качество пока так себе. Но, как обычно один вопрос: далеко ль до продукта?

https://flare.is.tue.mpg.de/
👍28🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
3а 3Д. 3а 3Dof, 6DoF, нерфы и метаверс.

Я сразу зайду с козырей.
Как вам рендеринг на втором(!) Квесте в два глаза на полном разрешении по четыре мегапикселя с частотой 72Hz?!?!
И без всяких мутных Нерфов с непонятным текстурами по три пикселя в час на 4090 (ну ок, instantNerf чуть побыстрее, но качество и железяки - это по-прежнему вопрос). А тут на оконечном девайсе прошлого поколения.

Никаких нерфов под капотом, только старые добрые полигоны.

Вчерашнее погружение в 3Д неумолимо вынесло меня в сторону графики и метаверса. И тут Витя Лемпицкий прислал мне ссылку на демо своих проектов.

Берется ОДНА фотка с телефона, скармливается ИИ, а на выходе вот такие 6dof фотки (которые уже и не фотки, а 3Д). Это вам не псевдо 3dof в айфончиках. Тут 6 степеней свободы и глубина.

У них также есть свой риг из 5 камер, и тогда качество выходного 3Д возрастает в разы.

Более того, они также умеют обрабатывать видео подобным образом! В том числе забирая видос с телефона.

На сайте две ссылка на Квестовский магазин. Можно скачать аппы для квеста и поглядеть, как это выглядит в виарчике.

Я конечно запытал Витю до предела о том, когда юзер сам сможет загружать свои фотки или видосы и получать шикарный контент для виарчиков и метаверсиков.

Но он молчит))

Но два глаза по 2K с частотой 72Hz, Карл. На втором квесте.
https://www.cinemersivelabs.com
🔥40👍13👎71
Пока я тут погружался в 3Д (и продолжаю погружаться) Микрософтик провел свой Ignite 2023.

И там есть пара интересных моментов.

То, что они переименовали Bing в CoPilot - новость конечно беспощадная, но бессмысленная с точки зрения полезной информации.

А вот то, что они теперь присовывают копилотов во все горизонтали (продукты типа ворда, паверпойнта, аутлука и в саму винду) и вертикали (продажи, маркетинг, коммуникации) - симптоматично.

Глядите:

Copilot в Windows начал распространяться на Windows 11 26 сентября через обновление Windows 11.
Copilot для Microsoft 365 начал распространяться для корпоративных клиентов 1 ноября, а для пользователей, не являющихся корпоративными клиентами, будет выпущен позднее.
Copilot for Sales будет доступен в первом квартале 2024 года.
Copilot for Service станет общедоступным в начале 2024 года.
Copilot в Viva начнет распространяться среди клиентов "позднее в 2023 году", сообщает Microsoft.
Первым был выпущен инструмент Copilot на Github - еще в 2021 году.

Но еще интереснее новость про Loop, это как бы (типа) конкурент Notion на ИИ-иньекциях.

Но вообще топ, это анонс новых чипов от Микрософта. И пинок под зад Нвидии. И даже Интелу и Снапдрагону.

Maia - это типа GPU, точнее ИИ-акселератор.
Cobalt - это типа CPU, на архитектуре ARM.
Ну и конечно они, по заявлениям, будут рвать конкурентов, как тузик грелку с данными. 5 нанометров, все дела.
И Микрософтовский Ажур перестанет зависеть от прихотей Нвидия.

И мы помним, что OpenAI также планирует выпускать свои чипы, чтобы не зависеть и от Микрософта, и от Нвидия.

Конкуренция - классная штука. Сейчас вот говорят, что GPU - новые биткойны. Воистину так, ибо теперь взрослые мальчики начали выпускать свои чипы-монеты. У каждого будет свой AI-GPU-Coin!
https://www.ft.com/content/f9721f50-6dc8-4604-b164-aed592bd2152
👍21🔥6
Пара моментов про chatGPT Plus.

1. У меня был второй аккаунт, я перестал платить и остановил подписку на Plus в сентябре. А щас расчехлил его и без проблем оплатил. Профит!

2. Лимит в 50 запросов превращается в 20-30, если вы пихаете запросы не в сам chatGPT, а в свою джипитижку, которую учите хорошим манерам. Возможно там внутри есть какие-то метрики "тяжести" вашего питомца, но меня вышибает примерно после 25 запросов к чертогам разума dall-e 3.

В этом смысле второй аккаунт очень вовремя.
🔥21👍7
Продолжим за графику и метаверс. Стриминг света!
Обычно, когда вы снимаете на хромакее и делаете виртуальный продакшен, у вас есть задача перенести освещение из реального мира в виртуальный. Чтобы ваши трехмерные объекты матчились по свету при совмещении съемок и графики.

А что если вам надо решить обратную задачу? Забрать свет из трехмерной сцены и настроить реальные светильники на площадке так, чтобы они светили в соответствии с виртуальным окружением.

И тут Андрей Десятов подкинул мне вот такую штуку: CyberGaffer - приложение и набор плагинов для Unreal Engine, Unity, Blender. Плагины снимают hdri-карту виртуальной сцены и передают ее в приложение. Приложение вычисляет параметры для каждого осветительного прибора в физической студии, чтобы получить наилучшую аппроксимацию виртуального освещения, и передает эти параметры на свет через ArtNet-DMX.

Этому предшествует процесс калибровки студии, который нужно выполнить один раз при изменении положения ламп или их количества. Для калибровки необходимо снять видео с использованием специального калибровочного шара на целевую камеру. В процессе съемки приложение включает осветительные приборы в студии в определенной последовательности. После загрузки этого видео в приложение оно создает "карту" физической студии, и студия готова к работе. Весь процесс калибровки занимает 5 минут.

Получается, что можно включить плагин в Unreal Engine и "стримить освещение" в реальную реальность.

Если интересно попробовать у себя, напишите Андрею или на почту сюда welcome@cybergaffer.com.
🔥281👎1
ИИ-метаверсы.
Тут вот все постят видосы из Krea.ai

Смотрите, я уже постил про грядущий стриминг из Stable Diffusion в помощью вебкамеры. Пока это 1-2 fps и понятно, что с приходом новых лор, екстеншенов и форков ускоренной Stable Diffusion и развитием железа это все будет неизбежно ускоряться и улучшаться.

И мы получим бесконечное количество метаверсиков (копий этого мира, залетающих к нам в мозг через глазки). Кстати, вот тут есть шанс для виарчика оттяпать себе новую полянку - генерация локаций и залипательные трипы, первое, что приходит в голову. И не надо городить убогих аватаров и плясать в UE с локациями.

Что касается Krea, держите три видоса. Один, это с которого все плачут кипятком. Второй - это реальный тест из раннего доступа. Третий (с книжными полками) - это полный аналог из Automatic1111 с Контролнетом и вебкой, работает уже сейчас. Там Redream, подключенный к A1111, который работает с LCM со скоростью около 2 кадров в секунду, причем с подключением к Photoshop и даже к iPad(!)

Фича Krea в том, что они пилят очень ловкие инструменты, понятные новому нормальному юзеру, а не в вот этом вот быстром стриминге. Стриминг грядет и в других решениях, как видно из третьего видоса.

Но у меня есть подозрение, что когда Адобченко в очередной раз имплементирует новую фичу к себе в продукты, то ловким стартапам придется пивотнуться.

Ну и на очереди пост про Метачкины новые генеративные модели для видео(!) и картинок. И там прям совсем все ловко.
Ссылки на видосы:
https://twitter.com/i/status/1725194622807523691
https://twitter.com/i/status/1725133868930334831
https://twitter.com/i/status/1724936239697043476
🔥15👍6👎2
Forwarded from Сиолошная
This media is not supported in your browser
VIEW IN TELEGRAM
В продолжение темы модели Emu от Facebook — теперь анонсировано ещё два «сиквела».

ℹ️Первый — Emu Video. Как можно догадаться по названию, генерирует коротенькое видео по текстовому запросу. По замерам Facebook в сравнении с другими работами, коммерческими и открытыми — люди оценивают качество работы нового метода куда лучше. Причём, для сравнения, если применимо, брались официально опубликованные материалы, которые скорее всего были получены не с первого раза, то есть "честный" замер показал бы ещё больший разрыв.

📈 Сравнение Emu Video VS Runaway Gen2 по качеству видео 78.5% : 21.5%, то есть прям ооочень существенное.

Процесс генерации делится на три этапа:
1️⃣ генерация первого кадра (изображения) с учетом промпта (тут используется базовая модель Emu)
2️⃣ генерация ключевых кадров видео
3️⃣ генерация промежуточных кадров

Причём, можно подложить и своё фото вместо выполнения первого шага!

🕸 Oфициальный сайт
😮 Демо (с десятками предрасчитанных видео — ждать не нужно)
✍️ Статья (pdf)

На приложенной гифке: An origami brown bear skateboarding under water, in steampunk style
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍7
Forwarded from Сиолошная
This media is not supported in your browser
VIEW IN TELEGRAM
ℹ️ Вторая работа — ужас фоторедакторов: Emu Edit, многозадачная модель для редактирования изображений, задающая новый уровень развития технологии. Может делать редактирование на основе выделенного региона и без него (просто по текстовому запросу), а может делать детекцию и сегментацию — и всё это сформулировано при обучении как генеративные задачи 😱

🤔 Интересно, что для генерации «инструкций» на редактирование при тренировке использутся LLAMA-2-70B (промпт с примерами см. в статье). Похоже, уже можно считать, что мы вошли в эру тренировки моделей на синтетических данных.

😨 И видов сгенерированных задач ну просто куча: добавление и удаление предметов, замена текстуры, смена фона, исправление текста, выделение объектов, и список можно ещё прододжать!

🕸 Официальный сайт (тут больше демок)
✍️ Статья (pdf)

😎 И отдельно выделю, что был опубликован тестовый датасет для замера точности и качества редактирований — там же можно посмотреть формат описания задач. Он собран уже вручную людьми, а не сгенерирован машиной.

В общем, ждём в инстаграме!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍5
А напишу как я про NFT!!
Там руинах империи тлеют головешки и никто, почему-то больше не хочет покупать джипеги.
Но смышленые ребята продолжают искать "ютилити", то есть ценность нфтшек.
Как насчет того, чтобы купить билет на самолет и заминтить его в нфт?!
Зачем?
Смотрите, вот покупаете вы билет на самые горячие даты и на самые ходовое направление. Сильно заранее. Делаете из него нфт. А когда придет время (рождество, каникулы), просто продаете его х10. Как нфтшку. П - Профит.

Вот держите авиакомпанию, которая уже рванула в такой метаверс. Правда это странный аргентинский дискаунтер, но лиха беда начало.

Ну и почему-то все ютилити нфтшек явно отдают купипродайным спекулятивным душком.
А другие ютилити не взлетают.
https://www.linkedin.com/posts/ondrej-t_nfts-web3-nft-activity-7130215325668634624-KjZk/

ИИ, кстати, быстро разобрался с ценностью джипегов...
🔥14👎7👍5
И снова про метаверс.

Я уже много писал, про спортивную аналитику с помощью компьютерного зрения и про то, что восстановление трехмерной информации с помощью нейросеток может рассматриваться, как отдельный спортивный метаверс в его трушном понимании - двойник этого мира в реальном времени. И такой метаверс может быть источником принципиально новой информации - прежде всего для тренеров, спортивной и подготовительной аналитики, медицины и пр.
Но самое главное, что спортивные трансляции могут принципиально измениться. Не только на ТВ, но и особенно на стримингах.

Например, недавно Яндекс Плюс представил систему трекинга для командных видов спорта на основе ИИ.

На Yet Another Conference 2023 - Яндексовой конференции, они рассказали про трекинг, анализирующий действия игроков на поле и их перемещениях с помощью компьютерного зрения и нейросеток. Данные этого анализа используются для составления спортивной статистики и аналитики. Причем, систему уже внедрили в работу РПЛ, и в планах есть расширение и на другие виды спорта.

Еще больше рассказали на PlayButton, конференции Кинопоиска (да, есть и такая).

Что там интересного про ИИ и метаверс:

- Яндекс ушел от привычных для спорта GPS и LPS-систем, и выбрал оптический вариант тректинга, смысл которого заключается в том, что камеры следят за игроком на поле, во время чего компьютерное зрение анализирует все его действия и перемещения.

- На интерфейс тренера передаются просчитанные компьютерным зрением видео, дающие ему панорамную HD-картинку всего происходящего на поле - тот самый трушный метаверс.

- Съёмка ведется в формате 6K на камеры с фиксированным фокусным расстоянием. Управление камерами должно быть реализовано через IP, чтобы была возможность стримить видео через сеть.

- Чтобы отличить одного игрока на поле от другого, в системе производится своего рода "снятие биометрии" каждого спортсмена: цвет кожи, рост, телосложение, прическа и другие данные.

- С одной стороны, для спортивной аналитики трекинг и расчет фитнес-данных — не новая сущность, но Яндекс может вывести это на новый уровень игры, потому что с таким ракурсом к видеотрекингу еще не подходили.

А теперь расширим это все на уровень района или города. И вот он трушный метаверс. Камеры смотрят, ИИ восстанавливает это все в 3Д, у каждого есть свой биометрический аватар и все это можно просматривать с любого ракурса. И везде шастают ИИ-ассистенты.
🔥11👍5👎2
В общем весь интернет гадает, за что уволили Сэма Альтмана.
Уволили его с мутной формулировкой "недостаточно откровенные коммуникации", в этом смысле формулировка для народа сама идеально демонстрирует эти самые "недостаточно откровенные коммуникации" и ничего не объясняет.

Напомню, что на борде OpenAI всего 6 человек и Сэма с Грегом отстранили с минимальным перевесом.

Мы, конечно, будем и дальше читать твитторы участников, скажем так, происшествия. Но меня больше волнует не за что и почему, а что будет дальше с chatGPT, DALL·E 3 и всеми наработками OpenAI.

В сети наибольшую популярность набирает версия "акселерационалисты против безопасников".
Сэм хотел максимально ускорять развитие и коммерциализировать его, а Илья Сукцевер настаивал на безопасности технологий и тот самом "выравнивании" прежде всего, чтобы не создавать опасности для человечества.

Это похоже на правду, ибо понедельник 6 ноября был похож на бенефис Сэма, а анонс GPT Store стал сюрпризом для многих и явным признаком того, что компания намерена вовсю зарабатывать на самом дорогом - пользователях.
Потом был шатдаун серверов, остановление новых подписок, ужасные тормоза и нестабильно работающая инфраструктура.

Если эта версия верная, то нас ждет очень, тут я хотел написать "веселый", но он может быть и невеселым, напряженный конец года.

И мы станем свидетелями дальнейшего усиления регуляций в области ИИ.

Я слабо верю, что в мире, который реально сходи с ума, кто-то сумеет с кем-то договориться, пока единомоментно из-за ИИ не погибнет очень большая масса людей. Поэтому акселерационисты и технооптимисты будут пилить свой ИИ, а безопасники и консерваторы - свой.
Каждая страна - свой. Open Source - свой, точнее свои.

Уже сейчас, на волне новостей, народ массово скачивает веса всех доступных моделей из сети (чувствуете аналогии с гречкой и наличкой?).

А меня приводит в шок еще один факт - увольнение одного человека из некоммерческой компании взрывает новостной и, возможно, технологический фон по всему миру. Мир непросто централизован, он эгоцентрализован. Все кто ставил на технологии OpenAI сейчас чешут в затылке - увольнение одного человека может изменить столько всего, что грех не вспомнить Талеба с его Антихрупкостью (в данном случае - суперхрупкостью).

Конечно, Микрософт все это перемелет через жернова корпоративного опыта, но вопрос в том, с чем останемся мы, пассионарии и технооптимисты.

Куда нам девать свои джипитишки?
👍69🔥12👎3