Метаверс, как цифрового двойник нашего мира с разными скинами.
Основная проблема мамкиных метаверсоводов - они не могут придумать, чем занять пользователей в своих кринжовых 3Д-локациях. Не говоря уж о том, как их мотивировать надеть полкиллограма железа на голову, для свидетелей виар-метаверсов.
Эти мерзкие кожаные юзеры готовы либо в игры играть, либо ботов писать, чтобы майнить шиткойны в нфт-метаверсах.
Когда вышла SORA все заговорили о world model. Модели нашего утлого мира (трехмерного притом) в голове у ИИ. Были даже работы о том, что в мозгах у ИИ есть локализованные области, в которых он хранит представления о пространстве и времени.
Но это все подводка.
Смотрите, несколько недель назад в Балтиморе контейнеровоз MV Dali столкнулся с одной из опор огромного моста и расхерачил всесь мост.
Благо у нас теперь везде камеры и видео катастрофы попало в интернетик в тот же день.
Так вот, смышленые ребята взяли все доступные видосы этого крэша, причем из открытых источников) и с помощью Gaussian Splatting сделали полную 3Д-реконструкцию аварии.
Не сгенерили кухонную сцену или смешные фигурки, а, блин, сделали копию кусочка мира в нужное время. По сраным камерам наблюдения.
А коль скоро у нас камеры везде и всюду, то в принципе у нас есть 3Д-модель нашего кожаного мира в 3Д в любой момент времени.
Туда также пристегиваются потоки данных с других датчиков и сенсоров, распознавание ваших унылых личиков, pose estimation и пр. И вот уже параллельный метаверс давно живет рядом с нами в соседних измерениях.
Теперь дайте ему разные скины. И получите мультиметаверсы.
А пока поглядите на видео и реконструкцию аварии в Балтиморе. Я в шоке.
P.S. Я топлю за эту концепцию уже года три, а два года назад упаковал это в плотное интервью с Витей Осыкой. Точнее интервью брал он, а я наваливал за Метаверс. Если интересно, воспроследуйте сюда.
Основная проблема мамкиных метаверсоводов - они не могут придумать, чем занять пользователей в своих кринжовых 3Д-локациях. Не говоря уж о том, как их мотивировать надеть полкиллограма железа на голову, для свидетелей виар-метаверсов.
Эти мерзкие кожаные юзеры готовы либо в игры играть, либо ботов писать, чтобы майнить шиткойны в нфт-метаверсах.
Когда вышла SORA все заговорили о world model. Модели нашего утлого мира (трехмерного притом) в голове у ИИ. Были даже работы о том, что в мозгах у ИИ есть локализованные области, в которых он хранит представления о пространстве и времени.
Но это все подводка.
Смотрите, несколько недель назад в Балтиморе контейнеровоз MV Dali столкнулся с одной из опор огромного моста и расхерачил всесь мост.
Благо у нас теперь везде камеры и видео катастрофы попало в интернетик в тот же день.
Так вот, смышленые ребята взяли все доступные видосы этого крэша, причем из открытых источников) и с помощью Gaussian Splatting сделали полную 3Д-реконструкцию аварии.
Не сгенерили кухонную сцену или смешные фигурки, а, блин, сделали копию кусочка мира в нужное время. По сраным камерам наблюдения.
А коль скоро у нас камеры везде и всюду, то в принципе у нас есть 3Д-модель нашего кожаного мира в 3Д в любой момент времени.
Туда также пристегиваются потоки данных с других датчиков и сенсоров, распознавание ваших унылых личиков, pose estimation и пр. И вот уже параллельный метаверс давно живет рядом с нами в соседних измерениях.
Теперь дайте ему разные скины. И получите мультиметаверсы.
А пока поглядите на видео и реконструкцию аварии в Балтиморе. Я в шоке.
P.S. Я топлю за эту концепцию уже года три, а два года назад упаковал это в плотное интервью с Витей Осыкой. Точнее интервью брал он, а я наваливал за Метаверс. Если интересно, воспроследуйте сюда.
За Джипитишки.
Я долго терпел, но приподнакипело.
Смотрите, интернетик захлебывается от восторга - пользователи уже насоздавали 3 000 000 джипитижек. Ох и ах.
OpenAI обещал в ноябре, что в декабре запустит GPT Store. Запустил в начале года. Обещал монетизацию в марте, пока не запустил.
GPT Store - это довольно странный сервис, там, например, нельзя отфильтровать джипитишки, которые используют Actions (ну то есть более продвинутые). Навигация - ну такое.
И все больше напоминает мне помойку с chatGPT Plugins. Засранную плагинами, уводящитми трафик на сайты, без всякой пользы.
А восторженная цифра в 3 миллиона джтпитишек приводит меня в ужас, это сколько же говна надо разгрести чтобы найти что-то стоящее. Помните первый Андроид Маркет?
Ну и OpenAI, похоже не особо парится, как и с плагинами, над модерацией.
Меня просто тригернуло вот на такой джипитишке.
Это генератор изображений (внимание) на Stable Diffusion и модели Juggernaut внутри chatGPT, который предлагает вам ввести промпт, а потом показывает ссылку на картинку (в нее надо кликнуть, чтобы увидеть ее). И конечно, он пишет вам "срочно переходите в наш телеграм-бот или дайте денег хотя бы". В шапке джипитишки, естественно, ссылка на сайт, на сайте приглашение в телеграм бот.
В общем, GPT Store превращается в еще одну странную площадку, где пасутся стада GPT-ботов, уводящих трафик к себе (куда угодно).
Более того, я почитал многочисленные руководства по создания GPTs.
Знаете, что там пишут?
Чтобы вашу GPT заметили, сделайте от 100 до 1000 копий, немного изменяя текст.
Используйте привлекающие внимание фразы.
Давайте ссылки на свои проекты.
Ну вы поняли. Была SEO-оптимизация, сейчас мамкина gpts-оптимизация. Только OpenAI не Гугль, и модерацией, похоже, заниматься некому, все ИИ-модераторы заняты.
Кроме того, GPT Store почти никому не нужен: туда переходит только 1.5% пользователей chatGPT.
Обидно, что есть реальные шедевры типа джипитишек от Дениса Ширяева:
«Image Recreate, Edit & Merge» или «Aesthetics Prompt Enhancer»
Но они тонут в потоке заливаемого в GPT Store шлака, у которого одна цель, увести трафик.
А теперь представьте, что введут монетизацию. Помните NFT-игры и полчищща ботов? Если есть дикая немодерируемая поляна, то первыми туда придут боты.
Сам я в полном восторге от идеи GPTs - это просто шедевр в области программирования на человеческом языке со всеми вытекающими.
Но идея магазина, куда можно заливать товары любого качества, на изготовление которых не требуется особых ресурсов представляется мне спорной.
И вопрос в том, как OpenAI будет разруливать эту проблему.
Выговорился.
P.S. Посмотрел, что все сервисы типа veed.io которые были в плагинах, переобулись в джтипитишки, еще один канал нагона трафика.
Я долго терпел, но приподнакипело.
Смотрите, интернетик захлебывается от восторга - пользователи уже насоздавали 3 000 000 джипитижек. Ох и ах.
OpenAI обещал в ноябре, что в декабре запустит GPT Store. Запустил в начале года. Обещал монетизацию в марте, пока не запустил.
GPT Store - это довольно странный сервис, там, например, нельзя отфильтровать джипитишки, которые используют Actions (ну то есть более продвинутые). Навигация - ну такое.
И все больше напоминает мне помойку с chatGPT Plugins. Засранную плагинами, уводящитми трафик на сайты, без всякой пользы.
А восторженная цифра в 3 миллиона джтпитишек приводит меня в ужас, это сколько же говна надо разгрести чтобы найти что-то стоящее. Помните первый Андроид Маркет?
Ну и OpenAI, похоже не особо парится, как и с плагинами, над модерацией.
Меня просто тригернуло вот на такой джипитишке.
Это генератор изображений (внимание) на Stable Diffusion и модели Juggernaut внутри chatGPT, который предлагает вам ввести промпт, а потом показывает ссылку на картинку (в нее надо кликнуть, чтобы увидеть ее). И конечно, он пишет вам "срочно переходите в наш телеграм-бот или дайте денег хотя бы". В шапке джипитишки, естественно, ссылка на сайт, на сайте приглашение в телеграм бот.
В общем, GPT Store превращается в еще одну странную площадку, где пасутся стада GPT-ботов, уводящих трафик к себе (куда угодно).
Более того, я почитал многочисленные руководства по создания GPTs.
Знаете, что там пишут?
Чтобы вашу GPT заметили, сделайте от 100 до 1000 копий, немного изменяя текст.
Используйте привлекающие внимание фразы.
Давайте ссылки на свои проекты.
Ну вы поняли. Была SEO-оптимизация, сейчас мамкина gpts-оптимизация. Только OpenAI не Гугль, и модерацией, похоже, заниматься некому, все ИИ-модераторы заняты.
Кроме того, GPT Store почти никому не нужен: туда переходит только 1.5% пользователей chatGPT.
Обидно, что есть реальные шедевры типа джипитишек от Дениса Ширяева:
«Image Recreate, Edit & Merge» или «Aesthetics Prompt Enhancer»
Но они тонут в потоке заливаемого в GPT Store шлака, у которого одна цель, увести трафик.
А теперь представьте, что введут монетизацию. Помните NFT-игры и полчищща ботов? Если есть дикая немодерируемая поляна, то первыми туда придут боты.
Сам я в полном восторге от идеи GPTs - это просто шедевр в области программирования на человеческом языке со всеми вытекающими.
Но идея магазина, куда можно заливать товары любого качества, на изготовление которых не требуется особых ресурсов представляется мне спорной.
И вопрос в том, как OpenAI будет разруливать эту проблему.
Выговорился.
P.S. Посмотрел, что все сервисы типа veed.io которые были в плагинах, переобулись в джтипитишки, еще один канал нагона трафика.
This media is not supported in your browser
VIEW IN TELEGRAM
Интересно наблюдать, как отдельные ИИ-решения типа генераторов картинок, или чат-ботов, или создания видео, или вообще генераторов разной всячины постепенно превращаются во встраиваемые сервисы, где юзер уже не ходит за картинками в одно место, а за текстами — в другое. Майкрософт делает из Бинга комбайн, Гугл сейчас встраивает Gemini во все свои аппы, а я пошел поглядел, что делает Яндекс после своего нейробраузера.
У них там появилась платформа Yandex Foundation Models. Несколько моделей машинного обучения, в том числе YandexGPT для генерации текстов и эмбеддинги для задач семантического поиска.
Там же YandexART, о нем — ниже.
Все через единый интерфейс, там можно решать и бизнес-задачи, используя несколько генеративных моделей сразу. Например, создавать текст для рекламного объявления с помощью API YandexGPT, а иллюстрации — с помощью API YandexART.
Что касается YandexART, его уже можно использовать через API, причем сеть доступна для тестирования бесплатно. https://console.yandex.cloud/link/foundation-models/yandexart
Ну и доворачивая мысль про встраивание, YandexART можно использовать не только как маркетинговый инструмент, но и в разработке как единую платформу для работы с API: единый интерфейс, не нужны сторонние аппки, провайдер работает с инфраструктурой. Также это классное подспорье для креаторов, чтобы генерить референсы, которые не получилось найти в интернете.
То есть все эти генераторы всего, которыми мы упивались год назад, вползают в кнопочки и менюшки привычных сервисов. Пройдет еще год — и мы перестанем отличать, что сделали мы, а что сделал ИИ: мы что-то там накликали и напечатали по работе, ИИ по ходу поучаствовал, клиент или начальник доволен. И уже никто не рядится по поводу стохастических попугаев.
А насчет YandexART есть подробнейшая статья, как она научилась делать картинки, которые нравятся людям. За два года.
https://habr.com/ru/companies/yandex/articles/805745/
У них там появилась платформа Yandex Foundation Models. Несколько моделей машинного обучения, в том числе YandexGPT для генерации текстов и эмбеддинги для задач семантического поиска.
Там же YandexART, о нем — ниже.
Все через единый интерфейс, там можно решать и бизнес-задачи, используя несколько генеративных моделей сразу. Например, создавать текст для рекламного объявления с помощью API YandexGPT, а иллюстрации — с помощью API YandexART.
Что касается YandexART, его уже можно использовать через API, причем сеть доступна для тестирования бесплатно. https://console.yandex.cloud/link/foundation-models/yandexart
Ну и доворачивая мысль про встраивание, YandexART можно использовать не только как маркетинговый инструмент, но и в разработке как единую платформу для работы с API: единый интерфейс, не нужны сторонние аппки, провайдер работает с инфраструктурой. Также это классное подспорье для креаторов, чтобы генерить референсы, которые не получилось найти в интернете.
То есть все эти генераторы всего, которыми мы упивались год назад, вползают в кнопочки и менюшки привычных сервисов. Пройдет еще год — и мы перестанем отличать, что сделали мы, а что сделал ИИ: мы что-то там накликали и напечатали по работе, ИИ по ходу поучаствовал, клиент или начальник доволен. И уже никто не рядится по поводу стохастических попугаев.
А насчет YandexART есть подробнейшая статья, как она научилась делать картинки, которые нравятся людям. За два года.
https://habr.com/ru/companies/yandex/articles/805745/
This media is not supported in your browser
VIEW IN TELEGRAM
Помните времена, когда из музыкальных генераторов были только Муберт и Айва? И музыка была такая ... амбиентная.
Интернетик приподвзвизжал про Udio, давайте я тоже всприподвзвизжу, но нескучно, а с историей.
Неделю назад в сети начали появляться утечки генеративной музыки из "анонимного" генератора. И прикол в том, что в текстах песен анонимы явно троллили Суно (cv видео).
Влогеры взорали, твиттор взвирусился, и тут бах, UDIO.COM выкатили свой сервис.
Сначала типа в бету (fomo), а потом в общий доступ.
Короче идем на https://www.udio.com/ и сначала подвязываем челюсть, а потом слушаем образцы. Когда адаптируетесь к реальности, начинайте пробовать сами и сбрасывайте в коменты, можно сделать 1200 генераций в месяц бесплатно. Треки по 32 секунды (пока). Нагрузка на сервера бешеная, иногда долго думает.
Умеет не только пестни, но и в инструментальные треки. С русским не тестировал (жду в коментах).
Интересно, что есть аналог CFG Scale для Image-to-Image, под названием Remix. Берете трек и говорите, насколько его переремиксить, насколько сделать его отличным от оригинала.
Звучит настолько чисто, что у меня есть гипотеза, что там навален нехилый такой постаудиопродакшен на все результаты. И вероятной не ИИ-шный, а традиционная чистка, расширение базы и прочие цифровые улучшайки.
В общем я в шоке.
Также напоминаю по https://sonauto.ai/ - еще одну ответочку Суно.
Если хотите еще ИИ-музыки, то поглядите тут
А я предвижу взрыв обучающих курсов и инфоцыганских баллад о том, как создавать шедевры в Суно или Удио. Хотя у Суно есть своя Вики и там все написано. Но хтож ее читает.
http://suno.wiki
Интернетик приподвзвизжал про Udio, давайте я тоже всприподвзвизжу, но нескучно, а с историей.
Неделю назад в сети начали появляться утечки генеративной музыки из "анонимного" генератора. И прикол в том, что в текстах песен анонимы явно троллили Суно (cv видео).
Влогеры взорали, твиттор взвирусился, и тут бах, UDIO.COM выкатили свой сервис.
Сначала типа в бету (fomo), а потом в общий доступ.
Короче идем на https://www.udio.com/ и сначала подвязываем челюсть, а потом слушаем образцы. Когда адаптируетесь к реальности, начинайте пробовать сами и сбрасывайте в коменты, можно сделать 1200 генераций в месяц бесплатно. Треки по 32 секунды (пока). Нагрузка на сервера бешеная, иногда долго думает.
Умеет не только пестни, но и в инструментальные треки. С русским не тестировал (жду в коментах).
Интересно, что есть аналог CFG Scale для Image-to-Image, под названием Remix. Берете трек и говорите, насколько его переремиксить, насколько сделать его отличным от оригинала.
Звучит настолько чисто, что у меня есть гипотеза, что там навален нехилый такой постаудиопродакшен на все результаты. И вероятной не ИИ-шный, а традиционная чистка, расширение базы и прочие цифровые улучшайки.
В общем я в шоке.
Также напоминаю по https://sonauto.ai/ - еще одну ответочку Суно.
Если хотите еще ИИ-музыки, то поглядите тут
А я предвижу взрыв обучающих курсов и инфоцыганских баллад о том, как создавать шедевры в Суно или Удио. Хотя у Суно есть своя Вики и там все написано. Но хтож ее читает.
http://suno.wiki
This media is not supported in your browser
VIEW IN TELEGRAM
В дополнение ко вчерашнему посту о цифровом двойнике нашего мира.
Да, ИИ-шечка уже умеет вытаскивать позы НЕ ТОЛЬКО из тиктоковских тянок пляшуших на камеру, а способен работать "в полях". И оцифровывать вот этих вот суровых английских мужуков.
Я уже постил похожий кейс с футбольного поля, но там был специально заготовленный сетап из десятков камер и целая команда на бэке.
Тут, как вы понимаете, даже не высшая лига. И обычная камера.
Мы все уже оцифрованы, а метаверсик живет своей жизнью. До времени.
Да, ИИ-шечка уже умеет вытаскивать позы НЕ ТОЛЬКО из тиктоковских тянок пляшуших на камеру, а способен работать "в полях". И оцифровывать вот этих вот суровых английских мужуков.
Я уже постил похожий кейс с футбольного поля, но там был специально заготовленный сетап из десятков камер и целая команда на бэке.
Тут, как вы понимаете, даже не высшая лига. И обычная камера.
Мы все уже оцифрованы, а метаверсик живет своей жизнью. До времени.
This media is not supported in your browser
VIEW IN TELEGRAM
Я теперь представьте, что имея копию нашего мира в 3Д мы можем давать ей любые скины. И смотреть, например, спортивные трансляции вот так.
Хей, сири/сора(или кто есть в доме), сделай конские перчатки и повесь тайную вечерю на стену.
Хей, сири/сора(или кто есть в доме), сделай конские перчатки и повесь тайную вечерю на стену.
Forwarded from Дима режиссер (Dmitri Kiselev)
Ну, за звукорежиссеров...
Иногда кажется, что в нашем мире все уже изобретено и ты привыкаешь к роли потребителя.
Но порой случается и что-то открыть самому.
Делюсь своей находкой с миром, так как штука реально работает и должна быть взята на вооружение всеми звукорежиссерами, режиссерами и продюсерами.
Как часто на площадке режиссерам запрещают использовать генераторы, ветродуи и прочую шумящую технику, потому что есть задача записать "чистый звук". То есть актерские диалоги, которые потом не надо переозвучивать. Сколько сложностей возникает из за этого. Сколько лишнего времени и сил тратится потом на переозвучание актерами их же сцен, сведение этих голосов, которые, будучи записаны в студии, уже не звучат как оригинальный голос с площадки.
Слава научному прогрессу и нейросетевым алгоритмам, изобрели систему, которая позволяет разделять уже готовые музыкальные треки на вокал, инструментал и прочие элементы. До недавнего времени все это работало так-себе, были слышны множественные артефакты и глюки. Но, наконец, технологии дошли до того уровня, когда уже можно "выпивать за звукорежиссеров, не чокаясь", как говорит мой старый знакомый Сережа Цыпцын.
Так вот, я покопался в настройках новых моделей и обнаружил, что при помощи этих алгоритмов можно практически идеально вычищать голос из самой загрязненной и зашумленной атмосферы.
Посмотрите ролик, который я сделал для иллюстрации работы этой системы и представьте, что ваш звук был записан на сильном ветру или рядом с работающим вертолетом.
Важно, что все это рендерится на домашнем компьютере за 2 (!!!) секунды и абсолютно бесплатно.
Чудный мир, чудный мир...
Иногда кажется, что в нашем мире все уже изобретено и ты привыкаешь к роли потребителя.
Но порой случается и что-то открыть самому.
Делюсь своей находкой с миром, так как штука реально работает и должна быть взята на вооружение всеми звукорежиссерами, режиссерами и продюсерами.
Как часто на площадке режиссерам запрещают использовать генераторы, ветродуи и прочую шумящую технику, потому что есть задача записать "чистый звук". То есть актерские диалоги, которые потом не надо переозвучивать. Сколько сложностей возникает из за этого. Сколько лишнего времени и сил тратится потом на переозвучание актерами их же сцен, сведение этих голосов, которые, будучи записаны в студии, уже не звучат как оригинальный голос с площадки.
Слава научному прогрессу и нейросетевым алгоритмам, изобрели систему, которая позволяет разделять уже готовые музыкальные треки на вокал, инструментал и прочие элементы. До недавнего времени все это работало так-себе, были слышны множественные артефакты и глюки. Но, наконец, технологии дошли до того уровня, когда уже можно "выпивать за звукорежиссеров, не чокаясь", как говорит мой старый знакомый Сережа Цыпцын.
Так вот, я покопался в настройках новых моделей и обнаружил, что при помощи этих алгоритмов можно практически идеально вычищать голос из самой загрязненной и зашумленной атмосферы.
Посмотрите ролик, который я сделал для иллюстрации работы этой системы и представьте, что ваш звук был записан на сильном ветру или рядом с работающим вертолетом.
Важно, что все это рендерится на домашнем компьютере за 2 (!!!) секунды и абсолютно бесплатно.
Чудный мир, чудный мир...
YouTube
DUNE 2 SOUND DECONSTRUCTION WITH UVR 5
Just in case you need to clean your voice from wind or any other noise.
I use DUNE 2 fragment with noisy background just for demonstration.
Render time was 2 seconds on GTX 4090.
Go to: ultimatevocalremover.com its free and friendly
I use DUNE 2 fragment with noisy background just for demonstration.
Render time was 2 seconds on GTX 4090.
Go to: ultimatevocalremover.com its free and friendly
Тут у меня родилась идея для челленджа.
Помните, я постил про сервис ИИ-музыки Loudly.
Приводил оттуда три трека.
Так вот, два из них Shazam прекрасно распознал.
И если к первому, он нашел как бы похожий трек.
То вот к этому треку (Building Snakes) он нашел в сети полное совпадение:
https://www.loudly.com/music/song/Building%20Snakes-2d8275ba-277b-11ec-b46c-064f3e9f608e
https://www.youtube.com/watch?v=uTREaiakPPQ
Я полез смотреть, что это за трек и попал в какую-то кроличью нору. Рандомный контент, дикие фотки, случайные треки.
Хотя именно этот трек загружен еще в 2022.
Я блуждал по ссылкам с ютюба и попадал в какой-то ад. Что это вообще?
Года три назад я читал про ботов, которые заливают в ютюб рандомный контент тоннами, чтобы один из каналов могу выстрелить. В основном генеративная (но не ИИ) музыка с картинками.
Сейчас я понимаю, что круг замкнулся.
ИИ-генераторы, подсовывают мне музыку из старых попыток завалить ютюб странным контентом.
Расскажите мне, что это за совпадение, что это за странный канал и как это все работает.
А челендж в том, чтобы находить с помощью Shazam совпадения ИИ-треков с реальными треками.
Не пробовали?
Я вот попробовал.
Помните, я постил про сервис ИИ-музыки Loudly.
Приводил оттуда три трека.
Так вот, два из них Shazam прекрасно распознал.
И если к первому, он нашел как бы похожий трек.
То вот к этому треку (Building Snakes) он нашел в сети полное совпадение:
https://www.loudly.com/music/song/Building%20Snakes-2d8275ba-277b-11ec-b46c-064f3e9f608e
https://www.youtube.com/watch?v=uTREaiakPPQ
Я полез смотреть, что это за трек и попал в какую-то кроличью нору. Рандомный контент, дикие фотки, случайные треки.
Хотя именно этот трек загружен еще в 2022.
Я блуждал по ссылкам с ютюба и попадал в какой-то ад. Что это вообще?
Года три назад я читал про ботов, которые заливают в ютюб рандомный контент тоннами, чтобы один из каналов могу выстрелить. В основном генеративная (но не ИИ) музыка с картинками.
Сейчас я понимаю, что круг замкнулся.
ИИ-генераторы, подсовывают мне музыку из старых попыток завалить ютюб странным контентом.
Расскажите мне, что это за совпадение, что это за странный канал и как это все работает.
А челендж в том, чтобы находить с помощью Shazam совпадения ИИ-треков с реальными треками.
Не пробовали?
Я вот попробовал.
YouTube
Gardens
Provided to YouTube by CDBaby
Gardens · Viviane Ulyssea
Garden
℗ 2022 Viviane Coelho Ulyssea
Released on: 2022-12-29
Auto-generated by YouTube.
Gardens · Viviane Ulyssea
Garden
℗ 2022 Viviane Coelho Ulyssea
Released on: 2022-12-29
Auto-generated by YouTube.
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
Когда последняя смена перед началом захвата кожаных ☕️
Please open Telegram to view this post
VIEW IN TELEGRAM
Я немного скептически отношусь ко всем этим курсам промптинга для chatGPT. Если вы посидите в тишине с моделью один на один, то довольно быстро поймете, как решать ту или иную задачу.
Кроме того, в разных ситуациях требуются разные подходы, и если пихать одни и те же рецепты в разные задачи, то результат может быть забавным.
Тем не менее нашел очень приличную работу по обобщению техник промпт-инжиниринга, в которой даже есть акцент на разработку приложений с помощью LLM.
Там даже есть про RAG, вывод в JSON, много ссылок на статьи, а не просто рецепты типа chain of thoughts.
Ну и оформлено очень хорошо.
Сам гайд тут:
https://big-picture.com/media/the_prompt_engineering_cheat_sheet.pdf
А инструкции и пояснения тут:
https://medium.com/the-generator/the-perfect-prompt-prompt-engineering-cheat-sheet-d0b9c62a2bba
Кроме того, в разных ситуациях требуются разные подходы, и если пихать одни и те же рецепты в разные задачи, то результат может быть забавным.
Тем не менее нашел очень приличную работу по обобщению техник промпт-инжиниринга, в которой даже есть акцент на разработку приложений с помощью LLM.
Там даже есть про RAG, вывод в JSON, много ссылок на статьи, а не просто рецепты типа chain of thoughts.
Ну и оформлено очень хорошо.
Сам гайд тут:
https://big-picture.com/media/the_prompt_engineering_cheat_sheet.pdf
А инструкции и пояснения тут:
https://medium.com/the-generator/the-perfect-prompt-prompt-engineering-cheat-sheet-d0b9c62a2bba
Media is too big
VIEW IN TELEGRAM
Ничего себе.
Это реалтайм и полная задержка от голосовой команды до видео ответа - всего 1.5 секунды! С липсинком!!
Работает на 3060 12 GB
Nvidia на 8 GB, скорее всего, тоже хватит(!!)
Под капотом:
- STT: whisper.cpp large
- LLM: Mistral-7B-v0.2-Q5_0.gguf
- TTS: XTTSv2 wav-streaming
- lipsync: wav2lip-streaming
- Google: langchain google-serp
Код?
А пажалста:
github.com/Mozer/talk-llama-fast
Всем срочно ставить на выходных и тестировать.
Русский вариант: https://www.youtube.com/watch?v=ciyEsZpzbM8
Английский язык: https://www.youtube.com/watch?v=N3Eoc6M3Erg
Это реалтайм и полная задержка от голосовой команды до видео ответа - всего 1.5 секунды! С липсинком!!
Работает на 3060 12 GB
Nvidia на 8 GB, скорее всего, тоже хватит(!!)
Под капотом:
- STT: whisper.cpp large
- LLM: Mistral-7B-v0.2-Q5_0.gguf
- TTS: XTTSv2 wav-streaming
- lipsync: wav2lip-streaming
- Google: langchain google-serp
Код?
А пажалста:
github.com/Mozer/talk-llama-fast
Всем срочно ставить на выходных и тестировать.
Русский вариант: https://www.youtube.com/watch?v=ciyEsZpzbM8
Английский язык: https://www.youtube.com/watch?v=N3Eoc6M3Erg
Тут вот интернетик кипит новостями про Apple AI-Focused M4 Chips Starting in Late 2024
Держите подробностей. 512 гиг объединенной памяти звучит солидно.
По слухам, Apple уже близка к производству процессора M4, и ожидается, что он будет представлен как минимум в трех основных вариантах. Чипы под кодовыми названиями Donan для младшего класса, Brava для среднего и Hidra для высшего. Чип Donan будет использоваться в MacBook Pro начального уровня, MacBook Air и Mac mini низкого уровня, а чипы Brava - в MacBook Pro и Mac mini высшего уровня.
Чип Hidra предназначен для Mac Pro, что позволяет предположить, что это чип уровня "Ultra" или "Extreme". Что касается Mac Studio, то Apple тестирует версии с еще не выпущенным чипом M3 и разновидностью процессора M4 Brava, который, предположительно, будет более высокого уровня, чем чипы M4 Pro и M4 Max "Brava".
Настольные компьютеры Mac версии M4 могут поддерживать до 512 ГБ объединённой памяти, что станет заметным скачком по сравнению с текущим лимитом в 192 ГБ.
Чипы M4 будут построены по тому же 3-нанометровому техпроцессу, что и чипы M3, но поставщик Apple компания TSMC, скорее всего, будет использовать улучшенную версию 3-нм техпроцесса для повышения производительности и энергоэффективности. Apple также планирует добавить значительно улучшенный нейронный движок с увеличенным количеством ядер для задач искусственного интеллекта.
Держите подробностей. 512 гиг объединенной памяти звучит солидно.
По слухам, Apple уже близка к производству процессора M4, и ожидается, что он будет представлен как минимум в трех основных вариантах. Чипы под кодовыми названиями Donan для младшего класса, Brava для среднего и Hidra для высшего. Чип Donan будет использоваться в MacBook Pro начального уровня, MacBook Air и Mac mini низкого уровня, а чипы Brava - в MacBook Pro и Mac mini высшего уровня.
Чип Hidra предназначен для Mac Pro, что позволяет предположить, что это чип уровня "Ultra" или "Extreme". Что касается Mac Studio, то Apple тестирует версии с еще не выпущенным чипом M3 и разновидностью процессора M4 Brava, который, предположительно, будет более высокого уровня, чем чипы M4 Pro и M4 Max "Brava".
Настольные компьютеры Mac версии M4 могут поддерживать до 512 ГБ объединённой памяти, что станет заметным скачком по сравнению с текущим лимитом в 192 ГБ.
Чипы M4 будут построены по тому же 3-нанометровому техпроцессу, что и чипы M3, но поставщик Apple компания TSMC, скорее всего, будет использовать улучшенную версию 3-нм техпроцесса для повышения производительности и энергоэффективности. Apple также планирует добавить значительно улучшенный нейронный движок с увеличенным количеством ядер для задач искусственного интеллекта.
Forwarded from МТС Офишиал
⚡⚡⚡ GPT от МТС заняла 2 место в лидерборде альянса ИИ, обогнав вообще всех, потому что первое место — человеческий бенчмарк.
нейросетка, ты просто космос 🫶
нейросетка, ты просто космос 🫶
Это вроде не фейк. Поэтому я дрожащей рукой поднимаю горькую за стендаперов.
Не чокаясь.
Получается, что и юмор тоже токенизируется....
Скоро будем просить ИИ попетросянить с утра для поднятия настроения.
И да, юморок кондовый, но вы же помните, какие картинки были два года назад.
https://www.udio.com/songs/aviCwYvPnTnhb4qHq5iAmZ
Не чокаясь.
Получается, что и юмор тоже токенизируется....
Скоро будем просить ИИ попетросянить с утра для поднятия настроения.
И да, юморок кондовый, но вы же помните, какие картинки были два года назад.
https://www.udio.com/songs/aviCwYvPnTnhb4qHq5iAmZ
Udio
Seva - Смех сквозь время | Udio
Listen to Смех сквозь время by Seva on Udio. Discover, create, and share music with the world. Use the latest technology to create AI music in seconds.
Вынесу из коментов такое наблюдение.
Я тоже замечал, что chatGPT довольно "злопамятный", ну или просто занудный - помнит все разговорчики и ведёт себя соответственно. Даже если я открываю новые чаты и генерю новые картинки.
Но чтобы Automatic1111 вел себя также - это уже совсем интересно.
Как думаете - это теория заговора, когнитивное заблуждение или имеет место быть на самом деле?
"Заметил что у SD на а1111 есть галлюцинация с предыдущей генерации. Даже если ты откроешь новую чистую вкладу а1111 и сделаешь промпт с надписью 1, то он тебе нарисуется что-то отдаленно похожее с прошлой генерации. Как будто к кеше осталось немного инфы
Но это часто помогает найти нужный результат, Как бы такой метамикс для создание чего то прям нового, но в тоже время подходящего по задаче"
P.S. есть такое явление, когда chatGPT отвечает Очень быстро, это значит, что он нашел у себя в кеше (на том серваке, на котором крутится ваш чат), похожий запрос и отвечает по нему. "Похожий" не в смысле тестового совпадения, а похожий в векторном пространстве эмбедингов, похожий "по смыслу". Где похожие смыслы - это области латентного пространства, близкие дуг другу.
Таким образом он экономит время на ответы.
Я тоже замечал, что chatGPT довольно "злопамятный", ну или просто занудный - помнит все разговорчики и ведёт себя соответственно. Даже если я открываю новые чаты и генерю новые картинки.
Но чтобы Automatic1111 вел себя также - это уже совсем интересно.
Как думаете - это теория заговора, когнитивное заблуждение или имеет место быть на самом деле?
"Заметил что у SD на а1111 есть галлюцинация с предыдущей генерации. Даже если ты откроешь новую чистую вкладу а1111 и сделаешь промпт с надписью 1, то он тебе нарисуется что-то отдаленно похожее с прошлой генерации. Как будто к кеше осталось немного инфы
Но это часто помогает найти нужный результат, Как бы такой метамикс для создание чего то прям нового, но в тоже время подходящего по задаче"
P.S. есть такое явление, когда chatGPT отвечает Очень быстро, это значит, что он нашел у себя в кеше (на том серваке, на котором крутится ваш чат), похожий запрос и отвечает по нему. "Похожий" не в смысле тестового совпадения, а похожий в векторном пространстве эмбедингов, похожий "по смыслу". Где похожие смыслы - это области латентного пространства, близкие дуг другу.
Таким образом он экономит время на ответы.
Держите хорошие утечки про Stable Diffusion 3.
Очень добротный разбор разных режимов работы, стилей и даже лёгкий анализ применимости.
Ничего про требования к железу и время генерации тут вы не услышите - тестирование целиком в дискорде, то есть в облаке.
Если вкратце.
Качество огонь, особенно на абстракциях, продуктовом дизайне и архитектуре.
С фото и портретами - мало информации, но фотографы хвалят.
С управляемостью композицией - беда, особенно для некожаных объектов. Вся надежда на КонтролНет.
LLM-промптинг - да, работает, меньше вуду и скобочек в промптах.
Народ усматривает некую "миджорниевость" в картинках. Наверное это плюс, ибо на файнтюнах можно будет уйти в любую картинку.
В общем поглядите, очень хорошая подача у автора. Никаких визгов "ойсморитечо". Все ровно и по делу.
https://youtu.be/mQSKoAEaIJA?si=OiZ6vkKwEYC5ywLP
Очень добротный разбор разных режимов работы, стилей и даже лёгкий анализ применимости.
Ничего про требования к железу и время генерации тут вы не услышите - тестирование целиком в дискорде, то есть в облаке.
Если вкратце.
Качество огонь, особенно на абстракциях, продуктовом дизайне и архитектуре.
С фото и портретами - мало информации, но фотографы хвалят.
С управляемостью композицией - беда, особенно для некожаных объектов. Вся надежда на КонтролНет.
LLM-промптинг - да, работает, меньше вуду и скобочек в промптах.
Народ усматривает некую "миджорниевость" в картинках. Наверное это плюс, ибо на файнтюнах можно будет уйти в любую картинку.
В общем поглядите, очень хорошая подача у автора. Никаких визгов "ойсморитечо". Все ровно и по делу.
https://youtu.be/mQSKoAEaIJA?si=OiZ6vkKwEYC5ywLP
YouTube
Kasucast #23 - Stable Diffusion 3 Early Preview
#sdxl #ComfyUI #comfyui #inpainting #stabilityai #stablediffusion3 #stablediffusion #SD3
I joined StabilityAI in April 2024. Thanks for all the channel support!
This is a video about the SD3 available on the Stability Discord server. I try out all sorts…
I joined StabilityAI in April 2024. Thanks for all the channel support!
This is a video about the SD3 available on the Stability Discord server. I try out all sorts…
Музыкальные бенчмарки.
Предлагаю коллективно поразмышлять над стремлением кожаных все измерить, дать оценки, придумать метрики и расставить все по рейтингу.
(За рамками остается дискуссия про оценки в школе, всякие IQ-тесты и лекции Сапольского на эту тему).
Мы наблюдаем битвы бенчмарков и всякие чат-арены, где LLM хлещутся за первые места в хит-параде. Разработчики тоже не дураки, включают тесты из этих бенчмарков в обучающие датасеты, читеринг поставлен на поток. Немного напоминает ситуацию с экзаменами - выучил билеты, ответил на вопросы - хороший образованный мальчик. Смышленые мальчики пишут шпоры и сдают на отлично. Метрика простая и понятная.
Интереснее с "эстетическими бенчмарками" для картинок. Разработчики уверяют нас в своих бумагах, что "мы показали кожаным наши картинки, и они нравятся им больше, чем картинки от конкурентов". Гусарам верят на слово, но холивары между свидетелями Midjourney и технократами от Stable Diffusion не утихают. Любимое занятие - присовывать похожие промпты в разные генераторы и сравнивать пиксели на уровне "наши пиксели лучше".
Теперь на сцену выходят музыкальные генераторы. Я наблюдаю в ютюпчике битвы между Suno и Udio, когда в них вонзают одинаковые промпты и сравнивают полученные треки. Как вы понимаете, получается битва вкусовщины.
Наверное, стоит ожидать появления "Музыкального Ринга", где юзеры будут генерить треки вслепую, не зная, какой генератор пишет музыку и ставить лайки, по аналогии с чат-бот-ареной.
И кожаные будут продолжать биться за внимание, количество лайков, прослушиваний, оценок.
Соц сети прочно поселили в нас желание сравнивать себя и других с какими-то умозрительными метриками. И платим мы за это тревогой.
Может хотя бы музыку и картинки мы будем воспринимать просто так, для удовольствия?
Держите еще один (уже не новый) генератор фоновой музыки. Его плюс в довольно ловком механизме редактирования и допинывания результата до годного. Для музыкальный "фонов" самое то.
А в коментах можно продолжить битвы, кто круче. Мы ж по другом не умеем...
https://soundraw.io/
Предлагаю коллективно поразмышлять над стремлением кожаных все измерить, дать оценки, придумать метрики и расставить все по рейтингу.
(За рамками остается дискуссия про оценки в школе, всякие IQ-тесты и лекции Сапольского на эту тему).
Мы наблюдаем битвы бенчмарков и всякие чат-арены, где LLM хлещутся за первые места в хит-параде. Разработчики тоже не дураки, включают тесты из этих бенчмарков в обучающие датасеты, читеринг поставлен на поток. Немного напоминает ситуацию с экзаменами - выучил билеты, ответил на вопросы - хороший образованный мальчик. Смышленые мальчики пишут шпоры и сдают на отлично. Метрика простая и понятная.
Интереснее с "эстетическими бенчмарками" для картинок. Разработчики уверяют нас в своих бумагах, что "мы показали кожаным наши картинки, и они нравятся им больше, чем картинки от конкурентов". Гусарам верят на слово, но холивары между свидетелями Midjourney и технократами от Stable Diffusion не утихают. Любимое занятие - присовывать похожие промпты в разные генераторы и сравнивать пиксели на уровне "наши пиксели лучше".
Теперь на сцену выходят музыкальные генераторы. Я наблюдаю в ютюпчике битвы между Suno и Udio, когда в них вонзают одинаковые промпты и сравнивают полученные треки. Как вы понимаете, получается битва вкусовщины.
Наверное, стоит ожидать появления "Музыкального Ринга", где юзеры будут генерить треки вслепую, не зная, какой генератор пишет музыку и ставить лайки, по аналогии с чат-бот-ареной.
И кожаные будут продолжать биться за внимание, количество лайков, прослушиваний, оценок.
Соц сети прочно поселили в нас желание сравнивать себя и других с какими-то умозрительными метриками. И платим мы за это тревогой.
Может хотя бы музыку и картинки мы будем воспринимать просто так, для удовольствия?
Держите еще один (уже не новый) генератор фоновой музыки. Его плюс в довольно ловком механизме редактирования и допинывания результата до годного. Для музыкальный "фонов" самое то.
А в коментах можно продолжить битвы, кто круче. Мы ж по другом не умеем...
https://soundraw.io/
soundraw.io
AI Music Generator SOUNDRAW
Discover the power of AI generated music with our platform. Create unique songs in just a few clicks. Edit & personalize the songs you create to your specific needs. Generate unlimited royalty-free music to use in your songs, projects and videos. Distribute…
This media is not supported in your browser
VIEW IN TELEGRAM
Вот вам прототипы будущих метаверсов.
Не убогие мирки с лоу-поли персонажами, которые не знают, что делать.
А, скажем так, world-on-demand.
Берешь в руки шашки (в данном случае Dreams плюс Krea.ai) и начинаешь создавать мир ПРЯМО у себя в голове.
Автор пишет, что записанный видос в таком качестве не передает того катарсиса, который он испытал.
Именно поэтому интерактивные инструменты, а не кнопкожательство будут важны при построении миров.
Ну и в пределе ИИ будет читать ваши мыслишки и строить картинки сам. У вас в голове. Примерно вот так, как на видео.
Не убогие мирки с лоу-поли персонажами, которые не знают, что делать.
А, скажем так, world-on-demand.
Берешь в руки шашки (в данном случае Dreams плюс Krea.ai) и начинаешь создавать мир ПРЯМО у себя в голове.
Автор пишет, что записанный видос в таком качестве не передает того катарсиса, который он испытал.
Именно поэтому интерактивные инструменты, а не кнопкожательство будут важны при построении миров.
Ну и в пределе ИИ будет читать ваши мыслишки и строить картинки сам. У вас в голове. Примерно вот так, как на видео.
This media is not supported in your browser
VIEW IN TELEGRAM
Генеративное интерактивное 3Д.
В прошлом посте было про ИИ-создание миров, а вот вам связка Dreams, Krea and 3daistudio для создания трехмерного персонажа.
Выглядит просто убойно, потому интерактив и реалтайм.
Как пишет автор: 3d-модель в конце видео была сгенерирована из результатов работы Dreams+Krea всего за 15 секунд. Только модель слева является "настоящей" 3d-моделью.
Да, это не продакшен качество, но это пайплайн, который взрывает мне мозг. Просто посмотрите на это безобразие глазами себя двухлетней давности.
В прошлом посте было про ИИ-создание миров, а вот вам связка Dreams, Krea and 3daistudio для создания трехмерного персонажа.
Выглядит просто убойно, потому интерактив и реалтайм.
Как пишет автор: 3d-модель в конце видео была сгенерирована из результатов работы Dreams+Krea всего за 15 секунд. Только модель слева является "настоящей" 3d-моделью.
Да, это не продакшен качество, но это пайплайн, который взрывает мне мозг. Просто посмотрите на это безобразие глазами себя двухлетней давности.
И снова 3D AI меня настигает из твиттора.
Про Deemos Tech и их Родена (Rodin Gen-1) я писал много раз.
Но тут они замыслили совсем уж 3Д-безобразие.
Сейчас, говорят, запустим свой Rodin Gen-1, а потом опенсорснем вот такую модель!
CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets
Будем, говорят, ИИ-создавать высококачественные 3Д-ассеты.
И ну выкладывать две картинки на Гитхаб!
Выглядит нарядно, но ни кода, ни даже бумаги пока нет. Только две картинки и твиттор:
https://twitter.com/DeemosTech/status/1777376590743359911
Судя по демкам Rodin Gen-1 потенциал у них явно есть. Очень ждем.
Про Deemos Tech и их Родена (Rodin Gen-1) я писал много раз.
Но тут они замыслили совсем уж 3Д-безобразие.
Сейчас, говорят, запустим свой Rodin Gen-1, а потом опенсорснем вот такую модель!
CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets
Будем, говорят, ИИ-создавать высококачественные 3Д-ассеты.
И ну выкладывать две картинки на Гитхаб!
Выглядит нарядно, но ни кода, ни даже бумаги пока нет. Только две картинки и твиттор:
https://twitter.com/DeemosTech/status/1777376590743359911
Судя по демкам Rodin Gen-1 потенциал у них явно есть. Очень ждем.
Нейрокомпоз от Адобченко.
Так, мы все бросаем и смотрим вот сюда:
https://www.youtube.com/watch?v=6de4akFiNYM
До конца. Потому что там не только автокей, удаление или добавление объектов и прочий нейрокомпоз в Премьере. Там еще можно выделить видеотрек и сказать, а продолжи его дальше (а то у меня съемочный видос закончился). Он его продолжит, как Суно или Удио продолжают музыкальные треки.
Дальше совсем уж дичь, ибо в демо появляется лого OpenAI и всуе поминается великая и ужасная SORA. Которая лихо генерит Би-Роллы для выбранных видосов. Между строк также поминают Пику и Рунвей, как подключаемые внешние модели для генерации видосов. Ну и конечно Firefly Video Model.
Обещают в релизе в конце года, хотя начнут раскатывать на пользователей в мае.
Крутизна в том, что все это генеративное видео перестает быть сферическим контентом в вакууме, сгенеренным в градио-интерфейсах, а становится частью пайплайна и встраивается в ИНСТРУМЕНТЫ, а не в кнопки.
Браво, Адобченко. Тащи также музыкальные генераторы в свои софты, чтобы был нормальный таймлайн и крутилки.
Так, мы все бросаем и смотрим вот сюда:
https://www.youtube.com/watch?v=6de4akFiNYM
До конца. Потому что там не только автокей, удаление или добавление объектов и прочий нейрокомпоз в Премьере. Там еще можно выделить видеотрек и сказать, а продолжи его дальше (а то у меня съемочный видос закончился). Он его продолжит, как Суно или Удио продолжают музыкальные треки.
Дальше совсем уж дичь, ибо в демо появляется лого OpenAI и всуе поминается великая и ужасная SORA. Которая лихо генерит Би-Роллы для выбранных видосов. Между строк также поминают Пику и Рунвей, как подключаемые внешние модели для генерации видосов. Ну и конечно Firefly Video Model.
Обещают в релизе в конце года, хотя начнут раскатывать на пользователей в мае.
Крутизна в том, что все это генеративное видео перестает быть сферическим контентом в вакууме, сгенеренным в градио-интерфейсах, а становится частью пайплайна и встраивается в ИНСТРУМЕНТЫ, а не в кнопки.
Браво, Адобченко. Тащи также музыкальные генераторы в свои софты, чтобы был нормальный таймлайн и крутилки.
YouTube
Generative AI in Premiere Pro powered by Adobe Firefly | Adobe Video
Coming to #PremierePro in 2024: revolutionary #GenerativeAI features like Object Addition, Object Removal, and Generative Extend - powered by our new Adobe Firefly video model.
Early research explorations with our friends at Open AI, Runway and Pika Labs…
Early research explorations with our friends at Open AI, Runway and Pika Labs…