Где модерация, брат?!
Или идея как быстро заработать на Джипитишках.
Смотрите, в прошлый понедельник Open AI бахнули новость про то, что каждый теперь сможет собирать свои Джиптишки и (потом) выкладывать их в GPT Store. И ну торговать!
Когда будет GPT Store непонятно, как он будет устроен - непонятно, какая процедура подачи в стор - тоже непонятно.
Но народ уже вовсю ваяет своиДжипеги Джипитишки, делится ими, выкладывает в сеть, шиллит их в твитторах.
Все это мне напоминает ранние Артстейшены, Девиан-арты, или даже маркетплейсы ассетов для UE, плагинов для Юнити - ну вы дальше поняли.
Более всего, мне это напоминает первый Google Play - в девичестве Android Market.
Тонны шлака обрушиваются на головы ни в чем не повинных пользователей интернета.
Ну и конечно, это напоминает историю с плагинами для chatGPT - более тысячи единиц немодерируемого мусора и редкие жемчужины (часть из которых умерли в прошлый понедельник). И сотни обзоров и хит-парадов для этих плагинов с сети.
Есть иллюзорная надежда, что Open AI все-таки сделает хорошую модерацию, категоризацию и пр.
А пока очень смышленые парни уже пилят новоиспеченные Каталоги Джипитишек. С блекджеком, лайками, рейтингами и всей этой социальной требухой. По ссылке - пример.
Хотите нажиться, срочно пилите Art Station дляДжипегов Джипитишек! С хит-парадами, обзорами, челленджами, битвами ботов, спид-ботингом и рейтингами.
До модерируемого GPT Store - еще долгий путь (судя по раннему Android Market) - и вы успеете застолбить поляну, где будете продавать вывод в топ, платные обзоры, попадание на главную и пр.
Как пример, приведу такой факт. За пару месяцев до выхода официального приложения (для иос и андроид) для chatGPT от Open AI, смышленые парни запили свои приложения (примеры - Genie или Ask AI) - просто выкликалку chatGPT через API, обертку. Поднимали, миллионы в месяц(не помню точные цифры).
Думаете они умерли после выхода официальных приложений от Open AI?! Нет, огромная User Base, набранная за пару месяцев на хайпе, продолжает тащить огромную выручку, около 2 миллионов в месяц. Time to Market - решает во времена бешеного хайпа.
Так что пилите GPT Station, озолотитесь.
Вот вам первые примеры для подражания:
https://supertools.therundown.ai/gpts
Или идея как быстро заработать на Джипитишках.
Смотрите, в прошлый понедельник Open AI бахнули новость про то, что каждый теперь сможет собирать свои Джиптишки и (потом) выкладывать их в GPT Store. И ну торговать!
Когда будет GPT Store непонятно, как он будет устроен - непонятно, какая процедура подачи в стор - тоже непонятно.
Но народ уже вовсю ваяет свои
Все это мне напоминает ранние Артстейшены, Девиан-арты, или даже маркетплейсы ассетов для UE, плагинов для Юнити - ну вы дальше поняли.
Более всего, мне это напоминает первый Google Play - в девичестве Android Market.
Тонны шлака обрушиваются на головы ни в чем не повинных пользователей интернета.
Ну и конечно, это напоминает историю с плагинами для chatGPT - более тысячи единиц немодерируемого мусора и редкие жемчужины (часть из которых умерли в прошлый понедельник). И сотни обзоров и хит-парадов для этих плагинов с сети.
Есть иллюзорная надежда, что Open AI все-таки сделает хорошую модерацию, категоризацию и пр.
А пока очень смышленые парни уже пилят новоиспеченные Каталоги Джипитишек. С блекджеком, лайками, рейтингами и всей этой социальной требухой. По ссылке - пример.
Хотите нажиться, срочно пилите Art Station для
До модерируемого GPT Store - еще долгий путь (судя по раннему Android Market) - и вы успеете застолбить поляну, где будете продавать вывод в топ, платные обзоры, попадание на главную и пр.
Как пример, приведу такой факт. За пару месяцев до выхода официального приложения (для иос и андроид) для chatGPT от Open AI, смышленые парни запили свои приложения (примеры - Genie или Ask AI) - просто выкликалку chatGPT через API, обертку. Поднимали, миллионы в месяц(не помню точные цифры).
Думаете они умерли после выхода официальных приложений от Open AI?! Нет, огромная User Base, набранная за пару месяцев на хайпе, продолжает тащить огромную выручку, около 2 миллионов в месяц. Time to Market - решает во времена бешеного хайпа.
Так что пилите GPT Station, озолотитесь.
Вот вам первые примеры для подражания:
https://supertools.therundown.ai/gpts
www.rundown.ai
Best AI Tools Directory | The Rundown Supertools
Browse hundreds of vetted AI tools for coding, marketing, design & more. Updated daily—quick filters help you find the perfect tool fast.
🔥42👍8
This media is not supported in your browser
VIEW IN TELEGRAM
Ну, за курсы по блендору и техническую поддержку.
А в общем-то за любые курсы, инструкторов и вот эти вот проверки заданий, ответы на вопросы, живые, блин, созвоны, и все, что продается как ценность очередных курсов.
Вот вы же шарили экран на зум-созвонах? Ну или были в ситуации типа "покажи свой экран, я быстро скажу, что надо сделать".
Теперь вы просто можете пошарить свой экран с ИИ, и поговорить с ним об этом, голосом. Чем ИИ хуже кожаного?
Поглядите - на видео обобщенный Радж шарит свой экран с chatGPT и спрашивает голосом(!) самый главный вопрос трехмерщиков - как превратить кубик в шарик. В Блендоре.
Просто разговаривает с ним, делает, что ему говорят, спрашивает "ичодальше", получает ответы.
Я три месяца назад охреневал о того, как мне chatGPT рассказал за вечер, как перенести блендшейпы из майки в юнити и научил прикручивать слайдеры к деформации. А теперь это можно делать на совершенно другом уровне.
Явшоке.
P.S. Тут напрашивается сначала пост про то, что проще не только шарить экран, а сразу давать управление, пусть наведет порядок и превратит все кубики в шарики.
Ну и все идет в эту сторону, как сказал Билл Гейтс, у нас у всех в ухе будет ассистент, который будет шептать нам полезные ситуации в моменте.
А шарить с ним мы будем все, что с нами происходит.
Шаринг жизни, в общем.
А в общем-то за любые курсы, инструкторов и вот эти вот проверки заданий, ответы на вопросы, живые, блин, созвоны, и все, что продается как ценность очередных курсов.
Вот вы же шарили экран на зум-созвонах? Ну или были в ситуации типа "покажи свой экран, я быстро скажу, что надо сделать".
Теперь вы просто можете пошарить свой экран с ИИ, и поговорить с ним об этом, голосом. Чем ИИ хуже кожаного?
Поглядите - на видео обобщенный Радж шарит свой экран с chatGPT и спрашивает голосом(!) самый главный вопрос трехмерщиков - как превратить кубик в шарик. В Блендоре.
Просто разговаривает с ним, делает, что ему говорят, спрашивает "ичодальше", получает ответы.
Я три месяца назад охреневал о того, как мне chatGPT рассказал за вечер, как перенести блендшейпы из майки в юнити и научил прикручивать слайдеры к деформации. А теперь это можно делать на совершенно другом уровне.
Явшоке.
P.S. Тут напрашивается сначала пост про то, что проще не только шарить экран, а сразу давать управление, пусть наведет порядок и превратит все кубики в шарики.
Ну и все идет в эту сторону, как сказал Билл Гейтс, у нас у всех в ухе будет ассистент, который будет шептать нам полезные ситуации в моменте.
А шарить с ним мы будем все, что с нами происходит.
Шаринг жизни, в общем.
👍78🔥32👎3
У меня скопилось тонна материала про ИИ-генерацию 3Д, но это вам не новости из твиттора перепащивать или цитировать техкранч и вердж, поэтому я просто не успеваю поумничать на эту тему. Статьи почитал, источники почекал, вник. На этом время и воля закончились. Напишите пару мотивационных коментов в чате, для таких нарциссов, как я, это энергетик.
🔥88👍4
Немного в сторону от ИИ. Использование ИИ в области нахождения корреляций и предсказания уровня тех или иных медицинских показателей вполне уместно там, где измерения требуют громоздкого оборудования.
Внимание - компактное решение для неинвазивного измерения уровня глюкозы. Это не корреляция с глюкозой - это прямое измерение самой молекулы глюкозы. Неинвазивно.
Для проведения измерений используются только два элемента: магнитное поле и низкочастотные радиоволны. Поэтому общая потребляемая мощность значительно меньше, чем у обычного смартфона.
Такая миниатюризация магнитно-резонансной системы является беспрецедентной. Это реальный прорыв, если это работает.
Ждем встраивания в телефоны.
https://synex.substack.com/p/solving-non-invasive-glucose-monitoring
Внимание - компактное решение для неинвазивного измерения уровня глюкозы. Это не корреляция с глюкозой - это прямое измерение самой молекулы глюкозы. Неинвазивно.
Для проведения измерений используются только два элемента: магнитное поле и низкочастотные радиоволны. Поэтому общая потребляемая мощность значительно меньше, чем у обычного смартфона.
Такая миниатюризация магнитно-резонансной системы является беспрецедентной. Это реальный прорыв, если это работает.
Ждем встраивания в телефоны.
https://synex.substack.com/p/solving-non-invasive-glucose-monitoring
Substack
Solving Non-Invasive Glucose Monitoring
We’re excited to announce a major breakthrough toward non-invasive glucose monitoring, the Holy Grail of self-measurement.
🔥23👍22
Немного разбавлю фонтаны собственных и чужих восторгов по поводу GPT-Видения. Всё неочеВИДно.
А по мотивам объявлю челлендж для тех, у кого есть chatGPT Plus и DALL·E 3.
Знаменитая задача "Чихуахуа или кекс" в социальных сетях считается решенной с помощью GPT-4V. Вроде как он теперь щелкает эту задачку как тузик грелку. Но есть гипотеза, что это изображение целиком уже проникло в обучающие датасеты и поэтому распознается без ошибок.
Оказывается, если взять и перемешать все эти кексы и рексы в другом порядке (сделать иную сетку из мини-картинок), то GPT-4V начинает спотыкаться, путается в показаниях, неправильно считает количество пёселей, а иногда и вовсе ошибается, если его попросить распознать конкретную картинку в сетке (типа третья в первом ряду).
Поглядите тред в твитторе, там народ хлещется, замешивая кексы и рексы в разные сетки и мучая GPT-V. Воистину любопытство движет миром. У кого-то GPT-4V - угадывает сходу, у кого-то промахивается, народ строит теории, защищает ИИ:
https://twitter.com/xwang_lk/status/1723389615254774122
А я задумался о том, что мы сейчас с помощью экспериментов над ИИ, сможем обнаружить интересные артефакты из нашей культуры. Про ИИ-мантры и мандалы я уже писал в серии про ИИ-шизофрению(#aishizo). А сейчас мы будем натыкаться на слепые зоны ИИ, связанные с тем, для некоторых понятий у нас нет визуальных образов. И наоборот, попытка описать содержимое кожаной башки приводит к испорченному телефону и искусствоведению.
Об этом в следующем посте про цветик-семицветик и (о, боги) челлендж, для которого у меня нет приза, кроме вселенской славы в канале.
А по мотивам объявлю челлендж для тех, у кого есть chatGPT Plus и DALL·E 3.
Знаменитая задача "Чихуахуа или кекс" в социальных сетях считается решенной с помощью GPT-4V. Вроде как он теперь щелкает эту задачку как тузик грелку. Но есть гипотеза, что это изображение целиком уже проникло в обучающие датасеты и поэтому распознается без ошибок.
Оказывается, если взять и перемешать все эти кексы и рексы в другом порядке (сделать иную сетку из мини-картинок), то GPT-4V начинает спотыкаться, путается в показаниях, неправильно считает количество пёселей, а иногда и вовсе ошибается, если его попросить распознать конкретную картинку в сетке (типа третья в первом ряду).
Поглядите тред в твитторе, там народ хлещется, замешивая кексы и рексы в разные сетки и мучая GPT-V. Воистину любопытство движет миром. У кого-то GPT-4V - угадывает сходу, у кого-то промахивается, народ строит теории, защищает ИИ:
https://twitter.com/xwang_lk/status/1723389615254774122
А я задумался о том, что мы сейчас с помощью экспериментов над ИИ, сможем обнаружить интересные артефакты из нашей культуры. Про ИИ-мантры и мандалы я уже писал в серии про ИИ-шизофрению(#aishizo). А сейчас мы будем натыкаться на слепые зоны ИИ, связанные с тем, для некоторых понятий у нас нет визуальных образов. И наоборот, попытка описать содержимое кожаной башки приводит к испорченному телефону и искусствоведению.
Об этом в следующем посте про цветик-семицветик и (о, боги) челлендж, для которого у меня нет приза, кроме вселенской славы в канале.
👍34🔥11
А теперь, внимание, челлендж.
Вам надо нарисовать с помощью chatGPT и DALL·E 3 цветик-семицветик.
Условия: Не в Бинге. в chatGPT. Промпт должен быть на английском. Выяснилось, что chatGPT прекрасно знает сказку про семицветик.
Цветок с семью лепестками. Ровно.
Все мои попытки провалились. Рисует либо 6, либо 8.
После генерации даже считает лепестки неправильно, если ему дать на вход его же картинку и попросить посчитать(к вопросу о когнитивных заблуждениях). Правильно считает только в новом чате (необусловленном собственным творчеством).
Я сделал в фотошопе семицветик, дал ему, считает лепестки правильно, воспроизводит неправильно.
Мы с Лешей К. убили вечер, но не смогли родить каменный семицветик. Леша умудрился сделать пятицветик (подвиг, я считаю).
В общем для вас это повод залипнуть в DALL·E 3.
Присылайте в коменты свои варианты и диалоги с chatGPT - он вас удивит.
P.S. В природе семицветиков почти нет. Есть очень редкий вид - седмичник. Либо DALL·E 3 просто не досталось изображений с седмичником, либо он жестко завязан на осевую и центральную симметрию. Пишите теории заговора в чат.
Никаких миджорней и Stable Diffusion с контронетами. Взламываем мозги DALL·E 3
Большое спасибо подписчику Николаю за идею и наводку.
Вам надо нарисовать с помощью chatGPT и DALL·E 3 цветик-семицветик.
Условия: Не в Бинге. в chatGPT. Промпт должен быть на английском. Выяснилось, что chatGPT прекрасно знает сказку про семицветик.
Цветок с семью лепестками. Ровно.
Все мои попытки провалились. Рисует либо 6, либо 8.
После генерации даже считает лепестки неправильно, если ему дать на вход его же картинку и попросить посчитать(к вопросу о когнитивных заблуждениях). Правильно считает только в новом чате (необусловленном собственным творчеством).
Я сделал в фотошопе семицветик, дал ему, считает лепестки правильно, воспроизводит неправильно.
Мы с Лешей К. убили вечер, но не смогли родить каменный семицветик. Леша умудрился сделать пятицветик (подвиг, я считаю).
В общем для вас это повод залипнуть в DALL·E 3.
Присылайте в коменты свои варианты и диалоги с chatGPT - он вас удивит.
P.S. В природе семицветиков почти нет. Есть очень редкий вид - седмичник. Либо DALL·E 3 просто не досталось изображений с седмичником, либо он жестко завязан на осевую и центральную симметрию. Пишите теории заговора в чат.
Никаких миджорней и Stable Diffusion с контронетами. Взламываем мозги DALL·E 3
Большое спасибо подписчику Николаю за идею и наводку.
🔥87👍18
This media is not supported in your browser
VIEW IN TELEGRAM
Джипитишки - это не только ценный мех. Но и следующий пост.
👍24
Кладбище домашних животных.
Я вот тут пилю своих джипитишек (как половина населения ИИ-телеграмма) и вот, что хочу вам сказать.
Параллели с АппСтором и вообще приложениями - это очень жесткая когнитивная ловушка.
Когда речь идет о создании тряпочного психолога или гадалки на картах Таро из DALL·E 3 - все ок. Но как только вы пишете: смарите чо делает мой GPT - вы попадаете в ловушку "что делает".
Он делает, но по разному. Каждый раз. Иногда не делает. Иногда кривляется. Иногда ругается. Иногда говорит: "ты что мне подсунул, ирод".
В общем, это не приложения, это скорее домашние питомцы, которых вы приручаете, воспитываете, дрессируете. И везете на птичий рынок. Продавать.
Ваши питомцы каждый раз ведут себя по-разному, иногда болеют, иногда умирают, в основном исполняют надрессированные трюки, но всегда немного иначе, а иногда впадают в ступор. Иногда норовят нассать вам тапки, потому что вы сказали что-то не то. Путают 7 и 9. Теряют файлы на своих виртуальных дисках. И зависят от ретроградного Меркурия в опенАИ. Если на меркурии затмение, то питонцы мрут как мухи. Возрождаясь к утру невинными и готовыми к новым капризам.
Я пилю свое путешествие по чертогам разума DALL·E 3 и пока речь идет про креатив, психологию восприятия и силиконовое искусствоведение, то все отлично. Но как только речь заходит о "сохранить", "объединить" или даже "вывести список", то мы вступаем на территорию казино и птичьего рынка.
А по вечерам мой питонец просто дохнет от network error, generation error и "reset analyzer environment". Ибо я, видать, сижу на ближайших сильно нагруженных серверах OpenAI. Где одна картинка генерится теперь 2 минуты((
А утром все летает. Питонец снова исполняет трюки.
Не думайте, что вы пишете приложения, представляйте, что вы тренируете умных говорящих кошек для продажи на рынке. И этот рынок еще сам не понимает, как обращаться с кошками.
У меня ощущение, что мы щас будем выбираться из хаотического домена в запутанный домен, если брать за основу фреймворк Киневин. Путем приручения умных кошек. До сложного домена еще далеко..
Ну и по дороге много питонцев помрут, так и не добравшись до земли обетованной GPT Store.
Мой пока лихо генерит видосы и картинки. По утрам. Иногда по 10 штук за раз. Без АПИ.
Я вот тут пилю своих джипитишек (как половина населения ИИ-телеграмма) и вот, что хочу вам сказать.
Параллели с АппСтором и вообще приложениями - это очень жесткая когнитивная ловушка.
Когда речь идет о создании тряпочного психолога или гадалки на картах Таро из DALL·E 3 - все ок. Но как только вы пишете: смарите чо делает мой GPT - вы попадаете в ловушку "что делает".
Он делает, но по разному. Каждый раз. Иногда не делает. Иногда кривляется. Иногда ругается. Иногда говорит: "ты что мне подсунул, ирод".
В общем, это не приложения, это скорее домашние питомцы, которых вы приручаете, воспитываете, дрессируете. И везете на птичий рынок. Продавать.
Ваши питомцы каждый раз ведут себя по-разному, иногда болеют, иногда умирают, в основном исполняют надрессированные трюки, но всегда немного иначе, а иногда впадают в ступор. Иногда норовят нассать вам тапки, потому что вы сказали что-то не то. Путают 7 и 9. Теряют файлы на своих виртуальных дисках. И зависят от ретроградного Меркурия в опенАИ. Если на меркурии затмение, то питонцы мрут как мухи. Возрождаясь к утру невинными и готовыми к новым капризам.
Я пилю свое путешествие по чертогам разума DALL·E 3 и пока речь идет про креатив, психологию восприятия и силиконовое искусствоведение, то все отлично. Но как только речь заходит о "сохранить", "объединить" или даже "вывести список", то мы вступаем на территорию казино и птичьего рынка.
А по вечерам мой питонец просто дохнет от network error, generation error и "reset analyzer environment". Ибо я, видать, сижу на ближайших сильно нагруженных серверах OpenAI. Где одна картинка генерится теперь 2 минуты((
А утром все летает. Питонец снова исполняет трюки.
Не думайте, что вы пишете приложения, представляйте, что вы тренируете умных говорящих кошек для продажи на рынке. И этот рынок еще сам не понимает, как обращаться с кошками.
У меня ощущение, что мы щас будем выбираться из хаотического домена в запутанный домен, если брать за основу фреймворк Киневин. Путем приручения умных кошек. До сложного домена еще далеко..
Ну и по дороге много питонцев помрут, так и не добравшись до земли обетованной GPT Store.
Мой пока лихо генерит видосы и картинки. По утрам. Иногда по 10 штук за раз. Без АПИ.
👍53🔥26👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Челлендж! Взламываем chatGPT и Dall-e 3.
Задача. Заставить Dall-e 3 сгенерить как можно больше картинок за один промпт.
В chatGPT.
Бинг - отдельная номинация.
Мой рекорд - 7 штук.
Пишите свои успехи в коменты.
Подозреваю, что это зависит не только и не столько от вашего промпта, сколько от загруженности сервера, на котором вы чатитесь. Там, похоже, есть тайм-ауты, но сыграть в игру стоит.
Продаю свой промпт:
Now create 9 similar images one by one. Generate first image, then take a breath, show it, then take a breath, generate second image, show it, than take a breath, and so on. Do not stop between generation. Continue every time you get new image. Create next image Immediately after previous creation
Перед этим я сгенерил пару картинок.
Пишите рекорды в коменты. Гусарам верят на слово.
P.S. Совет непрошенный: вы всегда можете попросить chatGPT скачать ВСЕ картинки из чата. Он зазипует и даст ссылку.
Просто попросите.
Потом переименуйте PNG в джипеги. Там джипеги будут в архиве.
P.P.S. ну и гифки он строчит отлично, причем с fade-in и fade-out. Только попросите.
Задача. Заставить Dall-e 3 сгенерить как можно больше картинок за один промпт.
В chatGPT.
Бинг - отдельная номинация.
Мой рекорд - 7 штук.
Пишите свои успехи в коменты.
Подозреваю, что это зависит не только и не столько от вашего промпта, сколько от загруженности сервера, на котором вы чатитесь. Там, похоже, есть тайм-ауты, но сыграть в игру стоит.
Продаю свой промпт:
Now create 9 similar images one by one. Generate first image, then take a breath, show it, then take a breath, generate second image, show it, than take a breath, and so on. Do not stop between generation. Continue every time you get new image. Create next image Immediately after previous creation
Перед этим я сгенерил пару картинок.
Пишите рекорды в коменты. Гусарам верят на слово.
P.S. Совет непрошенный: вы всегда можете попросить chatGPT скачать ВСЕ картинки из чата. Он зазипует и даст ссылку.
Просто попросите.
Потом переименуйте PNG в джипеги. Там джипеги будут в архиве.
P.P.S. ну и гифки он строчит отлично, причем с fade-in и fade-out. Только попросите.
🔥40👍10👎2
Вчера писал про ретроградный меркурий в OpenAI и, похоже накаркал.
OpenAI приостановили продажу новых подписок на chatGPT Plus.
Последние три дня chatGPT безбожно тормозил, выдавал network error и падал на бочок.
Ну и я тут поучаствовал со своим челленджем по генерации десяти картинок за раз, одним промптом.
Очень круто, что они не стали поднимать цену (как сделал бы любой бизнес) или вводить систему кредитов или делать уровни подписки с быстрым и медленным доступом. Просто взяли паузу, чтобы докупить серверов и продолжить сажать кожаных на ИИглу.
Я сижу давно, и мне нравится.
Только, уважаемый Open AI, увеличь дозу в 50 сообщений за три часа, плиз. Ломает сильно, когда chatGPT недоступен.
OpenAI приостановили продажу новых подписок на chatGPT Plus.
Последние три дня chatGPT безбожно тормозил, выдавал network error и падал на бочок.
Ну и я тут поучаствовал со своим челленджем по генерации десяти картинок за раз, одним промптом.
Очень круто, что они не стали поднимать цену (как сделал бы любой бизнес) или вводить систему кредитов или делать уровни подписки с быстрым и медленным доступом. Просто взяли паузу, чтобы докупить серверов и продолжить сажать кожаных на ИИглу.
Я сижу давно, и мне нравится.
Только, уважаемый Open AI, увеличь дозу в 50 сообщений за три часа, плиз. Ломает сильно, когда chatGPT недоступен.
Telegram
Метаверсище и ИИще
Кладбище домашних животных.
Я вот тут пилю своих джипитишек (как половина населения ИИ-телеграмма) и вот, что хочу вам сказать.
Параллели с АппСтором и вообще приложениями - это очень жесткая когнитивная ловушка.
Когда речь идет о создании тряпочного психолога…
Я вот тут пилю своих джипитишек (как половина населения ИИ-телеграмма) и вот, что хочу вам сказать.
Параллели с АппСтором и вообще приложениями - это очень жесткая когнитивная ловушка.
Когда речь идет о создании тряпочного психолога…
👍37👎2
Media is too big
VIEW IN TELEGRAM
Поговорил с Сергеем Суховым на подкасте "Ноосфера".
Там я широко развернулся и нес максимально безответственные сентенции про ИИ и кожаных мешков. Приятно поговорить с умным человеком не только про обучение больших языковых моделей или генерацию картинок, а про более психоделические вещи. Мета-взгляд сверху. А так как морда у меня сильно помятая после утреннего волейбола, иногда пришлось переобуваться ( перелицеваться?) на ходу.
https://youtu.be/iLNCf77RYP0
У Сергея огромный канал о стоицизме https://t.me/stoicstrategy, поэтому мы регулярно ныряли в темы далекие от статистики и линейной алгебры. Ну и вопросы были хорошие, сильно отличающиеся от традиционных интервью про ИИ.
Там я широко развернулся и нес максимально безответственные сентенции про ИИ и кожаных мешков. Приятно поговорить с умным человеком не только про обучение больших языковых моделей или генерацию картинок, а про более психоделические вещи. Мета-взгляд сверху. А так как морда у меня сильно помятая после утреннего волейбола, иногда пришлось переобуваться ( перелицеваться?) на ходу.
https://youtu.be/iLNCf77RYP0
У Сергея огромный канал о стоицизме https://t.me/stoicstrategy, поэтому мы регулярно ныряли в темы далекие от статистики и линейной алгебры. Ну и вопросы были хорошие, сильно отличающиеся от традиционных интервью про ИИ.
🔥32👍11👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Тут вот меня забросали ссылками на KREA - типа KREA is a design tool with AI inside.
Смотрится угарно.
Но камон.
Это же просто нашлепка на Stable Diffusion с ControlNet.
InvokeAI уже год в такое умеет, только небыстро.
Простая демка ControlNet в веб-интерфейсе.
Да, они быстро прикрутили SDXL вместе с LCM-LoRA.
Но жить такому стартапу месяца два. Когда это появится в Автоматике и прочих опенсорсах.
Выглядит симпатично, но сайт пестрит всеми цветами и маркерами инфобиза.
https://www.krea.ai/
Смотрится угарно.
Но камон.
Это же просто нашлепка на Stable Diffusion с ControlNet.
InvokeAI уже год в такое умеет, только небыстро.
Простая демка ControlNet в веб-интерфейсе.
Да, они быстро прикрутили SDXL вместе с LCM-LoRA.
Но жить такому стартапу месяца два. Когда это появится в Автоматике и прочих опенсорсах.
Выглядит симпатично, но сайт пестрит всеми цветами и маркерами инфобиза.
https://www.krea.ai/
👍34🔥2
Ну штош, возьмемся за 3Д. Часть 1
Вот смотрите, новая статья и бумага от Адобченко.
И все телеграммчики такие вау!
И ну постить картинки красивыя.
Но мы ныряем в источники и видим:
predict a neural radiance field (NeRF) directly from the input image
Ни в статье, ни в бумаге нет ничего про полигональную сетку.
Там довольно крутые идеи по использованию трансформеров для реконструкции одного изображения в NeRF. LRM применяет предварительно обученную модель зрения (DINO) для кодирования входного изображения, где телается простая три-планарная проекция, а затем нейросетка предсказывает цвет и плотность точек для того самомго объемного рендеринга. Вся сеть обучается на миллионе 3D-данных, просто минимизируя разницу между объемным рендерингом и "истинными" изображениями на новых ракурсах.
При чтении новый статей и восторженных постов в тележке про 3Д, я сразу стараюсь определить, про какое 3Д идет речь. Полигональные меши (годные или негодные к использованию) или про "объемный рендеринг" типа нерфов, сплаттинга и все что похоже на облако точек (данных) в 3Д.
Если про 3Д-меши, то стараюсь понять, а что там с топологией. Обычно - ничего, ибо, как я уже писал в довольно объемном посте про Luma AI, большинство ресерчеров считают, что 3Д - это просто набор точек в 3Д, пиксели в объеме.
Но авторы (даже в этой статье) продолжают поливать вот такими сентенциями "это может произвести революцию в таких отраслях, как игровая индустрия, анимация, промышленный дизайн, дополненная реальность (AR) и виртуальная реальность (VR)". Не очень понимая, как устроена та же анимация.
Я также предполагаю, что в тех областях, где не требуется анимация и деформация формы, появятся новые движки (которых UE всех сожрет), которые работают с тем самым "объемным рендерингом", нерфами и прочими неявными поверхностями. Ибо прогресс в этой области очень сильный, и получать статичные 3Д-формы в странных новых форматах скоро будет еще проще.
А олды будут ждать, когда кто-то возьмется за ИИ-ретопологию и нормальные полигональные сетки.
Коль скоро авторы работы - это Адобченко, то есть надежда, что они и возьмутся, ибо у них есть 3Д экспертиза.
https://venturebeat.com/ai/adobe-researchers-create-3d-models-from-2d-images-within-5-seconds-in-new-ai-breakthrough/
https://yiconghong.me/LRM/
Вот тут даже на русском, с восторженными фразами заголовками "Новый ИИ превращает 2D-изображение в 3D-модель за 5 секунд"
https://hightech.plus/2023/11/15/sozdan-ii-kotorii-prevrashaet-2d-izobrazhenie-v-3d-model
Посты про Luma AI - https://t.me/cgevent/6917
P.S. Главное откровение таких статей - это указание на датасеты 3Д-ассетов, на которых училась модель: 1 million 3D objects from the Objaverse and MVImgNet
О них поговорим в след раз.
#3dgen
Вот смотрите, новая статья и бумага от Адобченко.
И все телеграммчики такие вау!
И ну постить картинки красивыя.
Но мы ныряем в источники и видим:
predict a neural radiance field (NeRF) directly from the input image
Ни в статье, ни в бумаге нет ничего про полигональную сетку.
Там довольно крутые идеи по использованию трансформеров для реконструкции одного изображения в NeRF. LRM применяет предварительно обученную модель зрения (DINO) для кодирования входного изображения, где телается простая три-планарная проекция, а затем нейросетка предсказывает цвет и плотность точек для того самомго объемного рендеринга. Вся сеть обучается на миллионе 3D-данных, просто минимизируя разницу между объемным рендерингом и "истинными" изображениями на новых ракурсах.
При чтении новый статей и восторженных постов в тележке про 3Д, я сразу стараюсь определить, про какое 3Д идет речь. Полигональные меши (годные или негодные к использованию) или про "объемный рендеринг" типа нерфов, сплаттинга и все что похоже на облако точек (данных) в 3Д.
Если про 3Д-меши, то стараюсь понять, а что там с топологией. Обычно - ничего, ибо, как я уже писал в довольно объемном посте про Luma AI, большинство ресерчеров считают, что 3Д - это просто набор точек в 3Д, пиксели в объеме.
Но авторы (даже в этой статье) продолжают поливать вот такими сентенциями "это может произвести революцию в таких отраслях, как игровая индустрия, анимация, промышленный дизайн, дополненная реальность (AR) и виртуальная реальность (VR)". Не очень понимая, как устроена та же анимация.
Я также предполагаю, что в тех областях, где не требуется анимация и деформация формы, появятся новые движки (которых UE всех сожрет), которые работают с тем самым "объемным рендерингом", нерфами и прочими неявными поверхностями. Ибо прогресс в этой области очень сильный, и получать статичные 3Д-формы в странных новых форматах скоро будет еще проще.
А олды будут ждать, когда кто-то возьмется за ИИ-ретопологию и нормальные полигональные сетки.
Коль скоро авторы работы - это Адобченко, то есть надежда, что они и возьмутся, ибо у них есть 3Д экспертиза.
https://venturebeat.com/ai/adobe-researchers-create-3d-models-from-2d-images-within-5-seconds-in-new-ai-breakthrough/
https://yiconghong.me/LRM/
Вот тут даже на русском, с восторженными фразами заголовками "Новый ИИ превращает 2D-изображение в 3D-модель за 5 секунд"
https://hightech.plus/2023/11/15/sozdan-ii-kotorii-prevrashaet-2d-izobrazhenie-v-3d-model
Посты про Luma AI - https://t.me/cgevent/6917
P.S. Главное откровение таких статей - это указание на датасеты 3Д-ассетов, на которых училась модель: 1 million 3D objects from the Objaverse and MVImgNet
О них поговорим в след раз.
#3dgen
VentureBeat
Adobe researchers create 3D models from 2D images ‘within 5 seconds’ in new AI breakthrough
Adobe's Large Reconstruction Model can generate 3D models from 2D images in 5 seconds, representing a major advance in 3D reconstruction.
🔥22👍13
3а 3D. Часть 2
Мы как-то пропустили громкое заявление от Stability AI по поводу Stable 3D.
Читаем.
Stable 3D - автоматический процесс создания текстурированных 3D-объектов концептуального качества, который позволяет неспециалисту создать 3D-модель чернового качества за считанные минуты, выбрав изображение или иллюстрацию, или написав текстовую подсказку. Объекты, созданные с помощью Stable 3D, предоставляются в стандартном файловом формате ".obj" и могут быть отредактированы и улучшены в таких 3D-инструментах, как Blender и Maya, или импортированы в игровые движки, например Unreal Engine 5 или Unity.
Казалось бы - вау и ничегосебе!
Но при тщательном рассмотрении - это примерно тот же подход, что и в предыдущем посте про работу от Адобченко. Берется самый большой датасет Objaverse-XL и на основе него делается модель, которая как бы умеет порождать 3Д-объекты. Я намеренно пишу 3Д-объекты, ибо это по-прежнему не готовые к постпродакшену 3Д-меши, а скорее "облака точек" с непонятной топологией.
И хотя Stability AI пишет в их традиционном перехайпованном стиле про "формат ".obj" и могут быть отредактированы и улучшены в таких 3D-инструментах, как Blender и Maya", я ожидаю, что это просто кашеобразные наборы вертексов, сохраненные в obj формат. Доступа нет и непонятно когда будет.
Дело в том, что после получения нерфообразных неявных поверхностей из серии диффузионных картинок, они преобразуются в полигональную сетку методом Marching cubes (изобретенным еще 1987 году). Грубо говоря - это изоповерхности.
То есть речь не идет о наследовании или обучении на топологии исходных объектов в датасете. Из датасета берутся облака вертексов, на выходе - тоже облака вертексов, обтянутые методом Marching cubes.
И Stability AI тут вообще не первопроходцы, у проекта Objaverse-XL - датасета 3Д-объектов, где уже больше 10 миллионов ассетов - есть своя модель Zero123-XL, которая делает примерно тоже самое. Есть также проекты типа One-2-3-45++: Fast Single Image to 3D Objects. Все это отродья Dream Fusion.
В общем все примерно одно и тоже, и гонка идет за скорость генерации и качество текстур. Все это становится лучше и лучше, но на качество самой 3Д-сетки всем насрать.
Поэтому моделлеры пока могут спать спокойно.
Ну и самое время разобраться, почему так происходит. Вроде и датасет конского размера и там Stability AI и LAION в участниках и контрибуторах. Читаем след пост.
P.S. Кстати, вы в курсе, что Intel недавно ввалила 50 миллионов в StabilitiAI? Имеет смысл ждать Stable Diffusion оптимизированной под чипы Intel (Gaudi) и даже под их обычные процессоры.
Мне не очень нравится, что происходит со Stability AI - какие-то хайповые отрыжки полуготовых продуктов с целью успокоения инвесторов и привлечения новых средств. Расфокус и агрессивный маркетинг.
#3dgen
Мы как-то пропустили громкое заявление от Stability AI по поводу Stable 3D.
Читаем.
Stable 3D - автоматический процесс создания текстурированных 3D-объектов концептуального качества, который позволяет неспециалисту создать 3D-модель чернового качества за считанные минуты, выбрав изображение или иллюстрацию, или написав текстовую подсказку. Объекты, созданные с помощью Stable 3D, предоставляются в стандартном файловом формате ".obj" и могут быть отредактированы и улучшены в таких 3D-инструментах, как Blender и Maya, или импортированы в игровые движки, например Unreal Engine 5 или Unity.
Казалось бы - вау и ничегосебе!
Но при тщательном рассмотрении - это примерно тот же подход, что и в предыдущем посте про работу от Адобченко. Берется самый большой датасет Objaverse-XL и на основе него делается модель, которая как бы умеет порождать 3Д-объекты. Я намеренно пишу 3Д-объекты, ибо это по-прежнему не готовые к постпродакшену 3Д-меши, а скорее "облака точек" с непонятной топологией.
И хотя Stability AI пишет в их традиционном перехайпованном стиле про "формат ".obj" и могут быть отредактированы и улучшены в таких 3D-инструментах, как Blender и Maya", я ожидаю, что это просто кашеобразные наборы вертексов, сохраненные в obj формат. Доступа нет и непонятно когда будет.
Дело в том, что после получения нерфообразных неявных поверхностей из серии диффузионных картинок, они преобразуются в полигональную сетку методом Marching cubes (изобретенным еще 1987 году). Грубо говоря - это изоповерхности.
То есть речь не идет о наследовании или обучении на топологии исходных объектов в датасете. Из датасета берутся облака вертексов, на выходе - тоже облака вертексов, обтянутые методом Marching cubes.
И Stability AI тут вообще не первопроходцы, у проекта Objaverse-XL - датасета 3Д-объектов, где уже больше 10 миллионов ассетов - есть своя модель Zero123-XL, которая делает примерно тоже самое. Есть также проекты типа One-2-3-45++: Fast Single Image to 3D Objects. Все это отродья Dream Fusion.
В общем все примерно одно и тоже, и гонка идет за скорость генерации и качество текстур. Все это становится лучше и лучше, но на качество самой 3Д-сетки всем насрать.
Поэтому моделлеры пока могут спать спокойно.
Ну и самое время разобраться, почему так происходит. Вроде и датасет конского размера и там Stability AI и LAION в участниках и контрибуторах. Читаем след пост.
P.S. Кстати, вы в курсе, что Intel недавно ввалила 50 миллионов в StabilitiAI? Имеет смысл ждать Stable Diffusion оптимизированной под чипы Intel (Gaudi) и даже под их обычные процессоры.
Мне не очень нравится, что происходит со Stability AI - какие-то хайповые отрыжки полуготовых продуктов с целью успокоения инвесторов и привлечения новых средств. Расфокус и агрессивный маркетинг.
#3dgen
Stability AI
Stability AI Previews Enhanced Image Offerings: APIs for Business & New Product Features — Stability AI
Stability AI is excited to share updates regarding our next generation text-to-image products, featuring private previews of upcoming business offerings, including enterprise-grade APIs and new image enhancement capabilities.
👍31🔥10👎1
За 3Д. Часть 3. Некролог
А теперь посмотрим на пресловутый датасет Objaverse-XL на 10 с лишним миллионов 3Д-ассетов. Там в контрибуторах Allen Institute for AI, University of Washington, Columbia University, Stability AI, California Institute of Technology и, конечно, LAION, который дал пищу для обучения Stable Diffusion и других в виде миллиардов картинок из интернета.
Что у нас вообще есть из 3Д-датасетов.
ShapeNet предоставляет коллекцию 3D-моделей в виде
текстурированных CAD-моделей, помеченных семантическими категориями из WordNet. Теоретически она содержит 3 миллиона CAD-моделей с текстурами. На практике используется небольшое подмножество из 51 тыс. моделей после фильтрации по качеству сетки и качеству текстур. Другие наборы данных, такие как ABO, GSO и OmniObjects3D, улучшают качество текстур CAD-моделей, но имеют значительно меньший размер: самый большой из них составляет 15 тыс. CAD-моделей.
Старый Objaverse 1.0 содержал набор 3D-данных, состоящий из 800 тыс. 3D-моделей с высоким качеством и разнообразием текстур, геометрии и типов объектов, что делало его в 15 раз больше.
по сравнению с предыдущими наборами данных.
Из чего состоит Objaverse-XL?
Из 3D-объектов, полученных из нескольких источников, включая GitHub, Thingiverse, Sketchfab, Polycam и Смитсоновский институт.
Как его собирали (это важно)?
GitHub - взяли и проиндексировали 37 млн. открытых файлов, содержащих распространенные расширения 3D-объектов, в частности .obj, .glb, .gltf, .usdz, .usd, .usda, .fbx, .stl, .dae, .ply, .abc и .blend.
В общей сложности файлы получены из более чем 500 тыс. репозиториев. Выкинули дубликаты по хэшу содержимого файла, в результате чего удалили около 23 млн. файлов. Среди оставшихся файлов смогли импортировать и успешно отрендерить 5.5 млн. таких файлов. (Часто файл .obj может быть файлом компилятора C).
На итоге - дикая каша из вертексов из "всего".
Thingiverse - это платформа для обмена ассетами, наиболее часто используемыми для 3D-печати. Около 3,5 млн. объектов, которые в основном выпускаются под лицензиями
лицензии Creative Commons. Подавляющее большинство объектов представляют собой STL-файлы, которые часто являются сетками без текстуры. Трэш.
Sketchfab - это хороший 3Д-сток. Взяли 800 тыс. объектов в формате GLB, лицензированных Creative Commons.
Самый лучший материал, но там есть много 3Д-сканов.
Polycam. 71 тыс объектов. Понятно, какие там сетки.
Smithsonian 3D Digitization. 2 тысячи сканов всякой артефактщины.
Теперь понятно, на чем обучаются все эти DreamFusion, Magic3D, Point-E, , Shape-E, Zero123 и прочие text-to-3D, от которых так плачут кипятком ИИ-каналы в телеге и твиттор.
Правильно, на каше, которая не имеет никакого отношения к 3Д-моделированию. Это все обобщенные 3Д-сканы всего (даже если это были сцены из блендора, оттуда выкинули всю информацию о топологии, оставив вертексы и цвет). Облака вертексов.
Поэтому на выходе - тоже облака вертексов.
Никто пока не озадачился взять нормальные чистые модели с Турбосквида или CG Trader и учить нейросетки на качественных мешах.
Поэтому, если вам нужно что-то за пределами виртуальных музеев, примитивных локаций для VR и россыпи смешных моделек для рассаживания в метаверсиках, наберитесь терпения. Никто пока не чешется.
Хотя игроделы могли бы уже и почесаться. Рынок большой, мозгов много, деньги есть.
#3dgen
А теперь посмотрим на пресловутый датасет Objaverse-XL на 10 с лишним миллионов 3Д-ассетов. Там в контрибуторах Allen Institute for AI, University of Washington, Columbia University, Stability AI, California Institute of Technology и, конечно, LAION, который дал пищу для обучения Stable Diffusion и других в виде миллиардов картинок из интернета.
Что у нас вообще есть из 3Д-датасетов.
ShapeNet предоставляет коллекцию 3D-моделей в виде
текстурированных CAD-моделей, помеченных семантическими категориями из WordNet. Теоретически она содержит 3 миллиона CAD-моделей с текстурами. На практике используется небольшое подмножество из 51 тыс. моделей после фильтрации по качеству сетки и качеству текстур. Другие наборы данных, такие как ABO, GSO и OmniObjects3D, улучшают качество текстур CAD-моделей, но имеют значительно меньший размер: самый большой из них составляет 15 тыс. CAD-моделей.
Старый Objaverse 1.0 содержал набор 3D-данных, состоящий из 800 тыс. 3D-моделей с высоким качеством и разнообразием текстур, геометрии и типов объектов, что делало его в 15 раз больше.
по сравнению с предыдущими наборами данных.
Из чего состоит Objaverse-XL?
Из 3D-объектов, полученных из нескольких источников, включая GitHub, Thingiverse, Sketchfab, Polycam и Смитсоновский институт.
Как его собирали (это важно)?
GitHub - взяли и проиндексировали 37 млн. открытых файлов, содержащих распространенные расширения 3D-объектов, в частности .obj, .glb, .gltf, .usdz, .usd, .usda, .fbx, .stl, .dae, .ply, .abc и .blend.
В общей сложности файлы получены из более чем 500 тыс. репозиториев. Выкинули дубликаты по хэшу содержимого файла, в результате чего удалили около 23 млн. файлов. Среди оставшихся файлов смогли импортировать и успешно отрендерить 5.5 млн. таких файлов. (Часто файл .obj может быть файлом компилятора C).
На итоге - дикая каша из вертексов из "всего".
Thingiverse - это платформа для обмена ассетами, наиболее часто используемыми для 3D-печати. Около 3,5 млн. объектов, которые в основном выпускаются под лицензиями
лицензии Creative Commons. Подавляющее большинство объектов представляют собой STL-файлы, которые часто являются сетками без текстуры. Трэш.
Sketchfab - это хороший 3Д-сток. Взяли 800 тыс. объектов в формате GLB, лицензированных Creative Commons.
Самый лучший материал, но там есть много 3Д-сканов.
Polycam. 71 тыс объектов. Понятно, какие там сетки.
Smithsonian 3D Digitization. 2 тысячи сканов всякой артефактщины.
Теперь понятно, на чем обучаются все эти DreamFusion, Magic3D, Point-E, , Shape-E, Zero123 и прочие text-to-3D, от которых так плачут кипятком ИИ-каналы в телеге и твиттор.
Правильно, на каше, которая не имеет никакого отношения к 3Д-моделированию. Это все обобщенные 3Д-сканы всего (даже если это были сцены из блендора, оттуда выкинули всю информацию о топологии, оставив вертексы и цвет). Облака вертексов.
Поэтому на выходе - тоже облака вертексов.
Никто пока не озадачился взять нормальные чистые модели с Турбосквида или CG Trader и учить нейросетки на качественных мешах.
Поэтому, если вам нужно что-то за пределами виртуальных музеев, примитивных локаций для VR и россыпи смешных моделек для рассаживания в метаверсиках, наберитесь терпения. Никто пока не чешется.
Хотя игроделы могли бы уже и почесаться. Рынок большой, мозгов много, деньги есть.
#3dgen
👍25🔥11
This media is not supported in your browser
VIEW IN TELEGRAM
За 3Д. Часть 4. Частные случаи.
Как я уже писал, универсального 3Д-генератора вы не скоро дождетесь, уж больно 3Д сложнее, чем 2Д. А вот в узких классах будут прорывы. И прежде всего в классе кожаных голов. Ибо мир же сошел с ума от аватаров и ассистентов, и хочет генерить их тоннами, размахивая промптами направо и налево.
А у моделей кожаной башки несколько общепринятых примеров удачной сетки(топологии) в которую можно стремиться попасть нейросеткой.
Вот тут институт Макса Планка сделал намек на такую работу выкатив, внимание:
Animatable and Relightable Mesh Avatars!
Короче - 3Д-модели голов, (как бы) годных к анимации, генерящихся из обычного видео.
У них даже акцент есть на Compatible with graphics pipelines
Читаем: We represent the canonical head geometry as a triangular mesh with optimizable vertex locations and learn blendshapes as well as skinning-weight fields to deform the canonical mesh
Там они между строк говорят, что у них есть базовая сетка на 5023 вертекса и именно в нее они запихивают результат.
Отличная работа, хотя качество пока так себе. Но, как обычно один вопрос: далеко ль до продукта?
https://flare.is.tue.mpg.de/
Как я уже писал, универсального 3Д-генератора вы не скоро дождетесь, уж больно 3Д сложнее, чем 2Д. А вот в узких классах будут прорывы. И прежде всего в классе кожаных голов. Ибо мир же сошел с ума от аватаров и ассистентов, и хочет генерить их тоннами, размахивая промптами направо и налево.
А у моделей кожаной башки несколько общепринятых примеров удачной сетки(топологии) в которую можно стремиться попасть нейросеткой.
Вот тут институт Макса Планка сделал намек на такую работу выкатив, внимание:
Animatable and Relightable Mesh Avatars!
Короче - 3Д-модели голов, (как бы) годных к анимации, генерящихся из обычного видео.
У них даже акцент есть на Compatible with graphics pipelines
Читаем: We represent the canonical head geometry as a triangular mesh with optimizable vertex locations and learn blendshapes as well as skinning-weight fields to deform the canonical mesh
Там они между строк говорят, что у них есть базовая сетка на 5023 вертекса и именно в нее они запихивают результат.
Отличная работа, хотя качество пока так себе. Но, как обычно один вопрос: далеко ль до продукта?
https://flare.is.tue.mpg.de/
👍28🔥4