GPT-4 освоил Red Dead Redemption 2, но его подводит машинное зрение
ЧИТАТЬ В ПОЛНОЙ ВЕРСИИ
15.04.2024 20:46, Сергей Сурабекянц
Группа исследователей из Китая и Сингапура научила ИИ на базе OpenAI GPT-4V играть в Red Dead Redemption 2 (RDR2). В своей статье они рассказали о концепции общего компьютерного контроля (General Computer Control, GCC) для ИИ, и о мультимодальном агенте CRADLE — интерфейсе между GPT-4V и RDR2. По их мнению, основные проблемы у игрового ИИ-агента возникли при использовании машинного зрения.
Источник изображения: Rockstar

Исследователи поставили своей целью заставить ИИ, работающий на базе OpenAI GPT-4V, взаимодействовать с компьютером, воспринимая визуальные и звуковые сигналы, как это делает среднестатистический человек-пользователь ПК. Проект даёт представление о том, насколько далеко продвинулись разработчики ИИ в движении в сторону создания общего (сильного) искусственного интеллекта (AGI).
Исследователи выбрали RDR2, так как она имеет «сложную систему управления черным ящиком, которая воплощает в себе самые требовательные компьютерные задачи и позволяет нам оценить границы производительности нашей платформы в таких виртуальных средах». Кроме того, такие элементы пользовательского интерфейса, как диалоги, уникальные значки, внутриигровые подсказки и инструкции, гарантируют, что никакие базовые знания не воспринимаются как нечто само собой разумеющееся, что отлично подходит для обучения ИИ. Исследователи утверждают, что управление игрой с помощью мыши и клавиатуры обеспечивает лучшую тренировку для GCC.

Как устроен CRADLE / Источник изображения: arxiv.org
Исследователи стремились продемонстрировать способность ИИ изучать игру с нуля (без доступа к какому-либо внутреннему состоянию игры или API), то есть как это делает человек. ИИ-агент «проходил» игру, перемещаясь по миру и выполняя задания, следуя основной сюжетной линии RDR2. В целом, CRADLE добился заметного успеха в RDR2. Он смог «последовательно выполнять все задачи основной сюжетной линии», за исключением миссии с ураганной перестрелкой, заданий, которые требуют исследования сложного внутреннего мира, и многоэтапных миссий с открытым финалом.
GPT-4 освоил Red Dead Redemption 2, но его подводит машинное зрение
ЧИТАТЬ В ПОЛНОЙ ВЕРСИИ
15.04.2024 20:46, Сергей Сурабекянц
Группа исследователей из Китая и Сингапура научила ИИ на базе OpenAI GPT-4V играть в Red Dead Redemption 2 (RDR2). В своей статье они рассказали о концепции общего компьютерного контроля (General Computer Control, GCC) для ИИ, и о мультимодальном агенте CRADLE — интерфейсе между GPT-4V и RDR2. По их мнению, основные проблемы у игрового ИИ-агента возникли при использовании машинного зрения.
Источник изображения: Rockstar

Исследователи поставили своей целью заставить ИИ, работающий на базе OpenAI GPT-4V, взаимодействовать с компьютером, воспринимая визуальные и звуковые сигналы, как это делает среднестатистический человек-пользователь ПК. Проект даёт представление о том, насколько далеко продвинулись разработчики ИИ в движении в сторону создания общего (сильного) искусственного интеллекта (AGI).
Исследователи выбрали RDR2, так как она имеет «сложную систему управления черным ящиком, которая воплощает в себе самые требовательные компьютерные задачи и позволяет нам оценить границы производительности нашей платформы в таких виртуальных средах». Кроме того, такие элементы пользовательского интерфейса, как диалоги, уникальные значки, внутриигровые подсказки и инструкции, гарантируют, что никакие базовые знания не воспринимаются как нечто само собой разумеющееся, что отлично подходит для обучения ИИ. Исследователи утверждают, что управление игрой с помощью мыши и клавиатуры обеспечивает лучшую тренировку для GCC.

Как устроен CRADLE / Источник изображения: arxiv.org
Исследователи стремились продемонстрировать способность ИИ изучать игру с нуля (без доступа к какому-либо внутреннему состоянию игры или API), то есть как это делает человек. ИИ-агент «проходил» игру, перемещаясь по миру и выполняя задания, следуя основной сюжетной линии RDR2. В целом, CRADLE добился заметного успеха в RDR2. Он смог «последовательно выполнять все задачи основной сюжетной линии», за исключением миссии с ураганной перестрелкой, заданий, которые требуют исследования сложного внутреннего мира, и многоэтапных миссий с открытым финалом.
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Нейрорендер набирает обороты.
Хави Лопес пишет "В будущем каждый пиксель в видеоигре будет не РЕНДЕРИТЬСЯ, а ГЕНЕРИРОВАТЬСЯ в реальном времени. Но люди уже сегодня создают безумные "рендеры с искусственным интеллектом".
Я тоже давно топлю за то, что нейрорендер может заменить огромную часть пайплайнов, особенно в архитектурке и продуктовом дизайне.
Но посмотрите на эти 18 фантастических примеров по ссылке:
https://twitter.com/javilopen/status/1780236456835072257
Да, это пока статика, но какая статика!
Конечно Хави топит за свой Magnific_AI, где он Founder.
Но все это великолепие перекладывается на любые другие генераторы, от Креа и Визкома до экстеншенов к A1111 и ComfyUI. Или плагинов к Синьке, о которых я писал.
Просто поглядите этот твиттор.
А я вынес в шапку традиционный рендер-бокс. Чтобы вы оценили, как надо было бы упороться в щейдинг, текстуринг и лайтинг, чтобы отредерить такое безобразие. И разнообразие.
И да, на входе просто скетч. И промпт-хотелка. И это НЕ 3Д.
Хави Лопес пишет "В будущем каждый пиксель в видеоигре будет не РЕНДЕРИТЬСЯ, а ГЕНЕРИРОВАТЬСЯ в реальном времени. Но люди уже сегодня создают безумные "рендеры с искусственным интеллектом".
Я тоже давно топлю за то, что нейрорендер может заменить огромную часть пайплайнов, особенно в архитектурке и продуктовом дизайне.
Но посмотрите на эти 18 фантастических примеров по ссылке:
https://twitter.com/javilopen/status/1780236456835072257
Да, это пока статика, но какая статика!
Конечно Хави топит за свой Magnific_AI, где он Founder.
Но все это великолепие перекладывается на любые другие генераторы, от Креа и Визкома до экстеншенов к A1111 и ComfyUI. Или плагинов к Синьке, о которых я писал.
Просто поглядите этот твиттор.
А я вынес в шапку традиционный рендер-бокс. Чтобы вы оценили, как надо было бы упороться в щейдинг, текстуринг и лайтинг, чтобы отредерить такое безобразие. И разнообразие.
И да, на входе просто скетч. И промпт-хотелка. И это НЕ 3Д.
🔥1
Forwarded from Дизраптор
ИИ отберет у нас игры
Сорри за кликбейт, не удержался. Но новость и правда занятная.
Sony запатентовала новую систему для пропуска игровых моментов. Искусственный интеллект сможет имитировать геймплей, проходя сложные, душные или просто не очень интересные (по мнению игрока) моменты вместо него. Компания отвечает, что сейчас геймеры играют совсем по-другому, нежели раньше(раньше была лудше!!1!) , так что подобная фича - логичная реакция на изменения.
Уже предвкушаю, как сумрачные любители дарксоулсов и бладборнов будут брызжить слюной на эту новость. Мало того, значится, что из-за плодящихся казуальщиков студии вынуждены сливать все бюджеты на попсовые безыдейные высеры, так теперь они даже играть не удосужатся! Будут интерактивное кино сидеть смотреть!
Но мне кажется, что будет как раз наоборот. Сложные и хардкорные тру-игры потому и не досчитываются бюджетов, что в них сложно играть. Большинство людей не любят сложности, они заходят в игры отдохнуть и отвлечься-развлечься (и я в том числе). А нынешний геймдев - это крупные корпорации с акционерами и советами директоров, которые пляшут от прибыли. Поэтому они будут делать игры, которые хавает массовый юзер. И это нормально. Добровольно загонять себя в узкую нишу никто из крупняка не будет. Поэтому действительно challenging игр выпускается меньше и меньше.
Так вот, если это нововведение Sony будет не совсем криво реализовано, неказуал можно будет распараллелить, разделить на два сегмента. Первый - это те, кто и раньше в них рубился, стирая пальцы в пыль. А вот второй - это те самые казуальщики. Которые ранее и не глянули бы в сторону хардкорного геймплея, а теперь могут (ну, конечно, если игра в целом интересная - погружает, сюжет норм и все такое).
В итоге сегмент сложных игр для ценителей может получить дополнительный импульс. Получается, выиграют все.
P.S. А еще у меня есть гипотеза, что массовое распространение фичи может улучшить качество катсцен во многих играх.
Дизраптор
Сорри за кликбейт, не удержался. Но новость и правда занятная.
Sony запатентовала новую систему для пропуска игровых моментов. Искусственный интеллект сможет имитировать геймплей, проходя сложные, душные или просто не очень интересные (по мнению игрока) моменты вместо него. Компания отвечает, что сейчас геймеры играют совсем по-другому, нежели раньше
Уже предвкушаю, как сумрачные любители дарксоулсов и бладборнов будут брызжить слюной на эту новость. Мало того, значится, что из-за плодящихся казуальщиков студии вынуждены сливать все бюджеты на попсовые безыдейные высеры, так теперь они даже играть не удосужатся! Будут интерактивное кино сидеть смотреть!
Но мне кажется, что будет как раз наоборот. Сложные и хардкорные тру-игры потому и не досчитываются бюджетов, что в них сложно играть. Большинство людей не любят сложности, они заходят в игры отдохнуть и отвлечься-развлечься (и я в том числе). А нынешний геймдев - это крупные корпорации с акционерами и советами директоров, которые пляшут от прибыли. Поэтому они будут делать игры, которые хавает массовый юзер. И это нормально. Добровольно загонять себя в узкую нишу никто из крупняка не будет. Поэтому действительно challenging игр выпускается меньше и меньше.
Так вот, если это нововведение Sony будет не совсем криво реализовано, неказуал можно будет распараллелить, разделить на два сегмента. Первый - это те, кто и раньше в них рубился, стирая пальцы в пыль. А вот второй - это те самые казуальщики. Которые ранее и не глянули бы в сторону хардкорного геймплея, а теперь могут (ну, конечно, если игра в целом интересная - погружает, сюжет норм и все такое).
В итоге сегмент сложных игр для ценителей может получить дополнительный импульс. Получается, выиграют все.
P.S. А еще у меня есть гипотеза, что массовое распространение фичи может улучшить качество катсцен во многих играх.
Дизраптор
Game Rant
Sony Patents 'Auto-Play' Game Mode
Sony patents a new technology that could enable an 'auto-play' mode in PlayStation games, potentially allowing players to skip some gameplay segments.
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Очень горячие новости от Midjourney
Они работают над новыми моделями создания 3D, видео, и realtime-моделями(!), которые позволят ей моделировать весь мир.
Судя по office hours, это будет виртуальная среда, в которой люди смогут создавать видеоигры или снимать фильмы - “open world sandbox”. Также Хольц заявил, что v7 будет большим скачком, чем 5 и 6 - работа над седьмой версией уже началась и 3D-генерация может появиться раньше видео.
Также он сказал (внимание!!!): "I don't really like the Apple Vision Pro, we'll probably need to make our own headset"
"Для ясности, мы не работаем над гарнитурой прямо сейчас (мы работаем над аппаратным обеспечением, связанным с захватом данных), но мы создали и открыли исходный код AR-гарнитуры >6 лет назад в Leap Motion"
"Мы действительно пытаемся перейти к симуляции мира. Мы создаем 3D midjourney, video MJ, & real-time MJ, где все происходит очень быстро".
Он добавил, что если соединить все это вместе, то получится симуляция мира. По его словам, цель состоит в том, чтобы создать каждый из этих трех элементов независимо друг от друга, а затем работать над тем, как объединить их вместе.
В воздухе отчетливо повис аромат метаверса. От Midjourney.
https://www.tomsguide.com/ai/ai-image-video/midjourney-announces-plans-to-create-an-ai-world-simulation-tool-in-full-3d
Они работают над новыми моделями создания 3D, видео, и realtime-моделями(!), которые позволят ей моделировать весь мир.
Судя по office hours, это будет виртуальная среда, в которой люди смогут создавать видеоигры или снимать фильмы - “open world sandbox”. Также Хольц заявил, что v7 будет большим скачком, чем 5 и 6 - работа над седьмой версией уже началась и 3D-генерация может появиться раньше видео.
Также он сказал (внимание!!!): "I don't really like the Apple Vision Pro, we'll probably need to make our own headset"
"Для ясности, мы не работаем над гарнитурой прямо сейчас (мы работаем над аппаратным обеспечением, связанным с захватом данных), но мы создали и открыли исходный код AR-гарнитуры >6 лет назад в Leap Motion"
"Мы действительно пытаемся перейти к симуляции мира. Мы создаем 3D midjourney, video MJ, & real-time MJ, где все происходит очень быстро".
Он добавил, что если соединить все это вместе, то получится симуляция мира. По его словам, цель состоит в том, чтобы создать каждый из этих трех элементов независимо друг от друга, а затем работать над тем, как объединить их вместе.
В воздухе отчетливо повис аромат метаверса. От Midjourney.
https://www.tomsguide.com/ai/ai-image-video/midjourney-announces-plans-to-create-an-ai-world-simulation-tool-in-full-3d
Большая часть материалов подчиняется правилу четырех - ученые озадачены
https://focus.ua/technologies/642149-bolshaya-chast-materii-podchinyaetsya-pravilu-chetyreh-uchenye-ne-mogut-etogo-obyasnit#amp_tf=From%20%251%24s&aoh=17143509969291&csi=0&referrer=https%3A%2F%2Fwww.google.com&share=https%3A%2F%2Ffocus.ua%2Ftechnologies%2F642149-bolshaya-chast-materii-podchinyaetsya-pravilu-chetyreh-uchenye-ne-mogut-etogo-obyasnit
https://focus.ua/technologies/642149-bolshaya-chast-materii-podchinyaetsya-pravilu-chetyreh-uchenye-ne-mogut-etogo-obyasnit#amp_tf=From%20%251%24s&aoh=17143509969291&csi=0&referrer=https%3A%2F%2Fwww.google.com&share=https%3A%2F%2Ffocus.ua%2Ftechnologies%2F642149-bolshaya-chast-materii-podchinyaetsya-pravilu-chetyreh-uchenye-ne-mogut-etogo-obyasnit
ФОКУС
Большая часть материалов подчиняется правилу четырех - ученые озадачены
Ученые изучили структуры экспериментальных материалов и оказалось, что 60% из них имеют базовую единицу, кратную четырем.
Forwarded from Ооо нейромережеве🐱
This media is not supported in your browser
VIEW IN TELEGRAM
Тим часом реддітору вдалося запустити Stable Diffusion, використовуючи за референс Minecraft 😁
Поки виглядає досить всрато, але через роки два можна буде зарубитися в Skyrim з графікою від студії Ghibli
ооо нейромережеве
Поки виглядає досить всрато, але через роки два можна буде зарубитися в Skyrim з графікою від студії Ghibli
ооо нейромережеве
Please open Telegram to view this post
VIEW IN TELEGRAM
Будущее гейминга - Матрица:
На что нравится смотреть людям:
Как течет вода.
Как горит огонь.
И как кто-то работает (желательно для меня).
Что нам еще известно про наиболее популярное времяпровождение:
1. Все удачные фильмы и сериалы - про людей, их переживания и эмоции.
2. Тиктоки и рилсы - тоже про людей и эмоции.
3. Игровые стримы смотрит больше людей, чем играет в игры.
Как будет с играми:
1. Обучил AI-агента играть в моем стиле.
Он проходит игры вместо меня, стримит в Ютуб, подсвечивает наиболее интересные фрагменты.
Вечером просматриваю записи трансляций, где персонаж с именно моим никнеймом проходит игру.
2. Но, на игры AI-агентов с NPC смотреть скучно.
Надо наделить их какой-то версией LLM.
Надо добавить рандомных поступков.
Надо добавить репутацию, карму, удачный бросок.
Чтобы была интрига.
Чтобы были эмоции.
Пусть себе там бегают, общаются, знакомятся дела вместе делают, дружат, ссорятся.
3. Ура.
Мы придумали игру про наш мир.
https://deepmind.google/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments/
#AI #Singularity #Games
На что нравится смотреть людям:
Как течет вода.
Как горит огонь.
И как кто-то работает (желательно для меня).
Что нам еще известно про наиболее популярное времяпровождение:
1. Все удачные фильмы и сериалы - про людей, их переживания и эмоции.
2. Тиктоки и рилсы - тоже про людей и эмоции.
3. Игровые стримы смотрит больше людей, чем играет в игры.
Как будет с играми:
1. Обучил AI-агента играть в моем стиле.
Он проходит игры вместо меня, стримит в Ютуб, подсвечивает наиболее интересные фрагменты.
Вечером просматриваю записи трансляций, где персонаж с именно моим никнеймом проходит игру.
2. Но, на игры AI-агентов с NPC смотреть скучно.
Надо наделить их какой-то версией LLM.
Надо добавить рандомных поступков.
Надо добавить репутацию, карму, удачный бросок.
Чтобы была интрига.
Чтобы были эмоции.
Пусть себе там бегают, общаются, знакомятся дела вместе делают, дружат, ссорятся.
3. Ура.
Мы придумали игру про наш мир.
https://deepmind.google/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments/
#AI #Singularity #Games
Google DeepMind
A generalist AI agent for 3D virtual environments
Introducing SIMA, a Scalable Instructable Multiworld Agent
Forwarded from кабачковая икра по акции
Главный техноблогер Ютуба Маркиз Браунли выложил обзор на HoloTile — беговую дорожку от Disney со свободным движением и поддержкой VR. Она позволяет человеку идти в любом направлении, оставаясь при этом на одном месте.
Не давайте эту штуку удалёнщикам, они совсем перестанут выходить из дома.
Не давайте эту штуку удалёнщикам, они совсем перестанут выходить из дома.
Forwarded from Psy Eyes (Andrey Bezryadin)
Продвижения в стане масштабных сцен из сплатов.
Level Of Gaussians (LoG): обрабатываем многокилометровые территории с высоты птичьего полёта и повышаем детализацию по мере приближения камеры к объектам (метод level of detail (LOD)). Мы тут уже были год назад, только тогда использовались тяжелые и малоэффективные нерфы, а сейчас на сплатах обещают, что всё должно завестись на одной 4090.
Вместе с этим Inria, институт стоящий за появлением сплатов, представили наземный метод рендера огромных локаций в реальном времени с высокой детализацией — Hierarchical 3D Gaussians (H3DGS). Впрочем, воздушные снимки скормить тоже никто не мешает.
Куски сцен формируются в иерархию для улучшения визуального качества, а подход efficient Level-of-Detail (LOD) отвечает за количество деталей в месте куда направлена камера и плавными переходами между ними. По железу не сказано, но пишут, что на простом и доступном риге можно обработать сцену из десятков тысяч фотографий, длиной в несколько километров и продолжительностью до 1 часа.
Кода пока нет, но есть две бумаги. На релизе сплатов тоже код был не сразу, так что ожидаем.
Подрубаем это в Video2Game и начинаем играть в GTA по улицам Тулы.
Кстати Infinite Realities для своей 4D системы получили лицензию от Inria.
Сайт LOG
Сайт H3DGS
Подробнее про сплаты
Level Of Gaussians (LoG): обрабатываем многокилометровые территории с высоты птичьего полёта и повышаем детализацию по мере приближения камеры к объектам (метод level of detail (LOD)). Мы тут уже были год назад, только тогда использовались тяжелые и малоэффективные нерфы, а сейчас на сплатах обещают, что всё должно завестись на одной 4090.
Вместе с этим Inria, институт стоящий за появлением сплатов, представили наземный метод рендера огромных локаций в реальном времени с высокой детализацией — Hierarchical 3D Gaussians (H3DGS). Впрочем, воздушные снимки скормить тоже никто не мешает.
Куски сцен формируются в иерархию для улучшения визуального качества, а подход efficient Level-of-Detail (LOD) отвечает за количество деталей в месте куда направлена камера и плавными переходами между ними. По железу не сказано, но пишут, что на простом и доступном риге можно обработать сцену из десятков тысяч фотографий, длиной в несколько километров и продолжительностью до 1 часа.
Кода пока нет, но есть две бумаги. На релизе сплатов тоже код был не сразу, так что ожидаем.
Подрубаем это в Video2Game и начинаем играть в GTA по улицам Тулы.
Кстати Infinite Realities для своей 4D системы получили лицензию от Inria.
Сайт LOG
Сайт H3DGS
Подробнее про сплаты
