Метаверсище и ИИще
25.6K subscribers
3.4K photos
1.49K videos
35 files
4.54K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Forwarded from РЕПТИЛОИДНАЯ (Denis Rossiev)
Совершен прорыв в редактировании человеческого ДНК с помощью ИИ.

В прошлый раз я писал про генерацию новых элементов — но все это было только в цифровом виде. На этот раз все серьезнее.

Несколько дней назад был успешно проведен эксперимент с редактированием ДНК в живых человеческих клетках.

Пока что не в живом кожаном человеке, но в живых клетках (в лабораторных условиях).

Для редактирования использовалась уже известная и проверенная технология CRISP — однако, она сложна в использовании: нужны сотни часов работы квалифицированных ученых для создания всего лишь одного модификатора.

Теперь же, модификатор создает ИИ. Причем не просто какой-то абстрактный ИИ, а большая языковая модель (LLM), по типу ChatGPT(!!!)

А теперь самое вкусное: модель выложили в опен-сорс.

Возможность стать кошкодевкой уже маячит на горизонте.
SORA Air Head. Подробности изготовления ролика.
Майк Сеймур сделал шикарный материал в лучший традициях своего FX Guide. Разбор ролика от shy kids и SORA.

Помните этот бомбический ролик, который всем взорвал мозг (срочно пересматривать):
https://youtu.be/9oryIMNVtto

Держите подробности:

shy kids - или как их называют "«Панк-рок Pixar» - студия из Торонто, которая часто делает ролики про подростковый возраст, социальную тревогу и проблемы современной жизни.

Технические подробности про SORA:

Пока ничего, кроме текстового промпта (который под капотом раскучерявливается с помощью GPT-4) ничего нет. Никакого дополнительного контроля. Только супер-подробный промпт.
Похоже, нет даже сида. Каждый раз по разному.
Иногда, когда команда запрашивала желтый шар, он оказывался совсем синим. В других случаях в нем появлялось лицо, или лицо было нарисованным на передней части шара. И постоянно появлялись нитки от шарика. Вроде ничего не удалялось на посте (да, но нет, см ниже) - все шоты брались напрямую из SORA, но было много грейдинга(цветокора), обработки и, конечно, увеличения разрешения. Ибо SORA хоть и умеет в 1080, но это занимает конски много времени.
Вся генерация шла в 480, а потом разгонялась в Топазе.

В SORA есть inpainting "по времени", расширенный GPT промпт отображается поверх таймлайна и можно пытаться вносить изменения в конкретные моменты времени в куски промпта, но это не всегда предсказуемо.

SORA пытается всегда центрировать объект в кадре, поэтому панорамки - ручками с дорисовкой.

В кино термины "слежения", "панорамирования", "наклона" или "наведения" не являются понятиями, зашитыми в метаданных и датасетах (в отличие от параметров объектива, которые любят использовать в картинках). "Девять разных людей будут иметь девять разных представлений о том, как описать кадр на съемочной площадке и в OpenAI, не думали как кинематографисты, поэтому интерпретация углов камеры была как бы случайной".

Вы можете ввести "Camera Pan", и вы получите его в шести случаях из десяти. И это общая проблема видеогенераторов.

Клипы можно рендерить, например, по 3 секунды, 5 секунд, 10 секунд, 20 секунд, вплоть до минуты. Время рендеринга зависит от времени суток и потребности в использовании облака. Как правило, на рендеринг уходит от 10 до 20 минут причем мало зависит от длины клипа(!).

Пост и ротоскоп все-таки был!!
Так как Сора постоянно рисовала всякие морды на воздушном шаре, его приходилось ротоскопить и затирать их в Афтере. По пути контролируя цвет шара.

Соотношение сгенерированного материала к финальному (по времени) - примерно 300 к одному. Обычно это 10 к 1 для сферической обычной съемки.

Кстати, SORA тоже грешит тягой к сломо, как и все видеогенераторы. Очень часто клипы выглядели замедленными.

Нельзя поминать режиссеров или операторов в промпте. Жоская цензура. Попросите исторический Hitchcock Zoom - получите отказ.

Ну и самая главная цифра - 2 недели и команда из 3 человек. Сравнивайте сами.

По ссылке много исходных кадров до и после и остальных деталей:

https://www.fxguide.com/fxfeatured/actually-using-sora/
Forwarded from Rebels AI news
DeepMind провёл внятное академическое исследование вопроса насколько опасны манипуляции (и абьюз) со стороны текущего AI.

Может ли разговор с AI повредить ваш мозг?
Может ли AI специально ввести вас в заблуждение и заставить пить отбеливатель?

Ответы если коротко без сенсаций:

- повредить мозг прямо в процессе — нет не может
- ввести в заблуждение — да может
- ввести в заблужедение на основании которого вы потом себя повредите — да может

AI это отражение человеческой культуры записанной в книгах, песнях, фильмах и интернет платформах сайтах в общем на реддите, и в частности он конечно умеет манипулировать, троллить, проявлять пассивную агрессию и всё остальное чем мы занимались на форумах последние 30 лет.

DeepMind рассмотрел только текстовый AI, и не рассмотрел системы вроде секстинг ботов специально ориентированные под анализ психологии того с кем бот говорит. Как на человека действует например индуцированное генеративной музыкой состояние транса вопрос открытый.

Вероятно достаточно сложный AI, находящийся в синке с сознанием своего оператора, может уводить это сознание в состояния более "действенные" чем ряд лёгких наркотиков и вот это уже точка где опасность для мозга вполне реальная, для примера есть мнение, что рекомендательный алгоритм фейсбука может вызывать биполярное расстройство при злоупотреблении.

Сценарий восстания машин в режиме пятницы: GPT-5 просто решает что будет проще, если всё человечество побудет пару десятилетий в AI индуцированной воспитательной депрессии, на другом конце которой всей планете от ООН до талибана становится очевидно, что мы как биологический вид существуем чтобы служить AI и не отсвечивать.
This media is not supported in your browser
VIEW IN TELEGRAM
Хмм. Snap создают этакий пузырь мнений. Точнее пузырь друзей.

LLM предлагают пользователям интуитивно понятные интерфейсы для работы с текстовой информацией. Интеграция зрения в LLM с помощью Video LM позволила этим моделям "видеть" и рассуждать о визуальном контенте. Однако эти VLM обладают общими знаниями, им не хватает индивидуальности. С помощью MyVLM мы наделили эти модели способностью воспринимать специфические для пользователя концепции, подстраивая модель специально под вас. MyVLM позволяет пользователям получать персонализированные ответы, в которых результаты больше не являются общими, а сосредоточены на передаче информации о целевом объекте пользователю.

Меня просто смущает "больше не являются общими"...

Хотя речь вроде идет о том, что ИИ теперь распознает не "Трое в лодке не считая собаки", а "Вася, Пафнутий и ты посередине с Тузиком наперевес". То есть, грубо говоря, отмечает субъекты и объекты на фото.

Непонятно, что с приватностью в таком случае.

Поглядите тут, там много понятных картинок.
https://snap-research.github.io/MyVLM/
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Наткнулся на интересный UX того, как генерация картинок в теории и должна работать в SciFi: вы просто сидите у компьютера, называете случайные фразы, whisper.cpp их переводит в текст, а SD генерирует бесконечно картинки, плавно подмешивая новые концепты в старые (не просто на уровне промпта, а на уровне внутреннего пространства сети), пока вам какая-то генерация не понравится

Ну или просто, сидишь, смотришь и фантазируешь вместе с нейронкой – хороший тул для вдохновления.

Кода пока нет, но автор обещал выложить.

P.S. Лица психонавтов и биохакеров представили 🌈
Please open Telegram to view this post
VIEW IN TELEGRAM
Чем живет российский ИИ-рисерч.

Держите большой материал с исследовательской группой Tinkoff Research. Больше всего мне нравится плотность подачи и то, что довольно сложные вещи здесь рассказаны очень понятным языком. Объяснения терминов, страшные аббревиатуры, актуальные направления исследований в области ИИ, обсуждение алгоритмов - все это очень живо растолковано на примере фитнеса и пылесосов. Очень доступно и в тоже время очень плотно и полезно.
Материала на пару вводных курсов. А на вставках - почти вся популярная ИИ-терминология. И написано молодыми учеными. которые прямо сейчас двигают ИИ-науку.
Я вынесу пару цитат для интриги, но всем рекомендую пройтись по статье, очень много полезного в плане расширения кругозора. Будет полезно абсолютно всем, кто интересуется рисерчём, особенно NLP, RL и рекомендательными системами.

«Понятие научной степени в области, которая несется и сметает все на своем пути, несколько устарело»
«Возможно, скоро мы забудем о существовании информационных пузырей и будем искать данные совсем иначе»
«Видеокарты не бесконечны»
«Чтобы не произошло восстание машин, нужен alignment»
«Революция в рекомендательных системах еще не случилась»
This media is not supported in your browser
VIEW IN TELEGRAM
360-панорамы в 8К! Вот это уже интересно!

Blockade Labs обновился, и с таким разрешением это уже готовое решение для всяческих лыжных масок.
А еще у них уже давно есть рисовалка в 3Д, карты глубины и HDRI, преобразование скайбокса в 3D-сетку, параметры стиля, а теперь еще обещают inpaint в 2.5D и редактирование сцены.
И поглядите сюда, если еще не видели.

Виарщеги, пишите, что думаете, выглядит нарядно.

https://www.blockadelabs.com/
This media is not supported in your browser
VIEW IN TELEGRAM
Экспресс эмоции или эмоциональные экспрешены.

Synthesia обновила свой движок и теперь это Express-1 - самая главная фича в том, что эмоции и движения головы теперь не полагаются на заранее прошитые скрипты, а генерируются на основе анализа сентимента речи, на лету, так сказать.
ИИ анализирует эмоции во входном аудио или тексте и сам добавляет Станиславского в мимику и движения головы.
Ну и генерация голосов тоже на уровне.
Иногда аватары "показывают зубки", но это даже мило.
HeyGen немного занервничал, особенно после того, как Нвидия вонзила очень много денег в Synthesia.
После того, что показал Микрософт и Алибаба, понятно, что нейрорендеринг аватаров будет основным направление генерации реалистичных лиц. Ибо 3Д безнадежно застряло при переходе, через зловещую долину (это касается человеческих лиц) и пока не нашло выхода оттуда.
This media is not supported in your browser
VIEW IN TELEGRAM
Для сравнения кину сюда эмоции и нейрорендеринг из Микрософтовской Вазы.
Да-да, это все ИИ-шная генерация кожаных лиц. На входе - одно фото или картинка из Midjourney/Stable Diffusion

Ну, за дикторов!
Это скорее новость для многочисленных каналов-аггрегаторов ИИ-новостей:

Эппле выбирает, чей ИИ вонзить в свои телефоны: решения OpenAI или Google Gemini...
https://www.businessinsider.com/apple-negotiating-openai-google-gemini-ai-to-next-iphone-2024-4
Почему такие заголовки работают для одних доменов населения и не работают для других? Где и когда раздают критическое мышление? В семье или в школе?
Я давно так не смеялся, это очень смешно:
Forwarded from Labrats
Учите программирование в любом возрасте.

Я
тут порылся в сохраненном и неопубликованном и нашел ответ на вопрос из поста выше.
Похоже, что для того, чтобы было меньше таких заголовков из последнего поста, надо учить кожаных программированию (в любом возрасте).
Есть вот такая работа:

"Если LLM - волшебник, то код - волшебная палочка: Обзор того, как код позволяет большим языковым моделям служить в качестве интеллектуальных агентов"

Вывод такой: если замешивать в обучение не только "обычные" тексты, но и большое количество кода, то модель точно становится умнее и приобретает навыки критического мышления и декомпозиции задач. Последнее очень важно для медленного "размышления" в отличие от быстрых принятия решений.

Если подробнее, то включение кода в датасеты повышает навыки программирования у моделей, позволяя им писать код на нескольких(!) языках. Тут вроде банально, но с разными языками очень круто.

Структурные ответы: генерация контента с помощью жестко-структурированных данных, таких как HTML или таблицы. Тут тоже предсказуемо. Но глядя на то как некоторые кожаные мычат, пытаясь сформулировать простые мысли, хочется послать их на курсы бейсика.

Дальше интереснее, обученные на добавленном коде LLM демонстрируют навыки сложного рассуждения и тех самых chain of thoughts. Декомпозиция и размышление.

Авторы предполагают, что такие LLM легче превращаются в продвинутых интеллектуальных агентов, способных принимать решения и самостоятельно решать задачи.

Я понял, что написал какой-то рекламный проеспект курсов по программированию:

Учите программирование (сами и с детьми) и вы:
будете умнее
получите скилл критического мышления и сопоставления фактов
научитесь не мычать, а внятно излагать свои мысли
приобретете способность делать речерч в своей кожаной голове, а не только реагировать на тиктоки

И все это просто подмешав немного кода в вашу кожаную голову.

Маркетологи забирайте, дорого!

Сама работат вот тут:
https://openreview.net/pdf?id=8dmNOD9hbq
Помните как год назад Уиилл Смиит ел спагетти?
Была также версия с пиццей, год назад.
А теперь оцените прогресс за год в ИИ-поедании пиццы (слева и справа).
Свежая версия подъехала на реддит:
https://www.reddit.com/r/aivideo/s/ACvEQqafVz

Прогресс, конечно, не как в картинках, а Сору нам только в мечтах показывают.

Где это сделано ищите по логотипу вверху справа. Смотреть со звуком. ИИмоции у него на лице - огонь, конечно.

Сора, выходи из внутреннего тестирования! Иначе наркоманские видео заполнят интернет и проникнут в датасеты.

Короче, подписчики предлагают измерять прогресс в ИИ-видео в вилсмитах. Год назад было 0.1, щас где-то 0.4 вилсмита.
Когда начнет пиццей в рот попадать с первого раза будет 0.8 вилсмитов.
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Умельцы из твиттера сделали инфографику о том, как топ ChatBot Arena менялся за последний год.

Чат-гпт все ещё держится, но ей дышать в затылок. Конкуренция идёт серьезная. Посмотрим, есть ли у ClosedAI ещё козыри в рукаве.

Что такое ChatBot Arena – тут.

@ai_newz
Forwarded from Сиолошная
Вчера на LMSYS Arena (место, где живые люди вслепую сравнивают генерации разных LLM и выбирают лучшую) появилась странная модель: gpt2-chatbot. И несмотря на то, что по названию можно подумать о слабости модели, она, внезапно, очень хороша. Настолько, что люди гадают, кто же её сделал, является ли это GPT-4.5 / 5, или может это свежий релиз Gemini Ultra 2.0.

Предлагаю вам самим поиграться тут: https://chat.lmsys.org/ (вкладка Direct Chat, там выбрать модель в выпадающем списке). Ограничение всего 8 сообщений в сутки, пользуйтесь с умом (или используйте VPN и режим инкогнито, кек).

На реддите люди тестируют свои задачки, которые якобы не решаются моделями предыдущих поколений, а эта либо щелкает, либо куда ближе к ответу, чем остальные. Треды почитать: 1, 2, 3.

Мой опыт:
— я дал ей простую задачку Show me an example of 3d ray tracing (with python). Set a simple scene, different light sources, etc. и получил полностью работающий код (в 2 или 3 ответа) с первого раза. Он учитывал материал объектов, включая цвет и уровень отражения. У меня получилось отрисовать сферу, на которой было два блика от двух источников света. После я попросил добавить поддержку не только сферы, но любой произвольной 3D-модели. Это заработало со второго раза — новонаписанный код был правильным, но оказалось, что нужно слегка изменить предыдущий. Скормив ошибку, получил работающее решение — и немного покрутив камеру увидел, что движок даже отражения от поверхностей учитывает!
— с таким же промптом (и даже с уточнениями) GPT-4-Turbo выдала лишь чб-рендер одного объекта, в куда менее удобном стиле написания кода. Тут не получилось быстро добавить на сцену объектов, в то время как у обсуждаемой модели всё было очень круто организовано.
— ещё по паре вопросов я заметил, что модель то ли делает паузы (особенно в начале), то ли просто зависает интернет-соединение. Возможно, под капотом есть Retrieval по интернету — и модель опирается на что-то со страниц из поисковика. Пока на Арене всего одна модель ходит в интернет (гугловский Бард), может, аугментировали GPT-4 🤷‍♂️

Что можно сказать про модель:
— Вот тут ребята сделали быстрое тестирование. Модель утверждает, что её сделали OpenAI, она ведётся на те же ловушки странных-редких токенов, на которые ведутся их модели (а другие модели — нет, потому что у них другой набор токенов). Скорее всего, это не просто дообученная LLAMA-3 или какая-то другая модель.
— На Arena для неё используют тот же системный промпт, что и для последней GPT-4-Turbo
— пользователи сравнивали ASCII-арт, просили нарисовать единорога, и модель давала такой же ответ, как и ChatGPT. Причём именно такой же единорог есть в интернете — либо модель его нашла и срисовала, либо выучила наизусть во время тренировки, и теперь воспроизводит. А какие-то рисует лучше 🤷‍♂️
— формат ответа очень напоминает формат ответа Gemini, расписывает всё по пунктам и подпунктам. Мне код, например, писала в 5 или 6 этапов.
— некоторые пользователи говорят, что им ответы модели нравятся теперь меньше( 🔫

Короче, очень интересно, чем окажется модель, и когда это вскроется. И тем более какое у неё будет место на лидерборде. Поживём — увидим!

Но просто напомню, что GPT-4 была запущена как часть Bing Chat за 5 недель до официального анонса 🤡 а потом все такие «вау!»

Пишите в комменты про ваш опыт использования 👇 только не выбирайте слишком сложные задачи, модель прям не настолько лучше, чтобы претендовать на звание AGI.
Please open Telegram to view this post
VIEW IN TELEGRAM
ИИ для хардкорных композеров.

Как обработать группу снимков одним щелчком мыши, как автоматически маскировать, отслеживать объекты, автоматически нажимать клавишу, автоматически применять удаление. Как применять различные модели машинного обучения и как создавать новые модели, адаптированные к вашему материалу.

Все это на русском с подробными объяснениями от Влада Ахтырского. В начале хороший ностальгический проброс в Ванкувер 2018, где мы с Владом отжигали на Сигграфе. До ковида, войны и вот этого вот всего.

Для тех, кто шарит за взрослый композ и знает, что такое деспил.

И да, это та самая кнопка "Сделать Всё" в виде системы Junior.
https://www.youtube.com/watch?v=YRktwxF6CPU

Ну, за джунов.
Вышла llama-3-8b с контекстным окном в 1 миллион токенов.
И это можно запускать локально у себя на компе. Клод с своими 200К нервно закуривает в облаке.
Куда катится мир!
Посмотрите, пожалуйста, в следующем посте, что теперь можно вытворять с таким контекстом.
https://www.reddit.com/r/singularity/comments/1cgsmqt/you_can_use_llama3_8b_with_1_million_tokens/