Метаверсище и ИИще
30.8K subscribers
3.98K photos
1.96K videos
37 files
5.02K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Stability AI выпустила превью новой модели под названием SDXL Beta (Stable Diffusion XL Beta).
Уже можно попробовать на https://beta.dreamstudio.ai/generate

Модель SDXL — это новая модель, которая все еще в процессе обучения. Это еще не готовая модель. Круто, что можно посмотреть, так сказать промежуточный чекпойнт, бета версию весов.
Это еще более конская модель с бОльшим количеством параметров чем V2.1, но это не V3.

Немного деталей.

1. Она умеет в текст. См. картинки.

2. Она гораздо лучше исполняет в руки-ноги, анатомию, позы и пропорции.

3. Портреты - на уровне тренированных как рексы моделей с Civitai

4. Короткие промпты. Закос под Midjourney. Меньше колдунства с многословным допиныванием до годного.

5. Политкорректность, будь она неладна. Как и в v2 выпилены жирномясые художники и основная часть знаменитостей. arnold shwarzenegger выглядит скорее как бюрократ. Что в каком-то смысле иронично. Хотя Том Круиз узнаваем (архетип, вестимо)

6. С пальцами по-прежнему беда.

Ну и держите очень классный ресурс, где очень много годноты про Stable Diffusion.

https://stable-diffusion-art.com/tutorials/
Эппле что-то знает?!?!

Хм. Или наоборот, не знает, что у нее под капотом.

Внутри каждой копии MacOS выпущенной с 2018 года присутствует whitepaper биткоина

https://waxy.org/2023/04/the-bitcoin-whitepaper-is-hidden-in-every-modern-copy-of-macos/
This media is not supported in your browser
VIEW IN TELEGRAM
В Мидджорни бесплатный доступ закрыли.
А вот в опен сорс не закроешь.
Там люди с папой такое вытворяют.
Это Modelscope, text2video, которое вам будет сниться.
This media is not supported in your browser
VIEW IN TELEGRAM
ControlNet с человеческим лицом. И телом.
Я вот тут приподвзвывал о том, что рано или поздно вся это возня со спичками и точками в крошечном окне ControlNet должна превратиться в удобные инструменты с камерой, костями, кинематикой и прочим ригом.
И пока Автодеск, Максон и даже Миксамо корпоративно отмалчиваются, на сцену выскакивают новые игроки.
Я уже много писал про PlaskAI - это один из популярных нейромокапов. Снимаешь себя на камеру, а он выдает твой скелет в 3Д с анимацией. Примерно то, что делает OpenPose(в кишках контролнета), но только не с одним кадром, а с видео.

Ну и, конечно, они подсуетились и сварганили на базе Stable Diffusion генератор картинок с удобным(условно, на безрыбье) редактором поз.

Регистрация гуглом проходит. А дальше набор стандартных опций. Пять сэмплеров, негативный промпт. Зачатки стилей и пресетов.

Что-то типа PlaygroundAI только с редактором поз. Денег пока не берут, но сервера у них стонут и кряхтят, очень медленно.

Го тестировать

Доки и видео тут: https://docs.plask.ai/

Генерилка тут:
Иногда глючит и отправляет в корень сайта, тогда нужно выбрать готовую работу и сказать "добавить в мой воркспейс".

https://plask.ai/
В общем, протестировал я Plask из предыдущего поста.
Чуда нет. Там просто вебморда к Stable Diffusion с ControlNet.
1. Также портит лица при использовании КонтролНет.
2. КонтролНет не умеет в сложный скелет, здесь это прям видно.
3. Похоже там ванильная Stable Diffusion 1.5 - качество ну такое. NSFW фильтров нет.
4. С пальцами беда.
5. В общем это как бы препроцессор к OpenPose, который ковертит позу из Пласка в КонтролНетовский скелет и тупо отдает это в Stable Diffusion+ControlNet
6. Глубины там нет похоже, возможно появится.
7. Свои модели пристегнуть нельзя.

В общем ребята собрали игрушку из готовых компонентов и дают поиграть, чтобы привлечь внимание к основному продукту по мокапу. Жгут электричество, судя по скорости рендера (10 минут на 4 картинки).

Пока расходимся, все это можно сделать в Automatic1111 в 10 раз быстрее, если забирать отсюда скелет и глубину скриншотом.

Была надежда на работу с пальцами, но нет.

Больше трешовых картинок в коментах.
This media is not supported in your browser
VIEW IN TELEGRAM
Как узнать о новых технологиях ещё больше?

Интересный канал про аватары, виар-эйар, веб3 - все это в связке с бизнесом, брендами, а не просто поток новостей.

Цифровые будни - телеграм-канал от команды E-motion - ребята активно создают WEB3 проекты и помогают брендам оставаться актуальными в условиях изменяющегося, модернизирующегося рынка: создают аватаров, NFT-коллекции, проекты в метавселенных, работают с AR и VR.

В своём канале они пишут об основных новостях технологий и делятся личными проектами.

Один из самых крупных кейсов этой команды — разработка аватара Ани для телеканала ТНТ (её 1.0 версии), сейчас ребята готовятся представить ещё одну виртуальную девушку - Джею, она уже выступила на конференциях и скоро будет вести полноценный блог.

Присоединяйтесь прямо СЕЙЧАС 👈
#промо
Предлагаю выпить за финансовых аналитиков.

Bloomberg сначала создали набор данных финансовых документов: 363 миллиарда финансовых токенов были получены из собственных активов данных, а еще 345 миллиардов общих токенов были получены из текстовых онлайн-наборов данных The Pile, C4 и Wikipedia.

Используя 569 миллиардов токенов из этого набора данных, команда обучила финансово-ориентированную «BloombergGPT», языковую модель, состоящую только из декодера с 50 миллиардами параметров, оптимизированную для финансовых задач. Команда Bloomberg использовала языковую модель Bloom с открытым исходным кодом в качестве базовой архитектуры.

Ждем ventureGPT, чтобы выпить за PitchBook, стартап-скаутов, ну и весь процесс фандрайза.
https://the-decoder.com/bloomberggpt-is-a-gpt-3-level-language-model-for-the-financial-industry/
This media is not supported in your browser
VIEW IN TELEGRAM
Ну, за дизайнеров, брендменеджеров и вот эти вот все упаковки.

Текст-2-дизайн.

Сайт отлично сделан, не иначе ИИ наваял. Очень хорошая связка генератива и традиционных инструментов.

https://flair.ai
Компьютерное зрение — технология, которая превращает настоящее в будущее. Уже сейчас ИИ с нами каждый день — направляет роботов-пылесосов и снимает блокировку телефона по FaceID. А в ближайшие 20 лет, по прогнозам экспертов, мы сможем легко купить себе беспилотный автомобиль, прокатиться на поезде без машиниста или получить диагноз от ИИ в районной больнице.

Если у вас есть опыт в Data Science — научитесь обучать CV-модели и работайте с передовыми технологиями. Для этого Яндекс Практикум запускает курс «Компьютерное зрение на базе нейронных сетей».

В программе — «три кита» компьютерного зрения: классификация, детекция и сегментация. За 3 месяца вы обучите модели, которые умеют:
— определять границы и сетку для пазла Судоку,
— узнавать настроение человека по фотографии;
— выявлять элементы дорожного движения для беспилотного автомобиля.
— сегментировать спутниковые снимки, чтобы определять местоположение объекта.

Вы освоите полный цикл работы с CV-моделями с нуля до релиза. А ещё — будете учиться у наставников — экспертов в области компьютерного зрения.

Записывайтесь в первый поток и работайте над технологиями, о которых писали фантасты.
#промо
Помните, как я писал, что смышленый малый защитил диплом, написанный chatGPT (за 23 часа).
Его тогда еще собирались сжечь на костре, отобрать диплом, предать анафеме.

Но после того, как он подробно расписал, как он защищал диплом, к нему тихой сапой пришли рекрутеры и без лишнего шума сханитили его в Мвидео.

Писать статьи при помощи ChatGPT для онлайн-издания «М.Видео» под названием «М.Клик».

То бишь промпт-инженером.

Вот тут примеры "его" текстов: https://www.mvideo.ru/blog/author/alexander-jadan

Я к тому, что умение писать промпты и шиллить себя в твитторе - это сейчас конкурентное преимущество, пока система образования решает, как замочить chatGPT.
Forwarded from эйай ньюз
Media is too big
VIEW IN TELEGRAM
Segment Anything
[Meta AI]

Итак, ребята, что там по сегментации? Кажется, теперь не придется тренировать новую модель сегментации под каждую отдельную задачу (sic!). Мой товарищ Алекс Кириллов и коллеги из Meta AI разработали фундаментальную модель для сегментации картинок, которая может многое.

Из коробки модель Segment Anything (SA) умеет в сегментацию объектов по промпту. Промпт может быть текстовым, либо несколько точек, либо выделенная область.

SA выучила общую концепцию объектов и может генерировать маски для любого объекта на любом изображении или видео, даже включая объекты и типы изображений, которых не было в трейне. Она готова к использованию на разных "доменах" без дополнительного обучения".

Выход Segment Anything - это что-то вроде "GPT-3 момента" для сегментации. Когда можно взять большую общую модель и она сразу будет работать не хуже, а то и лучше (если данных мало), чем специализированная модель.

Мало того, веса и код модели полностью открыты!

Сайт проекта
Demo

@ai_newz
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Я протестил модельку Segment Anything у себя в браузере.

Запустил на картине Питера Брейгеля Старшего, который страсть как любил рисовать много мелких деталей. И вот, что получилось: Хоть в тренировочном датасете не было картин, модель хорошо сравляется сегментацией и нарисованых объектов. Иногда, когда одной точки не хватает, чтобы полность выделить объект, нужно кликнуть еще разок, либо выделить боксом.

Пока я двигал мышкой, prompt encoder и mask decoder крутились в реальном времени локально у меня на CPU.

Кстати, модель Segment Anything можно неплохо склеить в единый пайплайн с Instance деткекторами. Детктор будет выплевывать боксы, а SA будет выдавать маски по заданным боксам.

Или еще лучше. Для артистов: Вы текстом говорите, что поменять и как, затем Segment Anуthing выдает маску, а Stable Diffusion по маске генерит измененный регион в желаемом виде. Ждите скоро на просторах интернета.

Демка тут.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Отличный рекламный ролик о том, что в метаверсе мало того, что делать нечего, так еще и пожрать негде.

Рекламщики тонко обыграли мысль о том, что реальные удовольствия "not available in metaverse".

Смотреть до конца.

Ну, за метаверс, не чокаясь, реальными стопариками.
Вопрос в зал.
Большинство сервисов по суммаризации видео использует в лучшем случае аудиотрек, в худшем - пережевывает субтитры. На выходе некое описание текстом.
Кто-нибудь видел решения, которые еще и анализируют видеоряд?
По идее под капотом должно быть два текстовых трека, один описывает видео-ряд, картинку, второй анализирует аудио, а потом это как-то утрясается в саммари.

Прочекал самые популярные
https://www.assemblyai.com/
https://www.summarize.tech/ - тут только субтитры на входе
Пока ничего не годится.

Вот есть у меня видео с пляжем и шумом волны.
https://www.youtube.com/watch?v=1RgWi-Muf5g
Есть сервис, которые мне сделает тестовое описание этого видео?

Только не кидайте в меня ссылками типа этой:
https://www.makeuseof.com/ai-chrome-extensions-summarize-youtube-videos/

Гуглить я и сам умею, но пока ничего не нашел.
Киберпанк уже здесь.
В пятницу стендапил про ИИ и проводил вот такой вот опрос.
86% уверены, что фейсбучек прослушивает их телефоны и подсовывает бесовскую рекламу.
И они правы!
Вот такой текст забрал у Паши Мунтяна.
Вам имеет смысл не только молчать рядом с телефоном (оксюморон) , но закрывать глаза и не рассматривать картинки! Точнее, не принимать и не сохранять картинки.
ИИ все видит и слышит.
И это больше не шутка, это просто реальность, киберпанк, который уже тут.

"Мне пишет в Телеге мой брат по поводу странных брендов, которые ему попадаются в сети (обсуждаем различного рода интеграции в приложение). И вот он присылает в чате — ВНИМАНИЕ! — не текст, а фотографию (скрин прилагаю). И через несколько часов мне Фейсбук выдает рекламу с этой же картинкой (скрин снова прилагаю)! Прямой выход на этот бренд. Это говорит только об одном: не из секретных чатов Телега продает трафик в большие сети (а может и из секретных тоже). То есть анализирует вообще весь контент и продает. Теперь я знаю это на 100%... большой брат следит чересчур внимательно, и корни его кругом.

UPD. Прислали вот такой интересный комментарий:
«Прислали в телеге, но оно на телефоне попадает в так сказать в общую папку с фотками, которые разделены на фото из телеги, фото из вацапа, фото из фейсбука, фото из твиттера. Приложение фейсбука имеет доступ ко всем кешированным фоткам из всех этих приложений потому что вы дали ему разрешение доступ к фото, если б не дали, то вы не смогли бы в фейсбуке ни одной фотки опубликовать. ».
https://t.me/PavelMuntyanPosts/979
Киберпанк нарастал...
McDonald’s открыл полностью автоматизированный ресторан, без единого кожаного сотрудника
Ждем апгрейда ресторана, где chatGPT-официанты ведут экзистенциальные беседы с покупателями, а Stable Diffusion генерит дизайн меню, распознавая лица и степень голодности кожаных.