Complete AI
7.94K subscribers
490 photos
34 videos
10 files
267 links
Меня зовут Андрей Кузнецов

Директор лаборатории FusionBrain в AIRI, один из фаундеров моделей Kandinsky, к.т.н., 15+ лет опыта в Computer Vision, выступаю с лекциями и пишу о событиях в AI и ML

Tg: @kuznetsoff87
Linkedin: https://tinyurl.com/y96nmmdd
Download Telegram
🔥 Scalable Diffusion Models with Transformers

Вчера вышла интересная работа от ребят из UC Berkeley и NY University про комбинацию диффузии и трансформеров (Diffusion Transformers или DiT).

Ребята заменяют U-Net на трансформер и работают с патчами в латентном пространстве. DiT-XL/2 превосходит все class-conditional диффузионные модели на ImageNet 512x512 и 256x256 бенчмарках и достигает FID=2.27 для низкого разрешения. Более вычислительно тяжёлые DiT позволяют генерировать сэмплы очень высокого качества.

статья
гитхаб
колаб

@complete_ai
👍9🔥3🏆1👀1
🤔 Рубрика - Угадайте промты

Ответы оставляйте в комментариях (крылатые выражения)
1.
2.
3.
🔥4😁2💩1
Приглашаю на вебинар, посвященный трансформерам для генерации контента
22 декабря в 11:00.

На вебинаре подведем итоги года в сфере ML-deep-tech разработок: вспомним самые яркие события, взлеты и падения, общий прогресс современных трансформерных мультимодальных моделей в контексте истории искусственного интеллекта.

Эксперты расскажут про state-of-the-art инструменты для оценки больших базовых моделей в 2022 году и тенденции на 2023:

• какие критерии оценки результатов обучения используются сейчас;
• как ученые и разработчики объединяют усилия, чтобы обеспечивать надежность, воспроизводимость и несмещенность полученных результатов.

Финальным аккордом сделаем обзор всего самого интересного, что за год завезли на маркетплейсы AI Services и DataHub, расскажем, как эти решения можно использовать для практических бизнес-задач.

Кому будет полезен вебинар:

Всем, кто неравнодушен к AI и ML — дата-сайентистам, ML-инженерам, IT-директорам, разработчикам и продакт-менеджерам.

➡️ Зарегистрироваться на вебинар можно на сайте

Выступать будем я, Татьяна Шаврина (Sber Devices), Денис Димитров (Sber AI), Вера Шибаева (Cloud) и Иван Тараскин (Cloud).

Приходите! Обсудим год!

❗️UPD: презентация в комментах ⬇️
👍11🔥62👏2🤮1
Всем привет!

Недавно делали обзор ChatGPT с проверкой фактов о её плюсах и минусах, заодно сравнили с другими похожими приложениями/моделями.

Приглашаю почитать на Хабре - получился, на мой взгляд, хороший обзор. Сделали 2 варианта: краткий и детальный про архитектуру и сравнение с аналогами.

Спасибо за доступ к ChatGPT и помощь в обзоре @alexwortega и @dendimitrov

ссылка
мой коммент в Forbes

@complete_ai
🔥16
Прошло всего 2 месяца😉
🔥20🏆6👨‍💻2
С Новой Годой вас, дорогие мои подпищекш🎄🎄🎄
🔥10😁4🎉4🤡3🥰2👍1
Всем привет! Еще раз поздравляю с наступившим 2023 годом🎄🎅🎉

⚡️⚡️⚡️
Начну год с одного из ключевых достижений команды в 2022 году. Сделали крутую модель для быстрого переноса лица с фото на фото или видео - GHOST (Generative High-fidelity One Shot Transfer). За основу была первично взята архитектура FaceShifter, которая в начале наших исследований казалась наиболее удачной.

В итоге мы доработали её для переноса лица с изображения на видео и внесли ряд изменений, ключевые из которых:
💡дополнительный лосс на направление взгляда
💡адаптивная сглаженная маска переноса лица
💡блок устранения эффекта дрожания (jittering) при переносе на видео

По результатам экспериментов выбили SoTA среди известных моделей (FaceSwap, DeepFakes, FaceShifter, SimSwap и HifiFace) на ряде валидационных сетов по таким метрикам как сохранение identity, shape и направления взгляда. По метрике переноса позы наша модель близка к SoTA, и мы постараемся еще улучшить показатели в этом году.

Некоторые примеры переноса лиц с фото на фото можно увидеть в закрепе к посту. Более подробно с материалами исследований можно ознакомиться в опубликованной статье в IEEE Access (пробились со второго раунда ревью 🏆), а репозиторий модели можно найти тут.

Ну и конечно же, не могли обойти стороной и любимых пользователей. Запустили ТГ-бот для того, чтобы поиграться с моделью (ограничение на длину загружаемого видео - 20 секунд).

⚡️Скорость переноса на FullHD видео высокая - около 12 FPS.

Все ссылки скопом для удобства ⬇️

📘статья
📕Хабр
🖥 GitHub + коллаб
🔥TG_Bot

@complete_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18👍43🤨2
VLC-BERT: Visual Question Answering with Contextualized Commonsense Knowledge

Относительно новая работа VLC-BERT (Visual Language Commonsense) от University of British Columbia для решения задачи VQA. Особенность заключается в том, что вместо типичного подхода с извлечением знаний (knowledge-based) авторы применяют доп reasoning языковую модель commonsense - COMET, которая предобучена на гарфах знаний. COMET на вход принимает вопрос и лэйблы объектов, обнаруженных на изображении моделью YOLOv5.

В результате модель COMET формирует ряд предложений, который содердит дополнительную описательную информацию об изображении. Для каждого из 30 типов «отношений» формируется топ-5 предложений, далее они еще фильтруются и получается финальный список дополнительных описаний, который подаётся на вход вместе с текстом вопроса и image regions в финальную архитектуру VLC-BERT, которая была предобучена на VQA датасетах.

Итого модель содержит 118М параметров и выбивает по accuracy все knowledge-based решения (43.14%).

Подробнее в статье
Пощупать модель можно в репозитории

@complete_ai
👍9👏2
🔥Google Research 2022 & Beyond

GR стартует серию постов о прошедших и будущих исследованиях. Первый - о мультмодальности и генеративных моделях.

https://ai.googleblog.com/2023/01/google-research-2022-beyond-language.html
5👍2🤗1
500!
🔥34🎉4👍2
🔥🔥🔥Команда Berkley на днях представила новую модель InstructPix2Pix, которая позволяет редактировать изображения в соответствии с текстовой инструкцией.

#простой_ai: авторы учат модель для управления изменениями на изображении через текстовые инструкции («добавь корабль на воду», «замени человека инопланетянином» и т.д.) - сначала учится одна модель для синтеза этих инструкций, а затем вторая - учится генерировать похожее изменённое в соответствии с инструкцией изображение.

Задача редактирования изображений решается в классическом supervised режиме:
1. На первом этапе создаётся датасет обсечения, который включает в себя текстовые инструкции, исходные и соответствующие изменённых изображений
2. На втором обучается диффузионная модель для редактирования изображений на этом синтезированном наборе данных

При этом обучение на синтетических данных (вопреки принятому мнению, что лучше учить на реальных чистых данных) не портит модель синтеза изображений.

Синтез инструкций выполняется посредством файнтюна модели GPT3 Davinci на 700 промтах из LAION-Aesthetics V2 6.5+ в течение одной эпохи. В результате на основе входного текстового описания синтезируется как сама текстовая инструкция для редактирования изображения, так и изменённое в соответствии с интукцией текстовое описание изображения. Затем два текстовых промта преобразуются в пару соответствующих изображений с помощью модели, основанной на StableDiffusion (по 100 сэмплов на каждую пару описаний). Для того, чтобы генерации по двум близким промтам не сильно отличались (что свойственно в обычном режиме генерации), авторы используют метод Prompt-to-Prompt, который позволяет увеличить сходство нескольких генераций диффузионной модели. Это делается с помощью переноса весов cross attention на некотором количестве шагов деноизинга.

Больше деталей можно как всегда найти в статье⬇️

📕 статья
🖥 GitHub
🏆HF demo - медленная:(

@complete_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12👍2🤗1
Forwarded from Технологии | Нейросети | NanoBanana
Вы думаете, что я вас не переиграю? Я вас уничтожу!

Чекпоинт для генераций Понасенкова 😁
https://civitai.com/models/5096/maestro-evgenii-ponasenkov

• Больше моделей для StableDiffusion
👍8😁3🔥1
Всем доброго утра/дня/вечера!

Подумываю над новыми форматами для своего канала.

Как вы смотрите на «ReadingClub», где я рассказываю про какую-то досконально изученную новую интересную статью, а потом мы её обсуждаем? Как вариант, можно сделать голосование со списком обозреваемых работ, и самую залайканную статью мы и обсудим.

Провести мероприятие можем в любом удобном сервисе видеоконференций, или стримом прямо в канале тут.

По реакциям на пост пойму ваш настрой😉⚡️
👍54🔥10👏1🤔1💩1
🎤Увидимся 6-7 марта на OpenTalks в Ереване!

Кто собирается?
🔥20👍62