shonenkov AI – Telegram

shonenkov AI

3.84K subscribers

269 photos

9 videos

2 files

77 links

🎨 + 🤖 + 👨‍🎨 = 🖼

Kaggle GM, author of models IF, ruDALLE (Malevich, Emojich, Kandinsky-1.0), ruDOLPH, ruCLIP. Graduated from MIPT. Working with StabilityAI.

https://linktr.ee/shonenkovAI

Download Telegram

About

Blog

Apps

Platform

3.84K subscribers

сильно ждете “IF”?

готовлю в опенсорс фичи из прошлых опросов - оказалось, что IF в zeroshot’е (без дообучения) может делать:

👨‍🎨 перенос стиля/домена

🔧 контролировать степень переноса стиля/домена, как для генерации с нуля, так и для редактирования изображения

🎨 инпейнтинг

отредактировал свою аватарку: добавил НЛО и пурпурное облако в хорошем фотореализме. и селфи в GTA)

P.S. это результаты в текстовом zeroshot, а что же будет, если потюнить на искусстве, сделать смешивание двух картинок, а еще потренить аналогично новому InstructPix2Pix

🍿

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

9.2K views13:47

Forwarded from Нейроэстетика

9.2K views00:59

Forwarded from Love. Death. Transformers.

8.2K views05:37

что из мультимодального полезнее развивать [April 2023]?

Anonymous Poll

871 voters7.0K views12:43

Forwarded from DeepFloyd

⚡️ Our Astronomy Domine (Daria) and Interstellar Overdrive (Misha) shed light on the DeepFloyd IF's architecture and performance at the Weights & Biases MLOps virtual conference, Fully Connected 2023.

IF LARGE TEXT-TO-IMAGE MODELS WERE OPEN-SOURCE, Fully Connected 2023 (YouTube)

Building The Next Large Model: DeepFloyd LLM + Text-to-Image = IF (Stability AI)

*From Fully Connected 2023*

Daria Bakshandeava and Misha Konstantinov of DeepFloyd discuss large language modeling for text-image models, with a focus on their soon-to-be open-source, state-of-the-art text-to-image diffusion model.

5.6K views21:34

Forwarded from Apolinário

good morning my deer owls!

4.2K views20:54

ГО тыкать IF? 👀

https://github.com/deep-floyd/IF

GitHub - deep-floyd/IF

Contribute to deep-floyd/IF development by creating an account on GitHub.

4.1K views16:05

Forwarded from Мишин Лернинг 🇺🇦🇮🇱

👾 Мы DeepFloyd (Research AI Lab at StabilityAI) зарелизили лучшую Text-to-Image модель DeepFloyd IF

DeepFloyd IF это новая каскадная диффузионная модель основанная на идеи Imagen от Google:
— Текст кодируется T5 XXL v1.1
— Далее интерпретируется в пиксели через IF-I-XL (4.3B UNet), генерирующий изображения в 64х64
— IF-II-L (1.2B кастомный Optimal UNet) апскелит изображения 64х64 в 256х256, используя T5
— Для финальной картинки в 1024х1024, благодаря модульному подходу, можно использовать IF-III-L (пока не опенсорснут) или Stable x4

Благодаря тому, что:
— Модель параметризирована сильнее чем GLIDE, DALL-E 2, Imagen, eDiff-I: 2B против 4.3B у DeepFloyd IF
— Апскейлеры больше и имеют более оптимальную архитектуру в сравнение с Image и DALL-E 2

🏆 DeepFloyd IF выбивает Zero-Shot COCO@30K SOTA, тем самым являсь лучшей Text-to-Image моделью не только в опен-сорсе, но и вообще!

💻 Сайт лабы DeepFloyd
🤖 Страница нейроки DeepFloyd IF
👽 DeepFloyd Дискорд

🖥 GitHub
🤗 HuggingFace

👾 Генерить тут: Demo 👈

4.1K views16:31

Forwarded from A

4.7K views17:02

Forwarded from -

5.5K views17:44

опа, уже обзорчик на ютубе 🍿

https://www.youtube.com/watch?v=4Zkipll5Rjc

Midjourney has COMPETITION & it's FREE/Open Source - Deepfloyd IF AI Art Model

DeepFloyd IF is a state-of-the-art text-to-image model that can generate high-quality images based on text prompts. It was introduced by StabilityAI and its multimodal AI research lab DeepFloyd. The model consists of a frozen text encoder based on the T5…

6.7K views20:06

Forwarded from A

7.1K views19:07

пока что не понял за счет чего, но выглядит так, будто pyTorch-2.1 на А100 ускорил SD модели x2.5, а IF-I-M x5.0 в имплементации Diffusers 🚀

уже встроили в gradio-demo, вот pull-request;
"This PR should speed-up IF stage1 by roughly 30% and stage2 and 3 by roughly 20%"

[Demo] | [GitHub] | [DeepFloyd IF]

7.5K views05:50

This media is not supported in your browser

VIEW IN TELEGRAM

3D с DeepFloyd-IF выглядит неплохо, модель справилась с рендерингом и генерацией текста на кепке 👀

если вдруг кому-то интересно потыкать, то вот [GitHub с реализацией IF и 3D]

+ в комменты закинул еще несколько 3D анимаций

@shonenkovAI

15.5K views11:28

Forwarded from Техножрица 👩‍💻👩‍🏫👩‍🔧

В честь 3000 подписчиков расскажу про наш новый препринт, в котором тексты, сгенерированные ChatGPT, детектируются с помощью анализа их внутренней размерности:

https://arxiv.org/abs/2306.04723

Итак, здесь мои коллеги и я продолжили заниматься полюбившейся с 2021 года темой - детекцией сгенерированного контента. Особое внимание, конечно, уделили детекции текста, сгенерированного моделями семейства GPT-3.5 (davinci, chatgpt). А делали мы это с помощью такой интересной штуки, как дробная размерность. Первое знакомство с ней можно осуществить, посмотрев видео 3blue1brown: https://www.youtube.com/watch?v=gB9n2gHsHN4 (рассказ про размерность начинается со второй половины видео).
Хоть введенная в видео размерность и называется "фрактальной", на деле можно получать приближенные оценки такой размерности не только для фракталов, но и просто для облаков точек, если формы облаков достаточно сложные. И вот возник вопрос: а почему бы не построить облако точек по тексту на естественном языке и не посмотреть, какой будет его размерность?

Далее последовательность действий была такая:
1) Брался достаточно длинный текст (написанный человеком либо сгенерированный ChatGPT/другой моделью) с большим количеством токенов;
2) Текст подавался на вход модели RoBERTa;
3) С последнего слоя RoBERTы извлекались эмбеддинги каждого токена текста;
4) Эти эмбеддинги рассматривались как точки в многомерном пространстве - получалось облако точек;
5) С помощью нескольких довольно технически сложных процедур ( вдохновленных https://arxiv.org/abs/1808.01079 ) оценивалась дробная размерность этого облака точек.

Таким образом, каждому тексту сопоставлялось число - эта самая размерность. И - о чудо! - оказывалось, что средняя размерность текстов, сгенерированных с помощью GPT-3.5 (ChatGPT или davinci), была в среднем существенно меньше, чем размерность текстов, написанных человеком. Эта средняя размерность практически не менялась при смене домена и при замене GPT-3.5 на large GPT-2 или OPT (со стандартными параметрами генерации); даже при применении парафразера DIPPER, специально созданного для избегания детекции, размерность менялась не сильно - в среднем примерно на 3%. Благодаря этому нам удалось сделать пороговый детектор по этой размерности, неожиданно устойчивый к атакам.
Теперь любители генерировать тексты могут менять промпты, тематику или даже модель, но наш детектор не проведешь! 😈

При смене домена и модели точность детекции (true positive) по один раз зафиксированному порогу не опускалась ниже 75% при условии, что false positive rate (FPR) оставался не более 1%. При применении DIPPER к генерации GPT-3.5 точность падала до 40%, снова при FPR 1%. Но даже этот результат оказался лучше всех остальных существующих детекторов - в том числе, и от самих OpenAI. 🫡
(Пояснение: мы зафиксировали низкий FPR потому что хотели как можно меньше дискриминировать настоящих людей при детекции).

Кроме прочего, при использовании мультиязычной RoBERTы можно было получать аналогичный детектор не только для английского, но и для других языков. Средняя внутренняя размерность эмбеддингов, соответствующих текстам на других языках, менялась от языка к языку, но размерность искусственных текстов все равно оставалась в среднем ниже, чем человеческих, для каждого конкретного языка по отдельности.

Главной же слабостью нашего детектора является неустойчивость к большим температурам генерации и к примитивным генераторным моделям. У генераторов с высокой температурой (так сказать, бредящих) внутренняя размерность текстов может быть и выше человеческой, поэтому на них этот детектор сломается. С другой стороны, такие генераторы и так детектятся другими методами. Также остается открытым вопрос, является ли RoBERTa оптимальным средством для извлечения эмбеддингов текстов, ведь их можно получать и с помощью других моделей тоже.

#объяснения_статей

Техножрица 👩‍💻👩‍🏫👩‍🔧

Artificial Text Detection via Examining the Topology of Attention Maps ( https://aclanthology.org/2021.emnlp-main.50/ ) - наша с коллегами статья на EMNLP 2021. К статье прилагается видео доклада (зеленая кнопка на сайте).
Здесь уже появились новые соавторы…

7.0K views18:03

Forwarded from эйай ньюз

Релизнулась SOTA библиотека для генерации аудио AudioCraft v1.0.0

Я писал раньше о выходе начальной версии AudioCraft, когда Meta AI опубликовали статью MusicGen для генерации музыки по тексту.

Почему новый релиз интересен?
Это стабильный релиз и в него добавили код для трениновки моделей, в том числе несколько новых:

- EnCodec - по сути квантизованый автоэнкодер (VQGAN), который сжимает аудио в серию дискретных токенов.

- AudioGen - генерит по тексту повседневные звуки, типа лая собаки и прочих звуковых эффектов (кроме музыки).

- MusicGen - text2music и midi2musiс синтез. Есть модели от 300M до 3.3B параметров. На 16Gb влезут.

- MultiBandDiffusion - новый декодер, основанный на диффузии, который декодирует токены MusicGen в аудио дорожку. Лучше чем EnCodec.

(Ждите серию постов про каждую из этих моделей)

Еще добавлены веса AudioGen и MultiBandDiffusion.

🔥А теперь представьте, использование этих моделей при монтировании роликов для ютуба.

Блог
Код и веса
Демо в колабе
MusicGen ноутбук

@ai_newz

8.1K views18:09

Forwarded from Мишин Лернинг 🇺🇦🇮🇱

This media is not supported in your browser

VIEW IN TELEGRAM

🦔 OpenAI обучили DALL-E 3

Сложно назвать это релизом, скорее просто неплохая модель, работающая в связке с GPT-4. Мне лично кажется, что следующий Stable Diffusion будет куда умнее и интереснее эстетической точки зрения.

2021 DALL-E 1 — 12B модель, пейпер / API нет
2021 GLIDE — 2B модель, пейпер + опенсорс 300M модели
2022 DALL-E 2 — 2B модель, пейпер unCLIP + API
2023 DALL-E 3 — Хрен пойми что это, но будет интеграция с GPT-4 для подписчиков ChatGPT+

Про DALL-E 3 на сайте OpenAI

8.0K views22:20

O, DALLE-3 paper (no commentaries)
https://cdn.openai.com/papers/DALL_E_3_System_Card.pdf

6.9K views15:04