Derp Learning

мама я в телевизоре или нейро намедни

насыщенное получилось видео - я попробовал окинуть взором весь спектр нейро генератива, сделать такой срез за последние несколько лет, показать какой скачок в генерации произошел на наших глазах

рекомендую новичкам и тем кто хочет понять зачем это все и куда двигается

@тоже_моушн

YouTube

КАК РАБОТАЮТ НЕЙРОСЕТИ? Всё о DEEP DREAM, GAN, MIDJOURNEY STABLE DIFFUSION, CHATGPT, DALL-E

👉 Курс по Нейросетям для Digital Art со скидкой https://clck.ru/39D5yh

Привет, творец. На связи Слава Хохлов. Основатель Хохлов Сабатовский.
Тут ты найдешь всю информацию, что бы научиться создавать киношные видео и построить профессию.

► Переходи в мой…

👍18😢1

3.61K views15:16

Derp Learning

Forwarded from CGIT_Vines (Marvin Heemeyer)

0:20

This media is not supported in your browser

VIEW IN TELEGRAM

Как GPT работает в Unity!

Как говорил Эйнштейн: "Правильно написанный промпт - это уже половина написанного шейдера"
Господь, неужели я дожил!
Хотелось бы пошутить и пованговать "как мы будем работать в будущем", но это происходит уже сейчас.

Git

🔥33❤6👍4

3.83K views08:08

Derp Learning

Бумеры, у нас есть шанс.

Статья

@derplearning

😁59

4.87K views11:34

Multi ControlNet Warp
Init Vid by @austingumban

🔥38❤6👍2😢1

8.83K views11:49

Ну и тожсамое, но без рука-лицов :D

🔥34👍4

5.15K views18:14

Derp Learning

Forwarded from r/ретранслятор

0:13

This media is not supported in your browser

VIEW IN TELEGRAM

В Китае работает система распознавания лиц. При пересечении улицы в неположенном месте выводит на большой экран лицо и часть имени нарушителя, чтобы публично опозорить.
Также пишут, что в автоматическом режиме списывается штраф с банковского счёта после установления личности.

А можно нам не такой Киберпанк?
r/#ThatsInsane

😱40👍12😢12😁6🤩1

4.18K views16:10

Derp Learning

Forwarded from r/ретранслятор

1:28

This media is not supported in your browser

VIEW IN TELEGRAM

0:48

This media is not supported in your browser

VIEW IN TELEGRAM

GPT-4 показал свою мощь:

Ведущий в эфире попросил нейросеть написать код Discord-бота, который бы работал на GPT-4 и распознавал изображения. Сначала она выдала код на старом API, потом исправила свою же ошибку и сделала рабочий. (первое видео)

Затем ведущий загрузил в полученный бот фото нарисованного от руки наброска простого сайта. Нейросеть распознала его и выдала рабочий скрипт. (второе видео)

А ещё GPT-4 поработал в качестве бухгалтера и решил проблему семейного бюджета, рассчитав налоги и объяснив, что к чему.

Готовьтесь освобождать свои рабочие места. Шутки кончились
r/#ChatGPT

❤56😱15👍10🤩2

3.66K views05:28

Derp Learning

Forwarded from Denis Sexy IT 🤖

GPT-4 умеет по фотке открытого холодильника написать какие блюда можно сготовить

¯\_(ツ)_/¯

❤50🔥13😱9😁1😢1

3.12K views11:32

Derp Learning

По запросам читателей: рецепт пива из черной смородины от GPT-4
(by @YallenGusev)

🔥26❤3🎉1

4.12K views11:51

Derp Learning

Forwarded from gonzo-обзоры ML статей

У Альпаки есть своё интересное независимое развитие. Благодаря подходу LoRA от Microsoft (https://arxiv.org/abs/2106.09685) для низкоранговой оптимизации больших языковых моделей (позволяет получить файнтюненную версию сильно меньшего размера), Альпаку научились воспроизводить на консьюмерском железе, оно требует порядка 5 часов на RTX 4090. Этот проект живёт здесь: https://github.com/tloen/alpaca-lora. Если вам нужен LoRA для своих дел, то есть библиотека loralib от авторов (https://github.com/microsoft/LoRA), а также метод поддерживается в HuggingFace PEFT (State-of-the-art Parameter-Efficient Fine-Tuning, https://github.com/huggingface/peft) наряду с другими интересными методами.

Такие дела. Всё сильно ускорилось, конечно.

GitHub

GitHub - tloen/alpaca-lora: Instruct-tune LLaMA on consumer hardware

Instruct-tune LLaMA on consumer hardware. Contribute to tloen/alpaca-lora development by creating an account on GitHub.

❤19👍4🔥1

4.42K views21:06

Derp Learning

Forwarded from Memes on Machine Learning for Young Ladies

😁134😱13😢6🤩4🔥1

3.93K views07:42

Derp Learning

Forwarded from Complete AI (Andrey Kuznetsov)

⚡️⚡️⚡️VideoFusion
Вышла первая open source диффузионная модель для синтеза видео по текстовому описанию на 1.7B параметров (CVPR 2023).

Авторы предлагают рассматривать диффузионный процесс как некоторый декомпозируемый процесс: базовый шум (base), общий для всех кадров, и шум остаточный (residual), который изменяется во времени. Две модели учатся совместно и приводят к результату, по качеству превосходящему существующие GAN-based и диффузионные модели синтеза видео.

Статья
HuggingFace

🔥28❤1

3.37K views07:07

Derp Learning

Forwarded from CGIT_Vines (Marvin Heemeyer)

По мотивам недавних событий (Artstation) или давних (Calculator) или тех, которые только будут? (AGI)

👍23😁9❤4

3.02K views15:17

Derp Learning

Очередной мейнстримный варп. Предыдущим был крайний клип Linkin Park - Lost, теперь вот ещё один(-на) ветеран(-ша?/-ка?) - Goldwarpfrapp

Помню, видел ее, ещё в те времена, когда по MTV крутили музыку

https://twitter.com/alisongoldfrapp/status/1636337021982502912

🔥4😁1

3.55K viewsedited 15:20

Derp Learning

Forwarded from CGIT_Vines (Marvin Heemeyer)

This media is not supported in your browser

VIEW IN TELEGRAM

Чистая, как слезинка сантехника, не испорченная никакими диффузиями, полностью математическая генерация космической станции с волюметрическими тенями, уместившаяся в 439 строчек кода.

Смотреть на shadertoy советую, развернув на полный экран.

🎉30❤13👍3

3.27K views07:49

Derp Learning

Forwarded from gonzo-обзоры ML статей

[Microsoft Kosmos-1] Language Is Not All You Need: Aligning Perception with Language Models
Авторы: Shaohan Huang, Li Dong, Wenhui Wang, Yaru Hao, Saksham Singhal, Shuming Ma, Tengchao Lv, Lei Cui, Owais Khan Mohammed, Barun Patra, Qiang Liu, Kriti Aggarwal, Zewen Chi, Johan Bjorck, Vishrav Chaudhary, Subhojit Som, Xia Song, Furu Wei
Статья: https://arxiv.org/abs/2302.14045

Тренд на мультимодальность пошёл очевидный. Позапрошлый год я бы назвал годом контрастных моделей по типу CLIP (https://t.me/gonzo_ML/665) / Align (https://t.me/gonzo_ML/679) / Florence (https://t.me/gonzo_ML/734). Прошлый был явно годом диффузионных text-to-image моделей типа DALLE-2 (https://t.me/gonzo_ML/919) и последующих Imagen, Stable Diffusion и т.п. Нынешний, мне кажется, может стать годом картиночно-языковых моделей (Visual Language Model, VLM) или скорее даже мультимодальных языковых моделей (Multimodal Large Language Model, MLLM), а то и воплощённых LLM (Embodied LLM). Из этой когорты уже появились в прошлом году VLM Flamingo от DeepMind (https://t.me/gonzo_ML/941) (которую оказывается реимплементит HuggingFace, https://t.me/gonzo_ML/1362) и CoCa (https://t.me/gonzo_ML/997) с PaLI (https://t.me/gonzo_ML/1085) от Гугла, да и дипмайндовская Gato (https://t.me/gonzo_ML/966) вполне можно назвать ELLM. Теперь в эту же когорту можно записать свежую PaLM-E (https://t.me/gonzo_ML/1350), и вот Microsoft недавно же анонсировал MLLM Kosmos-1 (https://t.me/gonzo_ML/1339). Ещё и GPT-4, кстати, нам пообещали мультимодальную на следующей неделе (https://www.heise.de/news/GPT-4-is-coming-next-week-and-it-will-be-multimodal-says-Microsoft-Germany-7540972.html). Пока ждём GPT-4, разберём Kosmos-1 (хотя на самом деле в ближайшее время, я, наверное, переключусь на другие когорты интересных работ для разнообразия).

Что такого есть в Kosmos-1?

Модель это традиционный трансформер (декодер), который авторегрессионно генерит текст (как GPT) с картиночным энкодером из CLIP. На входе теперь в произвольных местах могут быть мультимодальные данные (в этой работе картинки, но потенциально и что угодно ещё, например, звук). Всего модель 1.6B параметров, весьма скромная. Для сравнения у Flamingo самая большая модель была 80B, из них 70B это Шиншилла (https://t.me/gonzo_ML/1216).

В целом в подобных моделях главный челлендж это как встроить не-текстовые модальности. Авторы строят работу на своей же MetaLM (https://arxiv.org/abs/2206.06336), в которой LLM выступала универсальным интерфейсом, выполняющим разные задачи, в который втыкались энкодеры всяких модальностей. Там же была предложена semi-causal language modeling objective, позволяющая тренировать совместно интерфейс с энкодерами. В этой постановке некоторые диапазоны токенов представлены двунаправленными энкодерами, а интерфейсная LM это традиционная causal LM.

Входной текст в модель размечается тегами <s> и </s> для определения начала/конца предложения, <image> и </image> для пометки границ диапазона картиночных эмбеддингов. Текстовые токены и другие входные модальности эмбеддятся в вектора и отправляются в декодер. В текущей работе картинки эмбеддили через vision encoder, также использовался Resampler из Flamingo (там он получал пространственно-временные признаки из зрительного энкодера и выдавал фиксированного размера множество визуальных токенов), он нужен для уменьшения количества картиночных эмбеддингов.

Декодер это трансформер Magneto (https://arxiv.org/abs/2210.06423), в котором есть дополнительные LayerNorm (такой подход называется Sub-LN в отличие от Pre/Post-LN), а также улучшенная теоретически обоснованная инициализация. У Magneto лучше перформанс и стабильность.

В декодере 24 слоя, 32 головы, 2048 скрытое измерение, 8192 FFN. Всего 1.3B параметров. Картиночные эмбеддинги размерности 1024 берутся из предобученного CLIP ViT-L/14. CLIP во время обучения был заморожен кроме последнего слоя.

gonzo-обзоры ML статей

[OpenAI CLIP] Learning Transferable Visual Models From Natural Language Supervision
Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya…

❤7👍5

3.92K views05:22

Derp Learning

Forwarded from r/ретранслятор

0:54

This media is not supported in your browser

VIEW IN TELEGRAM

Приготовьтесь, Midjorney показала «Гарри Поттера» в стиле Balenciaga

r/#midjourney

🔥57😁26🤩4👍1

4.14K views14:03

Derp Learning

Forwarded from Геннадий Сойко

😁96👍8😢1

4.81K views07:08

Derp Learning

Forwarded from эйай ньюз

Так как все хостится локально, то можно безопасно подсунуть в модель свои личные документы и файлы (а не отправлять их на сервера OpenAI через API) и гонять лламу по ним как своего личного ассистента.

Мне, например, было бы некомфортно засылать свои емейлы в чатгпт. А вот в локальную копию Лламы я бы их загрузил.

Ллама, конечно, ещё послабее чем GPT-4, но ещё не вечер. Думаю, в опен-соурсе в ближайшее время появится что-то сравнимое с ChatGPT, благо есть много открытых инициатив. Народ продолжает допиливать LLaMa-Alpaca, ведется сбор датасетов в рамках Open Assistant, и ещё парочка других инициатив.

Могли бы вы представить 3 месяца назад, что сможете запускать в реальном времени большую языковую модель у себя на макбуке да и ещё по сути зарепродюсить голосового помощника типа Алексы?

Скорость прогресса просто mind-blowing!

🤩39👍5

3.18K views10:22

About

Blog

Apps

Platform