Derp Learning
13.1K subscribers
3.16K photos
912 videos
9 files
1.32K links
Используем ИИ строго не по назначению.
Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
Download Telegram
Идея для стартапа

@derplearning
😢11😁5
Forwarded from Denis Shiryaev
Саш, а анекдоты где???
😁50😢5
Forwarded from тоже моушн
мама я в телевизоре или нейро намедни

насыщенное получилось видео - я попробовал окинуть взором весь спектр нейро генератива, сделать такой срез за последние несколько лет, показать какой скачок в генерации произошел на наших глазах

рекомендую новичкам и тем кто хочет понять зачем это все и куда двигается

@тоже_моушн
👍18😢1
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Как GPT работает в Unity!

Как говорил Эйнштейн: "Правильно написанный промпт - это уже половина написанного шейдера"
Господь, неужели я дожил!
Хотелось бы пошутить и пованговать "как мы будем работать в будущем", но это происходит уже сейчас.

Git
🔥336👍4
Бумеры, у нас есть шанс.

Статья

@derplearning
😁59
Media is too big
VIEW IN TELEGRAM
Multi ControlNet Warp
Init Vid by @austingumban
🔥386👍2😢1
Media is too big
VIEW IN TELEGRAM
Ну и тожсамое, но без рука-лицов :D
🔥34👍4
This media is not supported in your browser
VIEW IN TELEGRAM
В Китае работает система распознавания лиц. При пересечении улицы в неположенном месте выводит на большой экран лицо и часть имени нарушителя, чтобы публично опозорить.
Также пишут, что в автоматическом режиме списывается штраф с банковского счёта после установления личности.

А можно нам не такой Киберпанк?
r/#ThatsInsane
😱40👍12😢12😁6🤩1
GPT-4 показал свою мощь:

Ведущий в эфире попросил нейросеть написать код Discord-бота, который бы работал на GPT-4 и распознавал изображения. Сначала она выдала код на старом API, потом исправила свою же ошибку и сделала рабочий. (первое видео)

Затем ведущий загрузил в полученный бот фото нарисованного от руки наброска простого сайта. Нейросеть распознала его и выдала рабочий скрипт. (второе видео)

А ещё GPT-4 поработал в качестве бухгалтера и решил проблему семейного бюджета, рассчитав налоги и объяснив, что к чему.

Готовьтесь освобождать свои рабочие места. Шутки кончились
r/#ChatGPT
56😱15👍10🤩2
Forwarded from Denis Sexy IT 🤖
GPT-4 умеет по фотке открытого холодильника написать какие блюда можно сготовить

¯\_(ツ)_/¯
50🔥13😱9😁1😢1
По запросам читателей: рецепт пива из черной смородины от GPT-4
(by @YallenGusev)
🔥263🎉1
У Альпаки есть своё интересное независимое развитие. Благодаря подходу LoRA от Microsoft (https://arxiv.org/abs/2106.09685) для низкоранговой оптимизации больших языковых моделей (позволяет получить файнтюненную версию сильно меньшего размера), Альпаку научились воспроизводить на консьюмерском железе, оно требует порядка 5 часов на RTX 4090. Этот проект живёт здесь: https://github.com/tloen/alpaca-lora. Если вам нужен LoRA для своих дел, то есть библиотека loralib от авторов (https://github.com/microsoft/LoRA), а также метод поддерживается в HuggingFace PEFT (State-of-the-art Parameter-Efficient Fine-Tuning, https://github.com/huggingface/peft) наряду с другими интересными методами.

Такие дела. Всё сильно ускорилось, конечно.
19👍4🔥1
😁134😱13😢6🤩4🔥1
Forwarded from Complete AI (Andrey Kuznetsov)
⚡️⚡️⚡️VideoFusion
Вышла первая open source диффузионная модель для синтеза видео по текстовому описанию на 1.7B параметров (CVPR 2023).

Авторы предлагают рассматривать диффузионный процесс как некоторый декомпозируемый процесс: базовый шум (base), общий для всех кадров, и шум остаточный (residual), который изменяется во времени. Две модели учатся совместно и приводят к результату, по качеству превосходящему существующие GAN-based и диффузионные модели синтеза видео.

Статья
HuggingFace
🔥281
Forwarded from CGIT_Vines (Marvin Heemeyer)
По мотивам недавних событий (Artstation) или давних (Calculator) или тех, которые только будут? (AGI)
👍23😁94
Очередной мейнстримный варп. Предыдущим был крайний клип Linkin Park - Lost, теперь вот ещё один(-на) ветеран(-ша?/-ка?) - Goldwarpfrapp

Помню, видел ее, ещё в те времена, когда по MTV крутили музыку

https://twitter.com/alisongoldfrapp/status/1636337021982502912
🔥4😁1
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Чистая, как слезинка сантехника, не испорченная никакими диффузиями, полностью математическая генерация космической станции с волюметрическими тенями, уместившаяся в 439 строчек кода.

Смотреть на shadertoy советую, развернув на полный экран.
🎉3013👍3
[Microsoft Kosmos-1] Language Is Not All You Need: Aligning Perception with Language Models
Авторы: Shaohan Huang, Li Dong, Wenhui Wang, Yaru Hao, Saksham Singhal, Shuming Ma, Tengchao Lv, Lei Cui, Owais Khan Mohammed, Barun Patra, Qiang Liu, Kriti Aggarwal, Zewen Chi, Johan Bjorck, Vishrav Chaudhary, Subhojit Som, Xia Song, Furu Wei
Статья: https://arxiv.org/abs/2302.14045

Тренд на мультимодальность пошёл очевидный. Позапрошлый год я бы назвал годом контрастных моделей по типу CLIP (https://t.me/gonzo_ML/665) / Align (https://t.me/gonzo_ML/679) / Florence (https://t.me/gonzo_ML/734). Прошлый был явно годом диффузионных text-to-image моделей типа DALLE-2 (https://t.me/gonzo_ML/919) и последующих Imagen, Stable Diffusion и т.п. Нынешний, мне кажется, может стать годом картиночно-языковых моделей (Visual Language Model, VLM) или скорее даже мультимодальных языковых моделей (Multimodal Large Language Model, MLLM), а то и воплощённых LLM (Embodied LLM). Из этой когорты уже появились в прошлом году VLM Flamingo от DeepMind (https://t.me/gonzo_ML/941) (которую оказывается реимплементит HuggingFace, https://t.me/gonzo_ML/1362) и CoCa (https://t.me/gonzo_ML/997) с PaLI (https://t.me/gonzo_ML/1085) от Гугла, да и дипмайндовская Gato (https://t.me/gonzo_ML/966) вполне можно назвать ELLM. Теперь в эту же когорту можно записать свежую PaLM-E (https://t.me/gonzo_ML/1350), и вот Microsoft недавно же анонсировал MLLM Kosmos-1 (https://t.me/gonzo_ML/1339). Ещё и GPT-4, кстати, нам пообещали мультимодальную на следующей неделе (https://www.heise.de/news/GPT-4-is-coming-next-week-and-it-will-be-multimodal-says-Microsoft-Germany-7540972.html). Пока ждём GPT-4, разберём Kosmos-1 (хотя на самом деле в ближайшее время, я, наверное, переключусь на другие когорты интересных работ для разнообразия).

Что такого есть в Kosmos-1?

Модель это традиционный трансформер (декодер), который авторегрессионно генерит текст (как GPT) с картиночным энкодером из CLIP. На входе теперь в произвольных местах могут быть мультимодальные данные (в этой работе картинки, но потенциально и что угодно ещё, например, звук). Всего модель 1.6B параметров, весьма скромная. Для сравнения у Flamingo самая большая модель была 80B, из них 70B это Шиншилла (https://t.me/gonzo_ML/1216).

В целом в подобных моделях главный челлендж это как встроить не-текстовые модальности. Авторы строят работу на своей же MetaLM (https://arxiv.org/abs/2206.06336), в которой LLM выступала универсальным интерфейсом, выполняющим разные задачи, в который втыкались энкодеры всяких модальностей. Там же была предложена semi-causal language modeling objective, позволяющая тренировать совместно интерфейс с энкодерами. В этой постановке некоторые диапазоны токенов представлены двунаправленными энкодерами, а интерфейсная LM это традиционная causal LM.

Входной текст в модель размечается тегами <s> и </s> для определения начала/конца предложения, <image> и </image> для пометки границ диапазона картиночных эмбеддингов. Текстовые токены и другие входные модальности эмбеддятся в вектора и отправляются в декодер. В текущей работе картинки эмбеддили через vision encoder, также использовался Resampler из Flamingo (там он получал пространственно-временные признаки из зрительного энкодера и выдавал фиксированного размера множество визуальных токенов), он нужен для уменьшения количества картиночных эмбеддингов.

Декодер это трансформер Magneto (https://arxiv.org/abs/2210.06423), в котором есть дополнительные LayerNorm (такой подход называется Sub-LN в отличие от Pre/Post-LN), а также улучшенная теоретически обоснованная инициализация. У Magneto лучше перформанс и стабильность.

В декодере 24 слоя, 32 головы, 2048 скрытое измерение, 8192 FFN. Всего 1.3B параметров. Картиночные эмбеддинги размерности 1024 берутся из предобученного CLIP ViT-L/14. CLIP во время обучения был заморожен кроме последнего слоя.
7👍5
This media is not supported in your browser
VIEW IN TELEGRAM
Приготовьтесь, Midjorney показала «Гарри Поттера» в стиле Balenciaga

r/#midjourney
🔥57😁26🤩4👍1