Derp Learning
13.1K subscribers
3.16K photos
912 videos
9 files
1.32K links
Используем ИИ строго не по назначению.
Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
Download Telegram
Forwarded from тоже моушн
мама я в телевизоре или нейро намедни

насыщенное получилось видео - я попробовал окинуть взором весь спектр нейро генератива, сделать такой срез за последние несколько лет, показать какой скачок в генерации произошел на наших глазах

рекомендую новичкам и тем кто хочет понять зачем это все и куда двигается

@тоже_моушн
👍18😢1
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Как GPT работает в Unity!

Как говорил Эйнштейн: "Правильно написанный промпт - это уже половина написанного шейдера"
Господь, неужели я дожил!
Хотелось бы пошутить и пованговать "как мы будем работать в будущем", но это происходит уже сейчас.

Git
🔥336👍4
Бумеры, у нас есть шанс.

Статья

@derplearning
😁59
Media is too big
VIEW IN TELEGRAM
Multi ControlNet Warp
Init Vid by @austingumban
🔥386👍2😢1
Media is too big
VIEW IN TELEGRAM
Ну и тожсамое, но без рука-лицов :D
🔥34👍4
This media is not supported in your browser
VIEW IN TELEGRAM
В Китае работает система распознавания лиц. При пересечении улицы в неположенном месте выводит на большой экран лицо и часть имени нарушителя, чтобы публично опозорить.
Также пишут, что в автоматическом режиме списывается штраф с банковского счёта после установления личности.

А можно нам не такой Киберпанк?
r/#ThatsInsane
😱40👍12😢12😁6🤩1
GPT-4 показал свою мощь:

Ведущий в эфире попросил нейросеть написать код Discord-бота, который бы работал на GPT-4 и распознавал изображения. Сначала она выдала код на старом API, потом исправила свою же ошибку и сделала рабочий. (первое видео)

Затем ведущий загрузил в полученный бот фото нарисованного от руки наброска простого сайта. Нейросеть распознала его и выдала рабочий скрипт. (второе видео)

А ещё GPT-4 поработал в качестве бухгалтера и решил проблему семейного бюджета, рассчитав налоги и объяснив, что к чему.

Готовьтесь освобождать свои рабочие места. Шутки кончились
r/#ChatGPT
56😱15👍10🤩2
Forwarded from Denis Sexy IT 🤖
GPT-4 умеет по фотке открытого холодильника написать какие блюда можно сготовить

¯\_(ツ)_/¯
50🔥13😱9😁1😢1
По запросам читателей: рецепт пива из черной смородины от GPT-4
(by @YallenGusev)
🔥263🎉1
У Альпаки есть своё интересное независимое развитие. Благодаря подходу LoRA от Microsoft (https://arxiv.org/abs/2106.09685) для низкоранговой оптимизации больших языковых моделей (позволяет получить файнтюненную версию сильно меньшего размера), Альпаку научились воспроизводить на консьюмерском железе, оно требует порядка 5 часов на RTX 4090. Этот проект живёт здесь: https://github.com/tloen/alpaca-lora. Если вам нужен LoRA для своих дел, то есть библиотека loralib от авторов (https://github.com/microsoft/LoRA), а также метод поддерживается в HuggingFace PEFT (State-of-the-art Parameter-Efficient Fine-Tuning, https://github.com/huggingface/peft) наряду с другими интересными методами.

Такие дела. Всё сильно ускорилось, конечно.
19👍4🔥1
😁134😱13😢6🤩4🔥1
Forwarded from Complete AI (Andrey Kuznetsov)
⚡️⚡️⚡️VideoFusion
Вышла первая open source диффузионная модель для синтеза видео по текстовому описанию на 1.7B параметров (CVPR 2023).

Авторы предлагают рассматривать диффузионный процесс как некоторый декомпозируемый процесс: базовый шум (base), общий для всех кадров, и шум остаточный (residual), который изменяется во времени. Две модели учатся совместно и приводят к результату, по качеству превосходящему существующие GAN-based и диффузионные модели синтеза видео.

Статья
HuggingFace
🔥281
Forwarded from CGIT_Vines (Marvin Heemeyer)
По мотивам недавних событий (Artstation) или давних (Calculator) или тех, которые только будут? (AGI)
👍23😁94
Очередной мейнстримный варп. Предыдущим был крайний клип Linkin Park - Lost, теперь вот ещё один(-на) ветеран(-ша?/-ка?) - Goldwarpfrapp

Помню, видел ее, ещё в те времена, когда по MTV крутили музыку

https://twitter.com/alisongoldfrapp/status/1636337021982502912
🔥4😁1
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Чистая, как слезинка сантехника, не испорченная никакими диффузиями, полностью математическая генерация космической станции с волюметрическими тенями, уместившаяся в 439 строчек кода.

Смотреть на shadertoy советую, развернув на полный экран.
🎉3013👍3
[Microsoft Kosmos-1] Language Is Not All You Need: Aligning Perception with Language Models
Авторы: Shaohan Huang, Li Dong, Wenhui Wang, Yaru Hao, Saksham Singhal, Shuming Ma, Tengchao Lv, Lei Cui, Owais Khan Mohammed, Barun Patra, Qiang Liu, Kriti Aggarwal, Zewen Chi, Johan Bjorck, Vishrav Chaudhary, Subhojit Som, Xia Song, Furu Wei
Статья: https://arxiv.org/abs/2302.14045

Тренд на мультимодальность пошёл очевидный. Позапрошлый год я бы назвал годом контрастных моделей по типу CLIP (https://t.me/gonzo_ML/665) / Align (https://t.me/gonzo_ML/679) / Florence (https://t.me/gonzo_ML/734). Прошлый был явно годом диффузионных text-to-image моделей типа DALLE-2 (https://t.me/gonzo_ML/919) и последующих Imagen, Stable Diffusion и т.п. Нынешний, мне кажется, может стать годом картиночно-языковых моделей (Visual Language Model, VLM) или скорее даже мультимодальных языковых моделей (Multimodal Large Language Model, MLLM), а то и воплощённых LLM (Embodied LLM). Из этой когорты уже появились в прошлом году VLM Flamingo от DeepMind (https://t.me/gonzo_ML/941) (которую оказывается реимплементит HuggingFace, https://t.me/gonzo_ML/1362) и CoCa (https://t.me/gonzo_ML/997) с PaLI (https://t.me/gonzo_ML/1085) от Гугла, да и дипмайндовская Gato (https://t.me/gonzo_ML/966) вполне можно назвать ELLM. Теперь в эту же когорту можно записать свежую PaLM-E (https://t.me/gonzo_ML/1350), и вот Microsoft недавно же анонсировал MLLM Kosmos-1 (https://t.me/gonzo_ML/1339). Ещё и GPT-4, кстати, нам пообещали мультимодальную на следующей неделе (https://www.heise.de/news/GPT-4-is-coming-next-week-and-it-will-be-multimodal-says-Microsoft-Germany-7540972.html). Пока ждём GPT-4, разберём Kosmos-1 (хотя на самом деле в ближайшее время, я, наверное, переключусь на другие когорты интересных работ для разнообразия).

Что такого есть в Kosmos-1?

Модель это традиционный трансформер (декодер), который авторегрессионно генерит текст (как GPT) с картиночным энкодером из CLIP. На входе теперь в произвольных местах могут быть мультимодальные данные (в этой работе картинки, но потенциально и что угодно ещё, например, звук). Всего модель 1.6B параметров, весьма скромная. Для сравнения у Flamingo самая большая модель была 80B, из них 70B это Шиншилла (https://t.me/gonzo_ML/1216).

В целом в подобных моделях главный челлендж это как встроить не-текстовые модальности. Авторы строят работу на своей же MetaLM (https://arxiv.org/abs/2206.06336), в которой LLM выступала универсальным интерфейсом, выполняющим разные задачи, в который втыкались энкодеры всяких модальностей. Там же была предложена semi-causal language modeling objective, позволяющая тренировать совместно интерфейс с энкодерами. В этой постановке некоторые диапазоны токенов представлены двунаправленными энкодерами, а интерфейсная LM это традиционная causal LM.

Входной текст в модель размечается тегами <s> и </s> для определения начала/конца предложения, <image> и </image> для пометки границ диапазона картиночных эмбеддингов. Текстовые токены и другие входные модальности эмбеддятся в вектора и отправляются в декодер. В текущей работе картинки эмбеддили через vision encoder, также использовался Resampler из Flamingo (там он получал пространственно-временные признаки из зрительного энкодера и выдавал фиксированного размера множество визуальных токенов), он нужен для уменьшения количества картиночных эмбеддингов.

Декодер это трансформер Magneto (https://arxiv.org/abs/2210.06423), в котором есть дополнительные LayerNorm (такой подход называется Sub-LN в отличие от Pre/Post-LN), а также улучшенная теоретически обоснованная инициализация. У Magneto лучше перформанс и стабильность.

В декодере 24 слоя, 32 головы, 2048 скрытое измерение, 8192 FFN. Всего 1.3B параметров. Картиночные эмбеддинги размерности 1024 берутся из предобученного CLIP ViT-L/14. CLIP во время обучения был заморожен кроме последнего слоя.
7👍5
This media is not supported in your browser
VIEW IN TELEGRAM
Приготовьтесь, Midjorney показала «Гарри Поттера» в стиле Balenciaga

r/#midjourney
🔥57😁26🤩4👍1
Forwarded from Геннадий Сойко
😁96👍8😢1
Forwarded from эйай ньюз
Так как все хостится локально, то можно безопасно подсунуть в модель свои личные документы и файлы (а не отправлять их на сервера OpenAI через API) и гонять лламу по ним как своего личного ассистента.

Мне, например, было бы некомфортно засылать свои емейлы в чатгпт. А вот в локальную копию Лламы я бы их загрузил.

Ллама, конечно, ещё послабее чем GPT-4, но ещё не вечер. Думаю, в опен-соурсе в ближайшее время появится что-то сравнимое с ChatGPT, благо есть много открытых инициатив. Народ продолжает допиливать LLaMa-Alpaca, ведется сбор датасетов в рамках Open Assistant, и ещё парочка других инициатив.

Могли бы вы представить 3 месяца назад, что сможете запускать в реальном времени большую языковую модель у себя на макбуке да и ещё по сути зарепродюсить голосового помощника типа Алексы?

Скорость прогресса просто mind-blowing!
🤩39👍5