Forwarded from тоже моушн
мама я в телевизоре или нейро намедни
насыщенное получилось видео - я попробовал окинуть взором весь спектр нейро генератива, сделать такой срез за последние несколько лет, показать какой скачок в генерации произошел на наших глазах
рекомендую новичкам и тем кто хочет понять зачем это все и куда двигается
@тоже_моушн
насыщенное получилось видео - я попробовал окинуть взором весь спектр нейро генератива, сделать такой срез за последние несколько лет, показать какой скачок в генерации произошел на наших глазах
рекомендую новичкам и тем кто хочет понять зачем это все и куда двигается
@тоже_моушн
YouTube
КАК РАБОТАЮТ НЕЙРОСЕТИ? Всё о DEEP DREAM, GAN, MIDJOURNEY STABLE DIFFUSION, CHATGPT, DALL-E
👉 Курс по Нейросетям для Digital Art со скидкой https://clck.ru/39D5yh
Привет, творец. На связи Слава Хохлов. Основатель Хохлов Сабатовский.
Тут ты найдешь всю информацию, что бы научиться создавать киношные видео и построить профессию.
► Переходи в мой…
Привет, творец. На связи Слава Хохлов. Основатель Хохлов Сабатовский.
Тут ты найдешь всю информацию, что бы научиться создавать киношные видео и построить профессию.
► Переходи в мой…
👍18😢1
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Как GPT работает в Unity!
Как говорил Эйнштейн: "Правильно написанный промпт - это уже половина написанного шейдера"
Господь, неужели я дожил!
Хотелось бы пошутить и пованговать "как мы будем работать в будущем", но это происходит уже сейчас.
Git
Как говорил Эйнштейн: "Правильно написанный промпт - это уже половина написанного шейдера"
Господь, неужели я дожил!
Хотелось бы пошутить и пованговать "как мы будем работать в будущем", но это происходит уже сейчас.
Git
🔥33❤6👍4
Forwarded from r/ретранслятор
This media is not supported in your browser
VIEW IN TELEGRAM
В Китае работает система распознавания лиц. При пересечении улицы в неположенном месте выводит на большой экран лицо и часть имени нарушителя, чтобы публично опозорить.
Также пишут, что в автоматическом режиме списывается штраф с банковского счёта после установления личности.
А можно нам не такой Киберпанк?
r/#ThatsInsane
Также пишут, что в автоматическом режиме списывается штраф с банковского счёта после установления личности.
А можно нам не такой Киберпанк?
r/#ThatsInsane
😱40👍12😢12😁6🤩1
Forwarded from r/ретранслятор
GPT-4 показал свою мощь:
Ведущий в эфире попросил нейросеть написать код Discord-бота, который бы работал на GPT-4 и распознавал изображения. Сначала она выдала код на старом API, потом исправила свою же ошибку и сделала рабочий. (первое видео)
Затем ведущий загрузил в полученный бот фото нарисованного от руки наброска простого сайта. Нейросеть распознала его и выдала рабочий скрипт. (второе видео)
А ещё GPT-4 поработал в качестве бухгалтера и решил проблему семейного бюджета, рассчитав налоги и объяснив, что к чему.
Готовьтесь освобождать свои рабочие места. Шутки кончились
r/#ChatGPT
Ведущий в эфире попросил нейросеть написать код Discord-бота, который бы работал на GPT-4 и распознавал изображения. Сначала она выдала код на старом API, потом исправила свою же ошибку и сделала рабочий. (первое видео)
Затем ведущий загрузил в полученный бот фото нарисованного от руки наброска простого сайта. Нейросеть распознала его и выдала рабочий скрипт. (второе видео)
А ещё GPT-4 поработал в качестве бухгалтера и решил проблему семейного бюджета, рассчитав налоги и объяснив, что к чему.
Готовьтесь освобождать свои рабочие места. Шутки кончились
r/#ChatGPT
❤56😱15👍10🤩2
Forwarded from Denis Sexy IT 🤖
GPT-4 умеет по фотке открытого холодильника написать какие блюда можно сготовить
¯\_(ツ)_/¯
¯\_(ツ)_/¯
❤50🔥13😱9😁1😢1
По запросам читателей: рецепт пива из черной смородины от GPT-4
(by @YallenGusev)
(by @YallenGusev)
🔥26❤3🎉1
Forwarded from gonzo-обзоры ML статей
У Альпаки есть своё интересное независимое развитие. Благодаря подходу LoRA от Microsoft (https://arxiv.org/abs/2106.09685) для низкоранговой оптимизации больших языковых моделей (позволяет получить файнтюненную версию сильно меньшего размера), Альпаку научились воспроизводить на консьюмерском железе, оно требует порядка 5 часов на RTX 4090. Этот проект живёт здесь: https://github.com/tloen/alpaca-lora. Если вам нужен LoRA для своих дел, то есть библиотека loralib от авторов (https://github.com/microsoft/LoRA), а также метод поддерживается в HuggingFace PEFT (State-of-the-art Parameter-Efficient Fine-Tuning, https://github.com/huggingface/peft) наряду с другими интересными методами.
Такие дела. Всё сильно ускорилось, конечно.
Такие дела. Всё сильно ускорилось, конечно.
GitHub
GitHub - tloen/alpaca-lora: Instruct-tune LLaMA on consumer hardware
Instruct-tune LLaMA on consumer hardware. Contribute to tloen/alpaca-lora development by creating an account on GitHub.
❤19👍4🔥1
Forwarded from Complete AI (Andrey Kuznetsov)
⚡️⚡️⚡️VideoFusion
Вышла первая open source диффузионная модель для синтеза видео по текстовому описанию на 1.7B параметров (CVPR 2023).
Авторы предлагают рассматривать диффузионный процесс как некоторый декомпозируемый процесс: базовый шум (base), общий для всех кадров, и шум остаточный (residual), который изменяется во времени. Две модели учатся совместно и приводят к результату, по качеству превосходящему существующие GAN-based и диффузионные модели синтеза видео.
Статья
HuggingFace
Вышла первая open source диффузионная модель для синтеза видео по текстовому описанию на 1.7B параметров (CVPR 2023).
Авторы предлагают рассматривать диффузионный процесс как некоторый декомпозируемый процесс: базовый шум (base), общий для всех кадров, и шум остаточный (residual), который изменяется во времени. Две модели учатся совместно и приводят к результату, по качеству превосходящему существующие GAN-based и диффузионные модели синтеза видео.
Статья
HuggingFace
🔥28❤1
Forwarded from CGIT_Vines (Marvin Heemeyer)
По мотивам недавних событий (Artstation) или давних (Calculator) или тех, которые только будут? (AGI)
👍23😁9❤4
Очередной мейнстримный варп. Предыдущим был крайний клип Linkin Park - Lost, теперь вот ещё один(-на) ветеран(-ша?/-ка?) - Goldwarpfrapp
Помню, видел ее, ещё в те времена, когда по MTV крутили музыку
https://twitter.com/alisongoldfrapp/status/1636337021982502912
Помню, видел ее, ещё в те времена, когда по MTV крутили музыку
https://twitter.com/alisongoldfrapp/status/1636337021982502912
🔥4😁1
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Чистая, как слезинка сантехника, не испорченная никакими диффузиями, полностью математическая генерация космической станции с волюметрическими тенями, уместившаяся в 439 строчек кода.
Смотреть на shadertoy советую, развернув на полный экран.
Смотреть на shadertoy советую, развернув на полный экран.
🎉30❤13👍3
Forwarded from gonzo-обзоры ML статей
[Microsoft Kosmos-1] Language Is Not All You Need: Aligning Perception with Language Models
Авторы: Shaohan Huang, Li Dong, Wenhui Wang, Yaru Hao, Saksham Singhal, Shuming Ma, Tengchao Lv, Lei Cui, Owais Khan Mohammed, Barun Patra, Qiang Liu, Kriti Aggarwal, Zewen Chi, Johan Bjorck, Vishrav Chaudhary, Subhojit Som, Xia Song, Furu Wei
Статья: https://arxiv.org/abs/2302.14045
Тренд на мультимодальность пошёл очевидный. Позапрошлый год я бы назвал годом контрастных моделей по типу CLIP (https://t.me/gonzo_ML/665) / Align (https://t.me/gonzo_ML/679) / Florence (https://t.me/gonzo_ML/734). Прошлый был явно годом диффузионных text-to-image моделей типа DALLE-2 (https://t.me/gonzo_ML/919) и последующих Imagen, Stable Diffusion и т.п. Нынешний, мне кажется, может стать годом картиночно-языковых моделей (Visual Language Model, VLM) или скорее даже мультимодальных языковых моделей (Multimodal Large Language Model, MLLM), а то и воплощённых LLM (Embodied LLM). Из этой когорты уже появились в прошлом году VLM Flamingo от DeepMind (https://t.me/gonzo_ML/941) (которую оказывается реимплементит HuggingFace, https://t.me/gonzo_ML/1362) и CoCa (https://t.me/gonzo_ML/997) с PaLI (https://t.me/gonzo_ML/1085) от Гугла, да и дипмайндовская Gato (https://t.me/gonzo_ML/966) вполне можно назвать ELLM. Теперь в эту же когорту можно записать свежую PaLM-E (https://t.me/gonzo_ML/1350), и вот Microsoft недавно же анонсировал MLLM Kosmos-1 (https://t.me/gonzo_ML/1339). Ещё и GPT-4, кстати, нам пообещали мультимодальную на следующей неделе (https://www.heise.de/news/GPT-4-is-coming-next-week-and-it-will-be-multimodal-says-Microsoft-Germany-7540972.html). Пока ждём GPT-4, разберём Kosmos-1 (хотя на самом деле в ближайшее время, я, наверное, переключусь на другие когорты интересных работ для разнообразия).
Что такого есть в Kosmos-1?
Модель это традиционный трансформер (декодер), который авторегрессионно генерит текст (как GPT) с картиночным энкодером из CLIP. На входе теперь в произвольных местах могут быть мультимодальные данные (в этой работе картинки, но потенциально и что угодно ещё, например, звук). Всего модель 1.6B параметров, весьма скромная. Для сравнения у Flamingo самая большая модель была 80B, из них 70B это Шиншилла (https://t.me/gonzo_ML/1216).
В целом в подобных моделях главный челлендж это как встроить не-текстовые модальности. Авторы строят работу на своей же MetaLM (https://arxiv.org/abs/2206.06336), в которой LLM выступала универсальным интерфейсом, выполняющим разные задачи, в который втыкались энкодеры всяких модальностей. Там же была предложена semi-causal language modeling objective, позволяющая тренировать совместно интерфейс с энкодерами. В этой постановке некоторые диапазоны токенов представлены двунаправленными энкодерами, а интерфейсная LM это традиционная causal LM.
Входной текст в модель размечается тегами <s> и </s> для определения начала/конца предложения, <image> и </image> для пометки границ диапазона картиночных эмбеддингов. Текстовые токены и другие входные модальности эмбеддятся в вектора и отправляются в декодер. В текущей работе картинки эмбеддили через vision encoder, также использовался Resampler из Flamingo (там он получал пространственно-временные признаки из зрительного энкодера и выдавал фиксированного размера множество визуальных токенов), он нужен для уменьшения количества картиночных эмбеддингов.
Декодер это трансформер Magneto (https://arxiv.org/abs/2210.06423), в котором есть дополнительные LayerNorm (такой подход называется Sub-LN в отличие от Pre/Post-LN), а также улучшенная теоретически обоснованная инициализация. У Magneto лучше перформанс и стабильность.
В декодере 24 слоя, 32 головы, 2048 скрытое измерение, 8192 FFN. Всего 1.3B параметров. Картиночные эмбеддинги размерности 1024 берутся из предобученного CLIP ViT-L/14. CLIP во время обучения был заморожен кроме последнего слоя.
Авторы: Shaohan Huang, Li Dong, Wenhui Wang, Yaru Hao, Saksham Singhal, Shuming Ma, Tengchao Lv, Lei Cui, Owais Khan Mohammed, Barun Patra, Qiang Liu, Kriti Aggarwal, Zewen Chi, Johan Bjorck, Vishrav Chaudhary, Subhojit Som, Xia Song, Furu Wei
Статья: https://arxiv.org/abs/2302.14045
Тренд на мультимодальность пошёл очевидный. Позапрошлый год я бы назвал годом контрастных моделей по типу CLIP (https://t.me/gonzo_ML/665) / Align (https://t.me/gonzo_ML/679) / Florence (https://t.me/gonzo_ML/734). Прошлый был явно годом диффузионных text-to-image моделей типа DALLE-2 (https://t.me/gonzo_ML/919) и последующих Imagen, Stable Diffusion и т.п. Нынешний, мне кажется, может стать годом картиночно-языковых моделей (Visual Language Model, VLM) или скорее даже мультимодальных языковых моделей (Multimodal Large Language Model, MLLM), а то и воплощённых LLM (Embodied LLM). Из этой когорты уже появились в прошлом году VLM Flamingo от DeepMind (https://t.me/gonzo_ML/941) (которую оказывается реимплементит HuggingFace, https://t.me/gonzo_ML/1362) и CoCa (https://t.me/gonzo_ML/997) с PaLI (https://t.me/gonzo_ML/1085) от Гугла, да и дипмайндовская Gato (https://t.me/gonzo_ML/966) вполне можно назвать ELLM. Теперь в эту же когорту можно записать свежую PaLM-E (https://t.me/gonzo_ML/1350), и вот Microsoft недавно же анонсировал MLLM Kosmos-1 (https://t.me/gonzo_ML/1339). Ещё и GPT-4, кстати, нам пообещали мультимодальную на следующей неделе (https://www.heise.de/news/GPT-4-is-coming-next-week-and-it-will-be-multimodal-says-Microsoft-Germany-7540972.html). Пока ждём GPT-4, разберём Kosmos-1 (хотя на самом деле в ближайшее время, я, наверное, переключусь на другие когорты интересных работ для разнообразия).
Что такого есть в Kosmos-1?
Модель это традиционный трансформер (декодер), который авторегрессионно генерит текст (как GPT) с картиночным энкодером из CLIP. На входе теперь в произвольных местах могут быть мультимодальные данные (в этой работе картинки, но потенциально и что угодно ещё, например, звук). Всего модель 1.6B параметров, весьма скромная. Для сравнения у Flamingo самая большая модель была 80B, из них 70B это Шиншилла (https://t.me/gonzo_ML/1216).
В целом в подобных моделях главный челлендж это как встроить не-текстовые модальности. Авторы строят работу на своей же MetaLM (https://arxiv.org/abs/2206.06336), в которой LLM выступала универсальным интерфейсом, выполняющим разные задачи, в который втыкались энкодеры всяких модальностей. Там же была предложена semi-causal language modeling objective, позволяющая тренировать совместно интерфейс с энкодерами. В этой постановке некоторые диапазоны токенов представлены двунаправленными энкодерами, а интерфейсная LM это традиционная causal LM.
Входной текст в модель размечается тегами <s> и </s> для определения начала/конца предложения, <image> и </image> для пометки границ диапазона картиночных эмбеддингов. Текстовые токены и другие входные модальности эмбеддятся в вектора и отправляются в декодер. В текущей работе картинки эмбеддили через vision encoder, также использовался Resampler из Flamingo (там он получал пространственно-временные признаки из зрительного энкодера и выдавал фиксированного размера множество визуальных токенов), он нужен для уменьшения количества картиночных эмбеддингов.
Декодер это трансформер Magneto (https://arxiv.org/abs/2210.06423), в котором есть дополнительные LayerNorm (такой подход называется Sub-LN в отличие от Pre/Post-LN), а также улучшенная теоретически обоснованная инициализация. У Magneto лучше перформанс и стабильность.
В декодере 24 слоя, 32 головы, 2048 скрытое измерение, 8192 FFN. Всего 1.3B параметров. Картиночные эмбеддинги размерности 1024 берутся из предобученного CLIP ViT-L/14. CLIP во время обучения был заморожен кроме последнего слоя.
Telegram
gonzo-обзоры ML статей
[OpenAI CLIP] Learning Transferable Visual Models From Natural Language Supervision
Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya…
Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya…
❤7👍5
Forwarded from r/ретранслятор
This media is not supported in your browser
VIEW IN TELEGRAM
🔥57😁26🤩4👍1