ClipCap: CLIP Prefix for Image Captioning
Нейронки научились хорошо предсказывать описания любых картинок. Сначала изображение прогоняют через CLIP (получают эмбеддинг изображения), а затем вытаскивают соответствующее текстовое описание из языковой модели.
Основная идея статьи заключается в том, что вместе с предварительно обученной языковой моделью (GPT2) авторы получают широкое понимание как визуальных, так и текстовых данных.
Таким образом, без дополнительных аннотаций или предварительного обучения, сеть эффективно генерирует осмысленные подписи для любых изображений.
📎 Статья
💻 Colab
🖥 Код
🤗 Онлайн
#clip #images #captioning #text
Нейронки научились хорошо предсказывать описания любых картинок. Сначала изображение прогоняют через CLIP (получают эмбеддинг изображения), а затем вытаскивают соответствующее текстовое описание из языковой модели.
Основная идея статьи заключается в том, что вместе с предварительно обученной языковой моделью (GPT2) авторы получают широкое понимание как визуальных, так и текстовых данных.
Таким образом, без дополнительных аннотаций или предварительного обучения, сеть эффективно генерирует осмысленные подписи для любых изображений.
📎 Статья
💻 Colab
🖥 Код
🤗 Онлайн
#clip #images #captioning #text
Forwarded from AbstractDL
Ещё один звездный пример того, как ревьюверы совершенно необоснованно отклоняют статьи. Конечно про самую цитируемую стать Йорген загнул (смотрите внимательнее формулировку), но это не умаляет ценности LSTM.
Генеративные Эмоджи!
Смотрите какую крутоту ребята из Сбер DALL-E сделали. Пишем текст - получаем кучу милых (и не очень) эмоджи.
Играться в супер удобном боте
В шапке поста “Капибара детектив”
Смотрите какую крутоту ребята из Сбер DALL-E сделали. Пишем текст - получаем кучу милых (и не очень) эмоджи.
Играться в супер удобном боте
В шапке поста “Капибара детектив”
This media is not supported in your browser
VIEW IN TELEGRAM
Forwarded from ExMuffin
This media is not supported in your browser
VIEW IN TELEGRAM
✍️ NeuroCensor v.1.0 🚫
Версия 1.0, значит пока ничего серьезного. Хоть как-то работает, что уже хорошо, ведь все и всегда с чего-то простого начинается. В общем теперь можно выступать в роли цензора и удалять объекты, аля Черное зеркало, по текстовому описанию. Работает быстро, но есть вероятность, что памяти Колаба может не хватить на тяжелые видео, поэтому я поставил некоторые ограничения. Вместе с этим добавил возможность писать на любом языке (или сразу нескольких).
В видео продемонстрировано удаление «Grizzly bear» и «Мужчины в куртке».
https://colab.research.google.com/github/tg-bomze/collection-of-notebooks/blob/master/NeuroCensor.ipynb
Версия 1.0, значит пока ничего серьезного. Хоть как-то работает, что уже хорошо, ведь все и всегда с чего-то простого начинается. В общем теперь можно выступать в роли цензора и удалять объекты, аля Черное зеркало, по текстовому описанию. Работает быстро, но есть вероятность, что памяти Колаба может не хватить на тяжелые видео, поэтому я поставил некоторые ограничения. Вместе с этим добавил возможность писать на любом языке (или сразу нескольких).
В видео продемонстрировано удаление «Grizzly bear» и «Мужчины в куртке».
https://colab.research.google.com/github/tg-bomze/collection-of-notebooks/blob/master/NeuroCensor.ipynb
Forwarded from IPQuorum
Новости сферы ESG (Environmental, Social and Corporate Governance): к 2025 году Amazon планирует перейти на возобновляемые источники энергии. В связи с этим компания запускает новый инструмент, который позволит бизнесу отчитываться о своем уровне углеродного следа.
В этом поможет приборная панель AWS Customer Carbon Footprint Tool. Благодаря ей пользователи экосистемы Amazon смогут рассчитать выбросы углекислого газа компании, а также спрогнозировать, как показатели углеродного следа изменятся со временем. Среди других возможностей инструмента — учет процента использования энергии, полученной из возобновляемых источников энергии.
Стоит подчеркнуть, что Amazon — одна из основоположниц тренда на ESG-compliance среди крупных компаний: так, в 2019 году корпорация вошла в число основателей программы The Climate Pledge — пакета мер, нацеленных на достижение углеродного нейтралитета к 2040 году. К программе уже присоединились Microsoft, PepsiCo, Unilever, Verizon, Visa.
В этом поможет приборная панель AWS Customer Carbon Footprint Tool. Благодаря ей пользователи экосистемы Amazon смогут рассчитать выбросы углекислого газа компании, а также спрогнозировать, как показатели углеродного следа изменятся со временем. Среди других возможностей инструмента — учет процента использования энергии, полученной из возобновляемых источников энергии.
Стоит подчеркнуть, что Amazon — одна из основоположниц тренда на ESG-compliance среди крупных компаний: так, в 2019 году корпорация вошла в число основателей программы The Climate Pledge — пакета мер, нацеленных на достижение углеродного нейтралитета к 2040 году. К программе уже присоединились Microsoft, PepsiCo, Unilever, Verizon, Visa.
Forwarded from эйай ньюз
Media is too big
VIEW IN TELEGRAM
Нейронный рендеринг без нейронных сетей?
Помните нейронный рендеринг и нерфы для реконструкции 3D сцены и синтеза новых видов? Так вот, обычно эти подходы требуют значительных временных затрат для обучения на одной конкретной сцене из-за того, что там используются громоздкие MLP (Multi-layer Perceptron), и нужно семплировать очень много тренировочных 3D точек с разных углов обзора.
Но вот поворот! Оказывается, всё то же самое можно делать и без сетей вовсе! Исследователи из Беркли показали, что можно учить напрямую сетку вокселей, сохраняя в ее узлах коэффициенты сферических функций, с помощью которых можно очень быстро отрендерить сцену с любой позиции и угла камеры. Все гениально просто.
Это просто бомба! Не нужны больше никакие Structure-from-motion и прочие классические алгоритмы.
>> Пипира >> Код >> Сайт
Помните нейронный рендеринг и нерфы для реконструкции 3D сцены и синтеза новых видов? Так вот, обычно эти подходы требуют значительных временных затрат для обучения на одной конкретной сцене из-за того, что там используются громоздкие MLP (Multi-layer Perceptron), и нужно семплировать очень много тренировочных 3D точек с разных углов обзора.
Но вот поворот! Оказывается, всё то же самое можно делать и без сетей вовсе! Исследователи из Беркли показали, что можно учить напрямую сетку вокселей, сохраняя в ее узлах коэффициенты сферических функций, с помощью которых можно очень быстро отрендерить сцену с любой позиции и угла камеры. Все гениально просто.
Это просто бомба! Не нужны больше никакие Structure-from-motion и прочие классические алгоритмы.
>> Пипира >> Код >> Сайт
Forwarded from Жалкие низкочастотники
This media is not supported in your browser
VIEW IN TELEGRAM
Накопилось всяких моих штук на отдельный пост:
Недавно вышел свежий выпуск подкаста Подлодка, где мы полтора часа поговорили про современные технологии и творчество. А перед этим я поучаствовал в дискуссии на ML треке YaTalks — поболтали в отличной компании про итоги года и ожидания в области генеративных моделей.
Ещё на этой неделе закончилась конференция NeurIPS, где помимо прочего, я поучаствовал в Machine Learning for Creativity and Design Workshop с проектом text2pixelart и получил Spotlight Award. Картинка поста — из этого проекта. Такие же картинки, только больше, но другие, будут на моём стенде на выставке «Код искусства» в ГРАУНД Солянке, которая открывается завтра и продлится до начала февраля.
А вот для настоящих нёрдов: организатор проекта по возрождению игры Заколдованная страна, первой советской настольной ролевой игры в духе ADnD, изданной в Ленинграде в 1990 году, взял у меня интервью по поводу того, что я лет 15 назад организовал оцифровку этой игры, после чего она разошлась по сети.
Недавно вышел свежий выпуск подкаста Подлодка, где мы полтора часа поговорили про современные технологии и творчество. А перед этим я поучаствовал в дискуссии на ML треке YaTalks — поболтали в отличной компании про итоги года и ожидания в области генеративных моделей.
Ещё на этой неделе закончилась конференция NeurIPS, где помимо прочего, я поучаствовал в Machine Learning for Creativity and Design Workshop с проектом text2pixelart и получил Spotlight Award. Картинка поста — из этого проекта. Такие же картинки, только больше, но другие, будут на моём стенде на выставке «Код искусства» в ГРАУНД Солянке, которая открывается завтра и продлится до начала февраля.
А вот для настоящих нёрдов: организатор проекта по возрождению игры Заколдованная страна, первой советской настольной ролевой игры в духе ADnD, изданной в Ленинграде в 1990 году, взял у меня интервью по поводу того, что я лет 15 назад организовал оцифровку этой игры, после чего она разошлась по сети.
Мои дорогие! С наступающим/наступившим Новым Годом нас! Наша область развивается со скоростью света и я уверен что 2022ой год принесёт нам ещё больше открытий и потрясающих впечатлений. Ура ура ура!
Media is too big
VIEW IN TELEGRAM
Наши друзья из https://t.me/hahakirizhik запилили потрясающее новогоднее поздравление :)
Forwarded from Neural Shit
Немножко лайфхаков от нейросети GPT-3 о том, что можно сделать с оставшимся после нового года оливье:
>>Из оставшегося оливье можно сделать холодец. Это сделает вашу жизнь намного интереснее. Из остатков получится отличный плов или шашлык.
>>Из оставшегося оливье можно сделать себе двойника. Он будет рассказывать разные истории, чтобы вы не грустили. А ночью, когда вы заснете, он подойдет к вам и поцелует в губы.
>>Из оставшегося оливье можно слепить букет цветов и подарить его даме сердца. После этого остается только напиться.
>>Из оставшегося оливье можно сделать отличную пепельницу! Для этого вам потребуется примерно 1.2 кубических метра салата
>>Из оставшегося оливье можно сварить окрошку. Это несложно, и помогает расслабиться.
>>Из оставшегося оливье можно сделать мази от плоскостопия. Их следует наносить на края обуви и по всей подошве. Особое внимание следует уделить гениталиям: нельзя допускать, чтобы они становились скользкими
>>Из оставшегося оливье можно сделать холодец. Это сделает вашу жизнь намного интереснее. Из остатков получится отличный плов или шашлык.
>>Из оставшегося оливье можно сделать себе двойника. Он будет рассказывать разные истории, чтобы вы не грустили. А ночью, когда вы заснете, он подойдет к вам и поцелует в губы.
>>Из оставшегося оливье можно слепить букет цветов и подарить его даме сердца. После этого остается только напиться.
>>Из оставшегося оливье можно сделать отличную пепельницу! Для этого вам потребуется примерно 1.2 кубических метра салата
>>Из оставшегося оливье можно сварить окрошку. Это несложно, и помогает расслабиться.
>>Из оставшегося оливье можно сделать мази от плоскостопия. Их следует наносить на края обуви и по всей подошве. Особое внимание следует уделить гениталиям: нельзя допускать, чтобы они становились скользкими
Forwarded from TechSparks
Микрософт опубликовал классную работу про обучение на синтетических данных в случае распознавания лиц. Более того, датасет из 100 000 автоматически размеченных изображений лиц открыт для использования всеми исследователями.
Важность же в том, что на практике доказана возможность эффективного обучения на датасетах, в которых вообще нет персональных данных, а проблемы искажений выборки и разметки, о которых сломано столько копий (diversity и пр.) отсутствуют by design.
https://microsoft.github.io/FaceSynthetics/
О том, что синтетические данные в ML — большой тренд 2022, писал ещё в конце прошлого года; жаль, что редакторы Форбса ради кликабельности заменили заголовок на хайповый, но не отражающий суть текста.
https://www.forbes.ru/tekhnologii/444703-fejkovyj-mir-pocemu-tehnologia-dipfejkov-stanet-glavnoj-v-2022-godu
Важность же в том, что на практике доказана возможность эффективного обучения на датасетах, в которых вообще нет персональных данных, а проблемы искажений выборки и разметки, о которых сломано столько копий (diversity и пр.) отсутствуют by design.
https://microsoft.github.io/FaceSynthetics/
О том, что синтетические данные в ML — большой тренд 2022, писал ещё в конце прошлого года; жаль, что редакторы Форбса ради кликабельности заменили заголовок на хайповый, но не отражающий суть текста.
https://www.forbes.ru/tekhnologii/444703-fejkovyj-mir-pocemu-tehnologia-dipfejkov-stanet-glavnoj-v-2022-godu
Forbes.ru
Фейковый мир: почему технология дипфейков станет главной в 2022 году
Технология производства фейков — дипфейк — названа агентством Gartner стратегическим трендом 2022 года. Неужели речь идет о неостановимой лавине фальшивок и именно это компания рассматривает как стратегический тренд развития технологий? Рассуждает Ан
Forwarded from Мишин Лернинг 🇺🇦🇮🇱
🦌🎄One Hyper-Modal Transformer can be
Creative as DALL-E and Smart as CLIP
Встречайте, RuDOLPH! Текстово-визуальный гипермодальный GPT-3 (350M), сочетающий в себе генеративные возможности текстового GPT-3 и текст-картиночного DALL-E с Reranking & Zero-Shot способностями CLIP.
👀 см картинки к посту
Гипермодальный RuDolph может:
▪️ Генерировать текст
▪️ Генерировать изображения по тексту
▪️ «Проявлять» диффузией в высоком качестве и разрешении сгенерированные изображения
▪️ Изменять (inpainting) изображения по описанию
▪️ Генерировать текстовые описания для изображений
▪️ Быть Feature Extractor’ом для few-shot и linear probe классификации
▪️ Ранжировать изображения по текстовому описанию
▪️ Классифицировать изображения в режиме Zero-Shot
💻 Git Код + Веса
📰 Paper [soon]
🦌 HF demo (только 4 картинки)
🤗 Model Card
🔮 Colab со всеми возможностями
Creative as DALL-E and Smart as CLIP
Встречайте, RuDOLPH! Текстово-визуальный гипермодальный GPT-3 (350M), сочетающий в себе генеративные возможности текстового GPT-3 и текст-картиночного DALL-E с Reranking & Zero-Shot способностями CLIP.
👀 см картинки к посту
Гипермодальный RuDolph может:
▪️ Генерировать текст
▪️ Генерировать изображения по тексту
▪️ «Проявлять» диффузией в высоком качестве и разрешении сгенерированные изображения
▪️ Изменять (inpainting) изображения по описанию
▪️ Генерировать текстовые описания для изображений
▪️ Быть Feature Extractor’ом для few-shot и linear probe классификации
▪️ Ранжировать изображения по текстовому описанию
▪️ Классифицировать изображения в режиме Zero-Shot
💻 Git Код + Веса
📰 Paper [soon]
🦌 HF demo (только 4 картинки)
🤗 Model Card
🔮 Colab со всеми возможностями
Back to basics
Праздники прошли, и самое время вкатываться в работу и в канал. Отличная лекция по Реккурентным Сетям (RNN) от New York University. Альфредо старается объяснять с точки зрения интуции, а не математики. И качество иллюстраций тоже на уровне!
#rnn #basics
Праздники прошли, и самое время вкатываться в работу и в канал. Отличная лекция по Реккурентным Сетям (RNN) от New York University. Альфредо старается объяснять с точки зрения интуции, а не математики. И качество иллюстраций тоже на уровне!
#rnn #basics
YouTube
04.2 – Recurrent neural networks, vanilla and gated (LSTM)
Course website: http://bit.ly/DLSP21-web
Playlist: http://bit.ly/DLSP21-YouTube
Speaker: Alfredo Canziani
Chapters
00:00 – Good morning
00:22 – How to summarise papers (as @y0b1byte) with Notion
05:05 – Why do we need to go to a higher hidden dimension?…
Playlist: http://bit.ly/DLSP21-YouTube
Speaker: Alfredo Canziani
Chapters
00:00 – Good morning
00:22 – How to summarise papers (as @y0b1byte) with Notion
05:05 – Why do we need to go to a higher hidden dimension?…
Я все еще не могу себя заставить зайти в твиттер и почитать свежачок. Но тем не менее, вот вам отличная статья про Attention. Лучше пока ничего не написали (в том числе есть перевод на русский). Или если больше заходят видосы, посмотрите лекцию NYU.
#basics #attention #transformers
#basics #attention #transformers
jalammar.github.io
Visualizing A Neural Machine Translation Model (Mechanics of Seq2seq Models With Attention)
Translations: Chinese (Simplified), French, Japanese, Korean, Persian, Russian, Turkish, Uzbek
Watch: MIT’s Deep Learning State of the Art lecture referencing this post
May 25th update: New graphics (RNN animation, word embedding graph), color coding, elaborated…
Watch: MIT’s Deep Learning State of the Art lecture referencing this post
May 25th update: New graphics (RNN animation, word embedding graph), color coding, elaborated…
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
18 месяцев назад: "Обучение NeRF занимает 5 часов..."
2 месяца назад: «Обучение NeRF занимает 5 минут!»
Вчера: «Обучение NeRF занимает 5 секунд!!??»
Умелые инженеры из NVIDIA поженили мульти-скейл хеш таблицу, реализованную на CUDA, с методом NeRF.
Результат: трейн занимает несколько секунд, рендеринг новой сцены делают за десятки миллисекунд в разрешении 1920x1080 🤯.
Конечно, не все так просто. Препроцессинг требует получить позиции камер, используя SfM алгоритмы, например COLMAP, ну а это требует побольше чем пару секунд времени.
Сцена на видео выше тоже довольно громоздкая и тренировка метода заняла несколько минут.
Статья "Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
>> Pdf >> Project page >> Code
2 месяца назад: «Обучение NeRF занимает 5 минут!»
Вчера: «Обучение NeRF занимает 5 секунд!!??»
Умелые инженеры из NVIDIA поженили мульти-скейл хеш таблицу, реализованную на CUDA, с методом NeRF.
Результат: трейн занимает несколько секунд, рендеринг новой сцены делают за десятки миллисекунд в разрешении 1920x1080 🤯.
Конечно, не все так просто. Препроцессинг требует получить позиции камер, используя SfM алгоритмы, например COLMAP, ну а это требует побольше чем пару секунд времени.
Сцена на видео выше тоже довольно громоздкая и тренировка метода заняла несколько минут.
Статья "Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
>> Pdf >> Project page >> Code
Forwarded from DLStories
А вот и применение AlphaFold подъехало: в тот же самый день, когда ВОЗ окрестила новый штамм covid-19 "Омикроном" и были начаты исследования его генома, ученый Колби Форд из университета Северной Каролины завел AlphaFold на последовательности аминокислот этого вируса и опубликовал результаты в сети.
В публикации Форд поделился предсказанной с помощью AlphaFold формой белка вируса, а также своими соображениями насчет того, что Омикрон должен быть более устойчив ко многим известным лекарствам и вакцинам. Предсказания оказались на удивление верными: позиции центральных атомов в предсказанной AlphaFold модели отличались от настоящих на ~пол ангстрема (это примерно радиус атома водорода). Предсказания насчет устойчивости Омикрона к многим антителам, как мы уже знаем, также оказались верны.
Ученый провел эксперименты и выложил статью до того, как были полученные первые лабораторные результаты по Омикрону. Похоже, что у технологий вроде AlphaFold действительно есть большой потенциал помощи человечеству: особенно в тех случаях, когда исследование вируса занимает много времени.
Ссылки:
Статья на bioRxiv
Статья Wired
А вот еще свежие применения AI для борьбы с вирусами:
- BioNTech совместно с InstaDeep разработали AI для предсказания потенциально опасных мутаций covid-19. Тест показал, что система успешно предсказывает ближайшие мутации и уровень их угрозы для человека;
- В России представили AI-алгоритм BiteNet для поиска новых противовирусных препаратов. Модель анализирует РНК- и ДНК-структуры вирусов и находит в них уязвимые места, на которые могут потенциально воздействовать новые лекарства.
- В Швейцарии разработали AI-алгоритм для определения уровня устойчивости бактерий к различным антибиотикам. Также модель помогает находить уязвимости бактерий, на основе которых могут быть разработаны новые лекарства.
В публикации Форд поделился предсказанной с помощью AlphaFold формой белка вируса, а также своими соображениями насчет того, что Омикрон должен быть более устойчив ко многим известным лекарствам и вакцинам. Предсказания оказались на удивление верными: позиции центральных атомов в предсказанной AlphaFold модели отличались от настоящих на ~пол ангстрема (это примерно радиус атома водорода). Предсказания насчет устойчивости Омикрона к многим антителам, как мы уже знаем, также оказались верны.
Ученый провел эксперименты и выложил статью до того, как были полученные первые лабораторные результаты по Омикрону. Похоже, что у технологий вроде AlphaFold действительно есть большой потенциал помощи человечеству: особенно в тех случаях, когда исследование вируса занимает много времени.
Ссылки:
Статья на bioRxiv
Статья Wired
А вот еще свежие применения AI для борьбы с вирусами:
- BioNTech совместно с InstaDeep разработали AI для предсказания потенциально опасных мутаций covid-19. Тест показал, что система успешно предсказывает ближайшие мутации и уровень их угрозы для человека;
- В России представили AI-алгоритм BiteNet для поиска новых противовирусных препаратов. Модель анализирует РНК- и ДНК-структуры вирусов и находит в них уязвимые места, на которые могут потенциально воздействовать новые лекарства.
- В Швейцарии разработали AI-алгоритм для определения уровня устойчивости бактерий к различным антибиотикам. Также модель помогает находить уязвимости бактерий, на основе которых могут быть разработаны новые лекарства.
Forwarded from AbstractDL
This media is not supported in your browser
VIEW IN TELEGRAM
GPT для чайников: от токенизации до файнтюнинга
Сделал для вас небольшой colab туториал про GPT. Там подробно и с примерами разобраны такие темы как:
1. Устройство GPT-1,2,3
2. Токенизация
3. Методы генерации текста
4. Файнтюнинг (прям в колабе)
Если вы давно хотели поиграться с GPT, но всё не доходили руки, то новогодние праздники — самое время 😉
Colab
Сделал для вас небольшой colab туториал про GPT. Там подробно и с примерами разобраны такие темы как:
1. Устройство GPT-1,2,3
2. Токенизация
3. Методы генерации текста
4. Файнтюнинг (прям в колабе)
Если вы давно хотели поиграться с GPT, но всё не доходили руки, то новогодние праздники — самое время 😉
Colab
Forwarded from ExMuffin
This media is not supported in your browser
VIEW IN TELEGRAM
💃 HomeStylist v.1.0 🕺
Сегодня выкатили нейросеть, которая может не только менять позу, но и переодевать человека на фотографии. Код есть, а Колаба небыло. Я исправил это недоразумение. Сделал его удобным на столько, на сколько это вообще возможно, ибо чтобы завести эту нейросеть пришлось клонировать еще парочку, но оно того стоило. Качество синтезированного изображения на высоте. Разрешение, конечно, 512 по большей стороне, но те, кому нужно, прогонят дополнительно через какой-нибудь апскейлер.
https://colab.research.google.com/github/tg-bomze/collection-of-notebooks/blob/master/HomeStylist.ipynb
Сегодня выкатили нейросеть, которая может не только менять позу, но и переодевать человека на фотографии. Код есть, а Колаба небыло. Я исправил это недоразумение. Сделал его удобным на столько, на сколько это вообще возможно, ибо чтобы завести эту нейросеть пришлось клонировать еще парочку, но оно того стоило. Качество синтезированного изображения на высоте. Разрешение, конечно, 512 по большей стороне, но те, кому нужно, прогонят дополнительно через какой-нибудь апскейлер.
https://colab.research.google.com/github/tg-bomze/collection-of-notebooks/blob/master/HomeStylist.ipynb