MDETR: Modulated Detection for End-to-End Multi-Modal Understanding
Если по простому - даёте любую фотографию или картинку, пишете текстом что вы хотите на ней найти (например розовый слоник в балетной пачке) и сеть выдаёт координаты этого объекта. Попробуйте сами на Spaces
Если по умному - этот репозиторий содержит код и ссылки на предобученные модели для MDETR (Modulated DETR) для претренинга на данных, содержащих выровненный текст и изображения с аннотациями, а также для файнтюнинга на задачах, требующих тонкого понимания изображения и текста.
Сайт
GitHub
Colab
ArXiv
Демо на Spaces
#multimodal #demo #nlp #images #detection
Если по простому - даёте любую фотографию или картинку, пишете текстом что вы хотите на ней найти (например розовый слоник в балетной пачке) и сеть выдаёт координаты этого объекта. Попробуйте сами на Spaces
Если по умному - этот репозиторий содержит код и ссылки на предобученные модели для MDETR (Modulated DETR) для претренинга на данных, содержащих выровненный текст и изображения с аннотациями, а также для файнтюнинга на задачах, требующих тонкого понимания изображения и текста.
Сайт
GitHub
Colab
ArXiv
Демо на Spaces
#multimodal #demo #nlp #images #detection
Kaggle: Brain Tumor Radiogenomic Classification
Цель этой задачи - предсказать состояние генетического биомаркера, важного для лечения рака мозга.
Каждый независимый случай имеет специальную папку, обозначенную пятизначным номером. В каждой из этих папок "case" есть четыре подпапки, каждая из которых соответствует каждому из структурных мультипараметрических МРТ (mpMRI) сканов в формате DICOM.
GitHub
Блокнот с решением на Kaggle
#datasets #demo #3d #ScientificML #images #medicine
Цель этой задачи - предсказать состояние генетического биомаркера, важного для лечения рака мозга.
Каждый независимый случай имеет специальную папку, обозначенную пятизначным номером. В каждой из этих папок "case" есть четыре подпапки, каждая из которых соответствует каждому из структурных мультипараметрических МРТ (mpMRI) сканов в формате DICOM.
GitHub
Блокнот с решением на Kaggle
#datasets #demo #3d #ScientificML #images #medicine
How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers (Google AI)
Visual Transformers (ViT) показали, что они достигают высокой конкурентоспособности в широком спектре задач зрения, таких как классификация изображений, обнаружение объектов и семантическая сегментация. По сравнению со сверточными нейронными сетями, более слабый индуктивный баес трансформатора зрения обычно приводит к увеличению зависимости от регуляризации модели или аугментации данных ("AugReg" для краткости) при обучении на небольших наборах данных. В статье проводится систематическое эмпирическое исследование взаимосвязанности между количеством обучающих данных, AugReg, размером модели и вычислительным бюджетом.
В результате этого исследования обнаружили, что сочетание увеличения вычислительных ресурсов и AugReg может выдавать модели с такой же производительностью, что и модели, обученные на значительно большем количестве обучающих данных.
arXiv
#transformer #images #training #theory
Visual Transformers (ViT) показали, что они достигают высокой конкурентоспособности в широком спектре задач зрения, таких как классификация изображений, обнаружение объектов и семантическая сегментация. По сравнению со сверточными нейронными сетями, более слабый индуктивный баес трансформатора зрения обычно приводит к увеличению зависимости от регуляризации модели или аугментации данных ("AugReg" для краткости) при обучении на небольших наборах данных. В статье проводится систематическое эмпирическое исследование взаимосвязанности между количеством обучающих данных, AugReg, размером модели и вычислительным бюджетом.
В результате этого исследования обнаружили, что сочетание увеличения вычислительных ресурсов и AugReg может выдавать модели с такой же производительностью, что и модели, обученные на значительно большем количестве обучающих данных.
arXiv
#transformer #images #training #theory
Forwarded from DLStories
Помните AlphaFold? Это нейросеть от DeepMind, которая может предсказывать структуру белков. Это очень-очень важный прорыв для медицины. Почему это так, мы писали тут: обязательно почитайте, если еще не.
#tech
Сегодня расскажем о похожей разработке: нейросети Peptimizer для поиска высокоэффективных абиотических минипротеинов.
Минипротеины часто используются в лекарствах как энхансеры — вещества, которые помогают основному лекарству лучше проникать в нужные клетки. К примеру, препарат для лечения мышечной дистрофии Дюшенна (DMD) использует большие синтетические молекулы PMO, которые проникают в ядро клетки и модифицируют ген дистрофина так, чтобы запустить выработку белков, которые отсутствуют у пациентов с DMD. Молекулы PMO при этом обладают низкой способностью проникать в клетки, и для улучшения доставки лекарства к молекуле PMO прикрепляются минипротеины, которые улучшают проходимость.
Задача поиска лучших минипротеинов для улучшения проходимости — сложная. Количество возможных последовательностей аминокислот, которые образуют протеины — миллиарды. Этим задача похожа на ту, что решала AlphaFold — она не решается так просто в лабораборных условиях биологами.
По результатам тестов Peptimizer справляется со своей задачей: предложенные ей минипротеины нетоксичны (а значит, могут быть использованы в лекарствах) и действительно улучшают проникаемость лекарства в клетки. Один из предложенных минипротеинов увеличил эффективность доставки лекарства в эксперименте на мышах в 50 раз!
Кроме того, устройство нейросети Peptimizer такое, что ислледователи могут интерпретировать структуры протеинов, предложенных моделью. Это очень важно для медицины: нельзя вкалывать людям вещества, о которых биологи не понимают, что они есть такое.
Очень надеемся, что таких ИИ разработок в медицине станет больше❤️
Подробнее про Peptimizer и лечение мышечной дистрофии читайте в блогпосте MIT.
GitHub с кодом: тык
Статья в Nature: тык
#tech
Сегодня расскажем о похожей разработке: нейросети Peptimizer для поиска высокоэффективных абиотических минипротеинов.
Минипротеины часто используются в лекарствах как энхансеры — вещества, которые помогают основному лекарству лучше проникать в нужные клетки. К примеру, препарат для лечения мышечной дистрофии Дюшенна (DMD) использует большие синтетические молекулы PMO, которые проникают в ядро клетки и модифицируют ген дистрофина так, чтобы запустить выработку белков, которые отсутствуют у пациентов с DMD. Молекулы PMO при этом обладают низкой способностью проникать в клетки, и для улучшения доставки лекарства к молекуле PMO прикрепляются минипротеины, которые улучшают проходимость.
Задача поиска лучших минипротеинов для улучшения проходимости — сложная. Количество возможных последовательностей аминокислот, которые образуют протеины — миллиарды. Этим задача похожа на ту, что решала AlphaFold — она не решается так просто в лабораборных условиях биологами.
По результатам тестов Peptimizer справляется со своей задачей: предложенные ей минипротеины нетоксичны (а значит, могут быть использованы в лекарствах) и действительно улучшают проникаемость лекарства в клетки. Один из предложенных минипротеинов увеличил эффективность доставки лекарства в эксперименте на мышах в 50 раз!
Кроме того, устройство нейросети Peptimizer такое, что ислледователи могут интерпретировать структуры протеинов, предложенных моделью. Это очень важно для медицины: нельзя вкалывать людям вещества, о которых биологи не понимают, что они есть такое.
Очень надеемся, что таких ИИ разработок в медицине станет больше❤️
Подробнее про Peptimizer и лечение мышечной дистрофии читайте в блогпосте MIT.
GitHub с кодом: тык
Статья в Nature: тык
Новое видео от Яника о НЕтрансформере. Который тем не менее работает на некоторых задачах не хуже и линеен по памяти.
Очень интересное критическое видео. Хорошие пример как надо читать статью и почему не надо вестись на формулы и названия, которые дали авторы.(Спойлер - query у авторов по сути ими не являются. Это по сути value, а, точнее, ровно один выучиваемый value)
Код
#transformer #yannic
https://youtu.be/qgUegkefocg
Очень интересное критическое видео. Хорошие пример как надо читать статью и почему не надо вестись на формулы и названия, которые дали авторы.(Спойлер - query у авторов по сути ими не являются. Это по сути value, а, точнее, ровно один выучиваемый value)
Код
#transformer #yannic
https://youtu.be/qgUegkefocg
GitHub
GitHub - wuch15/Fastformer: A pytorch &keras implementation and demo of Fastformer.
A pytorch &keras implementation and demo of Fastformer. - GitHub - wuch15/Fastformer: A pytorch &keras implementation and demo of Fastformer.
Максим Рябинин из Yandex Research рассказал на Хабре о новом подходе к обучению больших нейросетей — DeDLOC. Технология не требует дата-центра с сотнями мощных видеокарт — вместо этого объединяются компьютеры волонтёров.
Это совместная научная работа исследователей Яндекса, Hugging Face, студентов ШАД, ВШЭ и МФТИ, а также профессора Университета Торонто. Модель и код доступны всем — вы можете применить их для своих проектов
Habr
#training
Это совместная научная работа исследователей Яндекса, Hugging Face, студентов ШАД, ВШЭ и МФТИ, а также профессора Университета Торонто. Модель и код доступны всем — вы можете применить их для своих проектов
Habr
#training
В связи с тем что сегодня от NVidia пришло письмо что они дают мне 400 GPU часов на V100, спешу поделиться доступными ресурсами где ещё такое дают:
1) Google Research Credits
2) NVIDIA Research Grants
3) Yandex Research Grants
#resources #gpu
1) Google Research Credits
2) NVIDIA Research Grants
3) Yandex Research Grants
#resources #gpu
Google for Education
Research Credits | Google for Education
Apply for Google Cloud research credits and access computing power to help advance your research, develop ideas, and make cutting-edge discoveries.
#generation
VQGAN+CLIP сгенерила к лекции по ML in law (на одноименный запрос)
Честно говоря, в первый раз она сгенерила что-то, что мне прям зашло
VQGAN+CLIP сгенерила к лекции по ML in law (на одноименный запрос)
Честно говоря, в первый раз она сгенерила что-то, что мне прям зашло
TorchCAM: class activation explorer
TorchCAM использует механизмы хуков PyTorch для легкого получения всей необходимой информации для создания активации класса без дополнительных усилий со стороны пользователя. Каждый объект CAM действует как обертка вокруг вашей модели.
GitHub
#cnn #Explainability
TorchCAM использует механизмы хуков PyTorch для легкого получения всей необходимой информации для создания активации класса без дополнительных усилий со стороны пользователя. Каждый объект CAM действует как обертка вокруг вашей модели.
GitHub
#cnn #Explainability
Train short. Test long. Attention with linear biases enables input length extrapolation. (Facebook AI)
Ещё со времён появления первых трансформеров остается открытым фундаментальный вопрос: как добиться экстраполяции на более длинные последовательности, чем те, на которых сеть обучалась?
Авторы описывают простой и эффективный метод, Attention with Linear Biases (ALiBi), который позволяет проводить такую экстраполяцию. ALiBi не добавляет позиционные эмбединги к эмбедингам слов; вместо этого it biases the query-key attention scores with a term that is proportional to their distance.
Авторы показывают, что этот метод позволяет обучить модель с 1,3 миллиардами параметров на входных последовательностях длиной 1024, которая экстраполируется на входные последовательности длиной 2048, достигая той же сложности, что и синусоидальная модель позиционных эмбедингов, обученная на входных данных длиной 2048, на 11% быстрее и используя на 11% меньше памяти. Индуктивный баес ALiBi в сторону рекуррентности позволяет ему превзойти несколько сильных позиционных методов на эталоне WikiText-103.
Статья
GitHub
Видео-разбор от Яника
#training #transformer
Ещё со времён появления первых трансформеров остается открытым фундаментальный вопрос: как добиться экстраполяции на более длинные последовательности, чем те, на которых сеть обучалась?
Авторы описывают простой и эффективный метод, Attention with Linear Biases (ALiBi), который позволяет проводить такую экстраполяцию. ALiBi не добавляет позиционные эмбединги к эмбедингам слов; вместо этого it biases the query-key attention scores with a term that is proportional to their distance.
Авторы показывают, что этот метод позволяет обучить модель с 1,3 миллиардами параметров на входных последовательностях длиной 1024, которая экстраполируется на входные последовательности длиной 2048, достигая той же сложности, что и синусоидальная модель позиционных эмбедингов, обученная на входных данных длиной 2048, на 11% быстрее и используя на 11% меньше памяти. Индуктивный баес ALiBi в сторону рекуррентности позволяет ему превзойти несколько сильных позиционных методов на эталоне WikiText-103.
Статья
GitHub
Видео-разбор от Яника
#training #transformer
CLIP2Video: Mastering Video-Text Retrieval via Image CLIP (Tencent)
CLIP2Video - сеть для end-to-end переноса модели переобученой на изображениях и языке в видеотекстовый поиск. В частности, основываясь на пространственной семантике, улавливаемой моделью Contrastive Language-Image Pretraining (CLIP), модель включает в себя блок Temporal Difference для захвата движений в видеокадрах и блок Temporal Alignment для повторного выравнивания лексем видеоклипов и фраз и улучшения мультимодальной корреляции.
arXiv
Github
#clip #multimodal #video #nlp #text
CLIP2Video - сеть для end-to-end переноса модели переобученой на изображениях и языке в видеотекстовый поиск. В частности, основываясь на пространственной семантике, улавливаемой моделью Contrastive Language-Image Pretraining (CLIP), модель включает в себя блок Temporal Difference для захвата движений в видеокадрах и блок Temporal Alignment для повторного выравнивания лексем видеоклипов и фраз и улучшения мультимодальной корреляции.
arXiv
Github
#clip #multimodal #video #nlp #text
Awesome Colab Notebooks
Большая подборка колабов на различные темы, от DeepFake до NeuralART
https://github.com/amrzv/awesome-colab-notebooks
#demo
Большая подборка колабов на различные темы, от DeepFake до NeuralART
https://github.com/amrzv/awesome-colab-notebooks
#demo
Нейроброши
Мы с командой msu.ai и monolama.com запускаем первую в истории коллекцию брошек сгенерированных нейросетями.
Мы взяли VQGAN+CLIP, нагенерили картинок на разные темы, затем обработали их и превратили в красивые брошки из оргстекла. Смотрите как круто получилось:
https://monolama.com/neuro
А тут можно почитать подробнее как именно мы это сделали.
Мы с командой msu.ai и monolama.com запускаем первую в истории коллекцию брошек сгенерированных нейросетями.
Мы взяли VQGAN+CLIP, нагенерили картинок на разные темы, затем обработали их и превратили в красивые брошки из оргстекла. Смотрите как круто получилось:
https://monolama.com/neuro
А тут можно почитать подробнее как именно мы это сделали.
#ScientificML #biology #rna
Тем временем в Science была опубликована статья по новым успехам в предсказании структуры РНК.
Почему эта задача все еще актуальна во время, когда появился AlphaFold2 для предсказания структуры белков. Казалось бы, поправить три строчки и готово?
Дело в том, что структура РНК складывается по сильно отличным от структур белка правилам и отличается очень высоким уровнем модификации нуклеотидов, из которых РНК состоит. В результате в то время как в строковом представлении последовательности РНК у вас "всего" 4 буквы, в реальности их в разы больше.
Статья позиционируется журналом Science как РНК-АльфаФолд. Конечно, этого тут пока нет.
Качество предсказания (RMSD) для большинства структур не высокое и не позволяет использовать их в биоинформатических пайплайнах (вероятно, т.к для структур РНК RMSD не является идеальной метрикой сравнения)
Статья при этом все равно крутая, так как все другие методы были побеждены нейросеткой.
Тем временем в Science была опубликована статья по новым успехам в предсказании структуры РНК.
Почему эта задача все еще актуальна во время, когда появился AlphaFold2 для предсказания структуры белков. Казалось бы, поправить три строчки и готово?
Дело в том, что структура РНК складывается по сильно отличным от структур белка правилам и отличается очень высоким уровнем модификации нуклеотидов, из которых РНК состоит. В результате в то время как в строковом представлении последовательности РНК у вас "всего" 4 буквы, в реальности их в разы больше.
Статья позиционируется журналом Science как РНК-АльфаФолд. Конечно, этого тут пока нет.
Качество предсказания (RMSD) для большинства структур не высокое и не позволяет использовать их в биоинформатических пайплайнах (вероятно, т.к для структур РНК RMSD не является идеальной метрикой сравнения)
Статья при этом все равно крутая, так как все другие методы были побеждены нейросеткой.
Но как эта нейросетка работала?
Она была обучена на основе данной на вход структуры РНК предсказывать, насколько та отличается от структуры той же РНК, полученной в ходе эксперимента (принимаем за истинную структуру).
Конкретно - для каждой из 18 известных структур генерировалось 1000 предсказаний при помощи Rosetta. На основании полученной таким образом выборки и учили нейронную сеть.
По сути в результате была получена нейронная scoring-функция. Собственно, и одно из сравнений авторов было на тему, насколько выученная скоринг-функция лучше ранжирует предсказания по их правильности, чем известные скоринг-функци (той же Rosetta).
Как с помощью такой штуки предсказывать структуру? Опять же, генерируем 1000 предсказаний при помощи Rosetta, а далее выбираем из них то, которое было оценено выше всего.
Таким образом подход очень сильно отличается от подхода AlphaFold2. И является во многом inferior, так как, напомним, AlphaFold2 делает end-to-end предсказание. Здесь и для обучения используются эвристики, прописанные авторами Rosetta (адцки сложного пакета с огромным числом заложенных туда рассчетов), и для предсказания используется та же Rosetta.
Об архитектуре сети судить из статьи сложно, но по-видимому, это обычный многослойный персептрон, которому на вход подаются описанные авторами признаки, содержащие информацию о каждом атоме структуры и его окружении. В этом подход напоминает подход, использовавшийся в нейросети torchANI, уже описанной нами
Кода к статье, к сожалению, нет.
Статья производит положительное впечатление, если НЕ обращать внимание на сильно завышенный хайп, который, видимо, имеет много отношения к политике между ведущими журналами
Она была обучена на основе данной на вход структуры РНК предсказывать, насколько та отличается от структуры той же РНК, полученной в ходе эксперимента (принимаем за истинную структуру).
Конкретно - для каждой из 18 известных структур генерировалось 1000 предсказаний при помощи Rosetta. На основании полученной таким образом выборки и учили нейронную сеть.
По сути в результате была получена нейронная scoring-функция. Собственно, и одно из сравнений авторов было на тему, насколько выученная скоринг-функция лучше ранжирует предсказания по их правильности, чем известные скоринг-функци (той же Rosetta).
Как с помощью такой штуки предсказывать структуру? Опять же, генерируем 1000 предсказаний при помощи Rosetta, а далее выбираем из них то, которое было оценено выше всего.
Таким образом подход очень сильно отличается от подхода AlphaFold2. И является во многом inferior, так как, напомним, AlphaFold2 делает end-to-end предсказание. Здесь и для обучения используются эвристики, прописанные авторами Rosetta (адцки сложного пакета с огромным числом заложенных туда рассчетов), и для предсказания используется та же Rosetta.
Об архитектуре сети судить из статьи сложно, но по-видимому, это обычный многослойный персептрон, которому на вход подаются описанные авторами признаки, содержащие информацию о каждом атоме структуры и его окружении. В этом подход напоминает подход, использовавшийся в нейросети torchANI, уже описанной нами
Кода к статье, к сожалению, нет.
Статья производит положительное впечатление, если НЕ обращать внимание на сильно завышенный хайп, который, видимо, имеет много отношения к политике между ведущими журналами
Forwarded from Мишин Лернинг 🇺🇦🇮🇱
🤖🏆 SimVLM — Новый CLIP
Представьте себе одну модель, которая может:
- Классифицировать фото
- Отвечать на вопросы по фото
- Дополнять текстовые описания
- Решать задачу «визуального обоснования»
- Выполнять мультимодальный перевод
А самое главное, делать все это в режиме zero-shot (обучение без обучения)!
Встречайте: SimVLM, который по факту является мультимодальной сетью Text + Image (как CLIP), с классической трансформер архитектурой. ViT+Bert энкодер + декодер GPT (см картинку поста).
Такой текстовый-визуальный претрейн сравнили с современными (SOTA) методами, включая LXMERT, VL-T5, UNITER, OSCAR, Villa, SOHO, UNIMO и VinVL.
SimVLM превосходит все существующие модели и бьет SOTA по всем рассматриваемым задачам, часто со значительным отрывом.
Скоро сделаю подробный обзор архитектуры.
📄 paper
#sota #paper #multimodal #zeroshot #сохраненки
Представьте себе одну модель, которая может:
- Классифицировать фото
- Отвечать на вопросы по фото
- Дополнять текстовые описания
- Решать задачу «визуального обоснования»
- Выполнять мультимодальный перевод
А самое главное, делать все это в режиме zero-shot (обучение без обучения)!
Встречайте: SimVLM, который по факту является мультимодальной сетью Text + Image (как CLIP), с классической трансформер архитектурой. ViT+Bert энкодер + декодер GPT (см картинку поста).
Такой текстовый-визуальный претрейн сравнили с современными (SOTA) методами, включая LXMERT, VL-T5, UNITER, OSCAR, Villa, SOHO, UNIMO и VinVL.
SimVLM превосходит все существующие модели и бьет SOTA по всем рассматриваемым задачам, часто со значительным отрывом.
Скоро сделаю подробный обзор архитектуры.
📄 paper
#sota #paper #multimodal #zeroshot #сохраненки
Hire-MLP: Vision MLP via Hierarchical Rearrangement
В Hire-MLP предлагается идея иерархической перегруппировки для объединения локальной и глобальной пространственной информации. Более того, чтобы обеспечить обмен информацией между различными регионами и уловить глобальный контекст, предлагается межрегиональная перестановка для кругового смещения всех эмбедингов вдоль пространственных направлений.
Hire-MLP достигает 83.4% точности на ImageNet, что превосходит предыдущие модели на основе трансформеров и MLP (SOTA).
#images #mlp
В Hire-MLP предлагается идея иерархической перегруппировки для объединения локальной и глобальной пространственной информации. Более того, чтобы обеспечить обмен информацией между различными регионами и уловить глобальный контекст, предлагается межрегиональная перестановка для кругового смещения всех эмбедингов вдоль пространственных направлений.
Hire-MLP достигает 83.4% точности на ImageNet, что превосходит предыдущие модели на основе трансформеров и MLP (SOTA).
#images #mlp