AI Для Всех
12.3K subscribers
1.05K photos
138 videos
10 files
1.34K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
#datasets #chemistry
Датасет с данными о растворимости порядка 10000 веществ. Можно скачать с сайта, можно посмотреть их капсулу на codeocean.
Авторы берут 8 датасетов из разных источниковв и объединяют их.
При этом в разных датасетах могут быть разные данные о растворимости одного и того же вещества.

Поэтому авторы назначают каждой записи "группу достоверности"

Предварительно из всех записей о веществе оставляем только те, вв которых величина растворимости отличаются больше чем на 0.01 (таким образом, по-видимому, убираются дупликаты кочующие между базам)

Далее назначаем группу достоверности

G1 - информация о веществе встретилась один раз
G2 - если информация о веществе встретилась два раза, и разница между измерениями существенна
G3 - если информация о веществе встретилась два раза, и разница не существенна
G4 - если информация о веществе встретилась больше двух раз, и разница существенна
G5 - если информация о веществе встретилась больше двух раз, и разница не существенна

При этом в случае нескольких измерений надо еще выбрать, какое из них положить в объединенный датасет.
Авторы делают следующее:
1) если измерений больше 2, то выбирается то, которое ближе всего к их среднему
2) если измерений ровно 2, то выбирается то, которое ближе всех к предсказанию программы ALOGPS 2.1. Кстати, программа древняя, но использует нейронные сети

Статья с подробным описанием датасета
How Can Increased Randomness in Stochastic Gradient Descent Improve Generalization?

В недавних работах сообщается, что увеличение скорости обучения или уменьшение размера минимального батча в стохастическом градиентном спуске (SGD) может улучшить производительность на тесте. Авторы утверждают, что это ожидаемо при некоторых условиях в моделях с функцией потерь с несколькими локальными минимумами. Предлагается использовать приближенный, но аналитический подход, вдохновленный методами физики, для изучения роли скорости обучения SGD и размера батча в генерализации.

Авторы характеризуют производительность на тесте при сдвиге (data shift) между распределениями обучающих и тестовых данных для функций потерь с несколькими минимумами. Сдвиг может быть вызван просто выборкой и поэтому обычно присутствует в практических приложениях.

Оказывается, что вызванное этим сдвигом смещение локальных минимумов ухудшает производительность теста.

Еще показывают, что скорость обучения, деленная на размер минимального батча, играет роль, аналогичную температуре в статистической механике, и подразумевает, что СГД, включая его стационарное распределение, в значительной степени инвариантен к изменениям скорости обучения или размера батча, которые оставляют его температуру постоянной. Авторы показывают, что повышение температуры SGD способствует выбору локальных минимумов с меньшей кривизной и может обеспечить лучшее обобщение.

arXiv

#theory #training
MDETR: Modulated Detection for End-to-End Multi-Modal Understanding

Если по простому - даёте любую фотографию или картинку, пишете текстом что вы хотите на ней найти (например розовый слоник в балетной пачке) и сеть выдаёт координаты этого объекта. Попробуйте сами на Spaces

Если по умному - этот репозиторий содержит код и ссылки на предобученные модели для MDETR (Modulated DETR) для претренинга на данных, содержащих выровненный текст и изображения с аннотациями, а также для файнтюнинга на задачах, требующих тонкого понимания изображения и текста.

Сайт
GitHub
Colab
ArXiv
Демо на Spaces

#multimodal #demo #nlp #images #detection
Kaggle: Brain Tumor Radiogenomic Classification

Цель этой задачи - предсказать состояние генетического биомаркера, важного для лечения рака мозга.

Каждый независимый случай имеет специальную папку, обозначенную пятизначным номером. В каждой из этих папок "case" есть четыре подпапки, каждая из которых соответствует каждому из структурных мультипараметрических МРТ (mpMRI) сканов в формате DICOM.

GitHub
Блокнот с решением на Kaggle

#datasets #demo #3d #ScientificML #images #medicine
How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers (Google AI)

Visual Transformers (ViT) показали, что они достигают высокой конкурентоспособности в широком спектре задач зрения, таких как классификация изображений, обнаружение объектов и семантическая сегментация. По сравнению со сверточными нейронными сетями, более слабый индуктивный баес трансформатора зрения обычно приводит к увеличению зависимости от регуляризации модели или аугментации данных ("AugReg" для краткости) при обучении на небольших наборах данных. В статье проводится систематическое эмпирическое исследование взаимосвязанности между количеством обучающих данных, AugReg, размером модели и вычислительным бюджетом.

В результате этого исследования обнаружили, что сочетание увеличения вычислительных ресурсов и AugReg может выдавать модели с такой же производительностью, что и модели, обученные на значительно большем количестве обучающих данных.

arXiv

#transformer #images #training #theory
Forwarded from DLStories
Помните AlphaFold? Это нейросеть от DeepMind, которая может предсказывать структуру белков. Это очень-очень важный прорыв для медицины. Почему это так, мы писали тут: обязательно почитайте, если еще не.
#tech

Сегодня расскажем о похожей разработке: нейросети Peptimizer для поиска высокоэффективных абиотических минипротеинов.

Минипротеины часто используются в лекарствах как энхансеры — вещества, которые помогают основному лекарству лучше проникать в нужные клетки. К примеру, препарат для лечения мышечной дистрофии Дюшенна (DMD) использует большие синтетические молекулы PMO, которые проникают в ядро клетки и модифицируют ген дистрофина так, чтобы запустить выработку белков, которые отсутствуют у пациентов с DMD. Молекулы PMO при этом обладают низкой способностью проникать в клетки, и для улучшения доставки лекарства к молекуле PMO прикрепляются минипротеины, которые улучшают проходимость.

Задача поиска лучших минипротеинов для улучшения проходимости — сложная. Количество возможных последовательностей аминокислот, которые образуют протеины — миллиарды. Этим задача похожа на ту, что решала AlphaFold — она не решается так просто в лабораборных условиях биологами.

По результатам тестов Peptimizer справляется со своей задачей: предложенные ей минипротеины нетоксичны (а значит, могут быть использованы в лекарствах) и действительно улучшают проникаемость лекарства в клетки. Один из предложенных минипротеинов увеличил эффективность доставки лекарства в эксперименте на мышах в 50 раз!

Кроме того, устройство нейросети Peptimizer такое, что ислледователи могут интерпретировать структуры протеинов, предложенных моделью. Это очень важно для медицины: нельзя вкалывать людям вещества, о которых биологи не понимают, что они есть такое.

Очень надеемся, что таких ИИ разработок в медицине станет больше❤️

Подробнее про Peptimizer и лечение мышечной дистрофии читайте в блогпосте MIT.
GitHub с кодом: тык
Статья в Nature: тык
Для самых ленивых. Просто загрузи картинку https://huggingface.co/spaces/nielsr/DINO

#dino #demo
Новое видео от Яника о НЕтрансформере. Который тем не менее работает на некоторых задачах не хуже и линеен по памяти.

Очень интересное критическое видео. Хорошие пример как надо читать статью и почему не надо вестись на формулы и названия, которые дали авторы.(Спойлер - query у авторов по сути ими не являются. Это по сути value, а, точнее, ровно один выучиваемый value)

Код

#transformer #yannic

https://youtu.be/qgUegkefocg
Смотрите какая красота! График публикаций по теме ML+AI по годам. Количество статей удваивается каждые 23 месяца.

Успеть прочитать все, конечно уже невозможно
Максим Рябинин из Yandex Research рассказал на Хабре о новом подходе к обучению больших нейросетей — DeDLOC. Технология не требует дата-центра с сотнями мощных видеокарт — вместо этого объединяются компьютеры волонтёров.

Это совместная научная работа исследователей Яндекса, Hugging Face, студентов ШАД, ВШЭ и МФТИ, а также профессора Университета Торонто. Модель и код доступны всем — вы можете применить их для своих проектов

Habr

#training
В связи с тем что сегодня от NVidia пришло письмо что они дают мне 400 GPU часов на V100, спешу поделиться доступными ресурсами где ещё такое дают:

1) Google Research Credits

2) NVIDIA Research Grants

3) Yandex Research Grants

#resources #gpu
#generation
VQGAN+CLIP сгенерила к лекции по ML in law (на одноименный запрос)

Честно говоря, в первый раз она сгенерила что-то, что мне прям зашло
TorchCAM: class activation explorer

TorchCAM использует механизмы хуков PyTorch для легкого получения всей необходимой информации для создания активации класса без дополнительных усилий со стороны пользователя. Каждый объект CAM действует как обертка вокруг вашей модели.

GitHub

#cnn #Explainability
Forwarded from эйай ньюз
Ответ на вопрос в комменты😅.
Есть тут ещё адепты Vim-а (кроме меня)?
Train short. Test long. Attention with linear biases enables input length extrapolation. (Facebook AI)

Ещё со времён появления первых трансформеров остается открытым фундаментальный вопрос: как добиться экстраполяции на более длинные последовательности, чем те, на которых сеть обучалась?

Авторы описывают простой и эффективный метод, Attention with Linear Biases (ALiBi), который позволяет проводить такую экстраполяцию. ALiBi не добавляет позиционные эмбединги к эмбедингам слов; вместо этого it biases the query-key attention scores with a term that is proportional to their distance.

Авторы показывают, что этот метод позволяет обучить модель с 1,3 миллиардами параметров на входных последовательностях длиной 1024, которая экстраполируется на входные последовательности длиной 2048, достигая той же сложности, что и синусоидальная модель позиционных эмбедингов, обученная на входных данных длиной 2048, на 11% быстрее и используя на 11% меньше памяти. Индуктивный баес ALiBi в сторону рекуррентности позволяет ему превзойти несколько сильных позиционных методов на эталоне WikiText-103.

Статья
GitHub
Видео-разбор от Яника

#training #transformer
CLIP2Video: Mastering Video-Text Retrieval via Image CLIP (Tencent)

CLIP2Video - сеть для end-to-end переноса модели переобученой на изображениях и языке в видеотекстовый поиск. В частности, основываясь на пространственной семантике, улавливаемой моделью Contrastive Language-Image Pretraining (CLIP), модель включает в себя блок Temporal Difference для захвата движений в видеокадрах и блок Temporal Alignment для повторного выравнивания лексем видеоклипов и фраз и улучшения мультимодальной корреляции.

arXiv
Github

#clip #multimodal #video #nlp #text
Awesome Colab Notebooks

Большая подборка колабов на различные темы, от DeepFake до NeuralART

https://github.com/amrzv/awesome-colab-notebooks

#demo
Нейроброши

Мы с командой msu.ai и monolama.com запускаем первую в истории коллекцию брошек сгенерированных нейросетями.
Мы взяли VQGAN+CLIP, нагенерили картинок на разные темы, затем обработали их и превратили в красивые брошки из оргстекла. Смотрите как круто получилось:
https://monolama.com/neuro

А тут можно почитать подробнее как именно мы это сделали.
#ScientificML #biology #rna

Тем временем в Science была опубликована статья по новым успехам в предсказании структуры РНК.

Почему эта задача все еще актуальна во время, когда появился AlphaFold2 для предсказания структуры белков. Казалось бы, поправить три строчки и готово?

Дело в том, что структура РНК складывается по сильно отличным от структур белка правилам и отличается очень высоким уровнем модификации нуклеотидов, из которых РНК состоит. В результате в то время как в строковом представлении последовательности РНК у вас "всего" 4 буквы, в реальности их в разы больше.

Статья позиционируется журналом Science как РНК-АльфаФолд. Конечно, этого тут пока нет.
Качество предсказания (RMSD) для большинства структур не высокое и не позволяет использовать их в биоинформатических пайплайнах (вероятно, т.к для структур РНК RMSD не является идеальной метрикой сравнения)
Статья при этом все равно крутая, так как все другие методы были побеждены нейросеткой.
Но как эта нейросетка работала?
Она была обучена на основе данной на вход структуры РНК предсказывать, насколько та отличается от структуры той же РНК, полученной в ходе эксперимента (принимаем за истинную структуру).
Конкретно - для каждой из 18 известных структур генерировалось 1000 предсказаний при помощи Rosetta. На основании полученной таким образом выборки и учили нейронную сеть.

По сути в результате была получена нейронная scoring-функция. Собственно, и одно из сравнений авторов было на тему, насколько выученная скоринг-функция лучше ранжирует предсказания по их правильности, чем известные скоринг-функци (той же Rosetta).

Как с помощью такой штуки предсказывать структуру? Опять же, генерируем 1000 предсказаний при помощи Rosetta, а далее выбираем из них то, которое было оценено выше всего.

Таким образом подход очень сильно отличается от подхода AlphaFold2. И является во многом inferior, так как, напомним, AlphaFold2 делает end-to-end предсказание. Здесь и для обучения используются эвристики, прописанные авторами Rosetta (адцки сложного пакета с огромным числом заложенных туда рассчетов), и для предсказания используется та же Rosetta.

Об архитектуре сети судить из статьи сложно, но по-видимому, это обычный многослойный персептрон, которому на вход подаются описанные авторами признаки, содержащие информацию о каждом атоме структуры и его окружении. В этом подход напоминает подход, использовавшийся в нейросети torchANI, уже описанной нами

Кода к статье, к сожалению, нет.
Статья производит положительное впечатление, если НЕ обращать внимание на сильно завышенный хайп, который, видимо, имеет много отношения к политике между ведущими журналами
🤖🏆 SimVLM — Новый CLIP

Представьте себе одну модель, которая может:
- Классифицировать фото
- Отвечать на вопросы по фото
- Дополнять текстовые описания
- Решать задачу «визуального обоснования»
- Выполнять мультимодальный перевод

А самое главное, делать все это в режиме zero-shot (обучение без обучения)!

Встречайте: SimVLM, который по факту является мультимодальной сетью Text + Image (как CLIP), с классической трансформер архитектурой. ViT+Bert энкодер + декодер GPT (см картинку поста).

Такой текстовый-визуальный претрейн сравнили с современными (SOTA) методами, включая LXMERT, VL-T5, UNITER, OSCAR, Villa, SOHO, UNIMO и VinVL.

SimVLM превосходит все существующие модели и бьет SOTA по всем рассматриваемым задачам, часто со значительным отрывом.

Скоро сделаю подробный обзор архитектуры.

📄 paper

#sota #paper #multimodal #zeroshot #сохраненки