AI Для Всех

66 viewsDmitry Penzar, edited 10:02

Библиотека self-supervised методов для representation visual learning на базе PyTorch Lightning.

#SSL #images

GitHub - vturrisi/solo-learn: solo-learn: a library of self-supervised methods for visual representation learning powered by Pytorch…

solo-learn: a library of self-supervised methods for visual representation learning powered by Pytorch Lightning - vturrisi/solo-learn

71 viewsArtemii, edited 13:36

AI Для Всех

#alphafold2

Сделали частичный запуск alphafold2 прямо в колабе (без известных структур и, частично, без выравнивания)

Twitter

#ScientificML #biology

Twitter

Sergey Ovchinnikov

Successfully predicted one of the @foldit denovo designs using #alphafold in google-colab😎 (1 model, no template, single sequence input, and no amber refine, ~2 mins). Notebook if anybody wanna try input your favorite sequence: colab.research.google.com/drive/1qWO6Arw…

69 viewsDmitry Penzar, edited 16:51

AI Для Всех

Веселая статья.
Из слов авторов получается, что self-attention слои не всегда нужны (но иногда качество улучшают, особенно когда надо выравнять два представления, в случае авторов - два предложения)

Pay Attention to MLPs

Не хватает рисунка как в Mixer MLP зависимости качества разных архитектур от объема обучающей выборки.

#MLP #images #multimodal

61 viewsDmitry Penzar, edited 17:22

AI Для Всех

Ян Лекун поделился ссылкой на пакет для работы с массивными линейными слоями

Medium

#code #resources #python

Medium

Introduction to TorchShard

A Lightweight Library for Scaling-up the Training

58 viewsDmitry Penzar, edited 06:25

AI Для Всех

#resources #gpu

1) Google Research Credits

2) NVIDIA Research Grants

3) Yandex Research Grants

Google for Education

Research Credits | Google for Education

Apply for Google Cloud research credits and access computing power to help advance your research, develop ideas, and make cutting-edge discoveries.

67 viewsArtemii, edited 07:11

AI Для Всех

#metrics

Тред про ROC

Twitter

Peyman 𝕄𝕀𝕃𝔸ℕ𝔽𝔸ℝ

Receiver Operating Characteristic (ROC) got its name in WWII from Radar, invented to detect enemy aircraft and ships. ROC curve plots true pos. rate vs false pos. rate, parametrized by a detection threshold ROC has many interesting properties 1/8 animation…

56 viewsArtemii, edited 08:44

AI Для Всех

Хорошие новости

#python #news

Twitter

Pablo Galindo

After a lot of work, we have finished the implementation of PEP 657 🚀🎉. In Python 3.11🐍, tracebacks will annotate where exactly the error is happening in your code 🤯. No more confusion having to guess what part of the expression is wrong. Learn more at p…

60 viewsArtemii, edited 11:45

AI Для Всех

#alphafold2 #scientificML #biology
В gonzo разбор alphafold2 (скинул начало)

58 viewsDmitry Penzar, edited 20:03

AI Для Всех

Forwarded from gonzo-обзоры ML статей

Highly accurate protein structure prediction with AlphaFold
John Jumper, Richard Evans, Alexander Pritzel, Tim Green, Michael Figurnov, Olaf Ronneberger, Kathryn Tunyasuvunakool, Russ Bates, Augustin Žídek, Anna Potapenko, Alex Bridgland, Clemens Meyer, Simon A. A. Kohl, Andrew J. Ballard, Andrew Cowie, Bernardino Romera-Paredes, Stanislav Nikolov, Rishub Jain, Jonas Adler, Trevor Back, Stig Petersen, David Reiman, Ellen Clancy, Michal Zielinski, Martin Steinegger, Michalina Pacholska, Tamas Berghammer, Sebastian Bodenstein, David Silver, Oriol Vinyals, Andrew W. Senior, Koray Kavukcuoglu, Pushmeet Kohli & Demis Hassabis
Статья: https://www.nature.com/articles/s41586-021-03819-2
Модель: https://github.com/deepmind/alphafold

Ну вот наконец и AlphaFold2. В статье и на гитхабе новая система называется просто AlphaFold, а под названием AlphaFold2 она фигурировала на соревновании CASP14. Новая система является совершенно другой системой по сравнению со старой AlphaFold, участвовавшей на CASP13, так что будьте внимательны и не путайте.

Итак, собственно, какова структура этой системы.

На вход системы поступает последовательность аминокислот белка. Для этой последовательности ищутся эволюционные родственники и генерируется множественное выравнивание (MSA, про него мы несколько раз писали в предыдущих постах о похожих моделях). Также в базе структур белков (с 3D координатами атомов) ищутся гомологичные структуры (если есть), и они тоже поступают на вход.

Сама сеть AlphaFold напрямую предсказывает 3D координаты всех тяжёлых атомов (углероды, азоты) по входным данным.

Сеть состоит из двух частей.

Сначала ствол сети обрабатывает входы с помощью последовательности (аж 48 штук, каждый со своими весами) новых блоков под названием Evoformer (хитрый вариант трансформера). Evoformer выдаёт на выходе тензор с обработанным MSA (размера N_seq*N_res, где N_seq — число последовательностей в MSA, а N_res — число аминокислот) и тензор (размера N_res*N_res) с репрезентацией пар аминокислотных остатков.

За стволом сети следует структурный модуль (structure module), генерирующий вращения и смещения для каждого из аминокислотных остатков (инициализируются они identity вращениями и позициями в начале координат) с помощью 8 слоёв с расшаренными весами.

И структурный модуль, и вся сеть целиком итеративно улучшает свои предсказания, подавая их себе же на вход. Этот процесс называется в работе “recycling”, он выполняется трижды, и существенно повышает качество результата.

Главная хитрость Evoformer’а в обмене информацией между репрезентациями MSA и пар аминокислот, образующих по сути отдельные стримы обработки данных.

Для обработки MSA используется вариант axial attention с чередующимся вниманием по строкам и по столбцам, причём оно gated через сигмоиду. Также есть transition layer, который по сути двуслойный MLP.

Стрим для обработки репрезентаций пар аминокислот по сути представляет собой графовый трансформер, узлами графа выступают соседние аминокислоты, а операции обновления репрезентаций работают над треугольниками аминокислот (следствие из интуиции относительно необходимости соблюдения неравенства треугольника для расстояний между аминокислотами). Две основные операции там это triangle multiplicative update и triangle self-attention.

По репрезентациям MSA считается outer product между всеми позициями попарно и добавляется к соответствующим репрезентациям пар. Так происходит регулярный обмен между стримом MSA и стримом парных фич.

Структурный модуль работает с репрезентацией бэкбона белка, используя прилетающие на вход репрезентации пар и оригинальную последовательность белка из MSA. Структура бэкбона представлена N_res независимыми вращениями и трансляциями каждой конкретной аминокислоты относительно глобального фрейма. Это называется “residue gas” (как бы независимо плавающие аминокислотные остатки, которые мы пытаемся ориентировать в пространстве).

Nature

Highly accurate protein structure prediction with AlphaFold

Nature - AlphaFold predicts protein structures with an accuracy competitive with experimental structures in the majority of cases using a novel deep learning architecture.

65 viewsDmitry Penzar, 20:03

AI Для Всех

#metrics
#rocauc
#дьяконов

Упоминавшаяся статья по rocauc от Дьяконова

Анализ малых данных

AUC ROC (площадь под кривой ошибок)

Площадь под ROC-кривой – один из самых популярных функционалов качества в задачах бинарной классификации. На мой взгляд, простых и полных источников информации «что же это такое» нет. Как правило, …

58 viewsDmitry Penzar, edited 08:34

AI Для Всех

Few-shot neural architecture search

#nas

Facebook

Introducing few-shot neural architecture search

We’re sharing our work on few-shot neural architecture search (NAS), which combines the accuracy of vanilla NAS with the speed and efficiency of one-shot NAS. Few-shot NAS lets anyone design a powerful custom model quickly, with just a few GPUs.

61 viewsArtemii, edited 19:57

AI Для Всех

OpenAI зарелизил модели для Image Diffusion.

#diffusion #images #generative

GitHub

guided-diffusion/model-card.md at main · openai/guided-diffusion

Contribute to openai/guided-diffusion development by creating an account on GitHub.

70 viewsArtemii, edited 20:08

AI Для Всех

Forwarded from Neural Shit

Нашёл годный репозиторий с коллекцией интересных колаб-ноутбуков как-либо связанных с нейронками и машинным обучением.

По ссылке таблица с описанием, ссылками на автора, страницу проекта (если есть) и сам ноутбук.

https://github.com/amrzv/awesome-colab-notebooks

64 viewsArtemii, 20:15

AI Для Всех

Новая YOLO, ещё точнее, ещё быстрее

#images #detection

Twitter

YOLOX: Exceeding YOLO Series in 2021 pdf: arxiv.org/pdf/2107.08430… abs: arxiv.org/abs/2107.08430 github: github.com/Megvii-BaseDet…

72 viewsArtemii, edited 20:23

AI Для Всех

Хороший ноутбук с альфолд2.
До этого была предыдущая его версия

#ScientificML #Alphafold2 #biology

Google

AlphaFold2.ipynb

Run, share, and edit Python notebooks

73 viewsDmitry Penzar, edited 07:51

AI Для Всех

Colab по CLIP guided diffusion

#generative #text2image #diffusion #CLIP

Google

CLIP Guided Diffusion.ipynb

Colaboratory notebook

69 viewsArtemii, edited 08:51

AI Для Всех

Теперь целая база с последоввательностями, предсказанными alphafold.

Надо смотреть - вообще говоря, запускать модель самим может оказаться идеей лучше, так как коллеги струуктурные биологи уже обнаружили не очень правильные решения на этапе оптимизации полученной от нейросети структуры

P.S Коллеги нашли и в базе кучу очень странных структур. Видимо, лучше запускать руками))

https://alphafold.ebi.ac.uk/

Анонс от deepmind - https://deepmind.com/blog/article/putting-the-power-of-alphafold-into-the-worlds-hands

alphafold.ebi.ac.uk

AlphaFold Protein Structure Database

76 viewsDmitry Penzar, edited 17:20

AI Для Всех

Конечно же оказалось, что BERT like претрейнинг поможет в Image Transformers

#SSL #images #transformer

Twitter

Li Dong

BEiT-large (pretrained on ImageNet-22k) achieves SoTA on ADE20K (57.0 mIoU), and 88.6% top-1 accuracy on ImageNet-1k. Self-supervised learning is the future. Code and pretrained checkpoints: github.com/microsoft/unil… twitter.com/ak92501/status…

80 viewsArtemii, edited 08:35

AI Для Всех

AudioCaptioning - теперь на трансформерах

#audio #transformer #captioning #sound

71 viewsArtemii, edited 09:41