AI Для Всех

After a lot of work, we have finished the implementation of PEP 657 🚀🎉. In Python 3.11🐍, tracebacks will annotate where exactly the error is happening in your code 🤯. No more confusion having to guess what part of the expression is wrong. Learn more at p…

64 viewsArtemii, edited 11:45

AI Для Всех

#alphafold2 #scientificML #biology
В gonzo разбор alphafold2 (скинул начало)

62 viewsDmitry Penzar, edited 20:03

AI Для Всех

Forwarded from gonzo-обзоры ML статей

Highly accurate protein structure prediction with AlphaFold
John Jumper, Richard Evans, Alexander Pritzel, Tim Green, Michael Figurnov, Olaf Ronneberger, Kathryn Tunyasuvunakool, Russ Bates, Augustin Žídek, Anna Potapenko, Alex Bridgland, Clemens Meyer, Simon A. A. Kohl, Andrew J. Ballard, Andrew Cowie, Bernardino Romera-Paredes, Stanislav Nikolov, Rishub Jain, Jonas Adler, Trevor Back, Stig Petersen, David Reiman, Ellen Clancy, Michal Zielinski, Martin Steinegger, Michalina Pacholska, Tamas Berghammer, Sebastian Bodenstein, David Silver, Oriol Vinyals, Andrew W. Senior, Koray Kavukcuoglu, Pushmeet Kohli & Demis Hassabis
Статья: https://www.nature.com/articles/s41586-021-03819-2
Модель: https://github.com/deepmind/alphafold

Ну вот наконец и AlphaFold2. В статье и на гитхабе новая система называется просто AlphaFold, а под названием AlphaFold2 она фигурировала на соревновании CASP14. Новая система является совершенно другой системой по сравнению со старой AlphaFold, участвовавшей на CASP13, так что будьте внимательны и не путайте.

Итак, собственно, какова структура этой системы.

На вход системы поступает последовательность аминокислот белка. Для этой последовательности ищутся эволюционные родственники и генерируется множественное выравнивание (MSA, про него мы несколько раз писали в предыдущих постах о похожих моделях). Также в базе структур белков (с 3D координатами атомов) ищутся гомологичные структуры (если есть), и они тоже поступают на вход.

Сама сеть AlphaFold напрямую предсказывает 3D координаты всех тяжёлых атомов (углероды, азоты) по входным данным.

Сеть состоит из двух частей.

Сначала ствол сети обрабатывает входы с помощью последовательности (аж 48 штук, каждый со своими весами) новых блоков под названием Evoformer (хитрый вариант трансформера). Evoformer выдаёт на выходе тензор с обработанным MSA (размера N_seq*N_res, где N_seq — число последовательностей в MSA, а N_res — число аминокислот) и тензор (размера N_res*N_res) с репрезентацией пар аминокислотных остатков.

За стволом сети следует структурный модуль (structure module), генерирующий вращения и смещения для каждого из аминокислотных остатков (инициализируются они identity вращениями и позициями в начале координат) с помощью 8 слоёв с расшаренными весами.

И структурный модуль, и вся сеть целиком итеративно улучшает свои предсказания, подавая их себе же на вход. Этот процесс называется в работе “recycling”, он выполняется трижды, и существенно повышает качество результата.

Главная хитрость Evoformer’а в обмене информацией между репрезентациями MSA и пар аминокислот, образующих по сути отдельные стримы обработки данных.

Для обработки MSA используется вариант axial attention с чередующимся вниманием по строкам и по столбцам, причём оно gated через сигмоиду. Также есть transition layer, который по сути двуслойный MLP.

Стрим для обработки репрезентаций пар аминокислот по сути представляет собой графовый трансформер, узлами графа выступают соседние аминокислоты, а операции обновления репрезентаций работают над треугольниками аминокислот (следствие из интуиции относительно необходимости соблюдения неравенства треугольника для расстояний между аминокислотами). Две основные операции там это triangle multiplicative update и triangle self-attention.

По репрезентациям MSA считается outer product между всеми позициями попарно и добавляется к соответствующим репрезентациям пар. Так происходит регулярный обмен между стримом MSA и стримом парных фич.

Структурный модуль работает с репрезентацией бэкбона белка, используя прилетающие на вход репрезентации пар и оригинальную последовательность белка из MSA. Структура бэкбона представлена N_res независимыми вращениями и трансляциями каждой конкретной аминокислоты относительно глобального фрейма. Это называется “residue gas” (как бы независимо плавающие аминокислотные остатки, которые мы пытаемся ориентировать в пространстве).

Nature

Highly accurate protein structure prediction with AlphaFold

Nature - AlphaFold predicts protein structures with an accuracy competitive with experimental structures in the majority of cases using a novel deep learning architecture.

68 viewsDmitry Penzar, 20:03

AI Для Всех

#metrics
#rocauc
#дьяконов

Упоминавшаяся статья по rocauc от Дьяконова

Анализ малых данных

AUC ROC (площадь под кривой ошибок)

Площадь под ROC-кривой – один из самых популярных функционалов качества в задачах бинарной классификации. На мой взгляд, простых и полных источников информации «что же это такое» нет. Как правило, …

61 viewsDmitry Penzar, edited 08:34

AI Для Всех

Few-shot neural architecture search

#nas

Facebook

Introducing few-shot neural architecture search

We’re sharing our work on few-shot neural architecture search (NAS), which combines the accuracy of vanilla NAS with the speed and efficiency of one-shot NAS. Few-shot NAS lets anyone design a powerful custom model quickly, with just a few GPUs.

64 viewsArtemii, edited 19:57

AI Для Всех

OpenAI зарелизил модели для Image Diffusion.

#diffusion #images #generative

GitHub

guided-diffusion/model-card.md at main · openai/guided-diffusion

Contribute to openai/guided-diffusion development by creating an account on GitHub.

73 viewsArtemii, edited 20:08

AI Для Всех

Forwarded from Neural Shit

Нашёл годный репозиторий с коллекцией интересных колаб-ноутбуков как-либо связанных с нейронками и машинным обучением.

По ссылке таблица с описанием, ссылками на автора, страницу проекта (если есть) и сам ноутбук.

https://github.com/amrzv/awesome-colab-notebooks

67 viewsArtemii, 20:15

AI Для Всех

Новая YOLO, ещё точнее, ещё быстрее

#images #detection

Twitter

YOLOX: Exceeding YOLO Series in 2021 pdf: arxiv.org/pdf/2107.08430… abs: arxiv.org/abs/2107.08430 github: github.com/Megvii-BaseDet…

76 viewsArtemii, edited 20:23

AI Для Всех

Хороший ноутбук с альфолд2.
До этого была предыдущая его версия

#ScientificML #Alphafold2 #biology

Google

AlphaFold2.ipynb

Run, share, and edit Python notebooks

77 viewsDmitry Penzar, edited 07:51

AI Для Всех

Colab по CLIP guided diffusion

#generative #text2image #diffusion #CLIP

Google

CLIP Guided Diffusion.ipynb

Colaboratory notebook

73 viewsArtemii, edited 08:51

AI Для Всех

Теперь целая база с последоввательностями, предсказанными alphafold.

Надо смотреть - вообще говоря, запускать модель самим может оказаться идеей лучше, так как коллеги струуктурные биологи уже обнаружили не очень правильные решения на этапе оптимизации полученной от нейросети структуры

P.S Коллеги нашли и в базе кучу очень странных структур. Видимо, лучше запускать руками))

https://alphafold.ebi.ac.uk/

Анонс от deepmind - https://deepmind.com/blog/article/putting-the-power-of-alphafold-into-the-worlds-hands

alphafold.ebi.ac.uk

AlphaFold Protein Structure Database

79 viewsDmitry Penzar, edited 17:20

AI Для Всех

Конечно же оказалось, что BERT like претрейнинг поможет в Image Transformers

#SSL #images #transformer

Twitter

Li Dong

BEiT-large (pretrained on ImageNet-22k) achieves SoTA on ADE20K (57.0 mIoU), and 88.6% top-1 accuracy on ImageNet-1k. Self-supervised learning is the future. Code and pretrained checkpoints: github.com/microsoft/unil… twitter.com/ak92501/status…

83 viewsArtemii, edited 08:35

AI Для Всех

AudioCaptioning - теперь на трансформерах

#audio #transformer #captioning #sound

74 viewsArtemii, edited 09:41