gonzo-обзоры ML статей

2.4K views17:13

2.5K views17:14

2.6K views17:15

Accurate prediction of protein structures and interactions using a 3-track network
Minkyung Baek, Frank DiMaio, Ivan Anishchenko, Justas Dauparas, Sergey Ovchinnikov, Gyu Rie Lee, Jue Wang, Qian Cong, Lisa N. Kinch, R. Dustin Schaeffer, Claudia Millán, Hahnbeom Park, Carson Adams, Caleb R. Glassman, Andy DeGiovanni, Jose H. Pereira, Andria V. Rodrigues, Alberdina A. van Dijk, Ana C. Ebrecht, Diederik J. Opperman, Theo Sagmeister, Christoph Buhlheller, Tea Pavkov-Keller, Manoj K Rathinaswamy, Udit Dalwadi, Calvin K Yip, John E Burke, K. Christopher Garcia, Nick V. Grishin, Paul D. Adams, Randy J. Read, David Baker
Статья: https://www.biorxiv.org/content/10.1101/2021.06.14.448402v1
Модель: https://github.com/RosettaCommons/RoseTTAFold

С того момента, как AlphaFold2 всех побил на соревновании по предсказанию белковых структур CASP14 (https://www.nature.com/articles/d41586-020-03348-4) было много обсуждений и домыслов, что у этой штуки внутре. Некоторые команды пытаются собрать свою версию AlphaFold2 (https://github.com/lucidrains/alphafold2) на основе доступной информации. DeepMind вот уже обещает детальную статью (в стадии ревью) и код в опенсорсе (https://twitter.com/demishassabis/status/1405922961710854144), но пока не выдал. В это время другие исследователи предлагают свои альтернативные подходы к таким задачам.

Вот недавно большая команда исследователей предложила свою сеть, работающую с тремя типами данных (они это называют 3-track network, что, наверное, можно назвать трёхмодальной сетью): 1D информация о последовательностях, 2D карта расстояний и 3D уровень координат атомов. AlphaFold2 вроде как 2-track network (1D и 2D, а часть с 3D и итеративным предсказанием структуры там вроде на выходе уже после того как полностью отработали первые две, но это не точно).

Цель сети — предсказать трёхмерные координаты атомов N, Cɑ, C каждой аминокислоты.

Независимо от результата интересен подход. В модели происходит довольно активный обмен данными между разными треками. И в работе собраны несколько интересных вещей, редко встречающихся в других областях.

Пайплайн работает так:

Для целевого белка через HHblits ищутся гомологи в UniRef30 и BFD, строится множественное выравнивание (MSA).

По MSA делается поиск белков-шаблонов (или как по-русски называются эти templates?) в PDB100. Далее из известных структур шаблонов берутся попарные расстояния и ориентации для выравненных позиций, плюс собираются дополнительные фичи (скоры выравнивания, вероятности HHsearch и т.д.).

MSA обрабатывается аналогом MSA трансформера с axial attention. Для колоночного внимания используется архитектура Performer (https://t.me/gonzo_ML/404), уменьшающая требования к памяти с O(LM^2) до O(LM), где L — длина выравнивания, а M — число последовательностей. Для внимания по строкам берут модифицированный вариант зашаренного внимания, уменьшающий вклад невыравненных участков с помощью обучаемого зависящего от позиции веса (это называется soft-tied attention).

Парные фичи (2D) обновляются по сигналу из фич MSA с использованием axial attention также с Performer’ом. MSA фичи в свою очередь обновляются на основе информации, закодированной в парных фичах (и эта идея взята из AlphaFold2).

Далее задействован графовый трансформер архитектуры UniMP (https://arxiv.org/abs/2009.03509), он до сих пор довольно высоко висит в лидерборде Open Graph Benchmark (https://ogb.stanford.edu/). На вход ему прилетает полносвязный граф, где узлы это аминокислоты белка, MSA фичи дают эмбеддинги узлов, а парные фичи — эмбеддинги рёбер. Этот трансформер выдаёт (через 4 слоя графовых слоёв и один слой линейной трансформации) на выходе начальные координаты бэкбона белка для 3D трека.

Затем подключается хитрый SE(3)-трансформер (https://arxiv.org/abs/2006.10503), который эквивариантен относительно трёхмерных вращений и перемещений . Он уточняет xyz координаты на основе обновлённых MSA и парных фич.

bioRxiv

Accurate prediction of protein structures and interactions using a 3-track network

DeepMind presented remarkably accurate protein structure predictions at the CASP14 conference. We explored network architectures incorporating related ideas and obtained the best performance with a 3-track network in which information at the 1D sequence level…

2.4K viewsedited 22:37