DL in biology
608 subscribers
10 photos
1 video
9 files
129 links
Разбираем статьи про нейросети в биологии и обсуждаем результаты гостей и участников. Семинары проходят на ФББ МГУ и онлайн. Пишите: @homo_sapiens34, @octolis

Картинка на аватарке: https://www.biocomicals.com/ind_comicsV2.php?number=20120713
Download Telegram
Коллеги, простите, ссылка на семинар запустится через пару минут
Запись предыдущего семинара в двух частях. Первая, вторая. Докалад Лёни Урошлева не записывался.
Large-scale clinical interpretation of genetic variants using evolutionary data and deep learning

Текст:
https://www.biorxiv.org/content/10.1101/2020.12.21.423785v1
Код: модификация предыдущей работы авторов https://github.com/debbiemarkslab/DeepSequence
Модель: байесовский вариационный автоэнкодер

Что предсказывали
В конечном счете -- патогенность миссенс-мутаций в геноме человека. Но делали это очень красивым непрямым способом.

Предобучение
Сначала для каждого белок-кодирующего гена брали выравнивание гомологов из всех возможных геномов (> 139 тыс. организмов). Вариационный автоэнкодер обучали сжимать такие выравнивания. В процессе этого автоэнкодер выучивал распределения, по которым для каждой возможной мутации в каждой позиции можно было оценить, насколько она вероятна. Выражением этой вероятности считался некоторый “эволюционный индекс”.

Классификация
Эволюционные индексы всех возможных мутаций (каждого белка по отдельности?) собрали в одно распределение. Оно оказалось двугорбым, и его разделили на две гауссианы, условно соответствующие патогенным и не патогенным мутациям. Исходя из этих двух гауссиан, каждой отдельной мутации присвоили метку -- вероятность этой мутации оказаться или не оказаться патогенной.

Что получилось
Полученные скоры хорошо предсказывают метки из базы ClinVar (AUC 0.90) и дают уверенные предсказания для многих мутаций, эффект которых не известен.

Авторы особо подчеркивают, что их модель не видит меток при обучении, и это лишает ее возможности переобучиться. Что же касается возможности неявно переобучиться на конкретные группы организмов, которых просто больше секвенировано, -- то и эту проблему авторы успешно обходят. Они взвешивают последовательности в выравнивании пропорционально их уникальности.
Разобрать подробнее на семинаре?
Anonymous Poll
88%
Да
12%
Нет
Evolution Is All You Need: Phylogenetic Augmentation for Contrastive Learning

Текст:
https://arxiv.org/abs/2012.13475
Код: нет, но есть формулы

Статья-видение. Авторы предлагают новую разновидность contrastive learning для обучения именно биологических моделей.

Contrastive learning -- одна из популярных концепций самообучения (self-supervised learning). Самообучение часто бывает полезно, когда данных много, а меток для них мало. Можно предобучиться на неразмеченных данных и что-то понять про их структуру -- а потом уже приступать к классификации. Для стадии предобучения данные часто размножают (аугментируют), и в этой работе авторы заметили, что биологические данные и так уже аугментированы эволюцией, причем очень подходящим для contrastive learning образом.

Собственно идея контрастирования заключается в следующем. Представим, что у нас есть картинки, и для каждой картинки определены два разных аугментирующих преобразования -- например, поворот на 90 градусов и размытие. Цель -- научиться понимать, какие картинки являются вариантами друг друга. Для этого нужно найти такую функцию (энкодер), которая отобразит два варианта одной исходной картинки в максимально близкие точки, а варианты разных картинок -- в далёкие. Будем требовать, чтобы это выполнялось для всех картинок, а степень близости итоговых точек определим через взаимную информацию их распределений. Если хорошо подобрать преобразования, такой энкодер научится отделять важное от неважного.

На практике вместо взаимной информации считают более простую функцию, являющуюся её нижней оценкой. Оптимизируется функция для N пар производных картинок, из которых одна пара “правильная” -- соответствует двум разным преобразованиям одной исходной картинки, а остальные пары “неправильные” -- соответствуют разным картинкам. Преобразования при этом не фиксируют, а сэмплируют каждый раз из некоторого заранее заданного распределения.

Так вот, биология. Авторы предлагают перейти к работе с последовательностями и рассматривать их в контексте ортологических рядов. Исходная “картинка” каждого ряда -- это его предковая последовательность, а все современные последовательности -- преобразования исходной картинки. Теперь можно применить всю ту же процедуру обучения энкодера. Хорошими парами будут считаться пары ортологов, а плохими -- пары из разных семейств. Из некоторого математически мотивированного принципа следует, что хорошие пары лучше составлять из максимально далеких друг от друга последовательностей.

Обученный таким образом энкодер выучит признаки, которые эволюция сохраняет во всех своих “преобразованиях” -- а значит, эти признаки являются биологически важными.
Сделать семинар с разбором формул?
Anonymous Poll
82%
сделать
14%
сразу прогать
4%
в топку
На одном из прошлогодних семинаров мы с коллегами из Сберлоги обсуждали соревнование kaggle “OpenVaccine: COVID-19 mRNA Vaccine Degradation Prediction”, и кто-то в нем даже участвовал. Цель соревнования была предсказать стабильность разных частей РНК в разных условиях. Если научиться это лучше предсказывать, можно будет сделать следующую РНК-вакцину более стабильной, и она уже не будет требовать хранения при -70 градусах.

Теперь Nvidia опубликовала рассказ своих грандмастеров об их решениях. Эти решения заняли 2, 17 и 20 места в итоговом рейтинге. Использовали, в основном, RNN. Из фишек -- аугментация с помощью arnie, батч-дропаут и немного графовых сетей.

Спасибо Артему Артемову за наводку.

https://youtu.be/sp3kZwKKYfw
В эту пятницу 22 января в 19:00 будет насыщенный семинар. Сначала мы кратко разберем препринт "Large-scale clinical interpretation of genetic variants using evolutionary data and deep learning". А потом под присмотром товарищей математиков будем пытаться понять, как работает contrastive learning, — и как его можно применить в биологии.

Примерный план: полчаса на первую тему, час на вторую. Запись будет, ссылка появится здесь за час до семинара.
Извините, коллеги, мы переносим сегодняшний семинар из-за болезни основного докладчика. На когда, пока не решили, напишем позже.
И все-таки мы разберем препринт про вариационный автоэнкодер для предсказания эффекта мутаций. А потом все-таки поговорим про contrastive learning с математиками. В эту пятницу, 29 января, в 19:00. Ссылка будет здесь за час до семинара.
Can a fruit fly learn word embeddings?

Текст: https://arxiv.org/pdf/2101.06887.pdf
Код: не выложен

В мозгу дрозофил есть структура под названием “грибовидное тело”, основу которого составляют особые нейроны — клетки Кеньона. Эта структура отвечает за восприятие запахов, температуры, влажности и визуальных сигналов. Обработка таких разных сигналов происходит эффективно благодаря тому, что клетки Кеньона связаны друг с другом через специальный “фильтрующий” нейрон, который блокирует все слабые сигналы.

Авторы статьи задались вопросом: а сможет ли сетка, построенная по принципу грибовидного тела, решать задачи, связанные с текстом? Сможет ли она извлекать из текста корреляции между словами и их контекстом? Подумали и сделали рекуррентную сетку, в которой есть слои, соответствующие клеткам Кеньона и ингибирующему нейрону.

Обучение
Обучали без учителя на OpenWebText Corpus. На вход сетке подавалась пара “слово-контекст” вместе с вектором вероятности встретить слово в корпусе. На выходе сетку просили распределить пары “слово-контекст” по их похожести друг на друга на k групп, соответствующих k нейронам из слоя Кеньона. Обученные таким образом нейроны Кеньона можно использовать для генерации эмбеддингов, которые, как оказалось, отражают семантические свойства слов и их контекст.

Результаты
Авторы протестировали полученные эмбеддинги на 4 задачах.
- сравнили семантическое сходства их эмбеддингов с размеченными человеком
- сравнили кластеризации своих эмбеддингов с эмбеддингами, полученными Word2Vec и GloVe)
- просили нейронную сеть различать значения одного и того же слова в разном контексте, например, bank account и river bank, или Apple iPhone и apple pie
- просили сеть распределить новостные статьи по 35 категориям

Сетка справилась с этими задачами не хуже (но и не сильно лучше) других методов, однако она гораздо быстрее учится: всего несколько часов против суток для GloVe и BERT.
Разобрать подробнее на семинаре?
Anonymous Poll
79%
Да
21%
Нет
Ссылка на сегодняшний семинар про использование эволюционной информации в DL. В программе Байесовский вариационный автоэнкодер для предсказания эффекта мутаций и contrastive learning на белках в реализации SimCLR. Начало в 19:00.
Запись семинара про эволюционную информацию. Часть первая, часть вторая. Слайды вот.
Instance-level contrastive learning yields human brain-like representation without category-supervision

Текст:
https://www.biorxiv.org/content/10.1101/2020.06.15.153247v1

Неожиданный бенчмарк архитектур и способов их обучения. Авторы проверили, насколько представления картинок, выученные нейросетями, похожи на те, что формируются в зрительной коре человеческого мозга.

Сетки разных архитектур (Alexnet, Resnet, Cornet) учили на аугментированном картиночном датасете ImageNet в двух режимах. В supervised режиме сетку учили правильно определять класс картинки, а в unsupervised сетка должна была, не зная классов, выучить для картинок хорошие низкоразмерные представления — эмбеддинги. Хорошесть эмбеддингов определялась через contrastive loss — требовалось, чтобы похожие изображения (размноженные варианты одной и той же исходной картинки) давали близкие эмбеддинги, а непохожие — далекие.

После обучения каждой сетке показывали 72 новые картинки разных неодушевленных предметов и сравнивали эмбеддинги сетки с активациями зрительной коры живых людей, которым в предыдущем исследовании показывали ровно те же самые 72 картинки.

Напрямую сопоставить нейроны искусственной сетки участкам мозга нельзя, поэтому для сравнения использовали следующий трюк. Смотрели, насколько похожи между собой представления всех возможных пар картинок — в сетке и в мозге. Например, если картинки A и В активируют зрительную кору похожим образом, а картинка C — каким-то совсем другим, то и от сетки, работающей по похожему на мозг принципу, разумно ожидать такого же соотношения между эмбеддингами этих картинок.

Оказалось, что по паттерну схожести представлений больше всего на зрительную кору похожи те сетки, которые учились методом contrastive learning. Все эмбеддинги, получаемые supervised методом, меньше похожи на мозг. Что, по мнению авторов, и не удивительно: мозгу не требуются миллионы размеченных картинок, чтобы научиться различать классы объектов, — а значит, он учится больше в unsupervised режиме.

К разбору не предлагаем.
Завтра в 18:10 будет онлайн-семинар на ФКН ВШЭ. Обещают два доклада, первый про использование механизма внимания для предсказания вторичной структуры ДНК, а второй — про динамику репостов в соцсетях.

https://aspirantura.hse.ru/en/cs/announcements/440391999.html
В следующую пятницу 26 марта в 18:00 Борис Бурков расскажет о методах оценки неопределенности предсказания нейросетей при помощи байесовских методов (вдогонку прошлому докладу про байесовский вариационный автокодировщик) по мотивам работ Ярина Гала и Зубина Гарамани.

Концепция вариационного дропаута построена на ряде идей-пререквизитов, и для раскрытия требует достаточно серьезной артподготовки. Поэтому программа-максимум доклада:

- пара слов об истории байесовских нейросетей
- байесовская регрессия
- ядерная регрессия
- гауссовы процессы
- вариационный вывод и ELBO, стохастический вариационный вывод
- регуляризация нейросетей, бинарный и гауссовский дропаут
- собственно вариационный дропаут
- прикладная конкретика: библиотека вероятностного программирования Uber Pyro
Напоминаем, что сегодня в 18:00 будет семинар про байесовские методы. Ссылка на зум.
variational-dropout-1.html
1.8 MB
Запись и презентация предыдущего семинара. Успели очень немного, поэтому в эту пятницу в 18:00 будет вторая часть, в начале которой тезисно повторим первую.
Напоминаем, что сегодня в 18:00 будет продолжение семинара про байесовские методы. Ссылка на зум.