DL in biology
608 subscribers
10 photos
1 video
9 files
129 links
Разбираем статьи про нейросети в биологии и обсуждаем результаты гостей и участников. Семинары проходят на ФББ МГУ и онлайн. Пишите: @homo_sapiens34, @octolis

Картинка на аватарке: https://www.biocomicals.com/ind_comicsV2.php?number=20120713
Download Telegram
Денис сделал колаб, где можно поиграться с классическими бинарными Хопфилдсовскими сетями. А еще там есть ссылки на другие релевантные материалы и ноутбуки.
Статья: Augmented base pairing networks encode RNA-small molecule binding preferences

Текст: https://academic.oup.com/nar/article/48/14/7690/5870337

Код: http://rnamigos.cs.mcgill.ca

Модель: Relational Graph Convolutional Network

Что делали? Тул для предсказания потенциальных лигандов (а точнее - их фингерпринтов) для лиганд-связывающих сайтов в РНК

Что на входе? 3D-структуры 773 сайтов связывания РНК, ассоциированных с 270 уникальными лигандами

Что получилось?
Идея статьи в том, чтобы проверить, содержится ли в графовом представлении РНК, учитывающем неканонические спаривания (augmented base pairing networks, ABPN), достаточная информация о том, с какими лигандами РНК может связываться. Создание тула здесь, в целом, скорее хорошее дополнение - основная часть работы посвящена разнообразным исследованиям ABPN. Авторы придумали несколько хитрых baselines и экспериментов для того, чтобы разобраться с поставленным вопросом. В частности, авторы предлагают свой тест на перспективность проверяемого вещества - скрининг лигандов. В набор из проверяемых кандидатов кладут лиганд из валидационного сета, который точно связывается с РНК. Тул присваивает каждому из веществ некоторый ранг, а затем по тому, насколько близок ранг неизвестного лиганда к валидационному, можно понять его перспективность. Помимо этого, сравнение с другим методом показывает, что описываемая модель лучше генерализует данные.
Развернутая подводка и объявление о семинаре

ML-щики, работающие с биологическими данными без присмотра, часто упускают из виду взаимную зависимость данных. Сами биологи тоже не всегда умеют корректно ее учитывать. Если мы учим сетку детектировать лица на видео, то разрезать запись на кадры и случайным образам делить их на train и test - плохая идея, потому что соседние кадры похожи. В наших данных тоже есть соседние кадры - это гомологи и близкие клеточные линии.

Проблем с близкими данными три. Одна - выделение честного теста, - решается удалением из потенциального теста всего, что достаточно сильно похоже на примеры из обучения. Другая проблема, - что мы переобучаемся на более представленных классах, а третья - что вместо общих закономерностей учим модель кластеризации и частным особенностям кластеров. Чтобы в этом убедиться, достаточно сравнить метрики на новых представителях уже виденных классов и те же метрики на никогда раньше не виденных (см., например, здесь).

Как бороться с неравномерностью (кластеры) и нечестностью выборки (одних много, других мало)? Один из способов - вымарать вокруг каждого обучающего примера все, что хоть сколько-то на него похоже, тогда во входных данных не будет близких кластеров, и сетка сможет увидеть только общие закономерности. Так делают, но во многих задачах это не применимо - остается слишком мало данных. Поэтому люди пытаются как-то учесть расстояние между примерами в явном виде.

Например, в метагеномике, где образец представляет из себя вектор концентраций бактерий из разных классов (OTU), можно при помощи классических методов оценить расстояния между классами на филогенетическом дереве и использовать эту информацию в архитектуре сети. В этой работе авторы приходят в итоге к чему-то очень похожему на свертку по графу.

Помимо этого, можно себе представить введение разных весов для разных примеров в зависимости от их уникальности (например, взвешивать по методу Герштейна-Сонхаммера-Чотьи), но кажется, в биологии такого пока не делали.

В других областях ML встречаются разные подходы к проблеме генерализации, и возможно, наши кластеры в данных они тоже смогут скомпенсировать. Например, можно учить вариационные автоэнкодеры или хитрые специальные автоэнкодеры. Есть надежда, что полученные с их помощью представления будут хорошо интерполировать между кластерами. Большой плюс таких подходов в том, что им не требуется дополнительная информация о расстояниях между примерами.

Вот об этом всем очень хочется поговорить - в формате более развернутого обзора и последующей дискуссии. Вечером в ближайшую пятницу, в зуме, время начала уточняется.
Обещает быть интересным
Forwarded from Alexander C
🚀 Онлайн семинар по ML/DS от "SBERLOGA"
Пятница 9 октября 17.00 по Москве
👨‍🔬 Антон Цицулин сделает доклад: "Эмбеддинги вершин без учителя"

В последние годы всё больше ML пайплайнов строится на эмбеддингах – вещественных векторах довольно малой размерности, отражающие семантические свойства объектов. Мы довольно хорошо научились извлекать их из текстов, картинок, звука, но для графов доступных коробочных решений пока нет. Графы – хитрый вид данных, который возникает, когда нам даны только связи разных объектов между собой. Например, дружба или подписки в соцсетях, покупки товаров и другие действия пользователей – лишь одни из примеров отношений, которые удобно моделировать графами. Я расскажу, как получать эмбеддинги для вершин графов и разберу 10 SotA алгоритмов.

💬 Ссылка на зум:
https://us02web.zoom.us/j/89846165994?pwd=bm1Ld0duTWtUQ1puR2t1UXNtN2g4QT09

Meeting ID: 898 4616 5994
Passcode: 063225

📝 Дополнительная информация в телеграм чате: https://t.me/sberlogawithgraphs
Improved Prediction of Smoking Status via Isoform-Aware RNA-seq Deep Learning Models

Текст:
https://www.biorxiv.org/content/10.1101/2020.09.09.290395v1
Код: не предоставлен
Модель: полносвязные сети с двумя кастомными слоями

Что предсказывали?
Курит сейчас пациент или нет (сейчас = хоть раз за последний месяц). Истинным считался ответ, полученный от самого человека. Никогда не куривших в выборке не было, у всех курильщиков был стаж не менее десяти пачко-лет.

Что на входе?
Данные РНК-секвенирования образцов крови для 5376 человек. Модель учили в одном из четырех режимов, где на вход подавались:
* экспрессии целых генов,
* экспрессии отдельных сплайсинговых изоформ,
* экспрессии экзонов,
* экспрессии экзонов с указанием, в каких изоформах каждый экзон участвует.
Последнее делалось при помощи специального слоя, в архитектуру которого вшита информация об аннотации.

Как делили данные на обучение и тест?
Случайным образом, по людям. Доли женщин/мужчин и белых/черных приблизительно сохранялись.

Что получилось?
Информация о сплайсинге улучшает качество предсказания. На наборе из 5 генов, входящих в ранее найденную экспрессионную подпись курильщика, ROC AUC улучшился с 0.78 до 0.87. А если учитывать экспрессии всех 1270 генов, хоть как-то ассоциированных с курением, то при учете сплайсинга ROC AUC повышается до 0.93. Причем лучше всего работает вариант, когда на вход подают экспрессии экзонов с привязкой к изоформам.

Клиническое применение этой модели, скорее всего, не грозит - анализ крови на метаболиты работает лучше. Но авторы предполагают, что их модель поможет учитывать потенциальный конфаундер в экспрессионных исследованиях болезней легких.

Вообще к статье много вопросов, начиная с невыложенного кода. Но, по-видимому, это она одна из первых сплайсинговых ласточек в экспрессионном DL. Факторы среды меняют сплайсинг генов, а считая суммарную экспрессию, мы эту информацию теряем. И может быть, напрасно.
A deep learning framework for elucidating whole-genome chemical interaction space

Текст:
https://www.biorxiv.org/content/10.1101/2020.10.08.332346v1
Код: https://github.com/XieResearchGroup/DISAE
Модель: ALBERT с надстройками

Что предсказывали?
Связывание для пар белок-лиганд.

Что на входе?
Сначала при помощи ALBERT выучили эмбеддинги для всех последовательностей из Pfam. ALBERT учили предсказывать замаскированные триграммы аминокислот по окружающим триграммам. При этом брались только консервативные позиции белка, определяемые по выравниваниям Pfam.

На второй стадии по полученному эмбеддингу белка и стандартному фингерпринту лиганда учились предсказывать связывание между ними.

Как делили данные на обучение и тест?
Несколькими способами. Как полностью случайно, так и с учетом гомологов.

Что получилось?
Если в тесте есть гомологи того, что было в обучении, то эта модель предсказывает известные взаимодействия хуже, чем ее конкуренты. Но она работает лучше других, когда тест состоит из непохожих последовательностей. Важные для предсказания аминокислоты (оценены SHAP) в одном показанном примере оказываются в лиганд-связывающем кармане - что разумно. А главный практический результат в следующем: для нескольких рецепторов с неизвестной специфичностью авторы предсказали наиболее вероятные лиганды.

В следующую пятницу 23 октября в 18:00 Лиза Григорашвили разберет эту статью более подробно. Ссылка на zoom вот, запись будет.
Напоминаем, что сегодня в 18:00 будем разбирать статью про использование ALBERT для предсказания белок-лигандных взаимодействий. Ссылка вот.
В пятницу тринадцатого в 19:00 Булат Загидуллин из группы Network Pharmacology for Precision Medicine в University of Helsinki расскажет, как с помощью ML ищут новые лекарства и механизмы работы уже существующих. На примере проекта LINCS и работ с датасетом Connectivity Map (CMap) Булат расскажет про возможные подходы и методы построения моделей. Это будет совместный семинар с сообществом Sberloga.

CMap — это самый большой датасет экспрессионных данных (1.5 миллиона профилей) до и после добавления потенциальных лекарств в разных клеточных линиях. Последняя версия датасета была опубликована в 2017 году и широко используется в области (более 300 цитирований), — а прямо сейчас на части данных этого датасета идет соревнование Kaggle. Участникам предлагают предсказать механизм действия новых потенциальных лекарств. Подробнее про это соревнование на прошлой неделе на семинаре Sberloga рассказывал Андрей Лукьяненко. Слайды вот, скоро обещают и видео выложить.

Ссылка на zoom для пятничного семинара с Булатом.
Seeker: alignment-free identification of bacteriophage genomes by deep learning

Текст: https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkaa856/5921300
Код: https://github.com/gussow/seeker , веб-тул: https://seeker.pythonanywhere.com/predict/
Модель: LSTM

Что предсказывали?
Отличали вирусные последовательности ДНК от бактериальных

Что на входе?
Геномы бактериофагов и бактерий по кусочкам длиной 1 kb. Данные из бактерий очищались от профаговых вставок. Обучение проводилось в два этапа, на каждом из которых данные ранжировались по “сложности”.

Как делили данные на обучение и тест?
80/20 (тест заявлен как независимый). Для сравнения с другими методами сделали 4 тестовых сета:
- 154574 вирусов с известным хозяином из базы данных IMG/VR
- тест, имитирующий реальные метагеномные данные
- новые вирусные геномы (опубликованные после 2018), которые не использовались при обучении
- данные shotgun-sequencing

Результаты сетки оценивались не по отдельным кусочкам, поданным на вход, а по полным геномам.

Что получилось?
Seeker сравним с другими методами на всех тестовых выборках. Однако фокус статьи на другом. Seeker был проверен на реальных метагеномных данных с целью найти неизвестные фаги. 85% из всех предсказанных сеткой кандидатов имеют фаговые маркеры - белки, которые бывают у всех хвостатых фагов (tailed phages). Обнаруженные фаги до этого не были описаны. 5 из этих новых фагов авторы исследовали более пристально: проаннотировали геномы, определили их положение на филогенетическом дереве и назвали их по персонажам из Гарри Поттера 🧙

Авторы отдельно отмечают, что они ограничивали число параметров сетки, аккуратно готовили данные и контролировали обучение, чтобы избежать оверфиттинга и биологически неадекватных результатов. Впрочем, Seeker не очень умеет различать фаговые геномы и эукариотическую контаминацию, и все-таки иногда путает вирусные и бактериальные последовательности. Отказ от использования выравниваний они считают своей фишкой, которая позволяет находить фагов, сильно непохожих на уже известных. Например, у одного из обнаруженных новых фагов неканонический генетический код. Однако, что выучила сетка, чтобы такое уметь, в статье не обсуждается.
Коллеги, нас атаковали бомберы, ссылка не используется больше.
Семинар перенесен.
DL in biology
В пятницу тринадцатого в 19:00 Булат Загидуллин из группы Network Pharmacology for Precision Medicine в University of Helsinki расскажет, как с помощью ML ищут новые лекарства и механизмы работы уже существующих. На примере проекта LINCS и работ с датасетом…
Семинар с Булатом про ML в разработке лекарств все-таки будет в эту пятницу, в 18:00. Просим прощения за перенос. Ссылка на подключение будет позже.
Ссылка для сегодняшнего семинара: https://us02web.zoom.us/j/88049362505?pwd=d0VQdm1UQU5vVldlOENHeFczcHlEUT09