Вениамин Фишман
1.25K subscribers
406 photos
73 videos
26 files
168 links
Генетика через призму AI, а также о науке (и в целом о жизни) в РФ и за рубежом
Download Telegram
Первая статья, котору мы выложили в начале недели - результат совместной работы с группой из института AIRI (Aritificial Intelligent Research Institute, частный некоммерческий научный институт в Москве) и грппой Михаила Бурцева из МФТИ. Мы разработали языковую модель ДНК - чтобы понять, что это и зачем она нужна, нужно в двух словах рассказать о том, что вообще такое языковые модели.

Мы с вами встречаемся с языковыми моделями достаточно часто. Например, на их основе работает google translate, или сервисы, автоматически исправляющие ошибки в тексте впроде grammarly. Более продвинутые модели, вроде chatGPT, могут сами генерировать текст - часто довольно осмысленный.
Для работы языковой модели нужно каким-то образом научить компьютер "понимать" смысл текста. Это сложная задача, учиывая то, как устроен наш язык - с синонимами, омонимами, возможностью в ряде случаев пропускать слова и "догадываться" об общем смысле из контекста. Не вдаваясь в дебри того, как именно компьютер учат решать задачу "понимания" текста, скажу только что для этого часто используют задачу mask-language-model, когда из уже существующих текстов убирают несколько слов и требуют от компьютера угадать пропущенные слова. Оказывается, что играя в эту нехитрую игру, компьютер каким-то образом обучается не только вставлять недостающие слова, но и получать некое представление обо всем смысле введенного текста (что, в целом, логично, потому что для того чтобы вставить пропущенное в предложении слово нужно понять смысл контекста, в котором оно находится). Технически, компьютер превращает текст в некоторый вектор в многомерном пространстве так, что похожие тексты будут близкими (геометрически) друг к другу векторами, а непохожие - далекими. Обученная таким образом нейросеть может решать самые разные задачи, связанные с пониманием смысла текста - переводить с одного языка на другой, перефразировать текст или создать его короткую аннотацию, находить похожие тексты по поисковому запросу и т.д.

Мы решили - а что если проделать ту же процедуру с ДНК, т.е. скармливать компьютеры фрагменты генома человека (предложения), "спрятав" небольшое количество букв, и просить его по "смыслу" увиденного определить, что мы спрятали?

Оказывается, эта аналогия с текстом удивительно хорошо работает и для генома. Получилось, что натренированный таким образом компьютер может решать самые разные биологические задачи, связанные с анализом ДНК. Например, "угадывать" на какие участки ДНК сядет тот или иной белок, предсказывать, где начинаются и заканчиваются гены, определять к какому виду организмов принадлежит фрагмент генома.

Больше о нашей работе можно прочитать в коротком твитториале в моем твиттере:
https://twitter.com/minjaf/status/1668994260899618817

и собственно в статье (не судите строго - это пока препринт, и мы уже нашли там парочку неточностей; будет ещё обновленная версия):
https://www.biorxiv.org/content/10.1101/2023.06.12.544594v1
🔥51
Вторая статья сделана нашей группой в ИЦиГе, в рамках гранта РНФ, которым руководит Мария Гридина.

Наверное многие из тех, кто читают этот блог, знают, что мой основной научный интерес - исследование укладки ДНК в ядре. Для этого мы используем метод Hi-C, который позволяет узнать какие фрагменты генома находятся близко друг к другу. Идея этого метода изящная и, в то же время, простая: геном, не извлекая из ядра клетки, нужно порезать на кусочки, а потом отдельные кусочки снова сшить обратно. Если два участка находились близко друг к другу (например, в основании петли ДНК), то они смогут соединиться. Прочитав последовательности сшитых ДНК можно определить, какие фрагменты соединились и, значит, были близко друг к другу.

Наша новая статья как раз о том, как лучше резать геном. Вообще есть много ферментов, которые режут ДНК, но не все они могут работать, когда ДНК окружена белками внутри клетки. А это важно - если ДНК выделить и убрать белки, то во время этой процедуры вся укладка разрушится и мы ничего не узнаем. Раньше для разрезания ДНК в ядре использовали несколько ферментов, у каждого из которых есть свои недостатки. В прошлой работе мы предположили, что часть проблем связана с тем, что используемые ферменты умеют не только разрезать двухцепочечную ДНК, но и надкусывать отдельные цепи (это называется "никазной" активностью). Оказалось, что есть коммерчески доступный фермент, S1-нуклеаза, который такой активностью не обладает - но было не известно, умеют ли S1 разрезать ДНК в ядре. Проверили - умеет! Дальше дело было за малым - тщательно описать, в каких местах режут новые ферменты и насколько эффективно они это делают. Так получилось сделать новый метод, которым мы сами пользуемся уже пару лет, а теперь опубликуем и может ещё кому-то пригодится.

Об этой статье тоже можно прочитать у меня в твиттере:
https://twitter.com/minjaf/status/1669717312981663745

или на биоархиве:
https://www.biorxiv.org/content/10.1101/2023.06.15.545138v1
👍5
Первое, что я сделал, получив ВНЖ - транспортную карту. Теперь можно пересаживаться между автобусами бесплатно в течение 3 часов )

Интересно, что карточка именная, а данные на ней печатают прямо при посещении кассы на вокзале.

А сейчас - получаю банковскую карту. В общем, становлюсь нормальным членом общества
👍7🎉1
Любопытный случай произошел сегодня в магазине. Я немного опоздал и попал в магазинный часпик, когда на кассах большие пробки. Выбрал очередь где поменьше людей, преимущественно там стояли пенсионерки с большими корзинами. Ждать очереди пришлось минут 15, да ещё и какая-то бабушка влезла передо мной с большей корзиной. Впрочем, я решил что препираться на португальском с ней не буду.

Наконец, подошла моя очередь, но кассирша отказалась меня обслуживать. Она сказала что-то про preferential (на кассе стояла табличка "caixa preferencial") и отправила меня на другую кассу, где я снова пропал в конец очереди. Ну ладно.

Тут прибегает пенсионерка, которая меня подрезала, и давай тащить обратно на эту preferential кассу. Потащила, и что-то мне вещает там со скоростью дельфина. Ну, я ей свое любимое - nao falo Portuguese, моя я на вашем ничего не понимаю и вообще в домике. Но пенсионерка не растерялась - do you speak English, говорит? Она, мол, учитель английского, а касса preferential - это для пенсионеров и инвалидов. Но они в очереди обсудили ситуацию и решили меня пропустить, раз уж я так долго стоял. Вот такие милые бабушки. Пока мне пробивали продукты, всей очередью выяснили откуда я, где живу, работаю, что планирую делать дальше и уже стали предлагать бесплатные уроки Португальского по вечерам - еле убежал 😂
😁13👍5🤗2
По дороге на обед встретил большую бабочку. Вообще тут их много видов и есть очень красивые
В журнале "Наука в Сибири" неожиданно для меня появился краткий пересказ институтского семинара, на котором несколько исследователей (в том числе и я) давали рекомендации по написанию заявок РНФ. С одной стороны, мне приятно, что мои советы попали "в подборку" и, в целом, текст журналистом написан хорошо - фразы не вырваны из контекста (а там было что вырвать). С другой стороны, остался неприятный осадок от того, что со мной текст не согласовали - тем более, что с наукой в сибири у меня хорошие отношения и вышел не один материал. Все-таки семинар, хотя и был публичным, планировался на аудиторию ученых (в первую очередь - моих коллег из ИЦиГ) и не все, что я там говорил, я хотел бы публиковать в газетах.

https://www.sbras.info/articles/mneniya/kak-napisat-uspeshnuyu-zayavku-na-grant
The perfect plan for your Friday night! AIRI researchers’ talk at the OpenBioML Journal Club 👀

Researchers from the Bioinformatics group will speak about open source GENA-LM models for long DNA sequences: https://www.biorxiv.org/content/10.1101/2023.06.12.544594v1

🔗 The talk will be broadcasted in Zoom, the language of the report is English: https://harvard.zoom.us/j/97375262666?pwd=VDJhLzVpSHFjd1Q0bjB0dUhFZ1NsUT09

🔗 Read more about the Discord community and join it here: https://www.openbioml.org/

See you!
👍3
Завтра можно сходить на семинар - послушать, что я делаю вместе с коллегами из института искусственного интеллекта. В 19-00 по Москве (23-00 в Новосибирске). Если есть друзья, которые занимаются ML, можно переслать объявление им тоже.
Прочитал сегодня очень интересную научную историю. Наверное, вы все слышали про статины - это очень известный препарат для уменьшения холестерола в крови. В некоторых странах его систематически прописывают всем с пограничным или высоким уровнем холестерола начиная с 30-35 лет для борьбы с гипертонией.

Однако не все знают, что у этого лекарства есть достаточно частый побочный эффект, связанный с миопатией.

Ученые, изучая семейный случай заболевания семейной формой миопатии, открыли ген, нарушения которого вызывает эту болезнь. Оказалось, что этот ген кодирует фермент, который участвует в синтезе небольшой молекулы - мевалоната. Именно ее недостаток вызывает миопатии. И именно этот фермент ингибируют статины!

Исследование редкой наследственной болезни, которая встречается у считанных на пальцах двух рук людей на земле, позволило понять причину побочного эффекта лекарства, которое принимают миллионы людей! Более того, Израильские ученые получили разрешение на тестирование простой терапии - если мевалоната нехватает в организме, можно его просто вводить искусственно. И действительно, это существенно облегчело течение болезни у пациентки с наследственной миопатией. А значит и для пациентов, страдающих от побочных симптомов статинов, миопатию можно предотвратить введением мевалоната.

Подробный твиториал (на английском):
https://twitter.com/doctorveera/status/1663319659922477057
👍1
Чит #1: прогнать научную статью через chatGPT. +1 к IF журнала
Чит #2: прогнать письмо зарубежным колабораторам через chatGPT. Сразу думают, что ты из европейско-американского консорциума =)
Кстати, а кто-то пробовал гпт от Яндекса? Вчера обсуждали, что она умеет истории сочинять на заданную тему.
Сегодня я обнаружил, что на дискорде (sic!) есть очень даже активное научное коммьюнити из области геномики (да и из других областей похоже тоже). Видимо, теперь вместо твитториолов будут дискордиалы?
👍1
Вениамин Фишман
Photo
Максимально неожиданный для Бразилии вид спорта - ребята тренируются бегать на лыжероллкрах прямо около входа в институт
Вышел с работы и прямо у входа увидел двух туканов. Жаль, они сидели высоко и хорошее фото не получилось
👍7🔥2
Сегодня впервые услышал в Бразилии на улице русскую речь. Стало любопытно, подошёл познакомиться. Оказалось, девушка из Эстонии, заканчивает phD в близкой мне области (фармакологические мишени при болезни Паркинсона). Впечатления от науки в Бразилии у нее не самые позитивные - собирается искать постдока в Европе. Жалуется, что жить с детьми тут очень дорого: обучение в школе стоит 3000 реалов в месяц, причем качество ее не очень устраивает. А ещё рассказала, как ее ограбили прямо у входа в кампус университета. В общем, Бразилия, как и любая другая страна, заходит не всем.
😱3😢1
image.png
51.9 KB
Вот такой комментарий пришел редактору при рассмотрении статьи моих коллег. Угадайте, из какой страны рецензент? Ответ: из Израиля
У меня было много разных планов на выходные, но в итоге они не сложились и я просто поехал в Гуаруджу. Поселился на этот раз на самом дальнем пляже, уже почти в деревне. Место приятное, тут тихо и много птиц.
Заодно я попробовал поездки на blablacar. Это существенно дешевле, чем на автобусе, и мне повезло найти водителя, который выезжал прямо из кампуса университета. В Сан-Пауло это принципиально: ехать до автовокзала по времени столько же, сколько добраться от автовокзала до соседнего города у моря.
Оказалось, что все попутчики говорят на английском: водитель - физик-ядерщик из университета, его девушка несколько лет жила в Чехии во время его постдока и там выучила английский, а ещё одна пассажирка - преподаватель английского, которая несколько лет провела в США. Так что в дороге удалось поболтать.

Мне посоветовали несколько мест для будущих поездок вокруг Сан-Пауло: Paranapiacaba, деревня, рядом с которой есть тропа спиритуалистов (дали телефон гида-индейца, который водит экскурсии по тропе), Nucleo do Engordador, Estrada Velha.