Эта неделя богата на хорошие новости!
Мы отправили на биоархив (сервер научных препринтов) две статьи! Коротко расскажу об обеих.
Мы отправили на биоархив (сервер научных препринтов) две статьи! Коротко расскажу об обеих.
Первая статья, котору мы выложили в начале недели - результат совместной работы с группой из института AIRI (Aritificial Intelligent Research Institute, частный некоммерческий научный институт в Москве) и грппой Михаила Бурцева из МФТИ. Мы разработали языковую модель ДНК - чтобы понять, что это и зачем она нужна, нужно в двух словах рассказать о том, что вообще такое языковые модели.
Мы с вами встречаемся с языковыми моделями достаточно часто. Например, на их основе работает google translate, или сервисы, автоматически исправляющие ошибки в тексте впроде grammarly. Более продвинутые модели, вроде chatGPT, могут сами генерировать текст - часто довольно осмысленный.
Для работы языковой модели нужно каким-то образом научить компьютер "понимать" смысл текста. Это сложная задача, учиывая то, как устроен наш язык - с синонимами, омонимами, возможностью в ряде случаев пропускать слова и "догадываться" об общем смысле из контекста. Не вдаваясь в дебри того, как именно компьютер учат решать задачу "понимания" текста, скажу только что для этого часто используют задачу mask-language-model, когда из уже существующих текстов убирают несколько слов и требуют от компьютера угадать пропущенные слова. Оказывается, что играя в эту нехитрую игру, компьютер каким-то образом обучается не только вставлять недостающие слова, но и получать некое представление обо всем смысле введенного текста (что, в целом, логично, потому что для того чтобы вставить пропущенное в предложении слово нужно понять смысл контекста, в котором оно находится). Технически, компьютер превращает текст в некоторый вектор в многомерном пространстве так, что похожие тексты будут близкими (геометрически) друг к другу векторами, а непохожие - далекими. Обученная таким образом нейросеть может решать самые разные задачи, связанные с пониманием смысла текста - переводить с одного языка на другой, перефразировать текст или создать его короткую аннотацию, находить похожие тексты по поисковому запросу и т.д.
Мы решили - а что если проделать ту же процедуру с ДНК, т.е. скармливать компьютеры фрагменты генома человека (предложения), "спрятав" небольшое количество букв, и просить его по "смыслу" увиденного определить, что мы спрятали?
Оказывается, эта аналогия с текстом удивительно хорошо работает и для генома. Получилось, что натренированный таким образом компьютер может решать самые разные биологические задачи, связанные с анализом ДНК. Например, "угадывать" на какие участки ДНК сядет тот или иной белок, предсказывать, где начинаются и заканчиваются гены, определять к какому виду организмов принадлежит фрагмент генома.
Больше о нашей работе можно прочитать в коротком твитториале в моем твиттере:
https://twitter.com/minjaf/status/1668994260899618817
и собственно в статье (не судите строго - это пока препринт, и мы уже нашли там парочку неточностей; будет ещё обновленная версия):
https://www.biorxiv.org/content/10.1101/2023.06.12.544594v1
Мы с вами встречаемся с языковыми моделями достаточно часто. Например, на их основе работает google translate, или сервисы, автоматически исправляющие ошибки в тексте впроде grammarly. Более продвинутые модели, вроде chatGPT, могут сами генерировать текст - часто довольно осмысленный.
Для работы языковой модели нужно каким-то образом научить компьютер "понимать" смысл текста. Это сложная задача, учиывая то, как устроен наш язык - с синонимами, омонимами, возможностью в ряде случаев пропускать слова и "догадываться" об общем смысле из контекста. Не вдаваясь в дебри того, как именно компьютер учат решать задачу "понимания" текста, скажу только что для этого часто используют задачу mask-language-model, когда из уже существующих текстов убирают несколько слов и требуют от компьютера угадать пропущенные слова. Оказывается, что играя в эту нехитрую игру, компьютер каким-то образом обучается не только вставлять недостающие слова, но и получать некое представление обо всем смысле введенного текста (что, в целом, логично, потому что для того чтобы вставить пропущенное в предложении слово нужно понять смысл контекста, в котором оно находится). Технически, компьютер превращает текст в некоторый вектор в многомерном пространстве так, что похожие тексты будут близкими (геометрически) друг к другу векторами, а непохожие - далекими. Обученная таким образом нейросеть может решать самые разные задачи, связанные с пониманием смысла текста - переводить с одного языка на другой, перефразировать текст или создать его короткую аннотацию, находить похожие тексты по поисковому запросу и т.д.
Мы решили - а что если проделать ту же процедуру с ДНК, т.е. скармливать компьютеры фрагменты генома человека (предложения), "спрятав" небольшое количество букв, и просить его по "смыслу" увиденного определить, что мы спрятали?
Оказывается, эта аналогия с текстом удивительно хорошо работает и для генома. Получилось, что натренированный таким образом компьютер может решать самые разные биологические задачи, связанные с анализом ДНК. Например, "угадывать" на какие участки ДНК сядет тот или иной белок, предсказывать, где начинаются и заканчиваются гены, определять к какому виду организмов принадлежит фрагмент генома.
Больше о нашей работе можно прочитать в коротком твитториале в моем твиттере:
https://twitter.com/minjaf/status/1668994260899618817
и собственно в статье (не судите строго - это пока препринт, и мы уже нашли там парочку неточностей; будет ещё обновленная версия):
https://www.biorxiv.org/content/10.1101/2023.06.12.544594v1
🔥5❤1
Вторая статья сделана нашей группой в ИЦиГе, в рамках гранта РНФ, которым руководит Мария Гридина.
Наверное многие из тех, кто читают этот блог, знают, что мой основной научный интерес - исследование укладки ДНК в ядре. Для этого мы используем метод Hi-C, который позволяет узнать какие фрагменты генома находятся близко друг к другу. Идея этого метода изящная и, в то же время, простая: геном, не извлекая из ядра клетки, нужно порезать на кусочки, а потом отдельные кусочки снова сшить обратно. Если два участка находились близко друг к другу (например, в основании петли ДНК), то они смогут соединиться. Прочитав последовательности сшитых ДНК можно определить, какие фрагменты соединились и, значит, были близко друг к другу.
Наша новая статья как раз о том, как лучше резать геном. Вообще есть много ферментов, которые режут ДНК, но не все они могут работать, когда ДНК окружена белками внутри клетки. А это важно - если ДНК выделить и убрать белки, то во время этой процедуры вся укладка разрушится и мы ничего не узнаем. Раньше для разрезания ДНК в ядре использовали несколько ферментов, у каждого из которых есть свои недостатки. В прошлой работе мы предположили, что часть проблем связана с тем, что используемые ферменты умеют не только разрезать двухцепочечную ДНК, но и надкусывать отдельные цепи (это называется "никазной" активностью). Оказалось, что есть коммерчески доступный фермент, S1-нуклеаза, который такой активностью не обладает - но было не известно, умеют ли S1 разрезать ДНК в ядре. Проверили - умеет! Дальше дело было за малым - тщательно описать, в каких местах режут новые ферменты и насколько эффективно они это делают. Так получилось сделать новый метод, которым мы сами пользуемся уже пару лет, а теперь опубликуем и может ещё кому-то пригодится.
Об этой статье тоже можно прочитать у меня в твиттере:
https://twitter.com/minjaf/status/1669717312981663745
или на биоархиве:
https://www.biorxiv.org/content/10.1101/2023.06.15.545138v1
Наверное многие из тех, кто читают этот блог, знают, что мой основной научный интерес - исследование укладки ДНК в ядре. Для этого мы используем метод Hi-C, который позволяет узнать какие фрагменты генома находятся близко друг к другу. Идея этого метода изящная и, в то же время, простая: геном, не извлекая из ядра клетки, нужно порезать на кусочки, а потом отдельные кусочки снова сшить обратно. Если два участка находились близко друг к другу (например, в основании петли ДНК), то они смогут соединиться. Прочитав последовательности сшитых ДНК можно определить, какие фрагменты соединились и, значит, были близко друг к другу.
Наша новая статья как раз о том, как лучше резать геном. Вообще есть много ферментов, которые режут ДНК, но не все они могут работать, когда ДНК окружена белками внутри клетки. А это важно - если ДНК выделить и убрать белки, то во время этой процедуры вся укладка разрушится и мы ничего не узнаем. Раньше для разрезания ДНК в ядре использовали несколько ферментов, у каждого из которых есть свои недостатки. В прошлой работе мы предположили, что часть проблем связана с тем, что используемые ферменты умеют не только разрезать двухцепочечную ДНК, но и надкусывать отдельные цепи (это называется "никазной" активностью). Оказалось, что есть коммерчески доступный фермент, S1-нуклеаза, который такой активностью не обладает - но было не известно, умеют ли S1 разрезать ДНК в ядре. Проверили - умеет! Дальше дело было за малым - тщательно описать, в каких местах режут новые ферменты и насколько эффективно они это делают. Так получилось сделать новый метод, которым мы сами пользуемся уже пару лет, а теперь опубликуем и может ещё кому-то пригодится.
Об этой статье тоже можно прочитать у меня в твиттере:
https://twitter.com/minjaf/status/1669717312981663745
или на биоархиве:
https://www.biorxiv.org/content/10.1101/2023.06.15.545138v1
Twitter
New enzyme for #HiC: S1 nuclease! Get the scoop in our latest preprint on bioRxiv:
https://t.co/Kp6dUXfy3A
and in the short summary below #chromatin #genomics
(1/n)
https://t.co/Kp6dUXfy3A
and in the short summary below #chromatin #genomics
(1/n)
👍5
Первое, что я сделал, получив ВНЖ - транспортную карту. Теперь можно пересаживаться между автобусами бесплатно в течение 3 часов )
Интересно, что карточка именная, а данные на ней печатают прямо при посещении кассы на вокзале.
А сейчас - получаю банковскую карту. В общем, становлюсь нормальным членом общества
Интересно, что карточка именная, а данные на ней печатают прямо при посещении кассы на вокзале.
А сейчас - получаю банковскую карту. В общем, становлюсь нормальным членом общества
👍7🎉1
Любопытный случай произошел сегодня в магазине. Я немного опоздал и попал в магазинный часпик, когда на кассах большие пробки. Выбрал очередь где поменьше людей, преимущественно там стояли пенсионерки с большими корзинами. Ждать очереди пришлось минут 15, да ещё и какая-то бабушка влезла передо мной с большей корзиной. Впрочем, я решил что препираться на португальском с ней не буду.
Наконец, подошла моя очередь, но кассирша отказалась меня обслуживать. Она сказала что-то про preferential (на кассе стояла табличка "caixa preferencial") и отправила меня на другую кассу, где я снова пропал в конец очереди. Ну ладно.
Тут прибегает пенсионерка, которая меня подрезала, и давай тащить обратно на эту preferential кассу. Потащила, и что-то мне вещает там со скоростью дельфина. Ну, я ей свое любимое - nao falo Portuguese, моя я на вашем ничего не понимаю и вообще в домике. Но пенсионерка не растерялась - do you speak English, говорит? Она, мол, учитель английского, а касса preferential - это для пенсионеров и инвалидов. Но они в очереди обсудили ситуацию и решили меня пропустить, раз уж я так долго стоял. Вот такие милые бабушки. Пока мне пробивали продукты, всей очередью выяснили откуда я, где живу, работаю, что планирую делать дальше и уже стали предлагать бесплатные уроки Португальского по вечерам - еле убежал 😂
Наконец, подошла моя очередь, но кассирша отказалась меня обслуживать. Она сказала что-то про preferential (на кассе стояла табличка "caixa preferencial") и отправила меня на другую кассу, где я снова пропал в конец очереди. Ну ладно.
Тут прибегает пенсионерка, которая меня подрезала, и давай тащить обратно на эту preferential кассу. Потащила, и что-то мне вещает там со скоростью дельфина. Ну, я ей свое любимое - nao falo Portuguese, моя я на вашем ничего не понимаю и вообще в домике. Но пенсионерка не растерялась - do you speak English, говорит? Она, мол, учитель английского, а касса preferential - это для пенсионеров и инвалидов. Но они в очереди обсудили ситуацию и решили меня пропустить, раз уж я так долго стоял. Вот такие милые бабушки. Пока мне пробивали продукты, всей очередью выяснили откуда я, где живу, работаю, что планирую делать дальше и уже стали предлагать бесплатные уроки Португальского по вечерам - еле убежал 😂
😁13👍5🤗2
В журнале "Наука в Сибири" неожиданно для меня появился краткий пересказ институтского семинара, на котором несколько исследователей (в том числе и я) давали рекомендации по написанию заявок РНФ. С одной стороны, мне приятно, что мои советы попали "в подборку" и, в целом, текст журналистом написан хорошо - фразы не вырваны из контекста (а там было что вырвать). С другой стороны, остался неприятный осадок от того, что со мной текст не согласовали - тем более, что с наукой в сибири у меня хорошие отношения и вышел не один материал. Все-таки семинар, хотя и был публичным, планировался на аудиторию ученых (в первую очередь - моих коллег из ИЦиГ) и не все, что я там говорил, я хотел бы публиковать в газетах.
https://www.sbras.info/articles/mneniya/kak-napisat-uspeshnuyu-zayavku-na-grant
https://www.sbras.info/articles/mneniya/kak-napisat-uspeshnuyu-zayavku-na-grant
Forwarded from Екатерина Мамонтова
The perfect plan for your Friday night! AIRI researchers’ talk at the OpenBioML Journal Club 👀
Researchers from the Bioinformatics group will speak about open source GENA-LM models for long DNA sequences: https://www.biorxiv.org/content/10.1101/2023.06.12.544594v1
🔗 The talk will be broadcasted in Zoom, the language of the report is English: https://harvard.zoom.us/j/97375262666?pwd=VDJhLzVpSHFjd1Q0bjB0dUhFZ1NsUT09
🔗 Read more about the Discord community and join it here: https://www.openbioml.org/
See you!
Researchers from the Bioinformatics group will speak about open source GENA-LM models for long DNA sequences: https://www.biorxiv.org/content/10.1101/2023.06.12.544594v1
🔗 The talk will be broadcasted in Zoom, the language of the report is English: https://harvard.zoom.us/j/97375262666?pwd=VDJhLzVpSHFjd1Q0bjB0dUhFZ1NsUT09
🔗 Read more about the Discord community and join it here: https://www.openbioml.org/
See you!
👍3
Завтра можно сходить на семинар - послушать, что я делаю вместе с коллегами из института искусственного интеллекта. В 19-00 по Москве (23-00 в Новосибирске). Если есть друзья, которые занимаются ML, можно переслать объявление им тоже.
Прочитал сегодня очень интересную научную историю. Наверное, вы все слышали про статины - это очень известный препарат для уменьшения холестерола в крови. В некоторых странах его систематически прописывают всем с пограничным или высоким уровнем холестерола начиная с 30-35 лет для борьбы с гипертонией.
Однако не все знают, что у этого лекарства есть достаточно частый побочный эффект, связанный с миопатией.
Ученые, изучая семейный случай заболевания семейной формой миопатии, открыли ген, нарушения которого вызывает эту болезнь. Оказалось, что этот ген кодирует фермент, который участвует в синтезе небольшой молекулы - мевалоната. Именно ее недостаток вызывает миопатии. И именно этот фермент ингибируют статины!
Исследование редкой наследственной болезни, которая встречается у считанных на пальцах двух рук людей на земле, позволило понять причину побочного эффекта лекарства, которое принимают миллионы людей! Более того, Израильские ученые получили разрешение на тестирование простой терапии - если мевалоната нехватает в организме, можно его просто вводить искусственно. И действительно, это существенно облегчело течение болезни у пациентки с наследственной миопатией. А значит и для пациентов, страдающих от побочных симптомов статинов, миопатию можно предотвратить введением мевалоната.
Подробный твиториал (на английском):
https://twitter.com/doctorveera/status/1663319659922477057
Однако не все знают, что у этого лекарства есть достаточно частый побочный эффект, связанный с миопатией.
Ученые, изучая семейный случай заболевания семейной формой миопатии, открыли ген, нарушения которого вызывает эту болезнь. Оказалось, что этот ген кодирует фермент, который участвует в синтезе небольшой молекулы - мевалоната. Именно ее недостаток вызывает миопатии. И именно этот фермент ингибируют статины!
Исследование редкой наследственной болезни, которая встречается у считанных на пальцах двух рук людей на земле, позволило понять причину побочного эффекта лекарства, которое принимают миллионы людей! Более того, Израильские ученые получили разрешение на тестирование простой терапии - если мевалоната нехватает в организме, можно его просто вводить искусственно. И действительно, это существенно облегчело течение болезни у пациентки с наследственной миопатией. А значит и для пациентов, страдающих от побочных симптомов статинов, миопатию можно предотвратить введением мевалоната.
Подробный твиториал (на английском):
https://twitter.com/doctorveera/status/1663319659922477057
👍1
Чит #1: прогнать научную статью через chatGPT. +1 к IF журнала
Чит #2: прогнать письмо зарубежным колабораторам через chatGPT. Сразу думают, что ты из европейско-американского консорциума =)
Чит #2: прогнать письмо зарубежным колабораторам через chatGPT. Сразу думают, что ты из европейско-американского консорциума =)
Кстати, а кто-то пробовал гпт от Яндекса? Вчера обсуждали, что она умеет истории сочинять на заданную тему.
Сегодня я обнаружил, что на дискорде (sic!) есть очень даже активное научное коммьюнити из области геномики (да и из других областей похоже тоже). Видимо, теперь вместо твитториолов будут дискордиалы?
Вениамин Фишман
Photo
Максимально неожиданный для Бразилии вид спорта - ребята тренируются бегать на лыжероллкрах прямо около входа в институт
Вышел с работы и прямо у входа увидел двух туканов. Жаль, они сидели высоко и хорошее фото не получилось
👍7🔥2
Сегодня впервые услышал в Бразилии на улице русскую речь. Стало любопытно, подошёл познакомиться. Оказалось, девушка из Эстонии, заканчивает phD в близкой мне области (фармакологические мишени при болезни Паркинсона). Впечатления от науки в Бразилии у нее не самые позитивные - собирается искать постдока в Европе. Жалуется, что жить с детьми тут очень дорого: обучение в школе стоит 3000 реалов в месяц, причем качество ее не очень устраивает. А ещё рассказала, как ее ограбили прямо у входа в кампус университета. В общем, Бразилия, как и любая другая страна, заходит не всем.
😱3😢1
image.png
51.9 KB
Вот такой комментарий пришел редактору при рассмотрении статьи моих коллег. Угадайте, из какой страны рецензент? Ответ: из Израиля
У меня было много разных планов на выходные, но в итоге они не сложились и я просто поехал в Гуаруджу. Поселился на этот раз на самом дальнем пляже, уже почти в деревне. Место приятное, тут тихо и много птиц.