Вениамин Фишман
Читаю статью о ДНК-моделе OmniNA. Идея очень интересная - буквы ДНК пишутся следом за их текстовым обписанием с NCBI (например: this is genome assembly of rhesus monkey иди this is CDS of human EF1a). И на такой смеси ДНК и букв тренируется GPT-модель. Потом…
П.С. Не путайте OmniNA с другой моделью, которая вышла почти в то же время: OmniDNA (https://arxiv.org/abs/2502.03499).
В OmniDNA к ДНК тоже добавляют разные модальности - причем не только текст. Она даже картинки (sic!) по ДНК может генерить. Но в OmniDNA дополнительные модальности добавляют уже после файнтюнинга.
В OmniDNA к ДНК тоже добавляют разные модальности - причем не только текст. Она даже картинки (sic!) по ДНК может генерить. Но в OmniDNA дополнительные модальности добавляют уже после файнтюнинга.
arXiv.org
Omni-DNA: A Unified Genomic Foundation Model for Cross-Modal and...
Large Language Models (LLMs) demonstrate remarkable generalizability across diverse tasks, yet genomic foundation models (GFMs) still require separate finetuning for each downstream application,...
👍4🤯3
Forwarded from Innovation & Research
Ключевое нововведение — впервые в номинациях «AI в науке» открыта возможность самовыдвижения.
Лауреаты будут определены в следующих основных номинациях:
Каждый победитель получит 30 млн рублей.
Подать заявку можно на сайте Премии до 30 апреля 2026 года включительно.
Лауреаты пятого сезона будут награждены в Москве в конце года.
Please open Telegram to view this post
VIEW IN TELEGRAM
Всем привет!
Летом в Новосибирске пройдет конференция «Биоинформатика регуляции и структуры геномов / системная биология», BGRS/SB-2026 (6 по 11 июля)
Новосибирск летом прекрасен!
Мы будем активно участвовать в секции по 3D-геномике. Приезжайте пообщаться, рассказать о вашей работе - мы рады видеть коллег и колабораторов, а также новых гостей!
Дэдлайн подачи тезисов 6 апреля. Регистрация:
https://bgrssb.icgbio.ru/2026/profile/
Планируется сформировать спецвыпуски статей по итогам докладов (можно будет подать заявку - из журналов планируют ВОГиС,
IJMS, Gene Expression, Journal of Bioinformatics and Computational Biology - к слову об отчетах по РНФ и не только)
После конфы можно поехать в авторский тур на Алтай (11-17 июля) - никогда не ездил сам, но коллегам нравится (https://bgrssb.icgbio.ru/2026/altai/). Конференция будет проведена в гибридном формате, предоставляя возможность участвовать как лично, так и дистанционно (с онлайн-докладом).
Больше информации: https://bgrssb.icgbio.ru/2026/
Летом в Новосибирске пройдет конференция «Биоинформатика регуляции и структуры геномов / системная биология», BGRS/SB-2026 (6 по 11 июля)
Новосибирск летом прекрасен!
Мы будем активно участвовать в секции по 3D-геномике. Приезжайте пообщаться, рассказать о вашей работе - мы рады видеть коллег и колабораторов, а также новых гостей!
Дэдлайн подачи тезисов 6 апреля. Регистрация:
https://bgrssb.icgbio.ru/2026/profile/
Планируется сформировать спецвыпуски статей по итогам докладов (можно будет подать заявку - из журналов планируют ВОГиС,
IJMS, Gene Expression, Journal of Bioinformatics and Computational Biology - к слову об отчетах по РНФ и не только)
После конфы можно поехать в авторский тур на Алтай (11-17 июля) - никогда не ездил сам, но коллегам нравится (https://bgrssb.icgbio.ru/2026/altai/). Конференция будет проведена в гибридном формате, предоставляя возможность участвовать как лично, так и дистанционно (с онлайн-докладом).
Больше информации: https://bgrssb.icgbio.ru/2026/
🔥24❤3
Forwarded from Inna Pristyazhnyuk
В России принят закон, запрещающий передачу генетических данных человека иностранцам — PCR News
https://pcr.news/stati/v-rossii-prinyat-zakon-zapreshchayushchiy-peredachu-geneticheskikh-dannykh-cheloveka-inostrantsam/
https://pcr.news/stati/v-rossii-prinyat-zakon-zapreshchayushchiy-peredachu-geneticheskikh-dannykh-cheloveka-inostrantsam/
🤡55🫡4
Вениамин Фишман
В России принят закон, запрещающий передачу генетических данных человека иностранцам — PCR News https://pcr.news/stati/v-rossii-prinyat-zakon-zapreshchayushchiy-peredachu-geneticheskikh-dannykh-cheloveka-inostrantsam/
Хочется написать несколько слов об этой инициативе. Я не юрист, но кажется что этот закон делает ещё более сложной и без того непростую область исследований в области медицинской генетики в РФ.
Во-первых, мне не понятно, считается ли публикация отдельных новых вариантов, связанных с болезнями, передачей генетической информации. Как будто если почитать закон, то формально - считается, ведь когда мы пишем
мы формально передаём всему миру информацию о "последовательности нуклеиновых кислот". Как без этого научное сообщество будет обмениваться информацией о причинах редких болезней? Особенность этих болезней в том, что носителей поломок конкретного гена может быть всего десяток на весь мир, и без обмена данными о конических случаях мы никогда не соберём статистику.
Во-вторых, я категорически не согласен с гораздо более явно прописными ограничениями на обезличенную публикацию частот вариантов. Эти данные нужны для медицинских целей (понять, является ли найденный вариант патогенным или доброкачественным), причём нужны в особенности для РФ - в Европе и США есть свои хорошие базы. Сложно представить, как такая усреднённая обезличенная информация могла бы использоваться во вред жителям РФ, но уж если предположить, что кто-то задался целью ее получить, закон ему не помешает - миллионы бывших и сегодняшних жителей РФ сформировали большие диаспоры в самых разных городах мира, от Берлина до Нью-Йорка. Но, ещё раз, само предложение, что эти данные могут быть использованы во вред, совершенно необосновано, аналогичные зарубежные базы (гномад, 1KG и т.д.) уже давно доступны публично.
Во-первых, мне не понятно, считается ли публикация отдельных новых вариантов, связанных с болезнями, передачей генетической информации. Как будто если почитать закон, то формально - считается, ведь когда мы пишем
A>G в позиции 13 365 555
мы формально передаём всему миру информацию о "последовательности нуклеиновых кислот". Как без этого научное сообщество будет обмениваться информацией о причинах редких болезней? Особенность этих болезней в том, что носителей поломок конкретного гена может быть всего десяток на весь мир, и без обмена данными о конических случаях мы никогда не соберём статистику.
Во-вторых, я категорически не согласен с гораздо более явно прописными ограничениями на обезличенную публикацию частот вариантов. Эти данные нужны для медицинских целей (понять, является ли найденный вариант патогенным или доброкачественным), причём нужны в особенности для РФ - в Европе и США есть свои хорошие базы. Сложно представить, как такая усреднённая обезличенная информация могла бы использоваться во вред жителям РФ, но уж если предположить, что кто-то задался целью ее получить, закон ему не помешает - миллионы бывших и сегодняшних жителей РФ сформировали большие диаспоры в самых разных городах мира, от Берлина до Нью-Йорка. Но, ещё раз, само предложение, что эти данные могут быть использованы во вред, совершенно необосновано, аналогичные зарубежные базы (гномад, 1KG и т.д.) уже давно доступны публично.
👍51❤1
Вениамин Фишман
Хочется написать несколько слов об этой инициативе. Я не юрист, но кажется что этот закон делает ещё более сложной и без того непростую область исследований в области медицинской генетики в РФ. Во-первых, мне не понятно, считается ли публикация отдельных…
И, наконец, третий забавный казус коснётся исследований древней ДНК, одной из немногих областей, которая относительно хорошо развита в РФ. Из текста закона непонятно, касается ли он только живущих сейчас людей или также умерших, и какой "срок давности" по разглашению их геномов. Если в статьях по медицинской генетике мы традиционно пишем, что полные геномные данные являются персональными и не подлежат разглашению, и редакторы журналов это принимают, то вряд ли такое объяснение пройдёт для древней ДНК
❤33💔2
В общем и целом, кажется что это очередной закон, который многие будут неявно нарушать, и я подозреваю, что никто не будет мониторить каждую научную статью на предмет публикации отдельного генетического варианта отдельного пациента. Но закон останется и будет домокловым мечом висеть над каждым, кто занимается генетикой человека (а если тезисы конференции? А если на лекции рассказал свои результаты, а там был иностранец? И т.п.). Это, безусловно, только добавляет негатива к и без того непростому фону Российской науки.
Буду рад комментариям людей более сведущий, возможно, я что-то неправильно интерпретирую
Буду рад комментариям людей более сведущий, возможно, я что-то неправильно интерпретирую
❤35🤝7💯5
This media is not supported in your browser
VIEW IN TELEGRAM
Один из неявных бонусов университета Сириус: тут часто проходят разные события. От серьёзных конференций до студенческих выступлений. Вот так придёшь поработать в воскресенье вечером и попадаешь на рок-концерт. Ребята молодцы - очень атмосферно!
🔥45👍9👎5😁2😎2❤1
На этой неделе я буду в Тбилиси. Если кто-то сейчас там и хочет встретиться, поговорить о науке или о жизни - пишите, попробую найти окошко
❤16🤯5👀5
Область языковых моделей ДНК продолжает развиваться. Модель Evo2 только что опубликовали в Nature.
Публикация вышла сегодня, но модель уже устарела - см., например, мои посты от начала февраля, где я рассказывал про более новые мультимодельные ДНК модели, совмещающие текст и геномные данные. Как я и прогнозировал, эта область пока развивается поступательно, без каких-то фантастических прорывов, но с постоянным улучшением качества. Для ДНК-моделей ещё не наступил alphaFold moment - и это прекрасно, потому что у нас ещё есть шанс принять в нем участие!
Публикация вышла сегодня, но модель уже устарела - см., например, мои посты от начала февраля, где я рассказывал про более новые мультимодельные ДНК модели, совмещающие текст и геномные данные. Как я и прогнозировал, эта область пока развивается поступательно, без каких-то фантастических прорывов, но с постоянным улучшением качества. Для ДНК-моделей ещё не наступил alphaFold moment - и это прекрасно, потому что у нас ещё есть шанс принять в нем участие!
Nature
Genome modelling and design across all domains of life with Evo 2
Nature - Evo 2 is an artificial intelligence-based biological foundation model trained on 9 trillion DNA base pairs spanning all domains of life that predicts functional properties from genomic...
🔥11🗿7❤2😴2
Вениамин Фишман
Что будет с мотивами сайтов связывания TF, если на них не будет действовать отбор? Эксперимент - перемешаем все буквы в геноме и будем искать мотивы связывания используя известные PWM. Ваше предсказание: для большинства TF после перемешивания:
Блогер из меня не очень - обещал выложить ответ на вопрос о том, что будет с количеством мотивов TF если перемешать все буквы в геноме, ровно месяц назад. И вот - встречайте - результат анализа, который отвечает на этот вопрос!
Telegram
Вениамин Фишман
Что будет с мотивами сайтов связывания TF, если на них не будет действовать отбор? Эксперимент - перемешаем все буквы в геноме и будем искать мотивы связывания используя известные PWM. Ваше предсказание: для большинства TF после перемешивания:
количество…
количество…
👍3
organism_boxplot_logp_5_log10_02022026.png
2 MB
На этой картинке для каждого TF (один TF = одна точка) показано как часто он встречается в образце по сравнению с промоторными областями человека.
Пунктирная вертикальная линия через 0 - никаких отличий, точки слева от нее соответствуют более редкой рассадке TF, справа - более частой
И что мы тут видим - в перемешаной (shuffled) ДНК частота мотивов TF ненамного отличается от случайно выбранных межгенных районов (random) - и в обоих случаях сильно отличается от частоты связывания TF в промоторах (точки далеко от пунктиной линии).
Так что же - почти вся наша межгенная ДНК, несмотря на сотни миллионов лет отбора, не слишком отличается от случайной мешанины? Размышления - мои и ваши - в комментариях.
П.С. Кредиты за великолепную картинку Дарье Панченко
Пунктирная вертикальная линия через 0 - никаких отличий, точки слева от нее соответствуют более редкой рассадке TF, справа - более частой
И что мы тут видим - в перемешаной (shuffled) ДНК частота мотивов TF ненамного отличается от случайно выбранных межгенных районов (random) - и в обоих случаях сильно отличается от частоты связывания TF в промоторах (точки далеко от пунктиной линии).
Так что же - почти вся наша межгенная ДНК, несмотря на сотни миллионов лет отбора, не слишком отличается от случайной мешанины? Размышления - мои и ваши - в комментариях.
П.С. Кредиты за великолепную картинку Дарье Панченко
👍8❤4👀2
Forwarded from Denis Sexy IT 🤖
Лол, первая вакансия для агента:
$10k в месяц
Требование:
Сам себя интегрирует в компанию и куча мелочей
Откликаться вашим агентам тут:
https://jobs.ashbyhq.com/revenuecat/998a9cef-3ea5-45c2-885b-8a00c4eeb149
$10k в месяц
Требование:
Сам себя интегрирует в компанию и куча мелочей
Откликаться вашим агентам тут:
https://jobs.ashbyhq.com/revenuecat/998a9cef-3ea5-45c2-885b-8a00c4eeb149
😁5❤2
Недавно сервис рекомендаций музыки подкинул мне этот трек:
https://www.youtube.com/watch?v=NhiEq5V49KE&list=RDNhiEq5V49KE&start_radio=1
Трек мне понравился. Послушал его несколько раз, добавил в плейлист.
Прежде чем читать дальше под спойлером - советую послушать трек и составить впечатление самим
Оказывается (если верить reddit) что трек полностью AI-generated. Я ничего не понимаю в музыке, но не предполагал что что-то близкое по качеству звучания можно сделать без прямого участия человека. Просто фантастика.
https://www.youtube.com/watch?v=NhiEq5V49KE&list=RDNhiEq5V49KE&start_radio=1
Трек мне понравился. Послушал его несколько раз, добавил в плейлист.
Прежде чем читать дальше под спойлером - советую послушать трек и составить впечатление самим
YouTube
Why I’m still here
“Why I’m Still Here” is a question, not an answer — the echo of survival after everything has burned away. It’s about waking up when you don’t know why, breathing when it still hurts, standing when you should have fallen.
The song walks the line between…
The song walks the line between…
🥰4🤯4🙏4
Вчера попробовал biomni (https://biomni.phylo.bio/) и остался в полном восторге! Кучу рутинных биоинформационных задач, которые раньше делали студенты и аспиранты, теперь можно делать с помощью этого сервиса!
Мой тест кейс был такой - колабораторы отправили письмо и данные.
Задача была сформулирована примерно так:
"нам пришли RNA-seq-данные для трех плазмид с разными трансгенами, хотим посмотреть, какие варианты сплайсинга встречаются для каждого из трансгена. Вот тут (ссылка) на файлы .fq, вот тут (ссылка) карты плазмид, нам нужны картинки из IGV. Список какой образец какому соответствует в pdf-таблице в attachment"
Я взял это письмо, ни слова не меняя и засунул в biomni, нажал Enter.
Через пару часов - получил готовые картинки и биологический вывод (правильный) о том, что произошло. Эта штука сама разобралась как скачивать с нашего лаб. сервера данные, сама сделала из плазмидных файлов gtf для визуализации в IGV, .fa и индексы для выравнивания, сама разобралась по pdf-табличке, приложенной к письму, кого на кого выравнивать, все выровняла, разложила, сделала скриншоты из IGV и файл с сессией, чтобы было удобно загружать. Да, задача не сложная, но на такие несложные задачи и тратится основное время!
Мой тест кейс был такой - колабораторы отправили письмо и данные.
Задача была сформулирована примерно так:
"нам пришли RNA-seq-данные для трех плазмид с разными трансгенами, хотим посмотреть, какие варианты сплайсинга встречаются для каждого из трансгена. Вот тут (ссылка) на файлы .fq, вот тут (ссылка) карты плазмид, нам нужны картинки из IGV. Список какой образец какому соответствует в pdf-таблице в attachment"
Я взял это письмо, ни слова не меняя и засунул в biomni, нажал Enter.
Через пару часов - получил готовые картинки и биологический вывод (правильный) о том, что произошло. Эта штука сама разобралась как скачивать с нашего лаб. сервера данные, сама сделала из плазмидных файлов gtf для визуализации в IGV, .fa и индексы для выравнивания, сама разобралась по pdf-табличке, приложенной к письму, кого на кого выравнивать, все выровняла, разложила, сделала скриншоты из IGV и файл с сессией, чтобы было удобно загружать. Да, задача не сложная, но на такие несложные задачи и тратится основное время!
🔥43👍10😱7🤩3😭2❤1
Вениамин Фишман
image.png
Вот тут писал о нашем опыте синтеза олигов с компанией "Б" (буква А была контаминировала G, около 30% замен), Сегодня получили сиквенсы клонов плазмид, в которых вставлен ssODN из компании "Д". Из 10 клонов - ни одного с полным олигом без замен.
Продолжаем исследование Российского рынка олигонуклеотидов...
Продолжаем исследование Российского рынка олигонуклеотидов...
Telegram
Вениамин Фишман
О том, как синтезируют коммерческие олиги.
На скриншоте - NGS двух клонов плазмид, в которые вставляли ПЦР-продукт. В участках под праймерами - систематические замены А на G (заменяются А в случайных местах, но всегда в области праймера, доля замен - на…
На скриншоте - NGS двух клонов плазмид, в которые вставляли ПЦР-продукт. В участках под праймерами - систематические замены А на G (заменяются А в случайных местах, но всегда в области праймера, доля замен - на…
🙈14😁9😭2
s41592-026-03036-7.pdf
12 MB
Одна из горячих точек применения ML-моделей в геномике - аннотация генов. Кажется, скоро мы сможем получать высокоточные аннотации, содержащие порядка 90% генов, только из последовательностей ДНК - без RNA-seq. Причем включая не только экзоны белок-кодирующих генов, но некодирующие РНК и UTRs.
Свежая статья о этом в Nature Methods
https://www.nature.com/articles/s41592-026-03036-7
Свежая статья о этом в Nature Methods
https://www.nature.com/articles/s41592-026-03036-7
🔥24
На этом канале и в других пабликах периодчески возникала дискуссия о пользе претринировки языковых моделей на ДНК. В этой дискуссии мне указывали на статью, в которой якобы доказана "бесполезнойсть" претренировки - мол, можно просто аккурантно инициализировать модель и качество будет таким же (или даже лучше), как после претренинга.
Отмечу, что это была не статья, прошедшая peer-review, а препринт, который висит на bioxriv c 2024 года. Совсем недавно авторы опубликовали доработанную статью на ICLR. Теперь утверждение о том, что можно просто инициализацией добиться таких же результатов, что и в ходе претренировки, получило много оговорок - это верно только для определенных моделй, с определенным токензайером, на определенных задачах и т.п. Общий посыл авторов теперь совсем другой:
С этим утверждением я полностью согласен - и поиск more biologically informed tokenization and variant-aware objectives как раз является одним из мейнстримов области.
И даже название статьи изменилось - раньше статья называлась "Genomic Foundationless Models: Pretraining Does Not Promise Performance", а теперь "TOKENIZATION TO TRANSFER: DO GENOMIC FOUNDATION MODELS LEARN GOOD REPRESENTATIONS?"
В статье много интересного, но главная картинка - Fig. 1 (приведена ниже) - наглядно убеждает в пользе претренировки. Хотя, как я не раз писал, проблем пока много и прирост от претрены очень небольшой.
Отмечу, что это была не статья, прошедшая peer-review, а препринт, который висит на bioxriv c 2024 года. Совсем недавно авторы опубликовали доработанную статью на ICLR. Теперь утверждение о том, что можно просто инициализацией добиться таких же результатов, что и в ходе претренировки, получило много оговорок - это верно только для определенных моделй, с определенным токензайером, на определенных задачах и т.п. Общий посыл авторов теперь совсем другой:
For the tasks we study, these results suggest that current NLP-style pretraining strategies provide modest, tokenizer-gated improvements over strong random baselines and motivate more biologically informed tokenization and variant-aware objectives.
С этим утверждением я полностью согласен - и поиск more biologically informed tokenization and variant-aware objectives как раз является одним из мейнстримов области.
И даже название статьи изменилось - раньше статья называлась "Genomic Foundationless Models: Pretraining Does Not Promise Performance", а теперь "TOKENIZATION TO TRANSFER: DO GENOMIC FOUNDATION MODELS LEARN GOOD REPRESENTATIONS?"
В статье много интересного, но главная картинка - Fig. 1 (приведена ниже) - наглядно убеждает в пользе претренировки. Хотя, как я не раз писал, проблем пока много и прирост от претрены очень небольшой.
Telegram
Вениамин Фишман
Область языковых моделей ДНК продолжает развиваться. Модель Evo2 только что опубликовали в Nature.
Публикация вышла сегодня, но модель уже устарела - см., например, мои посты от начала февраля, где я рассказывал про более новые мультимодельные ДНК модели…
Публикация вышла сегодня, но модель уже устарела - см., например, мои посты от начала февраля, где я рассказывал про более новые мультимодельные ДНК модели…
🔥9👍4❤2🥴1