Вениамин Фишман
1.23K subscribers
406 photos
73 videos
26 files
164 links
Генетика через призму AI, а также о науке (и в целом о жизни) в РФ и за рубежом
Download Telegram
organism_boxplot_logp_5_log10_02022026.png
2 MB
На этой картинке для каждого TF (один TF = одна точка) показано как часто он встречается в образце по сравнению с промоторными областями человека.

Пунктирная вертикальная линия через 0 - никаких отличий, точки слева от нее соответствуют более редкой рассадке TF, справа - более частой

И что мы тут видим - в перемешаной (shuffled) ДНК частота мотивов TF ненамного отличается от случайно выбранных межгенных районов (random) - и в обоих случаях сильно отличается от частоты связывания TF в промоторах (точки далеко от пунктиной линии).

Так что же - почти вся наша межгенная ДНК, несмотря на сотни миллионов лет отбора, не слишком отличается от случайной мешанины? Размышления - мои и ваши - в комментариях.

П.С. Кредиты за великолепную картинку Дарье Панченко
👍84👀2
Forwarded from danjafish
Интересно) Будущее рынка труда?
Forwarded from Denis Sexy IT 🤖
Лол, первая вакансия для агента:
$10k в месяц

Требование:
Сам себя интегрирует в компанию и куча мелочей

Откликаться вашим агентам тут:
https://jobs.ashbyhq.com/revenuecat/998a9cef-3ea5-45c2-885b-8a00c4eeb149
😁52
Недавно сервис рекомендаций музыки подкинул мне этот трек:

https://www.youtube.com/watch?v=NhiEq5V49KE&list=RDNhiEq5V49KE&start_radio=1

Трек мне понравился. Послушал его несколько раз, добавил в плейлист.

Прежде чем читать дальше под спойлером - советую послушать трек и составить впечатление самим

Оказывается (если верить reddit) что трек полностью AI-generated. Я ничего не понимаю в музыке, но не предполагал что что-то близкое по качеству звучания можно сделать без прямого участия человека. Просто фантастика.
🥰4🤯4🙏4
Вчера попробовал biomni (https://biomni.phylo.bio/) и остался в полном восторге! Кучу рутинных биоинформационных задач, которые раньше делали студенты и аспиранты, теперь можно делать с помощью этого сервиса!

Мой тест кейс был такой - колабораторы отправили письмо и данные.

Задача была сформулирована примерно так:

"нам пришли RNA-seq-данные для трех плазмид с разными трансгенами, хотим посмотреть, какие варианты сплайсинга встречаются для каждого из трансгена. Вот тут (ссылка) на файлы .fq, вот тут (ссылка) карты плазмид, нам нужны картинки из IGV. Список какой образец какому соответствует в pdf-таблице в attachment"

Я взял это письмо, ни слова не меняя и засунул в biomni, нажал Enter.

Через пару часов - получил готовые картинки и биологический вывод (правильный) о том, что произошло. Эта штука сама разобралась как скачивать с нашего лаб. сервера данные, сама сделала из плазмидных файлов gtf для визуализации в IGV, .fa и индексы для выравнивания, сама разобралась по pdf-табличке, приложенной к письму, кого на кого выравнивать, все выровняла, разложила, сделала скриншоты из IGV и файл с сессией, чтобы было удобно загружать. Да, задача не сложная, но на такие несложные задачи и тратится основное время!
🔥43👍10😱7🤩3😭21
Вениамин Фишман
image.png
Вот тут писал о нашем опыте синтеза олигов с компанией "Б" (буква А была контаминировала G, около 30% замен), Сегодня получили сиквенсы клонов плазмид, в которых вставлен ssODN из компании "Д". Из 10 клонов - ни одного с полным олигом без замен.

Продолжаем исследование Российского рынка олигонуклеотидов...
🙈14😁9😭2
s41592-026-03036-7.pdf
12 MB
Одна из горячих точек применения ML-моделей в геномике - аннотация генов. Кажется, скоро мы сможем получать высокоточные аннотации, содержащие порядка 90% генов, только из последовательностей ДНК - без RNA-seq. Причем включая не только экзоны белок-кодирующих генов, но некодирующие РНК и UTRs.

Свежая статья о этом в Nature Methods

https://www.nature.com/articles/s41592-026-03036-7
🔥24
Проскорили новую модель ANOEVO на нашем бенчмарке. Неплохо, но не топ.

Авторы картинки: Артем Шадский и Леша Шмелев. Ребята большие молодцы, от прочтения статьи до отрисовки этой картинки прошло всего несколько часов.
21🔥13
На этом канале и в других пабликах периодчески возникала дискуссия о пользе претринировки языковых моделей на ДНК. В этой дискуссии мне указывали на статью, в которой якобы доказана "бесполезнойсть" претренировки - мол, можно просто аккурантно инициализировать модель и качество будет таким же (или даже лучше), как после претренинга.

Отмечу, что это была не статья, прошедшая peer-review, а препринт, который висит на bioxriv c 2024 года. Совсем недавно авторы опубликовали доработанную статью на ICLR. Теперь утверждение о том, что можно просто инициализацией добиться таких же результатов, что и в ходе претренировки, получило много оговорок - это верно только для определенных моделй, с определенным токензайером, на определенных задачах и т.п. Общий посыл авторов теперь совсем другой:

For the tasks we study, these results suggest that current NLP-style pretraining strategies provide modest, tokenizer-gated improvements over strong random baselines and motivate more biologically informed tokenization and variant-aware objectives.


С этим утверждением я полностью согласен - и поиск more biologically informed tokenization and variant-aware objectives как раз является одним из мейнстримов области.

И даже название статьи изменилось - раньше статья называлась "Genomic Foundationless Models: Pretraining Does Not Promise Performance", а теперь "TOKENIZATION TO TRANSFER: DO GENOMIC FOUNDATION MODELS LEARN GOOD REPRESENTATIONS?"

В статье много интересного, но главная картинка - Fig. 1 (приведена ниже) - наглядно убеждает в пользе претренировки. Хотя, как я не раз писал, проблем пока много и прирост от претрены очень небольшой.
🔥9👍42🥴1
Итак, нас уже банили в журналах за афилиацию до отправки статьи, во время ревью, после акцепта.

А теперь новая форма взаимодействия с журналом - им нужно, чтобы мы сами написи, банить нас или нет.

Журнал Advanced Science

The journal welcomes contributions from all over the world. However, we must follow sanction laws and regulations. The article submitted is funded by a government organization of a nation or region currently under international sanctions. Wiley, the journal’s publisher, can proceed with handling the manuscript if the author(s) are preparing the article in their “personal capacity”, meaning they are not acting as an official representative or otherwise on behalf of a sanctioned government, and the copyright of the article therein, is not the property of the government organization of the sanctioned nation or region. 

Please respond to this e-mail declaring that these conditions are met. If you cannot declare the above, please advise and your submission will be referred to Wiley’s legal department for analysis.
😁39🤡16😭5😢32🌚2💅1
Anshul Kundaje, один из корифеев регуляторной геномики, выпустил интересную статью о ДНК-моделях.

https://www.biorxiv.org/content/10.64898/2026.02.05.703637v2.full.pdf

Если коротко, то мысль такая: самый частый (и самый простой) паттерн в ДНК - это повторенные элементы. Хотя повторы могут иметь функциональное значение, очевидно, что нас чаще интересуют уникальные последовательности - экзоны генов, промоторы, энхансеры и т.п. Хотелось бы, чтобы модель обращала больше "внимания" на анализ именно этих последовательностей.

В своей работе Anshul Kundaje анализиует предсказания модели с точки зрения проеобразования Фурье. На пальцах, изменение уверенности модели рассматривается как набор осцилляций с разной амплитудой. Короткие осцилляции в 1-2 буквы - модель то уверена, то нет, - интерпретируют как шум. Очень длинные - многие десятки букв - блоки, в которых модель уверена, - скорее всего повторы. А вот блоки длиной 5-20 букв похожи на характерные регуляторные мотивы - и ошибки модели в таких блоках штрафуются особеннос сильно.

Авторы показывают, что такой подход к обучению - со штрафами в блоках средней длины - позволяет повысить точность моделей и качество решения важных задач.
🔥12👍52🤩1
image.png
174.1 KB
Белковые модели давно уже коммерциализируются.

А вот теперь и ДНК-модели постепенно добираются до коммерческих приложений.

Первая компания, которая использует ML-модели (ДНК-модели + альфагеном + белковые модели) в коммерческих целях. Дизайнят линии клеток (CHO, дрожжи) с заданными характеристиками.

Вообще идея очень красивая - отбирают клетки с заданными свойствами, секвенируют мутации и используют эти данные для 1) эволюции клеток in vitro и 2) дообучения модели "на лету" чтобы уже искуственно вносить ещё более эффективные мутации

https://teagasc.ie/wp-content/uploads/uploads/media/website/food/3.-Sarah-Bolmer_Bringing-GenAI-to-the-Genome.pdf
🔥6👍533
Мягко выражаясь, не могу сказать, что мне нравятся все нововведения современной России.

Но!

Глядючи на бедных европейцев и американцев, судорожно переносящих все наши зумы вперед-назад, могу уверенно заявить, что отмена летнего/зимнего времени - великое благо. По крайней мере, для меня.
😁2822👍5💯4🔥2😢21🕊1😇1
Forwarded from Институт AIRI
Запускаем менторскую программу с исследователями AIRI 💡

Вот уже пять лет мы делимся знаниями в области искусственного интеллекта: представляем результаты исследований на конференциях, проводим лекции и семинары, организуем летнюю школу. В честь юбилея мы запускаем формат менторских встреч.

AIRIум — это место, где опыт встречается с любопытством, а свобода мысли — с культурой научного наставничества. Мы собрали руководителей научных групп, которым вы сможете задать интересующие вас вопросы по своей задаче и получить вдумчивые экспертные ответы.

Выбирайте ментора и подавайте заявку на участие в конкурсном отборе по ссылке до 15 мая включительно.

Ждём вас!
Please open Telegram to view this post
VIEW IN TELEGRAM
5
Вениамин Фишман
Вчера попробовал biomni (https://biomni.phylo.bio/) и остался в полном восторге! Кучу рутинных биоинформационных задач, которые раньше делали студенты и аспиранты, теперь можно делать с помощью этого сервиса! Мой тест кейс был такой - колабораторы отправили…
Вчера сходил на созвон с основателями biomni. Очень приятные ребята. Планируют в ближайшее время существенно расширять функционал. Спросил их про монетизацию - сейчас для академии биомни почти бесплатный. У них такая стратегия: постараться как можно дольше сохранять биомни (почти)бесплатной для академических лаб, а деньги зарабатывать продавая подписку фармкомпаниям.

А ещё один из основателей рассказывал, что компания началась с того, что он сам себе сделал агента, чтобы быстрее читать литературу или выполнять простые биоинформационные задачи.
🔥377
Вениамин Фишман
Всем привет! Летом в Новосибирске пройдет конференция «Биоинформатика регуляции и структуры геномов / системная биология», BGRS/SB-2026 (6 по 11 июля) Новосибирск летом прекрасен! Мы будем активно участвовать в секции по 3D-геномике. Приезжайте пообщаться…
Последний шанс подать заявку на конфернецию BGRS/SB-2026, в частности - на секцию по 3D-геномике. Если вдруг вы забыли о ней - ещё не поздно за вечер набросать короткие тезисы и приехать летом в Новосибирск!

https://bgrssb.icgbio.ru/2026/program/
👍8🔥6🤩1🫡1
Поднял себе MCP сервер для отправки писем. Теперь GPT может за меня переписываться, отвечая на простые вопросы.

Как это работает: пишешь код, например, приложение на питоне, которое может что-то делать. В моём случае - искать, читать и отправлять письма с моего ящика Яндекса. Код, естественно, написал GPT.

Это приложение размещается на моем личном сервере, с возможностью вам обращаться к нему по http. В GPT создаётся application с указанием этого сервера. После этого, GPT может дёргать приложение чтобы прочитать или отправить письмо.

Как это работает на практике: я могу сказать gpt голосом "прочитай письмо из отдела кадров и напиши для них трудовые функции исходя из того, что ты знаешь о моей работе в лаборатории, по образу других писем, которые я отправлял в отдел кадров раньше". Через 5 минут коллеги получают готовый документ
🔥33🤯11👏31
В общем осталось этим великолепным ассистентам научиться стирать вещи и мыть полы. И тогда наступит, наконец-то, светлое будущее
❤‍🔥30😁11