Вениамин Фишман

Вопрос к знатокам эпигенетики.

Во многих статья написано, что метка H3K9me3 коррелирует с метилированием ДНК. Кто может подсказать мне какой-нибудь публичный датасет H3K9me3 ChIP-seq + WGBS для человека, который можно закинуть в IGV и увидеть эту корреляцию? Я смотрел треки с энкода для K562 и что-то никакой корреляции не вижу.

1.02K views15:40

Вениамин Фишман

Модель Borzoi вышла в Nature Genetics. Работа очень известной группы David Kelly (работает в Calico Labs, дочке Deep Mind), у них много моделей для анализа ДНК, в том числе знаменитый Enformer

Особенность Borzoi в том, что из последовательности ДНК можно напрямую предсказывать данные RNA-seq - пожалуй, самого часто используемого метода геномики. Прошлые модели работали с данными CAGE, которые более информативны и удобны для анализа, но менее популярны из-за трудоемкости эксперимента.

https://www.nature.com/articles/s41588-024-02053-6

Опубликованный вариант статьи, кажется, не слишком сильно отличается от препринта, который группа опубликовала больше года назад. Главный вопрос - может ли Borzoi предсказывать эффекты вариантов в геномах разных людей - похоже так и остался без ответа (видимо, не может). Но все равно это большой шаг вперед.

Nature

Predicting RNA-seq coverage from DNA sequence as a unifying model of gene regulation

Nature Genetics - Borzoi adapts the Enformer sequence-to-expression model to directly predict RNA-seq coverage, enabling the in-silico analysis of variant effects across multiple layers of gene...

❤10🔥3

1.3K views15:46

Вениамин Фишман

Всем привет!
На всякий случай ещё раз продублирую объявление, которое давал в прошлом году. В моей группе в университете Сириус открыты позиции постдоков. Ищем сотрудников со степенью кбн (возможен вариант защиты в этом году), с опытом в какой-то из следующих областей:

- мокрой и сухой геномики
- ML/AI
- продвинутой клеточной биологии (ИПСК, дифференцировки и т.п.)
- продвинутой генной инженерии

Контакты:
Вениамин Фишман
minja-f@ya.ru
@minjafish

🙏3👍1

2.32K viewsedited 16:57

Вениамин Фишман

Вчера мне пришёл вызов в Москву для участия в экспертном совете ВАК, где будет рассматриваться моя диссертация. В идеале, очного участия.

В прошлом году я совершил 36 сегментов авиаперелётов. Большинство из них - по работе.

Меня не оставляет ощущение что, хотя личное общение бесценно, многие все ещё не поняли всю прелесть электронной системы документооборота и онлайн встреч.

👍36💯5🤨5❤2🤷2

1.03K views10:15

Вениамин Фишман

А сколько на эти деньги можно было бы сделать...

😢8

848 views15:07

Вениамин Фишман

Forwarded from Медицинская геномика

публикуйся или умри!

😢7❤4🔥2

905 views15:07

Вениамин Фишман

Кстати о статьях, за которые не жалко заплатить. Очень интересная работа. Я уже не первый раз натыкаюсь на неё, но тут интересно ещё почитать комментарии с деталями архитектуры в канале, откуда я сделал репост.

880 views17:34

Вениамин Фишман

Forwarded from danjafish

Весной мы в поездке с подругой обсуждали, насколько реально современным системам машинного обучения достичь когнитивных способностей человека. Один из аргументов, которые я тогда приводил, насколько это непростая задача: посмотри, с какой скоростью дети учаться новому. У людей невероятная способность к обобщению, увидив ранее незнакомое животное, но слыша в жизни его описание, мы можем его узнать. С 1-2 показов мы запоминаем карточки с новыми предемитами и т.п.

Наш мозг формировался в ходе эволюции миллионы лет, но сколько знаний заложено в него с рождения? Или мозг просто дает вычислительные возможности, а все знания приходят из окружающего мира?

И вот я наткнулся на такую статью в Science: https://www.science.org/doi/10.1126/science.adi1374

Идея следующая - в течении первых лет жизни ребенка (от 6 до 25 месяцев) проводился эксперимент. В случайные моменты времени ребенок проводил несколько часов с камерой на голове, которая снимает все происходящее. Таким образом, формировался набор изображений. Далее, были выделены категории слов, которые встречаются на видео, их говорят родственники ребенка. Например, мама говорит: "смотри, мячик". И показывает ребенку мячик. Таким образом формируется пара: изображение мячика - слово мячик. Авторы обучили классическую нейросеть для анализа изображний на парах картинка - слово так, чтобы эмбединг картинки был близок в пространстве к эмбедингу подходящего слова и далеко от неподходящего (т.е. слово "мяч" и картинка мяча - похожи, а "собака" и картинка мяча - нет)

Получилось ли у них система уровня человека?
Ответ: У них получилась система, способная распознавать изображения на неплохом уровне, но не на идеальном.

А для тех, кому интересно, как именно - читайте в комментариях.

Science

Grounded language acquisition through the eyes and ears of a single child

Machine learning advances research into early language acquisition in children.

👍20

1.07K views17:34

Вениамин Фишман

Сегодня в рамках семинара центра LIFT рассказываю про Гену на площадке Сколтеха.

Есть ссылка на зум

Подключиться к конференции Zoom
https://us06web.zoom.us/j/82516469784?pwd=qbRHjjVpaarvnY5RoUqoxLYdEI4LaD.1

Идентификатор конференции: 825 1646 9784
Код доступа: 660818

🔥8❤1👍1

1.59K viewsedited 11:37

Вениамин Фишман

❗Внимание аспирантам

Объявлен конкурс стипендий 2025 года. Стипендия 75 тыс на время аспирантуры, в прошлом году получателями стали около 500 человек.

Дедлайн 28 февраля.

https://aspirant.extech.ru/news/konkursnyi-otbor-2025-goda

🔥3😢1

1.12K viewsedited 19:37

Вениамин Фишман

image.png

316 KB

https://www.biorxiv.org/content/10.1101/2024.12.18.628606v1.full

Поскольку мне (видимо как адепту DNA LMs) сегодня сразу из трех независимых источников прислали ссылку на эту статью, решил, что нужно ее коротко разобрать.

Основной тезис авторов в заголовке:
"Genomic Foundationless Models: Pretraining Does Not Promise Performance"

Напомню очень коротко как работают языковые модели ДНК - их сначала предобучают на какой-то общей задаче (часто не имеющей понятного биологического смысла), вроде предсказать замаскированную букву по соседям. А потом файн-тюнят уже для решения задач с понятным смыслом.

Результат авторов - если вообще не претренировать модели, а случайным образом инициализировать, получается немногим хуже (а иногда - удивительно - но даже лучше) решать нужную задачу.

Разбор в комментариях. Мой вывод - если не умеешь пользоваться, никакая претрена не поможет

🔥11🥰2💩1🗿1

1.53K viewsedited 17:54

Вениамин Фишман

Сразу два конкурса мегагрантов объявлено на днях:

1. Конкурс мегагрантов университета Сириус. 30 млн в год для молодых учёных, 50 млн для ведущих.

2. Конкурс мегагрантов для ведущих зарубежных учёных. Прочитав по диагонали конкурсную документацию я так и не понял, как формализуется то, что руководитель должен дать именно зарубежный учёный - скорее м там созданы возможности для этого (например, можно иметь аналог степени к.б.н., т.е. PhD). Размер гранта - 20..50 млн в год на 3.5 года, необходимо опубликовать 40 статей

👍5

2.26K viewsedited 17:50

Вениамин Фишман

Мои друзья ищут человека на позицию постдока в области генной инженерии в университет Халле (Германия)

https://www.verwaltung.uni-halle.de/dezern3/Ausschr/25_5_1520_D_engl.pdf

❤7

2.13K viewsedited 03:14

Вениамин Фишман

Forwarded from Vityusha L

Надеюсь по ссылке большая надпись во весь экран - "ПОПАЛСЯ!"

🤣45🔥10😁4

1.29K views03:57

Вениамин Фишман

Обживаемся в университете Сириус

❤43💅12🥰3👏3🔥1

1.19K views03:32

Вениамин Фишман

Пока одни группы рассуждают, почему претренировка языковых моделей ДНК бесполезна, другие совершенствуют модели, показывают их эффективность в разных областях биологии и публикуются в Science.

Genome modeling and design across all domains of life with Evo 2

https://arcinstitute.org/manuscripts/Evo2

"We trained two versions of Evo 2 at 7B and 40B parameters, leveraging over 9.3T tokens at single-nucleotide resolution."

Молодцы. По моим оценкам 9.3T tokens - это весь NCBI genome dataset. 7...40В - сравнимо с языковыми моделями (Lama 7B).
Плюс котекст 1М букв, разрешение в одну букву.

Небольшой разбор в комментах.

arcinstitute.org

Manuscript | Arc Institute

Arc Institute is a independent nonprofit research organization headquartered in Palo Alto, California.

🔥7❤6❤‍🔥3👎1

2.14K viewsedited 04:35

Вениамин Фишман

Forwarded from Задумчивая крыса

Про Evo1 я уже писал. Вчера вышла Evo2. Претензии те же самые, авторы никак на них не ответили во второй работе.
Нужно ли детально разбирать а в чем новые проблемы? Мое имхо — хватает и старых. Разбирать подробно где обжулили дополнительно к первой работе — влом. Потому кратко.

В новых "применениях" авторы настойчиво
1) не комментируют ситуации, когда их модель не лучше простых подходов 10летней давности
2) исключают очевидные сравнения и соты в задаче (в сплайсинге не приводят качество той же spliceai, а там разрыв кратный)
3) исключают некоторые очевидные задачи (нет датасета кирхера о влиянии мутаций. Который удобнее для анализа чем клинвар и чище)
4) вся часть с генерацией является самосбывающиеся пророчеством. Мы генерим тексты и они похожи на обучающую выборку — amazing. На альфафолде, который известен тем, что для похожих последовательностей предсказывает похожие структуры несмотря на биологию — показываем, что на наших сгенерированных генах (похожих на трейн) он предсказывает похожие на трейн структуры
5) особо (для меня) смешное с генерацией региона с открытым хроматином — используют Enformer, который известен тем, что на последовательностях отличных от генома предсказывает плохо. А на посл. из генома предскажет то же, что было в геноме. Причем предскажет картинк "в среднем" по клеточным линиям.

Особо доставляет, что у авторов скейлинг модели (увеличение числа параметров) работает примерно никак. Иногда даже хуже качество выходит. Но — 40B параметров же зато. Мда.

В самой статье интересна (не для биологии или мл в биологии) только архитектура и способ интерпретации. Для биологии он им тупо вытащил частые кмеры, которые они нашли в базе мотивов тф (удивительно для человека, если он ничего не знает про эволюцию тф и их участков связывания, и/или был в коме/на острове без доступа к высокоимпактным журналам годиков этак 10).

Не хотел бы писать резко, но коль некоторые каналы позволяют себе писать волчьи цитаты, что "пока одни сомневаются, другие двигают frontier", напишу.

Любой, кто скажет, что Evo2 — хорошая статья и какой-то там breakthrough:
1) свидетель прихода ДНК-моделей. Не учёный, а верующий. У всех есть право вероисповедания, но это не наука
2) не читал дальше абстракта и/или твиттер треда
3) банально некомпетентен
4) комбинация трёх первых пунктов

Задумчивая крыса

В голове надо держать то, что авторы хотели впарить свою работу, как торгаши. Ничего научного вы там можете не ожидать в принципе, есть только симулякр, призванный вызвать в голове ВАУ-эффект. Ничего святого у авторов нет, на все вопросы на конференциях по…

🔥3

1.2K views15:34

Вениамин Фишман

Задумчивая крыса

А вот альтернативное мнение о новой моделе Evo от моего коллеги, большого специалиста в применении искусственного интеллекта в геномике. Там у него в канале есть ещё комментарии с разборами отдельных моментов, если интересно — приходите почитать.

✍4🔥4🤝3

1.16K viewsedited 15:36

Вениамин Фишман

Прочитав бурю комментариев в разных каналах, твиттерах и прочих платформах о Evo-2, попробую ещё раз сформулировать взвешенную позицию.

Если кто-то рассматривает эту работу как решение всех проблем биологии (что можно заключить из заголовка), то, безусловно, будет разочарован. Из-за того, что в современной науке принято писать статьи и заявки на гранты в стиле "вот смотрите, сейчас мы спасем человечество", у людей не погруженных в область может возникнуть завышенное ожидание . Градус ожиданий нужно снизить.

Что, тем не менее, важно:
1) модели совершенствуются, и это хорошо видно по бенчмаркам, приведенным в статье
2) unsupervised модели (в биологическом контексте - обученные без какой-либо разметки, только на последовательностях букв) могут выучивать биологические закономерности, для открытия которых человечеству понадобились десятилетия, и которые до сих пор требуют "supervised" (т.е. специально подготовленных или экспериментально-размеченных) данных. Это очень важно.
3) в отдельных областях модели дают state-of-the-art качество.

Как относится к этим достижениям - дело вкуса. Лично меня они вдохновляют. Темп огромный - от первых DNABERT и пяти лет не прошло, апдейты выходят каждый месяц. Глядишь - и выучим что-то, что раньше не знали.

И меня скорее радует, что текущие модели ещё далеки от совершенства - есть поле и для наших исследований. Я не знаю - возможно и вовсе не языковые модели ДНК, а какой-то другой вариант анализа данных совершит большой прорыв в биологии. Но развитие всегда идет поступательно, мы пробуем и ошибаемся. Каждый шаг на этом пути имеет большую ценность.

❤22👍12👎1

2.76K viewsedited 04:21

Вениамин Фишман

Я уже пару раз тут восхищался, насколько упрощает разработку кода ChatGPT. Кажется, уже проще некуда. Так я думал, пока не попробовал сегодня поставить курсор...

В общем теперь у меня одна проблема - я просто не успеваю запоминать переменные с такой скоростью, с которой код пишется )) оказывается, пока я писал хотя бы первые буквы их названия, мозг запоминал их.

🤯8💯2😐2

2.18K views08:03

Вениамин Фишман

Мой брат развлекается тем, что берёт интервью у людей разных профессий - и вот добрался до меня. Большинство читателей канала, как я понимаю, сами работают в науке. Но остальным может быть любопытно, как проходит день научного сотрудника. Публикую тут одну запись из этого интервью. Целиком оно получилось длинным - записывали его больше чем несколько месяцев, в основном во время долгих перелётов. Прочитать полную версию можно тут.

1.99K viewsedited 16:22

About

Blog

Apps

Platform