Вениамин Фишман

Я сильно не рассчитал время на подъем в гору по бездорожью , поэтому успел добраться только до нижней смотровой площадки. Последний километр ехать уже не мог, пришлось идти пешком и заталкивать в гору велосипед. Но даже с того места, до которого смог добраться, открывается красивый вид на русло реки Мзымта и окружающие горы.

❤20🔥5

1.3K viewsedited 18:42

Вениамин Фишман

А вот обратную дорогу навигатор предложил какую-то ужасную - спуск по скалистой тропе, по которой не то что на велосипеде - и пешком-то сойти сложно не сломав себе шею. Порядком вымотался, пока тащил по этой тропе велосипед, но, главное, цель достигнута. В следующий раз нужно будет поехать в эту же точку по противоположному берегу Мзымты, там, кажется, дорога лучше и можно доехать до скайпарка. Но это уже в 2025 году.

👍9❤5

1.27K views18:46

Вениамин Фишман

Я хорошо помню, как в университетские годы познакомился с творчеством американской панк-рок группы The Offspring. Мне нужно было в ночь перед зачётом перерисовать через оргстекло страниц 50 альбома, кажется, по ботанике. Натянув наушники я переключался с одного трека на другой, пока случайно не попал на "The kids aren't alright". Дальше ночь пролетела незаметно, а the offspring навсегда остались у меня в плейлисте и ассоциировались с учёбой в университете.

Каково же было моё удивление, когда я узнал сегодня, что основатель группы - Dexter Holland - молекулярный биолог со степенью PhD. А один из главных хитов группы - keep 'em separated - был рождён когда Декстер заливал агар в бактериальные чашки.

https://youtu.be/1jOk8dk-qaU

YouTube

3:15

The Offspring - "Come Out And Play"

Listen to the full album at http://bit.ly/12Okmvb
"Come Out And Play" by The Offspring from the album 'Smash'
Get 'Smash' on iTunes: http://bit.ly/1dXZHdk

LYRICS
You gotta keep 'em separated

Like the latest fashion
Like a spreading disease
The kids are…

❤46🤯18🔥14👍2🥰2🤩1

1.18K viewsedited 17:52

Вениамин Фишман

Наша статья про языковую модель GENA официально появилась на страницах топового журнала в области анализа ДНК - Nucleic Acid Research:

https://academic.oup.com/nar/article/53/2/gkae1310/7954523

Я много раз рассказывал про эту работу, в том числе и в этом канале. Но если кто-то не в курсе и хочет прочитать максимально короткий пересказ, тут есть мой Х-ториал.

https://x.com/minjaf/status/1880133282890936389

🔥38❤3👍1

1.18K views06:12

Вениамин Фишман

Вопрос к знатокам эпигенетики.

Во многих статья написано, что метка H3K9me3 коррелирует с метилированием ДНК. Кто может подсказать мне какой-нибудь публичный датасет H3K9me3 ChIP-seq + WGBS для человека, который можно закинуть в IGV и увидеть эту корреляцию? Я смотрел треки с энкода для K562 и что-то никакой корреляции не вижу.

1.02K views15:40

Вениамин Фишман

Модель Borzoi вышла в Nature Genetics. Работа очень известной группы David Kelly (работает в Calico Labs, дочке Deep Mind), у них много моделей для анализа ДНК, в том числе знаменитый Enformer

Особенность Borzoi в том, что из последовательности ДНК можно напрямую предсказывать данные RNA-seq - пожалуй, самого часто используемого метода геномики. Прошлые модели работали с данными CAGE, которые более информативны и удобны для анализа, но менее популярны из-за трудоемкости эксперимента.

https://www.nature.com/articles/s41588-024-02053-6

Опубликованный вариант статьи, кажется, не слишком сильно отличается от препринта, который группа опубликовала больше года назад. Главный вопрос - может ли Borzoi предсказывать эффекты вариантов в геномах разных людей - похоже так и остался без ответа (видимо, не может). Но все равно это большой шаг вперед.

Nature

Predicting RNA-seq coverage from DNA sequence as a unifying model of gene regulation

Nature Genetics - Borzoi adapts the Enformer sequence-to-expression model to directly predict RNA-seq coverage, enabling the in-silico analysis of variant effects across multiple layers of gene...

❤10🔥3

1.3K views15:46

Вениамин Фишман

Всем привет!
На всякий случай ещё раз продублирую объявление, которое давал в прошлом году. В моей группе в университете Сириус открыты позиции постдоков. Ищем сотрудников со степенью кбн (возможен вариант защиты в этом году), с опытом в какой-то из следующих областей:

- мокрой и сухой геномики
- ML/AI
- продвинутой клеточной биологии (ИПСК, дифференцировки и т.п.)
- продвинутой генной инженерии

Контакты:
Вениамин Фишман
minja-f@ya.ru
@minjafish

🙏3👍1

2.32K viewsedited 16:57

Вениамин Фишман

Вчера мне пришёл вызов в Москву для участия в экспертном совете ВАК, где будет рассматриваться моя диссертация. В идеале, очного участия.

В прошлом году я совершил 36 сегментов авиаперелётов. Большинство из них - по работе.

Меня не оставляет ощущение что, хотя личное общение бесценно, многие все ещё не поняли всю прелесть электронной системы документооборота и онлайн встреч.

👍36💯5🤨5❤2🤷2

1.03K views10:15

Вениамин Фишман

А сколько на эти деньги можно было бы сделать...

😢8

848 views15:07

Вениамин Фишман

Forwarded from Медицинская геномика

публикуйся или умри!

😢7❤4🔥2

905 views15:07

Вениамин Фишман

Кстати о статьях, за которые не жалко заплатить. Очень интересная работа. Я уже не первый раз натыкаюсь на неё, но тут интересно ещё почитать комментарии с деталями архитектуры в канале, откуда я сделал репост.

880 views17:34

Вениамин Фишман

Forwarded from danjafish

Весной мы в поездке с подругой обсуждали, насколько реально современным системам машинного обучения достичь когнитивных способностей человека. Один из аргументов, которые я тогда приводил, насколько это непростая задача: посмотри, с какой скоростью дети учаться новому. У людей невероятная способность к обобщению, увидив ранее незнакомое животное, но слыша в жизни его описание, мы можем его узнать. С 1-2 показов мы запоминаем карточки с новыми предемитами и т.п.

Наш мозг формировался в ходе эволюции миллионы лет, но сколько знаний заложено в него с рождения? Или мозг просто дает вычислительные возможности, а все знания приходят из окружающего мира?

И вот я наткнулся на такую статью в Science: https://www.science.org/doi/10.1126/science.adi1374

Идея следующая - в течении первых лет жизни ребенка (от 6 до 25 месяцев) проводился эксперимент. В случайные моменты времени ребенок проводил несколько часов с камерой на голове, которая снимает все происходящее. Таким образом, формировался набор изображений. Далее, были выделены категории слов, которые встречаются на видео, их говорят родственники ребенка. Например, мама говорит: "смотри, мячик". И показывает ребенку мячик. Таким образом формируется пара: изображение мячика - слово мячик. Авторы обучили классическую нейросеть для анализа изображний на парах картинка - слово так, чтобы эмбединг картинки был близок в пространстве к эмбедингу подходящего слова и далеко от неподходящего (т.е. слово "мяч" и картинка мяча - похожи, а "собака" и картинка мяча - нет)

Получилось ли у них система уровня человека?
Ответ: У них получилась система, способная распознавать изображения на неплохом уровне, но не на идеальном.

А для тех, кому интересно, как именно - читайте в комментариях.

Science

Grounded language acquisition through the eyes and ears of a single child

Machine learning advances research into early language acquisition in children.

👍20

1.07K views17:34

Вениамин Фишман

Сегодня в рамках семинара центра LIFT рассказываю про Гену на площадке Сколтеха.

Есть ссылка на зум

Подключиться к конференции Zoom
https://us06web.zoom.us/j/82516469784?pwd=qbRHjjVpaarvnY5RoUqoxLYdEI4LaD.1

Идентификатор конференции: 825 1646 9784
Код доступа: 660818

🔥8❤1👍1

1.59K viewsedited 11:37

Вениамин Фишман

❗Внимание аспирантам

Объявлен конкурс стипендий 2025 года. Стипендия 75 тыс на время аспирантуры, в прошлом году получателями стали около 500 человек.

Дедлайн 28 февраля.

https://aspirant.extech.ru/news/konkursnyi-otbor-2025-goda

🔥3😢1

1.12K viewsedited 19:37

Вениамин Фишман

image.png

316 KB

https://www.biorxiv.org/content/10.1101/2024.12.18.628606v1.full

Поскольку мне (видимо как адепту DNA LMs) сегодня сразу из трех независимых источников прислали ссылку на эту статью, решил, что нужно ее коротко разобрать.

Основной тезис авторов в заголовке:
"Genomic Foundationless Models: Pretraining Does Not Promise Performance"

Напомню очень коротко как работают языковые модели ДНК - их сначала предобучают на какой-то общей задаче (часто не имеющей понятного биологического смысла), вроде предсказать замаскированную букву по соседям. А потом файн-тюнят уже для решения задач с понятным смыслом.

Результат авторов - если вообще не претренировать модели, а случайным образом инициализировать, получается немногим хуже (а иногда - удивительно - но даже лучше) решать нужную задачу.

Разбор в комментариях. Мой вывод - если не умеешь пользоваться, никакая претрена не поможет

🔥11🥰2💩1🗿1

1.53K viewsedited 17:54

Вениамин Фишман

Сразу два конкурса мегагрантов объявлено на днях:

1. Конкурс мегагрантов университета Сириус. 30 млн в год для молодых учёных, 50 млн для ведущих.

2. Конкурс мегагрантов для ведущих зарубежных учёных. Прочитав по диагонали конкурсную документацию я так и не понял, как формализуется то, что руководитель должен дать именно зарубежный учёный - скорее м там созданы возможности для этого (например, можно иметь аналог степени к.б.н., т.е. PhD). Размер гранта - 20..50 млн в год на 3.5 года, необходимо опубликовать 40 статей

👍5

2.26K viewsedited 17:50

Вениамин Фишман

Мои друзья ищут человека на позицию постдока в области генной инженерии в университет Халле (Германия)

https://www.verwaltung.uni-halle.de/dezern3/Ausschr/25_5_1520_D_engl.pdf

❤7

2.13K viewsedited 03:14

Вениамин Фишман

Forwarded from Vityusha L

Надеюсь по ссылке большая надпись во весь экран - "ПОПАЛСЯ!"

🤣45🔥10😁4

1.29K views03:57

Вениамин Фишман

Обживаемся в университете Сириус

❤43💅12🥰3👏3🔥1

1.19K views03:32

Вениамин Фишман

Пока одни группы рассуждают, почему претренировка языковых моделей ДНК бесполезна, другие совершенствуют модели, показывают их эффективность в разных областях биологии и публикуются в Science.

Genome modeling and design across all domains of life with Evo 2

https://arcinstitute.org/manuscripts/Evo2

"We trained two versions of Evo 2 at 7B and 40B parameters, leveraging over 9.3T tokens at single-nucleotide resolution."

Молодцы. По моим оценкам 9.3T tokens - это весь NCBI genome dataset. 7...40В - сравнимо с языковыми моделями (Lama 7B).
Плюс котекст 1М букв, разрешение в одну букву.

Небольшой разбор в комментах.

arcinstitute.org

Manuscript | Arc Institute

Arc Institute is a independent nonprofit research organization headquartered in Palo Alto, California.

🔥7❤6❤‍🔥3👎1

2.14K viewsedited 04:35

About

Blog

Apps

Platform