Вениамин Фишман
1.24K subscribers
406 photos
73 videos
26 files
165 links
Генетика через призму AI, а также о науке (и в целом о жизни) в РФ и за рубежом
Download Telegram
Я сильно не рассчитал время на подъем в гору по бездорожью , поэтому успел добраться только до нижней смотровой площадки. Последний километр ехать уже не мог, пришлось идти пешком и заталкивать в гору велосипед. Но даже с того места, до которого смог добраться, открывается красивый вид на русло реки Мзымта и окружающие горы.
20🔥5
А вот обратную дорогу навигатор предложил какую-то ужасную - спуск по скалистой тропе, по которой не то что на велосипеде - и пешком-то сойти сложно не сломав себе шею. Порядком вымотался, пока тащил по этой тропе велосипед, но, главное, цель достигнута. В следующий раз нужно будет поехать в эту же точку по противоположному берегу Мзымты, там, кажется, дорога лучше и можно доехать до скайпарка. Но это уже в 2025 году.
👍95
Я хорошо помню, как в университетские годы познакомился с творчеством американской панк-рок группы The Offspring. Мне нужно было в ночь перед зачётом перерисовать через оргстекло страниц 50 альбома, кажется, по ботанике. Натянув наушники я переключался с одного трека на другой, пока случайно не попал на "The kids aren't alright". Дальше ночь пролетела незаметно, а the offspring навсегда остались у меня в плейлисте и ассоциировались с учёбой в университете.

Каково же было моё удивление, когда я узнал сегодня, что основатель группы - Dexter Holland - молекулярный биолог со степенью PhD. А один из главных хитов группы - keep 'em separated - был рождён когда Декстер заливал агар в бактериальные чашки.

https://youtu.be/1jOk8dk-qaU
46🤯18🔥14👍2🥰2🤩1
Наша статья про языковую модель GENA официально появилась на страницах топового журнала в области анализа ДНК - Nucleic Acid Research:

https://academic.oup.com/nar/article/53/2/gkae1310/7954523

Я много раз рассказывал про эту работу, в том числе и в этом канале. Но если кто-то не в курсе и хочет прочитать максимально короткий пересказ, тут есть мой Х-ториал.

https://x.com/minjaf/status/1880133282890936389
🔥383👍1
Вопрос к знатокам эпигенетики.

Во многих статья написано, что метка H3K9me3 коррелирует с метилированием ДНК. Кто может подсказать мне какой-нибудь публичный датасет H3K9me3 ChIP-seq + WGBS для человека, который можно закинуть в IGV и увидеть эту корреляцию? Я смотрел треки с энкода для K562 и что-то никакой корреляции не вижу.
Модель Borzoi вышла в Nature Genetics. Работа очень известной группы David Kelly (работает в Calico Labs, дочке Deep Mind), у них много моделей для анализа ДНК, в том числе знаменитый Enformer

Особенность Borzoi в том, что из последовательности ДНК можно напрямую предсказывать данные RNA-seq - пожалуй, самого часто используемого метода геномики. Прошлые модели работали с данными CAGE, которые более информативны и удобны для анализа, но менее популярны из-за трудоемкости эксперимента.

https://www.nature.com/articles/s41588-024-02053-6

Опубликованный вариант статьи, кажется, не слишком сильно отличается от препринта, который группа опубликовала больше года назад. Главный вопрос - может ли Borzoi предсказывать эффекты вариантов в геномах разных людей - похоже так и остался без ответа (видимо, не может). Но все равно это большой шаг вперед.
10🔥3
Всем привет!
На всякий случай ещё раз продублирую объявление, которое давал в прошлом году. В моей группе в университете Сириус открыты позиции постдоков. Ищем сотрудников со степенью кбн (возможен вариант защиты в этом году), с опытом в какой-то из следующих областей:

- мокрой и сухой геномики
- ML/AI
- продвинутой клеточной биологии (ИПСК, дифференцировки и т.п.)
- продвинутой генной инженерии

Контакты:
Вениамин Фишман
minja-f@ya.ru
@minjafish
🙏3👍1
Вчера мне пришёл вызов в Москву для участия в экспертном совете ВАК, где будет рассматриваться моя диссертация. В идеале, очного участия.

В прошлом году я совершил 36 сегментов авиаперелётов. Большинство из них - по работе.

Меня не оставляет ощущение что, хотя личное общение бесценно, многие все ещё не поняли всю прелесть электронной системы документооборота и онлайн встреч.
👍36💯5🤨52🤷2
А сколько на эти деньги можно было бы сделать...
😢8
публикуйся или умри!
😢74🔥2
Кстати о статьях, за которые не жалко заплатить. Очень интересная работа. Я уже не первый раз натыкаюсь на неё, но тут интересно ещё почитать комментарии с деталями архитектуры в канале, откуда я сделал репост.
Forwarded from danjafish
Весной мы в поездке с подругой обсуждали, насколько реально современным системам машинного обучения достичь когнитивных способностей человека. Один из аргументов, которые я тогда приводил, насколько это непростая задача: посмотри, с какой скоростью дети учаться новому. У людей невероятная способность к обобщению, увидив ранее незнакомое животное, но слыша в жизни его описание, мы можем его узнать. С 1-2 показов мы запоминаем карточки с новыми предемитами и т.п.

Наш мозг формировался в ходе эволюции миллионы лет, но сколько знаний заложено в него с рождения? Или мозг просто дает вычислительные возможности, а все знания приходят из окружающего мира?

И вот я наткнулся на такую статью в Science: https://www.science.org/doi/10.1126/science.adi1374

Идея следующая - в течении первых лет жизни ребенка (от 6 до 25 месяцев) проводился эксперимент. В случайные моменты времени ребенок проводил несколько часов с камерой на голове, которая снимает все происходящее. Таким образом, формировался набор изображений. Далее, были выделены категории слов, которые встречаются на видео, их говорят родственники ребенка. Например, мама говорит: "смотри, мячик". И показывает ребенку мячик. Таким образом формируется пара: изображение мячика - слово мячик. Авторы обучили классическую нейросеть для анализа изображний на парах картинка - слово так, чтобы эмбединг картинки был близок в пространстве к эмбедингу подходящего слова и далеко от неподходящего (т.е. слово "мяч" и картинка мяча - похожи, а "собака" и картинка мяча - нет)

Получилось ли у них система уровня человека?
Ответ: У них получилась система, способная распознавать изображения на неплохом уровне, но не на идеальном.

А для тех, кому интересно, как именно - читайте в комментариях.
👍20
Сегодня в рамках семинара центра LIFT рассказываю про Гену на площадке Сколтеха.

Есть ссылка на зум

Подключиться к конференции Zoom
https://us06web.zoom.us/j/82516469784?pwd=qbRHjjVpaarvnY5RoUqoxLYdEI4LaD.1

Идентификатор конференции: 825 1646 9784
Код доступа: 660818
🔥81👍1
Внимание аспирантам

Объявлен конкурс стипендий 2025 года. Стипендия 75 тыс на время аспирантуры, в прошлом году получателями стали около 500 человек.

Дедлайн 28 февраля.

https://aspirant.extech.ru/news/konkursnyi-otbor-2025-goda
🔥3😢1
image.png
316 KB
https://www.biorxiv.org/content/10.1101/2024.12.18.628606v1.full


Поскольку мне (видимо как адепту DNA LMs) сегодня сразу из трех независимых источников прислали ссылку на эту статью, решил, что нужно ее коротко разобрать.

Основной тезис авторов в заголовке:
"Genomic Foundationless Models: Pretraining Does Not Promise Performance"


Напомню очень коротко как работают языковые модели ДНК - их сначала предобучают на какой-то общей задаче (часто не имеющей понятного биологического смысла), вроде предсказать замаскированную букву по соседям. А потом файн-тюнят уже для решения задач с понятным смыслом.


Результат авторов - если вообще не претренировать модели, а случайным образом инициализировать, получается немногим хуже (а иногда - удивительно - но даже лучше) решать нужную задачу.


Разбор в комментариях. Мой вывод - если не умеешь пользоваться, никакая претрена не поможет
🔥11🥰2💩1🗿1
Сразу два конкурса мегагрантов объявлено на днях:

1. Конкурс мегагрантов университета Сириус. 30 млн в год для молодых учёных, 50 млн для ведущих.

2. Конкурс мегагрантов для ведущих зарубежных учёных. Прочитав по диагонали конкурсную документацию я так и не понял, как формализуется то, что руководитель должен дать именно зарубежный учёный - скорее м там созданы возможности для этого (например, можно иметь аналог степени к.б.н., т.е. PhD). Размер гранта - 20..50 млн в год на 3.5 года, необходимо опубликовать 40 статей
👍5
Мои друзья ищут человека на позицию постдока в области генной инженерии в университет Халле (Германия)

https://www.verwaltung.uni-halle.de/dezern3/Ausschr/25_5_1520_D_engl.pdf
7
Forwarded from Vityusha L
Надеюсь по ссылке большая надпись во весь экран - "ПОПАЛСЯ!"
🤣45🔥10😁4
Обживаемся в университете Сириус
43💅12🥰3👏3🔥1
Пока одни группы рассуждают, почему претренировка языковых моделей ДНК бесполезна, другие совершенствуют модели, показывают их эффективность в разных областях биологии и публикуются в Science.

Genome modeling and design across all domains of life with Evo 2

https://arcinstitute.org/manuscripts/Evo2

"We trained two versions of Evo 2 at 7B and 40B parameters, leveraging over 9.3T tokens at single-nucleotide resolution."

Молодцы. По моим оценкам 9.3T tokens - это весь NCBI genome dataset. 7...40В - сравнимо с языковыми моделями (Lama 7B).
Плюс котекст 1М букв, разрешение в одну букву.

Небольшой разбор в комментах.
🔥76❤‍🔥3👎1