Вениамин Фишман
1.24K subscribers
406 photos
73 videos
26 files
165 links
Генетика через призму AI, а также о науке (и в целом о жизни) в РФ и за рубежом
Download Telegram
Прочитав бурю комментариев в разных каналах, твиттерах и прочих платформах о Evo-2, попробую ещё раз сформулировать взвешенную позицию.

Если кто-то рассматривает эту работу как решение всех проблем биологии (что можно заключить из заголовка), то, безусловно, будет разочарован. Из-за того, что в современной науке принято писать статьи и заявки на гранты в стиле "вот смотрите, сейчас мы спасем человечество", у людей не погруженных в область может возникнуть завышенное ожидание . Градус ожиданий нужно снизить.

Что, тем не менее, важно:
1) модели совершенствуются, и это хорошо видно по бенчмаркам, приведенным в статье
2) unsupervised модели (в биологическом контексте - обученные без какой-либо разметки, только на последовательностях букв) могут выучивать биологические закономерности, для открытия которых человечеству понадобились десятилетия, и которые до сих пор требуют "supervised" (т.е. специально подготовленных или экспериментально-размеченных) данных. Это очень важно.
3) в отдельных областях модели дают state-of-the-art качество.

Как относится к этим достижениям - дело вкуса. Лично меня они вдохновляют. Темп огромный - от первых DNABERT и пяти лет не прошло, апдейты выходят каждый месяц. Глядишь - и выучим что-то, что раньше не знали.

И меня скорее радует, что текущие модели ещё далеки от совершенства - есть поле и для наших исследований. Я не знаю - возможно и вовсе не языковые модели ДНК, а какой-то другой вариант анализа данных совершит большой прорыв в биологии. Но развитие всегда идет поступательно, мы пробуем и ошибаемся. Каждый шаг на этом пути имеет большую ценность.
22👍12👎1
Я уже пару раз тут восхищался, насколько упрощает разработку кода ChatGPT. Кажется, уже проще некуда. Так я думал, пока не попробовал сегодня поставить курсор...

В общем теперь у меня одна проблема - я просто не успеваю запоминать переменные с такой скоростью, с которой код пишется )) оказывается, пока я писал хотя бы первые буквы их названия, мозг запоминал их.
🤯8💯2😐2
Мой брат развлекается тем, что берёт интервью у людей разных профессий - и вот добрался до меня. Большинство читателей канала, как я понимаю, сами работают в науке. Но остальным может быть любопытно, как проходит день научного сотрудника. Публикую тут одну запись из этого интервью. Целиком оно получилось длинным - записывали его больше чем несколько месяцев, в основном во время долгих перелётов. Прочитать полную версию можно тут.
Forwarded from danjafish
3️⃣Расскажи, чем ты занимаешься?

Работа в науке разнообразна и многогранна — за это я её и люблю. На разных уровнях и в зависимости от желания можно заниматься почти чем угодно.

Главное и первое, что делает учёный, — это читает статьи, ставит эксперименты и/или анализирует их результаты. Читаю я почти каждый день: иногда бегло просматриваю резюме статьи, а иногда (гораздо реже) вникаю в детали.

Эксперименты биологи делят на "сухие" — когда мы что-то обсчитываем на компьютере, и "мокрые" — когда работаем с пробирками в лаборатории. Как правило, есть чёткое разделение труда: "сухие" специалисты не занимаются "мокрыми" экспериментами и наоборот, хотя бывают исключения. Я сам уже давно не провожу "мокрые" эксперименты, но периодически занимаюсь анализом данных.

Самое интересное — это анализ, обсуждение и интерпретация результатов, а также планирование новых экспериментов. На это уходит примерно 40–50% моего времени.

Почему только 40–50%? Потому что суровая реальность требует от учёного заниматься не только научной работой. Организация современной науки во многом напоминает небольшой бизнес. Ты сам ищешь финансирование для своих исследований — а это значит, что мало придумать великую идею, нужно ещё изложить её в привлекательной для фондов форме и попытаться заинтересовать компании.

Если (когда) деньги получены, начинается управление проектом: подбор команды сотрудников и коллабораторов, контроль бюджета, закупка оборудования, решение проблем с ремонтом, валютными платежами контрагентам, юридическим оформлением договоров. Нужно разбираться в кадровых вопросах, учитывать налоги, заниматься отчётностью. В результате я неплохо знаю тексты нескольких федеральных законов, десятки медицинских нормативных актов, основы трудового кодекса и понимаю, чем ноу-хау отличается от патента. Конечно, в этих задачах помогают бэкофисы научных институтов, но они не погружены в специфику конкретного научного проекта, поэтому часто приходится вместе искать нестандартные решения.

А наука — это всегда про нестандартные задачи. Например, в больших организациях часто говорят: "Дайте нам список закупок на год вперёд в январе, мы всё организуем", или "Закупки закрываются 15 ноября и откроются только после Нового года". Но в науке так не работает! Сегодня ты получил результат, завтра у тебя появилась новая идея, а послезавтра тебе нужен реактив. Приходится искать легальные (и, чего греха таить, иногда и полулегальные) пути решения.

Сначала мне было интересно разбираться в бухгалтерии, юриспруденции, кадровых вопросах, но со временем эта работа стала утомлять.

Другая "ненаучная" часть работы — организация команды и проектная деятельность. Когда группа расширяется до 3–4 человек, неизбежно приходится выстраивать менеджмент. В IT-компаниях все привыкли к таск-трекерам, синкам, мессенджерам, собеседованиям, дедлайнам, корпоративной этике, но в науке с этим полный хаос.

Отдельный вопрос — нужны ли в науке большие группы или эффективнее работать микроколлективами, сфокусированными на своей проблеме. Мне кажется, что для решения определённых задач крупные коллективы полезны, но научный менеджмент нужно развивать — сейчас он в ужасном состоянии. Однако копирование бизнес-моделей не всегда работает. Например, в первые месяцы работы в лаборатории Сбера нам ставили задачу так: "Распишите в таск-менеджере действия на полгода, которые приведут к публикации в Nature". Но научный поиск не строится по такому плану: попробовал — посмотрел результат — дальше возможны десятки направлений, которые невозможно распланировать заранее.

Тем не менее, базовые вещи, такие как регулярные синки, назначение ответственных за задачи, обратная связь сотрудникам, контроль зарплат — точно не помешают ни одной лаборатории.

Менеджмент в группе мне всё ещё интересен. Я придумал (или, скорее, подсмотрел) много идей, которые пробую внедрять, и считаю, что руководитель в науке должен заниматься этим.
💘15👍9🔥6
Заполняю планы по публикациям для институтской отчетности. В этом году мы переходим на "белый список журналов" - для тех, кто не в курсе, это РАН совместно с Минобром отрейтинговало все журналы, чтобы не использовать данные из зарубежных систем цитирования (вроде WOS/Scoupus).

Посмотрел рейтинги журналов, в которых мы публикуемся. Для высокоимпактных журналов все логично, они все относятся к 1ой категории. А вот с более низким уровнем что-то странное, например

NAR Genomics & Bioinformatics, Scopus Q1, IF~4 - во 2ой категории
При этом ВОГиС - Scopus Q2, IF<0.5 - в 1ой категории.

Ну ладно, можно предположить, что мы поддерживаем отечественные журналы. Но тогда почему Биохимия, самый высокоимпактный Российский журнал по биологии (Scopus Q2 и IF~2.5) - относится ко 2ой категории?

Upd: в комментариях объяснили логику. У Биохимии издатель зарубежный, так что ее рейтингуют как зарубежный журнал, а у ВОГиС - Российский издатель, его рейтингуют в сравнении с журналами РФ
🤯59😭10🤮8🌚8👍21💊1
Forwarded from Институт AIRI
Об особенностях первой российской ИИ-модели для ДНК GENA_LM — в новом интервью Вениамина Фишмана изданию «Коммерсантъ Наука»

Доктор биологических наук, ведущий научный сотрудник группы «Биоинформатика» AIRI и ИЦиГ СО РАН Вениамин Фишман рассказал о расшифровке генома и том, как команда российских ученых конкурирует со Стэнфордом и NVIDIA.

📎Читайте материал по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥148👍5
Раньше в этом канале я не раз писал о языковых моделях ДНК и наших наработках в этой области. Больше у спасибо журналистам коммерсанта и коллегам из AIRI, которые помогли сформировать основные вопросы в этой области простым и понятным языком.
👍8🔥7❤‍🔥5
#зоопарк_одобряет

У «Ъ-науки» вышло большое интервью о GENA и биоинформатике с Вениамином Фишманом, доктором биологических наук, ведущим научным сотрудником группы «Биоинформатика» Института AIRI и Института цитологии и генетики СО РАН.

Фишман подробно рассказывает о первой российской нейросетке, обученной обрабатывать длинные последовательности ДНК. Разработчики GENA обучили нейросетевую модель на полной сборке генома человека и выложили ее в открытом доступе. За это время GENA из одной модели стал «семейством», а в конце января ученые AIRI опубликовали статью о разработке в Nucleic Acids Research (IF 16.6).

GENA уже сейчас способна обрабатывать входные данные длиной до 36 000 пар оснований, и благодаря интеграции недавно разработанного механизма рекуррентной памяти этот показатель можно еще нарастить.

Для интересующихся разработкой уже открыт веб-сервис https://dnalm.airi.net, в который можно ввести последовательность ДНК и получить несколько типовых аннотаций, чтобы прикинуть, насколько такой инструмент может вам вообще пригодиться. Чтобы выжать максимум функционала, потребуются навыки программирования и биоинформатики, но в целом все модели максимально упрощены в использовании. Все необходимое лежит в репозиториях на платформах Hugging Face и GitHub.

Читать тут: https://www.kommersant.ru/doc/7550813
🔥29🤮2
В последние дни регулярно слышу, что ряд сайтов научных журналов открывается только с VPN. А ещё IGV - одно из самых используемых ПО для просмотра и анализа геномных данных - перестал без VPN загружать информацию из публичных геномных данных. Сайт https://igv.org/doc/desktop/ тоже не открывается без VPN.

Надеюсь, это временно, ибо удобства работы это все не добавляет...
😭21😢11😱3👍2💯2
Forwarded from Институт AIRI
⚡️Открываем прием заявок на Лето с AIRI 2025!

В этом году мы запускаем Школу совместно с ТГУ. Программа пройдет в Томске с 30 июня по 10 июля. Это отличная возможность поработать с экспертами в области ИИ, прокачать навыки и погрузиться в исследовательскую атмосферу. В расписании — лекции, семинары, практическая работа, постерная сессия и внеучебные активности.

📎 Подать заявку на участие можно по ссылке до 23:59 29 апреля 2025 года.

Организаторы обеспечивают обучение, проживание и питание, вам нужно будет только добраться до Томска.

Подавайте заявки и делитесь постом с друзьями и коллегами!
Please open Telegram to view this post
VIEW IN TELEGRAM
7🔥5👍3
Коллеги из Бразилии просят распространить информацию о грантах для иностранных ученых. Пятилетний грант для работы в университетах/институтах Сан-Пауло, объем финансирования около 85 тыс. USD в год + зарплата руководителя проекта.

https://fapesp.br/17470/call-for-proposals-fapesp-grant-for-international-researchers
🔥102👍2
Коллеги отправили две занятные статьи:

1) https://www.nature.com/articles/s41467-025-58699-1/
2) https://www.biorxiv.org/content/10.1101/2025.04.14.648850v1.full.pdf

Разные по своей природе, мне они показались близкими с точки зрения двух идей:
1) анализа single-cell RNA-seq данных (кстати, обе делают акцент на использовании БД cell x gene)
2) возможности объединять биологические данные (измеренные на специальном приборе уровни активности генов в клетке) с текстовой информацией, описывающей клетки и гены понятным человеку языком.

Во второй статье описывается модель C2S, основанная на Gemini от google (27В параметров), которая вообще может полноценно "разговаривать" с пользователем на человеческом языке, отвечая на запросы вроде "вот список работающих в клетке генов, скажи мне, что это за тип клеток и чем болеет донор? А что будет с этой клеткой, если я дам донору такое-то лекарство?".

C2S это, с моей точки зрения, скорее пиарная статья, чем реально работающий инструмент. Но ведь и глядя на первые языковые модели мало кто думал, что они дорастут до сегодняшнего уровня?
👍6💩1
П.С. Вот тут можно посмотреть пример "разговора" с C2S

https://storage.googleapis.com/gweb-research2023-media/media/CellToSent3_ExamplesFinal.mp4
Я вылетаю в Сингапур на конференцию ICLR. Жду с нетерпением новых впечатлений от прогресса в области ML за прошедший год.

А пока - опробовал автоматические терминалы паспортного контроля в Шереметьево. Задумка хорошая, но они сканируют паспорт по 2-3 минуты - дольше чем это делал человек в кабинке. Так что проблему очередей только усугубляют.
11👾3🔥2
Как бы там ни было, China Eastern Airlines приветствует меня на борту. Впереди - 8-часовой перелёт в Шанхай, оттуда, с короткой пересадкой, вылетаю в Сингапур.

Кстати, прочитав сводку об истории этого государства, искренне впечатлён "азиатским тигром", который за 40-50 лет - время жизни одного поколения - превратился из бедной постколониальной страны в технологического гиганта.
🔥20👍2
Лечу над территорией Китая, в двух часах лета от Шанхая. Господи, ну когда уже и у нас будет интернет на борту самолётов?
На подлёте к Шанхаю - огромные площади заняты этими конструкциями, которые мне напоминают парники. Что это?
Персональный VPS сервер не только позволяет открывать IGV и bioxriv в РФ, но и запустить телеграм и вотсап в Китае. Интересно, что теле2 предлагает для этого отдельную услугу - VPN в роуминге.
Пока пара слов о том, как получить визу в Сингапур.

В целом - это очень просто. Можно очно обратиться в авторизованный визовый центр. В случае РФ - это VFS Global. Но не все отделения VFS могут делать визу в сингапур, например, Новосибирское не может. Поэтому я пошел другим путем и заказал визу через один из многочисленных онлайн-сервисов, которые позволяют вообще не появляться очно в визовом центре - достаточно просто отправить им сканы документов. Сверился с отзывами и даже нашел коллег на работе, которые пользовались этим сервисом в прошлом году. Через несколько часов, как прилечу, узнаю, развод это или нет =)
👍2
Паспортный контроль в Сингапуре - топ. Никаких очередей, никаких людей, никаких вопросов. Приложил паспорт, через 15 секунд прошёл турникеты под надписью welcome.
🔥84
Наши друзья и колабораторы из Санкт-Петербургского Университета завели блог "Хромосомы и кофе ", где рассказывают новости об устройстве хромосом:
https://t.me/chromosome_news
😁52👍1