Вениамин Фишман
1.24K subscribers
406 photos
73 videos
26 files
165 links
Генетика через призму AI, а также о науке (и в целом о жизни) в РФ и за рубежом
Download Telegram
Раньше в этом канале я не раз писал о языковых моделях ДНК и наших наработках в этой области. Больше у спасибо журналистам коммерсанта и коллегам из AIRI, которые помогли сформировать основные вопросы в этой области простым и понятным языком.
👍8🔥7❤‍🔥5
#зоопарк_одобряет

У «Ъ-науки» вышло большое интервью о GENA и биоинформатике с Вениамином Фишманом, доктором биологических наук, ведущим научным сотрудником группы «Биоинформатика» Института AIRI и Института цитологии и генетики СО РАН.

Фишман подробно рассказывает о первой российской нейросетке, обученной обрабатывать длинные последовательности ДНК. Разработчики GENA обучили нейросетевую модель на полной сборке генома человека и выложили ее в открытом доступе. За это время GENA из одной модели стал «семейством», а в конце января ученые AIRI опубликовали статью о разработке в Nucleic Acids Research (IF 16.6).

GENA уже сейчас способна обрабатывать входные данные длиной до 36 000 пар оснований, и благодаря интеграции недавно разработанного механизма рекуррентной памяти этот показатель можно еще нарастить.

Для интересующихся разработкой уже открыт веб-сервис https://dnalm.airi.net, в который можно ввести последовательность ДНК и получить несколько типовых аннотаций, чтобы прикинуть, насколько такой инструмент может вам вообще пригодиться. Чтобы выжать максимум функционала, потребуются навыки программирования и биоинформатики, но в целом все модели максимально упрощены в использовании. Все необходимое лежит в репозиториях на платформах Hugging Face и GitHub.

Читать тут: https://www.kommersant.ru/doc/7550813
🔥29🤮2
В последние дни регулярно слышу, что ряд сайтов научных журналов открывается только с VPN. А ещё IGV - одно из самых используемых ПО для просмотра и анализа геномных данных - перестал без VPN загружать информацию из публичных геномных данных. Сайт https://igv.org/doc/desktop/ тоже не открывается без VPN.

Надеюсь, это временно, ибо удобства работы это все не добавляет...
😭21😢11😱3👍2💯2
Forwarded from Институт AIRI
⚡️Открываем прием заявок на Лето с AIRI 2025!

В этом году мы запускаем Школу совместно с ТГУ. Программа пройдет в Томске с 30 июня по 10 июля. Это отличная возможность поработать с экспертами в области ИИ, прокачать навыки и погрузиться в исследовательскую атмосферу. В расписании — лекции, семинары, практическая работа, постерная сессия и внеучебные активности.

📎 Подать заявку на участие можно по ссылке до 23:59 29 апреля 2025 года.

Организаторы обеспечивают обучение, проживание и питание, вам нужно будет только добраться до Томска.

Подавайте заявки и делитесь постом с друзьями и коллегами!
Please open Telegram to view this post
VIEW IN TELEGRAM
7🔥5👍3
Коллеги из Бразилии просят распространить информацию о грантах для иностранных ученых. Пятилетний грант для работы в университетах/институтах Сан-Пауло, объем финансирования около 85 тыс. USD в год + зарплата руководителя проекта.

https://fapesp.br/17470/call-for-proposals-fapesp-grant-for-international-researchers
🔥102👍2
Коллеги отправили две занятные статьи:

1) https://www.nature.com/articles/s41467-025-58699-1/
2) https://www.biorxiv.org/content/10.1101/2025.04.14.648850v1.full.pdf

Разные по своей природе, мне они показались близкими с точки зрения двух идей:
1) анализа single-cell RNA-seq данных (кстати, обе делают акцент на использовании БД cell x gene)
2) возможности объединять биологические данные (измеренные на специальном приборе уровни активности генов в клетке) с текстовой информацией, описывающей клетки и гены понятным человеку языком.

Во второй статье описывается модель C2S, основанная на Gemini от google (27В параметров), которая вообще может полноценно "разговаривать" с пользователем на человеческом языке, отвечая на запросы вроде "вот список работающих в клетке генов, скажи мне, что это за тип клеток и чем болеет донор? А что будет с этой клеткой, если я дам донору такое-то лекарство?".

C2S это, с моей точки зрения, скорее пиарная статья, чем реально работающий инструмент. Но ведь и глядя на первые языковые модели мало кто думал, что они дорастут до сегодняшнего уровня?
👍6💩1
П.С. Вот тут можно посмотреть пример "разговора" с C2S

https://storage.googleapis.com/gweb-research2023-media/media/CellToSent3_ExamplesFinal.mp4
Я вылетаю в Сингапур на конференцию ICLR. Жду с нетерпением новых впечатлений от прогресса в области ML за прошедший год.

А пока - опробовал автоматические терминалы паспортного контроля в Шереметьево. Задумка хорошая, но они сканируют паспорт по 2-3 минуты - дольше чем это делал человек в кабинке. Так что проблему очередей только усугубляют.
11👾3🔥2
Как бы там ни было, China Eastern Airlines приветствует меня на борту. Впереди - 8-часовой перелёт в Шанхай, оттуда, с короткой пересадкой, вылетаю в Сингапур.

Кстати, прочитав сводку об истории этого государства, искренне впечатлён "азиатским тигром", который за 40-50 лет - время жизни одного поколения - превратился из бедной постколониальной страны в технологического гиганта.
🔥20👍2
Лечу над территорией Китая, в двух часах лета от Шанхая. Господи, ну когда уже и у нас будет интернет на борту самолётов?
На подлёте к Шанхаю - огромные площади заняты этими конструкциями, которые мне напоминают парники. Что это?
Персональный VPS сервер не только позволяет открывать IGV и bioxriv в РФ, но и запустить телеграм и вотсап в Китае. Интересно, что теле2 предлагает для этого отдельную услугу - VPN в роуминге.
Пока пара слов о том, как получить визу в Сингапур.

В целом - это очень просто. Можно очно обратиться в авторизованный визовый центр. В случае РФ - это VFS Global. Но не все отделения VFS могут делать визу в сингапур, например, Новосибирское не может. Поэтому я пошел другим путем и заказал визу через один из многочисленных онлайн-сервисов, которые позволяют вообще не появляться очно в визовом центре - достаточно просто отправить им сканы документов. Сверился с отзывами и даже нашел коллег на работе, которые пользовались этим сервисом в прошлом году. Через несколько часов, как прилечу, узнаю, развод это или нет =)
👍2
Паспортный контроль в Сингапуре - топ. Никаких очередей, никаких людей, никаких вопросов. Приложил паспорт, через 15 секунд прошёл турникеты под надписью welcome.
🔥84
Наши друзья и колабораторы из Санкт-Петербургского Университета завели блог "Хромосомы и кофе ", где рассказывают новости об устройстве хромосом:
https://t.me/chromosome_news
😁52👍1
Первое впечатления от города — тут очень чисто на улицах. Нигде не видел такой чистоты. Ни одного фантика не нашёл.

А ещё тут люди вокруг такого роста как я (или даже ниже). Это очень непривычное ощущение для моих 166 см.
😁39👍64
Заметки с конференции:
Agreement of similarly trained classifiers as measure of out of distribution error w/o out of distribution data
10
Обратил внимание, что на этой конференции одним из трендов являются работы по unlearning - по технологиям, как заставить модель "забыть" какую-то информацию, которая присутствовала во время обучения.
👍18😁10
Вениамин Фишман
Коллеги отправили две занятные статьи: 1) https://www.nature.com/articles/s41467-025-58699-1/ 2) https://www.biorxiv.org/content/10.1101/2025.04.14.648850v1.full.pdf Разные по своей природе, мне они показались близкими с точки зрения двух идей: 1) анализа…
Выше я писал о моделях, которые используют описания биологических объектов - гены, изменения их активности, болезни, лекарства - используя обычный текст. На конференции несколько примеров таких моделей.👇
2👍1
Ещё один вариант архитектуры для языковых моделей ДНК. Чем-то похоже на state space models. Статья:

https://arxiv.org/abs/2411.04165