Вениамин Фишман
1.23K subscribers
406 photos
73 videos
26 files
164 links
Генетика через призму AI, а также о науке (и в целом о жизни) в РФ и за рубежом
Download Telegram
В отличие от учёных-биологов, для которых основным критерием успешности является публикация в научных журналах, у исследователей в области AI наиболее важным показателем являются публикации на конференциях уровня А*. На такие конференции подаются полноценные статьи, а не короткие тезисы, как мы привыкли на биологических конференциях, а задача попасть в список опубликованных работ, на мой взгляд, сопоставима по сложности с публикацией с IF>10. Кроме того, в год обычно проходит не более 4 — 5 конференций по подходящей тематике, так что число попыток ограничено.


Сегодня получил от коллег информацию, что работы целого ряда российских научных организаций, который находится в санкционном листе SDN, сняли с престижной конференции NeurIPS несмотря на официальнвй accept от рецензентов и "редакторов" (их роль в системе конференций выполняет metareviewer).

Официальная причина: организаторы не могут предоставить платные услуги лицам из SDN (участие в конференциях платное).
😢413👎2😡1
image.png
70.2 KB
Кто-нибудь, обучающий нейросети, когда-нибудь встречался с таким графиком loss? Когда он идет "ступенями"? Loss логируется как среднее на каждые 50 батчей и сбрасывается (обнуляется) после каждого логирования.

Я очень часто такое вижу в наших тренах, решил разобраться, почему так происходит. Вот лучшее объяснение, которое я смог найти, но оно все равно не полное:

https://www.fast.ai/posts/2023-09-04-learning-jumps/

Интересно узнать, сталкивался ли кто-то ещё с этим.
5
Тут недавно Arc опубликовал очередную статью про ево2

Утверждается, что они научились моделью генерировать бактериофаги. Оставив в стороне вопрос — а зачем — ведь оптимизировать свойства генерируемого они не умеют, посмотрим саму статью. В конце концов, может это первый шаг.

Но достаточно прочитать методы, чтобы увидеть, что модель не может сгенерировать структуру бактериофага сама. По-умолчанию вообще не может, хотя вроде в обучающей выборке он был. Надо дообучать на геномах целевого фага.

Далее — модель не может уловить архитектуру фага — какие белки в какой последовательности и как должны быть расположены. Приходится жёстко фиксировать эту архитектуру и вводить жёсткие правила типо того, что в сгенерированный последовательности обязательно должен быть спайк белок с идентичностью не менее 60% нативному. Очень интересно.
Ну и в принципе авторы гордо пишут, что в фагах, что они сгенерировали и те оказались функциональными, идентичность последовательностей белков не более 70%.
Начнем с того, что белки с идентичной на 70% последовательностью скорее всего будут иметь точь-в-точь одну структуру. Далее вопрос, где различия накоплены — авторы предусмотрительно не рисуют наложений структур. А я подозреваю, различия в всяких петлях.
Ну и наконец — для белковых моделей уже показано, что 1) можно ими генерировать функциональные белки 2) эти белки с "низкой гомологией белкам из тренировочной выборки" на самом деле будут составлены из двух-трёх белков этой выборки. Так как идентичность считается попарно, без анализа такое не увидишь, но оно есть.
Кому интересно: ссыль1, ссыль2

По итогу возникает вопрос — а точно HMM на нужных семействах белков справится хуже? Или просто сэмплирования случайных букв в каждой позиции выравнивания? Ответа на этот вопрос нет, ибо удовольствие недешевое и до этого так не делали. А Арк бейзлайнов не делает. Ну и вообще замывает факт того, сколько там фильтраций и прочего.

В общем конечно фанаты dnalm теперь будут прыгать и кричать что dnalm уже искусственные организмы делает. Советую в этом случае спрашивать у них детали из данной статьи:)

А так статьи от Arc Institute надо воспринимать как пресс-релизы — много передергиваниц и преувеличений, а есть ли смысл — мое имхо что нет.
12👍2
Задумчивая крыса
Тут недавно Arc опубликовал очередную статью про ево2 Утверждается, что они научились моделью генерировать бактериофаги. Оставив в стороне вопрос — а зачем — ведь оптимизировать свойства генерируемого они не умеют, посмотрим саму статью. В конце концов,…
А вот и альтернативные мнения о фаговой модели.

Не успею подробно разобрать все детали, но отмечу два принципиально важных момента:

1) да, есть много интересных бейзлайнов, которых не хватает в работе. С другой стороны, когда никто не мог сгенерировать синтетический геном живого* организма до тебя, а ты смог, кажется, что это не твоя задача доказывать что можно это сделать более простыми методами. Можно было бы - чего ж раньше не сделали.

* называется ли вирус живым - это какой-то страшный вопрос из старых ЕГЭ по биологии, который заслуживает отдельного разбора

2) утверждений о том, что белки с гомологией 70% часто могут иметь идентичную структуру и поэтому будут одинаково работать, наверное, верное (я не проверял). Но утверждение о том, что любые 30% замен нейтральные и не меняют структуру и функцию белка - точно не верное, мы знаем много примеров, когда замена 1 а.к. критична. Так что если авторы смогли найти алгоритм поиска таких замен, которые не влияют на структуру белка, это ценно. Мог ли этот алгоритм работать не используя языковые модели? Неизвестно. Должны ли были авторы это проверять? Было бы интересно, если бы они попробовали, но см. пункт 1.
🔥65👍2🌚2🤝2👎1
Когда я где-то год назад получил грант в Сириусе и начал периодически бывать в Сочи, меня очень впечатлило что в магазине "магнит" рядом с домом весы сами распознают, какой товар они взвешивают. Не нужно запоминать номер на овощах, чтобы выбить чек... Сегодня увидел что такие же весы установили в перекрёстке.

Ясно, что это элементарная на сегодняшний день сетка, какой-нибудь условный ResNet из 2010-ых, но как же всё-таки приятно ощущать прогресс в таких мелочах!
👍47😁1210💯6
Вопрос к сообществу биоинформатиков: может быть кто-то знает, в каких случаях BRAKER внутри гена выделяет mRNA? Он во всех аннотированных генах их пытается искать? У нас нашлось 17к генов и ~2k mRNA, пытаемся понять, почему так.

У кого вообще какие результаты получались при запуске BRAKER3 на геномах млеков средней паршивости?
7
NGS2025_«Секвенирование_и_анализ_растительного_генома».pdf
173 KB
Коллеги попросили распространить информацию о школе по NGS-анализу геномов растений.
👍12🔥7
Прошло около 10 лет с того момента, как я прочитал первую лекцию в университете Сириус. На протяжении этого времени я почти каждый год приезжал в Сочи, но всегда по работе. Потому, к своему стыду, так ни разу и не побывал на красной поляне. В воскресенье, благодаря коллегам, удалось исправить это досадное упущение. Виды - фантастические, а если не использовать подъёмники, то это ещё и прекрасная возможность потренировать мышцы ног!
58🔥12👍7💯1
Forwarded from Nariman
А теперь к действительно важным Новостям

Употребление кимчи каждый день может помочь предотвратить набор веса, говорится в новом исследовании.
Исследование поддержано грантами Всемирного института кимчи.

Может ну его этот РНФ, пишем заявку в Всемирный институт кимчи?
Я уверен, что после хорошей порции ядрёного кимчи ТАДы могут расплестись, а потом надо много энергии чтоб заплести их обратно. Может это и есть механизм предотвращения набора лишнего веса 🧐
😁5015🕊1
Media is too big
VIEW IN TELEGRAM
☑️ Интервью на логиста в компанию по продаже реактивов пройдено
🔥54😁197👍4🥱2
Forwarded from Minja Fishman
Дорогие коллеги,

наш отдел молекулярных механизмов онтогенеза на протяжении нескольких лет проводит ретрит - микроконференцию, на которой все сотрудники нашей большой группы рассказывают о своих успехах за прошедший год. Мы делаем это в неформальном стиле, а в программе, кроме докладов, есть ещё немножко времени на свободное общение, игры и другие "ненаучные" мероприятия.

Мы пока не созрели, чтобы организовать настоящую конференцию и у нас нет на это какого-то специального финансирования. Поэтому мы не приглашаем официально выступать на этом мероприятии с докладами. Но если кому-то интересны наши работы (в основном - геномика человека и животных, трансгенез и медицинская генетика) - можно также неформально присоединиться к нам. В этом году мы выезжаем в Бурмистрово (тер.Сказочный,дом 1) - там большая база отдыха, где можно забронировать себе жилье и поучаствовать в наших научных сессиях. С транспортом от и к ИЦиГ мы сможем помочь.

В приложении программа. Если кто-то захочет к нам присоединиться - напишите мне. Мы всегда рады гостям!

П.С. А ещё будет трансляция в zoom, тоже пишите, отправлю ссылку. Но в зум не так душевно!
25
Forwarded from Minja Fishman
🔥21👍3
Forwarded from Anton Zhelonkin
Регистрация на БХТ'25 открыта

Мы рады объявить старт регистрации на БХТ’25! Хакатон пройдет с 1 по 4 декабря в Санкт-Петербурге 🤩
Новые вызовы, актуальные проблемы науки и реального сектора — раскрываем задачи будущего хакатона:

🧬 1. Регуляторные элементы транскрипционного профиля макрофагов при воздействии атерогенных факторов
🧬 2. Транскрипционный профиль клеток при патогенных вариантах в moonlightning белках на примере NBAS
🧬 3. Влияние аминокислотных замен на амилоидогенность и структурную стабильность белков
🧬 4. Поиск функциональных генных модулей, характеризующих транскрипционный клеточный ландшафт лимфом на уровне single-cell RNA-seq
🧬 5. Деконволюция тотального RNA-seq для изучения стресс-индуцированных транскриптомных изменений в клеточных популяциях гиппокампа и амигдалы крыс
🧬 6. Разработка пайплайна для данных WES и WGS эмбрионов человека


🎁 Победителей ждет денежный приз, а всех участников — подарки от спонсоров.
📌 Готов присоединиться?
Переходи по ссылке, изучай детали и заполняй заявку до 5 ноября: https://kub.academy/

Приглашай коллег и единомышленников, которые горят биоинформатикой и готовы к интересным вызовам. Пусть в этом году нас станет ещё больше💪
5
Anton Zhelonkin
Регистрация на БХТ'25 открыта Мы рады объявить старт регистрации на БХТ’25! Хакатон пройдет с 1 по 4 декабря в Санкт-Петербурге 🤩 Новые вызовы, актуальные проблемы науки и реального сектора — раскрываем задачи будущего хакатона: 🧬 1. Регуляторные элементы…
Недавно узнал об интересном хакатоне, который организуют коллеги из Питера. Пообщался с ребятами, очень хочется их поддержать - у нас так мало энтузиастов и ещё меньше хороших мероприятий по биоинформатике! Очень интересно будет посмотреть задачки этого года. Всем рекомендую участвовать!
15👍3🔥2
Коллеги прислали обновление препринта Cell2Sentence от гугла:

https://www.biorxiv.org/content/10.1101/2025.04.14.648850v2.full

У Cell2Sentence моделей такая идея: в модель подается информация об активности генов в клетке в формате порядка генов: первым идет имя самого активного ген, потом второго по активности и т.д. Далее в модель подается текстовое описание - что это за тип клеток, были ли клетки обработаны каким-либо химическим агентом и т.п. Поскольку все данные на входе - это текст, учится модель как стандартная текстовая модель (архитектура тут decoder-only Transformer).

Статья довольно большая и будет интересно послушать чей-то детальный разбор (я прочитал внимательно только отдельные части). У меня сложилось такое впечатление, что это такой ИИ поисковик по статьям (статьи подаются при обучении вместе с данными об экспрессии), который ещё умеет по набору топ-экспрессирующихся генов задавать в поиск некоторый контекст - о каком типе клеток идет речь в запросе. Насколько этот "поисковик" хорошо генерализуется, чтобы выдавать что-то неизвестное - большое вопрос.

Авторы приводят пример, когда модель предсказала ранее неизвестное свойство интерферона усиливать репрезентацию антигенов, причем экспериментальная проверка предсказание модели. Но для меня (ни разу не иммунолога) не очевидно, насколько это действительно новое предсказание.

В любом случае даже возможность искать информацию по научным статьям и датасетам, запромптив поисковик своими single-cell данными - уже довольно интересно.

У коллег есть модели на HF - кто попробует, напишите отзывы!
https://huggingface.co/vandijklab/C2S-Scale-Pythia-1b-pt
👍7🤔53🥴2🔥1
Дал интервью ТАСС по поводу генетического тестирования.

https://tass.ru/v-strane/25416953

Привожу тут один из фрагментов:
По словам Вениамина Фишмана, генетические тесты назначаются только пациентам с серьезными медицинскими показаниями. "Если у вас нет тяжелой болезни и проблем с репродукцией, то в целом генетический тест вам не нужен, — подчеркивает специалист. — Даже если человек пришел с направлением от врача, мы все равно всегда рекомендуем сначала с врачом-генетиком пообщаться", — рассказывает он.

Люди, говорит специалист, иногда готовы платить огромные суммы за полное секвенирование генома "на всякий случай”, хотя их проблему может решить исследование одного гена, которое обойдется в десять раз дешевле. Кроме того, Фишман, как и Освянникова, прежде всего рассматривает семейный анамнез, если он не отягощен, в генетическом тесте необходимости нет.

"Я очень скептически отношусь к рекомендациям питания по ДНК-тесту, — добавил ученый. — В подавляющем большинстве случаев это просто не нужно". Достаточно следовать простым принципам: есть меньше жирного, соленого и жареного, контролировать размер порций и не впадать в крайности. Единственное исключение — закрытые популяции: "Это очень специфические районы нашей страны, где люди долгое время живут в закрытых популяциях, и в этих популяциях циркулируют редкие генетические варианты". В этих случаях превентивная генетическая диагностика действительно оправданна.


Действительно, сейчас стало модно делать генетические тесты по поводу и без. Это, конечно, в какой-то степени развивает область (да, мы только рады, когда у нас покупают генетические тесты), но трата денег бессмысленная, а если без консультации генетика - то бывает зачастую ещё и вредная.
30👍18🔥5