Вениамин Фишман
1.23K subscribers
406 photos
73 videos
26 files
164 links
Генетика через призму AI, а также о науке (и в целом о жизни) в РФ и за рубежом
Download Telegram
science.adr8470.pdf
3 MB
Deep generative models design mRNA sequences with enhanced translational capacity and stability

На прошлой неделе в Science вышла статья о дизайне ключенвых элементов РНК: 5' и 3' UTRs с параллельной кодон-оптимизацией на основе предобученых трансформеров (модель GEMORNA). Основное целеполагание - создание эффективных РНК-вакцин. Пока успел лишь бегло пробежать, но радует, что авторы провели экспериментальную валидацию и показали увеличение экспрессии в сравнении с другими методами кодон-оптимизации (см. график).

Статью мне ещё предстоит внимательно прочитать - возможно, отдельные элементы будут нам полезны для создания тканеспецифичных векторов для генной терапии или поиска UTRs при аннотации генов. А пока есть краткий пересказ от PCR-news
17
image.png
32.5 KB
Получил письмо. Написано черным шрифтом на черном фоне. Текст (орфография, пунктуация и вообще содержание), а также вид на скриншоте - все сохранено (чтобы прочитать текст пришлось скопировать в блокнот):

"Здравствуйте! Я ФЕН, 2ой курс, биолог. Очень хочу к вам в лабораторию поработать. Мне очень интересно то, чем вы занимаетесь и хочется начинать набираться опыта. Вот мой номер: 89..... "
😁42🤯118🤣6👏2🔥1
Описание вакансии
Лаборатория рекомбинационного и сегрегационного анализа ИЦиГ СО РАН ищет биоинформатика или специалиста по статистической генетике.

Мы занимаемся количественной статистической генетикой человека, изучаем генетические факторы риска сложных заболеваний человека. Работаем с широким спектром признаков. Разрабатываем подходы к анализу больших геномных данных. Основные методы, применяемые в лаборатории: полногеномный анализ ассоциаций (GWAS), Менделевская рандомизация, региональный анализ ассоциаций, генетические корреляции, оценка полигенного риск (PRS). В данный момент в лаборатории также ведется работа с анализом транскриптомов и компьютерным зрением для анализа медицинских изображений. Для соискателя не обязательно владеть всеми перечисленными навыками, есть возможность выбрать наиболее близкое направление. Плюсом будет наличие у соискателя кандидатской степени, желания и возможности подаваться на гранты, а также интереса к работе со студентами/преподаванию.

Обязанности
Возможный список методов и обязанностей: GWAS, региональный анализ ассоциаций, Менделеевская рандомизация, статистические тесты и анализ омиксных данных, разработка программного обеспечения, написание грантов и научных статей, работа со студентами. Работа разнообразная, не обязательно иметь опыт со всеми этими методами.

Требования
Знание генетики
Опыт в R и/или Python
Опыт в командной строке и Линуксе
Знание базовой статистики и высшей алгебры
Надежный командный игрок
Не менее трех научных статей
Желателен опыт работы с GWAS
Желательно наличие кандидатской степени

Условия
Официальное трудоустройство на научную ставку
Можно удаленно, но по РФ
Можно парт-тайм
Командная работа по системе SCRUM
Гибкий график работы
Возможность подготовки статей уровня Nature Communications, NAR

Больше информации о лаборатории
Ссылки на профили сотрудников лаборатории: https://assa.icgbio.ru/open/person/921/, https://assa.icgbio.ru/open/person/13/, https://assa.icgbio.ru/open/person/3276/.
Ютуб-канал лаборатории: https://youtube.com/channel/UCWvCBcEcUClc4UxuzwHDmAw?si=AXUtxh1PmOFMXh21.
Онлайн-курс по статистической генетике от нашей лаборатории: https://www.youtube.com/playlist?list=PL-_cKNuVAYAUDyzFahlo-N70tRklxc692.

CV отправлять на адрес statgenomicslab@gmail.com
👍15🔥7👀1
Выше я уже неоднократно писал об успехах языковых моделей ДНК. На этом канале также можно почитать и мнения скептиков, которые считают, что текущие модели работают не на столько лучше аналогов, чтобы считать направление языковых моделей перспективным. Мне, в свою очередь, кажется, что мы просто движемся маленькими шажками (как это почти всегда бывает в науке), но эти шаги приведут нас к большим прорывам. И новая работа от ARC institute, как мне кажется, подтверждает эту гипотезу:

Модель Evo2 способна генерировать жизнеспособных бактериофагов, по фитнесу превосходящих дикотипных.

https://www.biorxiv.org/content/10.1101/2025.09.12.675911v1

те, кто работают с фагами, знают, что их геномы высоко оптимизированы и не так-то просто внести какое-либо изменение, которое хотя бы не уменьшает фитнес. Хотя (как и любая генеративная языковая модель) модель Evo по сути комбинирует увиденные ранее фаги, созданные комбинации не являются точной копией какой-либо сущетсвующей в природе последовательности (авторы специально ограничили генерацию уровнем сходства <95% с существующими геномами). Наиболее далекие от встречающихся в природе синтетические фаги имели гомологию на уровне белка менее 70%!

Создание же синтетических бактериофагов с повышенной вирулентностью in silico - сверхсложная задача. Авторы статьи показывают, что современные модели могут к ней подступиться .
15🔥5👎1
Хочу обратить внимание студентов и аспирантов, выполняющих работы в области ML, на стипендию от Сбера:

https://sberstudent.ru/scholarship/?ysclid=mfnodunmhl423009319

Стипендии предлагаются хорошие - 30 тыс. в месяц для студентов, 100 тыс. для аспирантов.

AIRI является партнером данной программы.

Дерзайте!
12
В отличие от учёных-биологов, для которых основным критерием успешности является публикация в научных журналах, у исследователей в области AI наиболее важным показателем являются публикации на конференциях уровня А*. На такие конференции подаются полноценные статьи, а не короткие тезисы, как мы привыкли на биологических конференциях, а задача попасть в список опубликованных работ, на мой взгляд, сопоставима по сложности с публикацией с IF>10. Кроме того, в год обычно проходит не более 4 — 5 конференций по подходящей тематике, так что число попыток ограничено.


Сегодня получил от коллег информацию, что работы целого ряда российских научных организаций, который находится в санкционном листе SDN, сняли с престижной конференции NeurIPS несмотря на официальнвй accept от рецензентов и "редакторов" (их роль в системе конференций выполняет metareviewer).

Официальная причина: организаторы не могут предоставить платные услуги лицам из SDN (участие в конференциях платное).
😢413👎2😡1
image.png
70.2 KB
Кто-нибудь, обучающий нейросети, когда-нибудь встречался с таким графиком loss? Когда он идет "ступенями"? Loss логируется как среднее на каждые 50 батчей и сбрасывается (обнуляется) после каждого логирования.

Я очень часто такое вижу в наших тренах, решил разобраться, почему так происходит. Вот лучшее объяснение, которое я смог найти, но оно все равно не полное:

https://www.fast.ai/posts/2023-09-04-learning-jumps/

Интересно узнать, сталкивался ли кто-то ещё с этим.
5
Тут недавно Arc опубликовал очередную статью про ево2

Утверждается, что они научились моделью генерировать бактериофаги. Оставив в стороне вопрос — а зачем — ведь оптимизировать свойства генерируемого они не умеют, посмотрим саму статью. В конце концов, может это первый шаг.

Но достаточно прочитать методы, чтобы увидеть, что модель не может сгенерировать структуру бактериофага сама. По-умолчанию вообще не может, хотя вроде в обучающей выборке он был. Надо дообучать на геномах целевого фага.

Далее — модель не может уловить архитектуру фага — какие белки в какой последовательности и как должны быть расположены. Приходится жёстко фиксировать эту архитектуру и вводить жёсткие правила типо того, что в сгенерированный последовательности обязательно должен быть спайк белок с идентичностью не менее 60% нативному. Очень интересно.
Ну и в принципе авторы гордо пишут, что в фагах, что они сгенерировали и те оказались функциональными, идентичность последовательностей белков не более 70%.
Начнем с того, что белки с идентичной на 70% последовательностью скорее всего будут иметь точь-в-точь одну структуру. Далее вопрос, где различия накоплены — авторы предусмотрительно не рисуют наложений структур. А я подозреваю, различия в всяких петлях.
Ну и наконец — для белковых моделей уже показано, что 1) можно ими генерировать функциональные белки 2) эти белки с "низкой гомологией белкам из тренировочной выборки" на самом деле будут составлены из двух-трёх белков этой выборки. Так как идентичность считается попарно, без анализа такое не увидишь, но оно есть.
Кому интересно: ссыль1, ссыль2

По итогу возникает вопрос — а точно HMM на нужных семействах белков справится хуже? Или просто сэмплирования случайных букв в каждой позиции выравнивания? Ответа на этот вопрос нет, ибо удовольствие недешевое и до этого так не делали. А Арк бейзлайнов не делает. Ну и вообще замывает факт того, сколько там фильтраций и прочего.

В общем конечно фанаты dnalm теперь будут прыгать и кричать что dnalm уже искусственные организмы делает. Советую в этом случае спрашивать у них детали из данной статьи:)

А так статьи от Arc Institute надо воспринимать как пресс-релизы — много передергиваниц и преувеличений, а есть ли смысл — мое имхо что нет.
12👍2
Задумчивая крыса
Тут недавно Arc опубликовал очередную статью про ево2 Утверждается, что они научились моделью генерировать бактериофаги. Оставив в стороне вопрос — а зачем — ведь оптимизировать свойства генерируемого они не умеют, посмотрим саму статью. В конце концов,…
А вот и альтернативные мнения о фаговой модели.

Не успею подробно разобрать все детали, но отмечу два принципиально важных момента:

1) да, есть много интересных бейзлайнов, которых не хватает в работе. С другой стороны, когда никто не мог сгенерировать синтетический геном живого* организма до тебя, а ты смог, кажется, что это не твоя задача доказывать что можно это сделать более простыми методами. Можно было бы - чего ж раньше не сделали.

* называется ли вирус живым - это какой-то страшный вопрос из старых ЕГЭ по биологии, который заслуживает отдельного разбора

2) утверждений о том, что белки с гомологией 70% часто могут иметь идентичную структуру и поэтому будут одинаково работать, наверное, верное (я не проверял). Но утверждение о том, что любые 30% замен нейтральные и не меняют структуру и функцию белка - точно не верное, мы знаем много примеров, когда замена 1 а.к. критична. Так что если авторы смогли найти алгоритм поиска таких замен, которые не влияют на структуру белка, это ценно. Мог ли этот алгоритм работать не используя языковые модели? Неизвестно. Должны ли были авторы это проверять? Было бы интересно, если бы они попробовали, но см. пункт 1.
🔥65👍2🌚2🤝2👎1
Когда я где-то год назад получил грант в Сириусе и начал периодически бывать в Сочи, меня очень впечатлило что в магазине "магнит" рядом с домом весы сами распознают, какой товар они взвешивают. Не нужно запоминать номер на овощах, чтобы выбить чек... Сегодня увидел что такие же весы установили в перекрёстке.

Ясно, что это элементарная на сегодняшний день сетка, какой-нибудь условный ResNet из 2010-ых, но как же всё-таки приятно ощущать прогресс в таких мелочах!
👍47😁1210💯6
Вопрос к сообществу биоинформатиков: может быть кто-то знает, в каких случаях BRAKER внутри гена выделяет mRNA? Он во всех аннотированных генах их пытается искать? У нас нашлось 17к генов и ~2k mRNA, пытаемся понять, почему так.

У кого вообще какие результаты получались при запуске BRAKER3 на геномах млеков средней паршивости?
7
NGS2025_«Секвенирование_и_анализ_растительного_генома».pdf
173 KB
Коллеги попросили распространить информацию о школе по NGS-анализу геномов растений.
👍12🔥7
Прошло около 10 лет с того момента, как я прочитал первую лекцию в университете Сириус. На протяжении этого времени я почти каждый год приезжал в Сочи, но всегда по работе. Потому, к своему стыду, так ни разу и не побывал на красной поляне. В воскресенье, благодаря коллегам, удалось исправить это досадное упущение. Виды - фантастические, а если не использовать подъёмники, то это ещё и прекрасная возможность потренировать мышцы ног!
58🔥12👍7💯1
Forwarded from Nariman
А теперь к действительно важным Новостям

Употребление кимчи каждый день может помочь предотвратить набор веса, говорится в новом исследовании.
Исследование поддержано грантами Всемирного института кимчи.

Может ну его этот РНФ, пишем заявку в Всемирный институт кимчи?
Я уверен, что после хорошей порции ядрёного кимчи ТАДы могут расплестись, а потом надо много энергии чтоб заплести их обратно. Может это и есть механизм предотвращения набора лишнего веса 🧐
😁5015🕊1
Media is too big
VIEW IN TELEGRAM
☑️ Интервью на логиста в компанию по продаже реактивов пройдено
🔥54😁197👍4🥱2