Вениамин Фишман
1.23K subscribers
406 photos
73 videos
26 files
164 links
Генетика через призму AI, а также о науке (и в целом о жизни) в РФ и за рубежом
Download Telegram
Поскольку у нас сейчас есть большой грант от университета Сириус я часто бываю в Сочи и стараюсь на выходных выбраться в какое-нибудь красивое место загородом. На этих выходных ездили с семьёй гулять по диким тропам между сёлами Галицыно и Красная Воля.

Маршрут этот хорош тем, что он не проходит по сочинским заповедникам, а поэтому даже в разгар сезона по дороге не встретишь толпы туристов. Меж тем, добраться от университета очень легко - из Адлера до села Галицыно ходит обычный автобус. Проходя через деревню можно посмотреть на местные дачи, увидеть, как во дворах растут виноград, фундук, киви и даже банановые пальмы. Из Голицино хорошо натоптанная тропинка через лес ведёт к каньону Псахо, где придётся пересечь речку (совсем мелкую). А дальше, по руслу пересохшей реки, мы поднялись на пастбища возле Красной Воли. Виды там, нужно сказать, потрясающие - горы возвышаются со всех сторон, луг, на котором пасутся лошади и коровы, и никого вокруг.
17🔥15👍3
Приятный бонус поездки - можно вдоволь наесться дикой ежевики, кизила, яблок, груш - в этом месте их очень много, а на встречу иногда попадаются местные жители с ведёрками наперевес
🔥26👍4
Вениамин Фишман
Photo
Кстати, примечательно название - Красная Воля. Это название жители выбрали в 1925 году - поскольку прежнее название "жидовка" являлось "националистическим и уничижительным". При этом жители посёлка отнюдь не евреи - 60% армян и 40% русских.

Не могу сказать, что мне хотелось бы жить в посёлке "красная воля", но это название уж точно лучше, чем то что было )
🤣25🗿92👍2💯1
10-14 ноября в университете Сириус пройдет Форум генетических технологий «Сириус. ТехноГенетика». Форум организуется первый раз, сейчас активно идет обсуждение того, что там будет. Планируется несколько школ и конференций - по клеточной биологии, генетике, синтетической биологии и т.д.

А я, вспомнив как замечательно когда-то проводили в Сочи "диалоги о геномике", заручился поддержкой Олега Гусева и Бориса Сагалаева и попробую организовать неформальное вечернее мероприятие. Обсудим насущные проблемы в геномике - и просто поговорим в хорошей компании за науку. Присоединяйтесь!

https://siriusuniversity.ru/admission/educational-modules-and-activities/genetika-i-nauki-o-zhizni/forum-geneticheskikh-tekhnologiy-sirius-tekhnogenetika/?clckid=68c25178
21👍2
Forwarded from Marat Khamadeev
Всем привет! На нашем Хабре вышла новая статья от научного сотрудника группы дизайна белков AIRI Марии Синдеевой с обзором того, как устроен дизайн белков и какую роль в этом играет глубокое обучение. Кроме того, Мария рассказывает об успехах их команды в этом направлении
https://habr.com/ru/companies/airi/articles/933238/
🔥114
По отзывам, которые я слышал, Школа Анализа Данных (ШАД) от Яндекса делает один из самых сильных базовых курсов в области ИИ. В этом году коллеги обратили внимание на то, что в ШАД появляется отдельный набор по направлению ИИ в естественных науках, включая биологию и медицину:

https://yandex.ru/company/news/14-08-2025-01

интересно будет узнать отзывы и познакомиться с предподавателями, которые ведут курсы по геномике.

П.С. Набор на курсы до 10 сентября
🔥97❤‍🔥2👍2🤔2
science.adr8470.pdf
3 MB
Deep generative models design mRNA sequences with enhanced translational capacity and stability

На прошлой неделе в Science вышла статья о дизайне ключенвых элементов РНК: 5' и 3' UTRs с параллельной кодон-оптимизацией на основе предобученых трансформеров (модель GEMORNA). Основное целеполагание - создание эффективных РНК-вакцин. Пока успел лишь бегло пробежать, но радует, что авторы провели экспериментальную валидацию и показали увеличение экспрессии в сравнении с другими методами кодон-оптимизации (см. график).

Статью мне ещё предстоит внимательно прочитать - возможно, отдельные элементы будут нам полезны для создания тканеспецифичных векторов для генной терапии или поиска UTRs при аннотации генов. А пока есть краткий пересказ от PCR-news
17
image.png
32.5 KB
Получил письмо. Написано черным шрифтом на черном фоне. Текст (орфография, пунктуация и вообще содержание), а также вид на скриншоте - все сохранено (чтобы прочитать текст пришлось скопировать в блокнот):

"Здравствуйте! Я ФЕН, 2ой курс, биолог. Очень хочу к вам в лабораторию поработать. Мне очень интересно то, чем вы занимаетесь и хочется начинать набираться опыта. Вот мой номер: 89..... "
😁42🤯118🤣6👏2🔥1
Описание вакансии
Лаборатория рекомбинационного и сегрегационного анализа ИЦиГ СО РАН ищет биоинформатика или специалиста по статистической генетике.

Мы занимаемся количественной статистической генетикой человека, изучаем генетические факторы риска сложных заболеваний человека. Работаем с широким спектром признаков. Разрабатываем подходы к анализу больших геномных данных. Основные методы, применяемые в лаборатории: полногеномный анализ ассоциаций (GWAS), Менделевская рандомизация, региональный анализ ассоциаций, генетические корреляции, оценка полигенного риск (PRS). В данный момент в лаборатории также ведется работа с анализом транскриптомов и компьютерным зрением для анализа медицинских изображений. Для соискателя не обязательно владеть всеми перечисленными навыками, есть возможность выбрать наиболее близкое направление. Плюсом будет наличие у соискателя кандидатской степени, желания и возможности подаваться на гранты, а также интереса к работе со студентами/преподаванию.

Обязанности
Возможный список методов и обязанностей: GWAS, региональный анализ ассоциаций, Менделеевская рандомизация, статистические тесты и анализ омиксных данных, разработка программного обеспечения, написание грантов и научных статей, работа со студентами. Работа разнообразная, не обязательно иметь опыт со всеми этими методами.

Требования
Знание генетики
Опыт в R и/или Python
Опыт в командной строке и Линуксе
Знание базовой статистики и высшей алгебры
Надежный командный игрок
Не менее трех научных статей
Желателен опыт работы с GWAS
Желательно наличие кандидатской степени

Условия
Официальное трудоустройство на научную ставку
Можно удаленно, но по РФ
Можно парт-тайм
Командная работа по системе SCRUM
Гибкий график работы
Возможность подготовки статей уровня Nature Communications, NAR

Больше информации о лаборатории
Ссылки на профили сотрудников лаборатории: https://assa.icgbio.ru/open/person/921/, https://assa.icgbio.ru/open/person/13/, https://assa.icgbio.ru/open/person/3276/.
Ютуб-канал лаборатории: https://youtube.com/channel/UCWvCBcEcUClc4UxuzwHDmAw?si=AXUtxh1PmOFMXh21.
Онлайн-курс по статистической генетике от нашей лаборатории: https://www.youtube.com/playlist?list=PL-_cKNuVAYAUDyzFahlo-N70tRklxc692.

CV отправлять на адрес statgenomicslab@gmail.com
👍15🔥7👀1
Выше я уже неоднократно писал об успехах языковых моделей ДНК. На этом канале также можно почитать и мнения скептиков, которые считают, что текущие модели работают не на столько лучше аналогов, чтобы считать направление языковых моделей перспективным. Мне, в свою очередь, кажется, что мы просто движемся маленькими шажками (как это почти всегда бывает в науке), но эти шаги приведут нас к большим прорывам. И новая работа от ARC institute, как мне кажется, подтверждает эту гипотезу:

Модель Evo2 способна генерировать жизнеспособных бактериофагов, по фитнесу превосходящих дикотипных.

https://www.biorxiv.org/content/10.1101/2025.09.12.675911v1

те, кто работают с фагами, знают, что их геномы высоко оптимизированы и не так-то просто внести какое-либо изменение, которое хотя бы не уменьшает фитнес. Хотя (как и любая генеративная языковая модель) модель Evo по сути комбинирует увиденные ранее фаги, созданные комбинации не являются точной копией какой-либо сущетсвующей в природе последовательности (авторы специально ограничили генерацию уровнем сходства <95% с существующими геномами). Наиболее далекие от встречающихся в природе синтетические фаги имели гомологию на уровне белка менее 70%!

Создание же синтетических бактериофагов с повышенной вирулентностью in silico - сверхсложная задача. Авторы статьи показывают, что современные модели могут к ней подступиться .
15🔥5👎1
Хочу обратить внимание студентов и аспирантов, выполняющих работы в области ML, на стипендию от Сбера:

https://sberstudent.ru/scholarship/?ysclid=mfnodunmhl423009319

Стипендии предлагаются хорошие - 30 тыс. в месяц для студентов, 100 тыс. для аспирантов.

AIRI является партнером данной программы.

Дерзайте!
12
В отличие от учёных-биологов, для которых основным критерием успешности является публикация в научных журналах, у исследователей в области AI наиболее важным показателем являются публикации на конференциях уровня А*. На такие конференции подаются полноценные статьи, а не короткие тезисы, как мы привыкли на биологических конференциях, а задача попасть в список опубликованных работ, на мой взгляд, сопоставима по сложности с публикацией с IF>10. Кроме того, в год обычно проходит не более 4 — 5 конференций по подходящей тематике, так что число попыток ограничено.


Сегодня получил от коллег информацию, что работы целого ряда российских научных организаций, который находится в санкционном листе SDN, сняли с престижной конференции NeurIPS несмотря на официальнвй accept от рецензентов и "редакторов" (их роль в системе конференций выполняет metareviewer).

Официальная причина: организаторы не могут предоставить платные услуги лицам из SDN (участие в конференциях платное).
😢413👎2😡1
image.png
70.2 KB
Кто-нибудь, обучающий нейросети, когда-нибудь встречался с таким графиком loss? Когда он идет "ступенями"? Loss логируется как среднее на каждые 50 батчей и сбрасывается (обнуляется) после каждого логирования.

Я очень часто такое вижу в наших тренах, решил разобраться, почему так происходит. Вот лучшее объяснение, которое я смог найти, но оно все равно не полное:

https://www.fast.ai/posts/2023-09-04-learning-jumps/

Интересно узнать, сталкивался ли кто-то ещё с этим.
5
Тут недавно Arc опубликовал очередную статью про ево2

Утверждается, что они научились моделью генерировать бактериофаги. Оставив в стороне вопрос — а зачем — ведь оптимизировать свойства генерируемого они не умеют, посмотрим саму статью. В конце концов, может это первый шаг.

Но достаточно прочитать методы, чтобы увидеть, что модель не может сгенерировать структуру бактериофага сама. По-умолчанию вообще не может, хотя вроде в обучающей выборке он был. Надо дообучать на геномах целевого фага.

Далее — модель не может уловить архитектуру фага — какие белки в какой последовательности и как должны быть расположены. Приходится жёстко фиксировать эту архитектуру и вводить жёсткие правила типо того, что в сгенерированный последовательности обязательно должен быть спайк белок с идентичностью не менее 60% нативному. Очень интересно.
Ну и в принципе авторы гордо пишут, что в фагах, что они сгенерировали и те оказались функциональными, идентичность последовательностей белков не более 70%.
Начнем с того, что белки с идентичной на 70% последовательностью скорее всего будут иметь точь-в-точь одну структуру. Далее вопрос, где различия накоплены — авторы предусмотрительно не рисуют наложений структур. А я подозреваю, различия в всяких петлях.
Ну и наконец — для белковых моделей уже показано, что 1) можно ими генерировать функциональные белки 2) эти белки с "низкой гомологией белкам из тренировочной выборки" на самом деле будут составлены из двух-трёх белков этой выборки. Так как идентичность считается попарно, без анализа такое не увидишь, но оно есть.
Кому интересно: ссыль1, ссыль2

По итогу возникает вопрос — а точно HMM на нужных семействах белков справится хуже? Или просто сэмплирования случайных букв в каждой позиции выравнивания? Ответа на этот вопрос нет, ибо удовольствие недешевое и до этого так не делали. А Арк бейзлайнов не делает. Ну и вообще замывает факт того, сколько там фильтраций и прочего.

В общем конечно фанаты dnalm теперь будут прыгать и кричать что dnalm уже искусственные организмы делает. Советую в этом случае спрашивать у них детали из данной статьи:)

А так статьи от Arc Institute надо воспринимать как пресс-релизы — много передергиваниц и преувеличений, а есть ли смысл — мое имхо что нет.
12👍2