Я сильно не рассчитал время на подъем в гору по бездорожью , поэтому успел добраться только до нижней смотровой площадки. Последний километр ехать уже не мог, пришлось идти пешком и заталкивать в гору велосипед. Но даже с того места, до которого смог добраться, открывается красивый вид на русло реки Мзымта и окружающие горы.
❤20🔥5
А вот обратную дорогу навигатор предложил какую-то ужасную - спуск по скалистой тропе, по которой не то что на велосипеде - и пешком-то сойти сложно не сломав себе шею. Порядком вымотался, пока тащил по этой тропе велосипед, но, главное, цель достигнута. В следующий раз нужно будет поехать в эту же точку по противоположному берегу Мзымты, там, кажется, дорога лучше и можно доехать до скайпарка. Но это уже в 2025 году.
👍9❤5
Я хорошо помню, как в университетские годы познакомился с творчеством американской панк-рок группы The Offspring. Мне нужно было в ночь перед зачётом перерисовать через оргстекло страниц 50 альбома, кажется, по ботанике. Натянув наушники я переключался с одного трека на другой, пока случайно не попал на "The kids aren't alright". Дальше ночь пролетела незаметно, а the offspring навсегда остались у меня в плейлисте и ассоциировались с учёбой в университете.
Каково же было моё удивление, когда я узнал сегодня, что основатель группы - Dexter Holland - молекулярный биолог со степенью PhD. А один из главных хитов группы - keep 'em separated - был рождён когда Декстер заливал агар в бактериальные чашки.
https://youtu.be/1jOk8dk-qaU
Каково же было моё удивление, когда я узнал сегодня, что основатель группы - Dexter Holland - молекулярный биолог со степенью PhD. А один из главных хитов группы - keep 'em separated - был рождён когда Декстер заливал агар в бактериальные чашки.
https://youtu.be/1jOk8dk-qaU
YouTube
The Offspring - "Come Out And Play"
Listen to the full album at http://bit.ly/12Okmvb
"Come Out And Play" by The Offspring from the album 'Smash'
Get 'Smash' on iTunes: http://bit.ly/1dXZHdk
LYRICS
You gotta keep 'em separated
Like the latest fashion
Like a spreading disease
The kids are…
"Come Out And Play" by The Offspring from the album 'Smash'
Get 'Smash' on iTunes: http://bit.ly/1dXZHdk
LYRICS
You gotta keep 'em separated
Like the latest fashion
Like a spreading disease
The kids are…
❤46🤯18🔥14👍2🥰2🤩1
Наша статья про языковую модель GENA официально появилась на страницах топового журнала в области анализа ДНК - Nucleic Acid Research:
https://academic.oup.com/nar/article/53/2/gkae1310/7954523
Я много раз рассказывал про эту работу, в том числе и в этом канале. Но если кто-то не в курсе и хочет прочитать максимально короткий пересказ, тут есть мой Х-ториал.
https://x.com/minjaf/status/1880133282890936389
https://academic.oup.com/nar/article/53/2/gkae1310/7954523
Я много раз рассказывал про эту работу, в том числе и в этом канале. Но если кто-то не в курсе и хочет прочитать максимально короткий пересказ, тут есть мой Х-ториал.
https://x.com/minjaf/status/1880133282890936389
🔥38❤3👍1
Вопрос к знатокам эпигенетики.
Во многих статья написано, что метка H3K9me3 коррелирует с метилированием ДНК. Кто может подсказать мне какой-нибудь публичный датасет H3K9me3 ChIP-seq + WGBS для человека, который можно закинуть в IGV и увидеть эту корреляцию? Я смотрел треки с энкода для K562 и что-то никакой корреляции не вижу.
Во многих статья написано, что метка H3K9me3 коррелирует с метилированием ДНК. Кто может подсказать мне какой-нибудь публичный датасет H3K9me3 ChIP-seq + WGBS для человека, который можно закинуть в IGV и увидеть эту корреляцию? Я смотрел треки с энкода для K562 и что-то никакой корреляции не вижу.
Модель Borzoi вышла в Nature Genetics. Работа очень известной группы David Kelly (работает в Calico Labs, дочке Deep Mind), у них много моделей для анализа ДНК, в том числе знаменитый Enformer
Особенность Borzoi в том, что из последовательности ДНК можно напрямую предсказывать данные RNA-seq - пожалуй, самого часто используемого метода геномики. Прошлые модели работали с данными CAGE, которые более информативны и удобны для анализа, но менее популярны из-за трудоемкости эксперимента.
https://www.nature.com/articles/s41588-024-02053-6
Опубликованный вариант статьи, кажется, не слишком сильно отличается от препринта, который группа опубликовала больше года назад. Главный вопрос - может ли Borzoi предсказывать эффекты вариантов в геномах разных людей - похоже так и остался без ответа (видимо, не может). Но все равно это большой шаг вперед.
Особенность Borzoi в том, что из последовательности ДНК можно напрямую предсказывать данные RNA-seq - пожалуй, самого часто используемого метода геномики. Прошлые модели работали с данными CAGE, которые более информативны и удобны для анализа, но менее популярны из-за трудоемкости эксперимента.
https://www.nature.com/articles/s41588-024-02053-6
Опубликованный вариант статьи, кажется, не слишком сильно отличается от препринта, который группа опубликовала больше года назад. Главный вопрос - может ли Borzoi предсказывать эффекты вариантов в геномах разных людей - похоже так и остался без ответа (видимо, не может). Но все равно это большой шаг вперед.
Nature
Predicting RNA-seq coverage from DNA sequence as a unifying model of gene regulation
Nature Genetics - Borzoi adapts the Enformer sequence-to-expression model to directly predict RNA-seq coverage, enabling the in-silico analysis of variant effects across multiple layers of gene...
❤10🔥3
Всем привет!
На всякий случай ещё раз продублирую объявление, которое давал в прошлом году. В моей группе в университете Сириус открыты позиции постдоков. Ищем сотрудников со степенью кбн (возможен вариант защиты в этом году), с опытом в какой-то из следующих областей:
- мокрой и сухой геномики
- ML/AI
- продвинутой клеточной биологии (ИПСК, дифференцировки и т.п.)
- продвинутой генной инженерии
Контакты:
Вениамин Фишман
minja-f@ya.ru
@minjafish
На всякий случай ещё раз продублирую объявление, которое давал в прошлом году. В моей группе в университете Сириус открыты позиции постдоков. Ищем сотрудников со степенью кбн (возможен вариант защиты в этом году), с опытом в какой-то из следующих областей:
- мокрой и сухой геномики
- ML/AI
- продвинутой клеточной биологии (ИПСК, дифференцировки и т.п.)
- продвинутой генной инженерии
Контакты:
Вениамин Фишман
minja-f@ya.ru
@minjafish
🙏3👍1
Вчера мне пришёл вызов в Москву для участия в экспертном совете ВАК, где будет рассматриваться моя диссертация. В идеале, очного участия.
В прошлом году я совершил 36 сегментов авиаперелётов. Большинство из них - по работе.
Меня не оставляет ощущение что, хотя личное общение бесценно, многие все ещё не поняли всю прелесть электронной системы документооборота и онлайн встреч.
В прошлом году я совершил 36 сегментов авиаперелётов. Большинство из них - по работе.
Меня не оставляет ощущение что, хотя личное общение бесценно, многие все ещё не поняли всю прелесть электронной системы документооборота и онлайн встреч.
👍36💯5🤨5❤2🤷2
Кстати о статьях, за которые не жалко заплатить. Очень интересная работа. Я уже не первый раз натыкаюсь на неё, но тут интересно ещё почитать комментарии с деталями архитектуры в канале, откуда я сделал репост.
Forwarded from danjafish
Весной мы в поездке с подругой обсуждали, насколько реально современным системам машинного обучения достичь когнитивных способностей человека. Один из аргументов, которые я тогда приводил, насколько это непростая задача: посмотри, с какой скоростью дети учаться новому. У людей невероятная способность к обобщению, увидив ранее незнакомое животное, но слыша в жизни его описание, мы можем его узнать. С 1-2 показов мы запоминаем карточки с новыми предемитами и т.п.
Наш мозг формировался в ходе эволюции миллионы лет, но сколько знаний заложено в него с рождения? Или мозг просто дает вычислительные возможности, а все знания приходят из окружающего мира?
И вот я наткнулся на такую статью в Science: https://www.science.org/doi/10.1126/science.adi1374
Идея следующая - в течении первых лет жизни ребенка (от 6 до 25 месяцев) проводился эксперимент. В случайные моменты времени ребенок проводил несколько часов с камерой на голове, которая снимает все происходящее. Таким образом, формировался набор изображений. Далее, были выделены категории слов, которые встречаются на видео, их говорят родственники ребенка. Например, мама говорит: "смотри, мячик". И показывает ребенку мячик. Таким образом формируется пара: изображение мячика - слово мячик. Авторы обучили классическую нейросеть для анализа изображний на парах картинка - слово так, чтобы эмбединг картинки был близок в пространстве к эмбедингу подходящего слова и далеко от неподходящего (т.е. слово "мяч" и картинка мяча - похожи, а "собака" и картинка мяча - нет)
Получилось ли у них система уровня человека?
Ответ:У них получилась система, способная распознавать изображения на неплохом уровне, но не на идеальном.
А для тех, кому интересно, как именно - читайте в комментариях.
Наш мозг формировался в ходе эволюции миллионы лет, но сколько знаний заложено в него с рождения? Или мозг просто дает вычислительные возможности, а все знания приходят из окружающего мира?
И вот я наткнулся на такую статью в Science: https://www.science.org/doi/10.1126/science.adi1374
Идея следующая - в течении первых лет жизни ребенка (от 6 до 25 месяцев) проводился эксперимент. В случайные моменты времени ребенок проводил несколько часов с камерой на голове, которая снимает все происходящее. Таким образом, формировался набор изображений. Далее, были выделены категории слов, которые встречаются на видео, их говорят родственники ребенка. Например, мама говорит: "смотри, мячик". И показывает ребенку мячик. Таким образом формируется пара: изображение мячика - слово мячик. Авторы обучили классическую нейросеть для анализа изображний на парах картинка - слово так, чтобы эмбединг картинки был близок в пространстве к эмбедингу подходящего слова и далеко от неподходящего (т.е. слово "мяч" и картинка мяча - похожи, а "собака" и картинка мяча - нет)
Получилось ли у них система уровня человека?
Ответ:
А для тех, кому интересно, как именно - читайте в комментариях.
Science
Grounded language acquisition through the eyes and ears of a single child
Machine learning advances research into early language acquisition in children.
👍20
Сегодня в рамках семинара центра LIFT рассказываю про Гену на площадке Сколтеха.
Есть ссылка на зум
Подключиться к конференции Zoom
https://us06web.zoom.us/j/82516469784?pwd=qbRHjjVpaarvnY5RoUqoxLYdEI4LaD.1
Идентификатор конференции: 825 1646 9784
Код доступа: 660818
Есть ссылка на зум
Подключиться к конференции Zoom
https://us06web.zoom.us/j/82516469784?pwd=qbRHjjVpaarvnY5RoUqoxLYdEI4LaD.1
Идентификатор конференции: 825 1646 9784
Код доступа: 660818
🔥8❤1👍1
❗Внимание аспирантам
Объявлен конкурс стипендий 2025 года. Стипендия 75 тыс на время аспирантуры, в прошлом году получателями стали около 500 человек.
Дедлайн 28 февраля.
https://aspirant.extech.ru/news/konkursnyi-otbor-2025-goda
Объявлен конкурс стипендий 2025 года. Стипендия 75 тыс на время аспирантуры, в прошлом году получателями стали около 500 человек.
Дедлайн 28 февраля.
https://aspirant.extech.ru/news/konkursnyi-otbor-2025-goda
🔥3😢1
image.png
316 KB
https://www.biorxiv.org/content/10.1101/2024.12.18.628606v1.full
Поскольку мне (видимо как адепту DNA LMs) сегодня сразу из трех независимых источников прислали ссылку на эту статью, решил, что нужно ее коротко разобрать.
Основной тезис авторов в заголовке:
"Genomic Foundationless Models: Pretraining Does Not Promise Performance"
Напомню очень коротко как работают языковые модели ДНК - их сначала предобучают на какой-то общей задаче (часто не имеющей понятного биологического смысла), вроде предсказать замаскированную букву по соседям. А потом файн-тюнят уже для решения задач с понятным смыслом.
Результат авторов - если вообще не претренировать модели, а случайным образом инициализировать, получается немногим хуже (а иногда - удивительно - но даже лучше) решать нужную задачу.
Разбор в комментариях. Мой вывод -если не умеешь пользоваться, никакая претрена не поможет
Поскольку мне (видимо как адепту DNA LMs) сегодня сразу из трех независимых источников прислали ссылку на эту статью, решил, что нужно ее коротко разобрать.
Основной тезис авторов в заголовке:
"Genomic Foundationless Models: Pretraining Does Not Promise Performance"
Напомню очень коротко как работают языковые модели ДНК - их сначала предобучают на какой-то общей задаче (часто не имеющей понятного биологического смысла), вроде предсказать замаскированную букву по соседям. А потом файн-тюнят уже для решения задач с понятным смыслом.
Результат авторов - если вообще не претренировать модели, а случайным образом инициализировать, получается немногим хуже (а иногда - удивительно - но даже лучше) решать нужную задачу.
Разбор в комментариях. Мой вывод -
🔥11🥰2💩1🗿1
Сразу два конкурса мегагрантов объявлено на днях:
1. Конкурс мегагрантов университета Сириус. 30 млн в год для молодых учёных, 50 млн для ведущих.
2. Конкурс мегагрантов для ведущих зарубежных учёных. Прочитав по диагонали конкурсную документацию я так и не понял, как формализуется то, что руководитель должен дать именно зарубежный учёный - скорее м там созданы возможности для этого (например, можно иметь аналог степени к.б.н., т.е. PhD). Размер гранта - 20..50 млн в год на 3.5 года, необходимо опубликовать 40 статей
1. Конкурс мегагрантов университета Сириус. 30 млн в год для молодых учёных, 50 млн для ведущих.
2. Конкурс мегагрантов для ведущих зарубежных учёных. Прочитав по диагонали конкурсную документацию я так и не понял, как формализуется то, что руководитель должен дать именно зарубежный учёный - скорее м там созданы возможности для этого (например, можно иметь аналог степени к.б.н., т.е. PhD). Размер гранта - 20..50 млн в год на 3.5 года, необходимо опубликовать 40 статей
👍5
Мои друзья ищут человека на позицию постдока в области генной инженерии в университет Халле (Германия)
https://www.verwaltung.uni-halle.de/dezern3/Ausschr/25_5_1520_D_engl.pdf
https://www.verwaltung.uni-halle.de/dezern3/Ausschr/25_5_1520_D_engl.pdf
❤7
Пока одни группы рассуждают, почему претренировка языковых моделей ДНК бесполезна, другие совершенствуют модели, показывают их эффективность в разных областях биологии и публикуются в Science.
Genome modeling and design across all domains of life with Evo 2
https://arcinstitute.org/manuscripts/Evo2
"We trained two versions of Evo 2 at 7B and 40B parameters, leveraging over 9.3T tokens at single-nucleotide resolution."
Молодцы. По моим оценкам 9.3T tokens - это весь NCBI genome dataset. 7...40В - сравнимо с языковыми моделями (Lama 7B).
Плюс котекст 1М букв, разрешение в одну букву.
Небольшой разбор в комментах.
Genome modeling and design across all domains of life with Evo 2
https://arcinstitute.org/manuscripts/Evo2
"We trained two versions of Evo 2 at 7B and 40B parameters, leveraging over 9.3T tokens at single-nucleotide resolution."
Молодцы. По моим оценкам 9.3T tokens - это весь NCBI genome dataset. 7...40В - сравнимо с языковыми моделями (Lama 7B).
Плюс котекст 1М букв, разрешение в одну букву.
Небольшой разбор в комментах.
arcinstitute.org
Manuscript | Arc Institute
Arc Institute is a independent nonprofit research organization headquartered in Palo Alto, California.
🔥7❤6❤🔥3👎1