AI Для Всех

Не знаю, почему авторы не ссылаются на эту модель и не сравниваются с ней, которая вышла раньше и не проверяют свои предсказания на ClinVar (де факто стандарт).

Конечно, это не умаляет сделанного ими, но даже подходы к zeroshot переносу у них похожие. И там и там есть вероятность, давайте введеме метрику на основе разницы вероятность референса и мутации. Было бы очень круто, будь у них сравнение.

#ScientificML #biology

48 viewsDmitry Penzar, edited 12:15

AI Для Всех

Forwarded from DL in biology (Зоя Червонцева)

Large-scale clinical interpretation of genetic variants using evolutionary data and deep learning

Текст: https://www.biorxiv.org/content/10.1101/2020.12.21.423785v1
Код: модификация предыдущей работы авторов https://github.com/debbiemarkslab/DeepSequence
Модель: байесовский вариационный автоэнкодер

Что предсказывали
В конечном счете -- патогенность миссенс-мутаций в геноме человека. Но делали это очень красивым непрямым способом.

Предобучение
Сначала для каждого белок-кодирующего гена брали выравнивание гомологов из всех возможных геномов (> 139 тыс. организмов). Вариационный автоэнкодер обучали сжимать такие выравнивания. В процессе этого автоэнкодер выучивал распределения, по которым для каждой возможной мутации в каждой позиции можно было оценить, насколько она вероятна. Выражением этой вероятности считался некоторый “эволюционный индекс”.

Классификация
Эволюционные индексы всех возможных мутаций (каждого белка по отдельности?) собрали в одно распределение. Оно оказалось двугорбым, и его разделили на две гауссианы, условно соответствующие патогенным и не патогенным мутациям. Исходя из этих двух гауссиан, каждой отдельной мутации присвоили метку -- вероятность этой мутации оказаться или не оказаться патогенной.

Что получилось
Полученные скоры хорошо предсказывают метки из базы ClinVar (AUC 0.90) и дают уверенные предсказания для многих мутаций, эффект которых не известен.

Авторы особо подчеркивают, что их модель не видит меток при обучении, и это лишает ее возможности переобучиться. Что же касается возможности неявно переобучиться на конкретные группы организмов, которых просто больше секвенировано, -- то и эту проблему авторы успешно обходят. Они взвешивают последовательности в выравнивании пропорционально их уникальности.

63 viewsDmitry Penzar, 12:15

AI Для Всех

По ссылкам в твиттере уввидел вот это:

Проект
ArXiv

Мне кажется интересным. Сравниваются авторы в основном не с state-of-art #GAN, где идет State-of-thee-art - результаты хуже (как в таблице выше).

Основано все на #diffusion process, который скидывал ранее Артемий и который ему очень понравился.
Предлагалось добавить его в лекцию по GAN.

Видим, что идея работает. Работает ли она лучше GAN - нет, потому по логике ее надо добавлять в конец.
И после того, как мы добавим объяснение тех же StyleGAN.

Но если у кого-то есть примеры успехов в сравнении с GAN - можно посмотреть, не добавить ли в часть с практическим кодом.

#generative #images

67 viewsDmitry Penzar, edited 12:51

AI Для Всех

Продолжаем про #diffusion. Вот крутая сетка которая делает super-resolution.

И блог пост.

#generative #images

Twitter

Chitwan Saharia

We present SR3: a conditional diffusion model for image super-resolution. SR3's face super resolution results are extremely hard to distinguish from real images, reaching an ideal confusion rate of 50% in human evaluation. iterative-refinement.github.io …

72 viewsArtemii, edited 22:43

AI Для Всех

Forwarded from эйай ньюз

Кроме того, у Lilian Weng есть целая серия крутых постов о генеративных моделях:
- Про Generative Adversarial Netowrks (GANs)
- Про Aunoencoders & Variational Autoencoders (VAE)
- Про модели основанные на Normalizing Flows

В закладки!

65 viewsArtemii, 07:04

AI Для Всех

Оказывается попиксельная классификация в задачах сегментации In not all you need.
Facebook предлагает ещё в добавок предсказывать бинарные маски, а затем уже для них предсказывать класс

#segmentation #transformer

Twitter

Per-Pixel Classification is Not All You Need for Semantic Segmentation pdf: arxiv.org/pdf/2107.06278… github: github.com/facebookresear… outperforms both current sota semantic (55.6 mIoU on ADE20K) and panoptic segmentation (52.7 PQ on COCO) models

72 viewsArtemii, edited 07:15

AI Для Всех

Combiner: Full Attention Transformer with Sparse Computation Cost

Предлагается O(L log L) эффективный преобразователь внимания, который дает результаты SotA на нескольких задачах моделирования изображений и текстов, как авторегрессионных, так и MLM.

ArXiv

#transformer

58 viewsArtemii, edited 07:22

AI Для Всех

Появился код и предобученные модели для Efficient Self-supervised ViT.

Точность выше чем у BYOL и DINO 🦖, обратите внимание на скорость работы (на порядок выше чем у предыдущих моделей). Достигается за счёт sparse attention

#SSL #images #transformer

61 viewsArtemii, edited 21:07

AI Для Всех

Дедупликация обучающих данных делает языковые модели лучше.

Дедупликация позволяет обучать модели, которые выдают запомненный текст в десять раз реже и требуют меньшего количества шагов обучения для достижения той же или лучшей точности.

Тут ещё крутая история в том что сначала это сделали на ProteinBERT, а только потом уже применили в общем ML.

#NLP #Training

57 viewsArtemii, edited 07:07

AI Для Всех

Про то, как нейросетки преобразуют под себя исходное пространство

ArXiv
GitHub

#theory

49 viewsDmitry Penzar, edited 10:35

AI Для Всех

Новый CLIP art блокнот от RiverHasWings.
Результаты просто ошеломительные!

#generative #images #CLIP

58 viewsArtemii, edited 16:32

AI Для Всех

Релиз AlphaFold v2.

#ScientificML #biology

GitHub

GitHub - deepmind/alphafold: Open source code for AlphaFold.

Open source code for AlphaFold. Contribute to deepmind/alphafold development by creating an account on GitHub.

63 viewsArtemii, edited 19:49

AI Для Всех

Супер быстрый симулятор физики от Google

#ScientificML

Googleblog

Speeding Up Reinforcement Learning with a New Physics Simulation Engine

70 viewsArtemii, edited 19:51

AI Для Всех

FLEX Unifying Evaluation for Few-Shot NLP

#datasets #NLP

Twitter

FLEX: Unifying Evaluation for Few-Shot NLP pdf: arxiv.org/pdf/2107.07170… abs: arxiv.org/abs/2107.07170 benchmark, public leaderboard, and framework that provides unified, comprehensive measurement for few-shot NLP techniques

63 viewsArtemii, edited 06:15

AI Для Всех

Мультимодальный датасет для representation learning.

ArXiv

#datasets #multimodal

53 viewsArtemii, edited 06:22

AI Для Всех

Forwarded from Data Science by ODS.ai 🦜

JupyterLite is a JupyterLab distribution that runs entirely in the web browser, backed by in-browser language kernels.

Scientific, Data science and visualisation packages are supported.

Basically it means you can use Jupyter just by opening a new browser tab. Starting to learn Data Science has never been easier.

Read the intro[1] for full feature list, or try it online[2].

#jupyterlab #jupyterlite
[1] https://blog.jupyter.org/jupyterlite-jupyter-%EF%B8%8F-webassembly-%EF%B8%8F-python-f6e2e41ab3fa

[2] https://jupyterlite.github.io/demo

Medium

JupyterLite: Jupyter ❤️ WebAssembly ❤️ Python

JupyterLite is a JupyterLab distribution that runs entirely in the web browser, backed by in-browser language kernels powered by…

61 viewsArtemii, 06:26

About

Blog

Apps

Platform