AI Для Всех

JupyterLite is a JupyterLab distribution that runs entirely in the web browser, backed by in-browser language kernels.

Scientific, Data science and visualisation packages are supported.

Basically it means you can use Jupyter just by opening a new browser tab. Starting to learn Data Science has never been easier.

Read the intro[1] for full feature list, or try it online[2].

#jupyterlab #jupyterlite
[1] https://blog.jupyter.org/jupyterlite-jupyter-%EF%B8%8F-webassembly-%EF%B8%8F-python-f6e2e41ab3fa

[2] https://jupyterlite.github.io/demo

Medium

JupyterLite: Jupyter ❤️ WebAssembly ❤️ Python

JupyterLite is a JupyterLab distribution that runs entirely in the web browser, backed by in-browser language kernels powered by…

61 viewsArtemii, 06:26

AI Для Всех

Recurrent Parameter Generators
(LeCun научик этой статьи)

ArXiv

demonstrate how to build a one-layer neural network to achieve similar performance compared to other traditional CNN models on various applications and datasets

#Training #CNN

56 viewsArtemii, edited 06:36

AI Для Всех

Forwarded from Graph Machine Learning

LOGML Videos

LOGML is an exciting summer school with projects and talks about graph ML happening this week. A collection of videos that includes presentations of the cutting edge research as well as industrial applications from leading companies are available now for everyone.

www.logml.ai

LOGML 2024

London Geometry and Machine Learning Summer School, July 8-12 2024

63 viewsDmitry Penzar, 08:17

AI Для Всех

Хорошая статья про отбор важных признаков в табличных данных, зачем нам это надо, и классификацию подходов. Там же есть ссылка на хорошую статью этого же автора про Boruta

#tabular

Medium

“MRMR” Explained Exactly How You Wished Someone Explained to You

Want to improve your feature selection? “Maximum Relevance — Minimum Redundancy” (aka MRMR) is a simple, fast and efficient algorithm for…

71 viewsDmitry Penzar, edited 08:44

AI Для Всех

Прикольная визуализация. Пока не знаю, можно ли к нам прикпутить и нужно ли

Туториал как запустить в Colab

#code #python #visualization

Medium

How to Create Mathematical Animations like 3Blue1Brown Using Python

Leverage your Python Skills to Create Beautiful Mathematical Animations

69 viewsDmitry Penzar, edited 10:02

AI Для Всех

Библиотека self-supervised методов для representation visual learning на базе PyTorch Lightning.

#SSL #images

GitHub

GitHub - vturrisi/solo-learn: solo-learn: a library of self-supervised methods for visual representation learning powered by Pytorch…

solo-learn: a library of self-supervised methods for visual representation learning powered by Pytorch Lightning - vturrisi/solo-learn

74 viewsArtemii, edited 13:36

AI Для Всех

#alphafold2

Сделали частичный запуск alphafold2 прямо в колабе (без известных структур и, частично, без выравнивания)

Twitter

#ScientificML #biology

Twitter

Sergey Ovchinnikov

Successfully predicted one of the @foldit denovo designs using #alphafold in google-colab😎 (1 model, no template, single sequence input, and no amber refine, ~2 mins). Notebook if anybody wanna try input your favorite sequence: colab.research.google.com/drive/1qWO6Arw…

71 viewsDmitry Penzar, edited 16:51

AI Для Всех

Веселая статья.
Из слов авторов получается, что self-attention слои не всегда нужны (но иногда качество улучшают, особенно когда надо выравнять два представления, в случае авторов - два предложения)

Pay Attention to MLPs

Не хватает рисунка как в Mixer MLP зависимости качества разных архитектур от объема обучающей выборки.

#MLP #images #multimodal

64 viewsDmitry Penzar, edited 17:22

AI Для Всех

Ян Лекун поделился ссылкой на пакет для работы с массивными линейными слоями

Medium

#code #resources #python

Medium

Introduction to TorchShard

A Lightweight Library for Scaling-up the Training

62 viewsDmitry Penzar, edited 06:25

AI Для Всех

#resources #gpu

1) Google Research Credits

2) NVIDIA Research Grants

3) Yandex Research Grants

Google for Education

Research Credits | Google for Education

Apply for Google Cloud research credits and access computing power to help advance your research, develop ideas, and make cutting-edge discoveries.

71 viewsArtemii, edited 07:11

AI Для Всех

#metrics

Тред про ROC

Twitter

Peyman 𝕄𝕀𝕃𝔸ℕ𝔽𝔸ℝ

Receiver Operating Characteristic (ROC) got its name in WWII from Radar, invented to detect enemy aircraft and ships. ROC curve plots true pos. rate vs false pos. rate, parametrized by a detection threshold ROC has many interesting properties 1/8 animation…

60 viewsArtemii, edited 08:44

AI Для Всех

Хорошие новости

#python #news

Twitter

Pablo Galindo

After a lot of work, we have finished the implementation of PEP 657 🚀🎉. In Python 3.11🐍, tracebacks will annotate where exactly the error is happening in your code 🤯. No more confusion having to guess what part of the expression is wrong. Learn more at p…

64 viewsArtemii, edited 11:45

AI Для Всех

#alphafold2 #scientificML #biology
В gonzo разбор alphafold2 (скинул начало)

62 viewsDmitry Penzar, edited 20:03

AI Для Всех

Forwarded from gonzo-обзоры ML статей

Highly accurate protein structure prediction with AlphaFold
John Jumper, Richard Evans, Alexander Pritzel, Tim Green, Michael Figurnov, Olaf Ronneberger, Kathryn Tunyasuvunakool, Russ Bates, Augustin Žídek, Anna Potapenko, Alex Bridgland, Clemens Meyer, Simon A. A. Kohl, Andrew J. Ballard, Andrew Cowie, Bernardino Romera-Paredes, Stanislav Nikolov, Rishub Jain, Jonas Adler, Trevor Back, Stig Petersen, David Reiman, Ellen Clancy, Michal Zielinski, Martin Steinegger, Michalina Pacholska, Tamas Berghammer, Sebastian Bodenstein, David Silver, Oriol Vinyals, Andrew W. Senior, Koray Kavukcuoglu, Pushmeet Kohli & Demis Hassabis
Статья: https://www.nature.com/articles/s41586-021-03819-2
Модель: https://github.com/deepmind/alphafold

Ну вот наконец и AlphaFold2. В статье и на гитхабе новая система называется просто AlphaFold, а под названием AlphaFold2 она фигурировала на соревновании CASP14. Новая система является совершенно другой системой по сравнению со старой AlphaFold, участвовавшей на CASP13, так что будьте внимательны и не путайте.

Итак, собственно, какова структура этой системы.

На вход системы поступает последовательность аминокислот белка. Для этой последовательности ищутся эволюционные родственники и генерируется множественное выравнивание (MSA, про него мы несколько раз писали в предыдущих постах о похожих моделях). Также в базе структур белков (с 3D координатами атомов) ищутся гомологичные структуры (если есть), и они тоже поступают на вход.

Сама сеть AlphaFold напрямую предсказывает 3D координаты всех тяжёлых атомов (углероды, азоты) по входным данным.

Сеть состоит из двух частей.

Сначала ствол сети обрабатывает входы с помощью последовательности (аж 48 штук, каждый со своими весами) новых блоков под названием Evoformer (хитрый вариант трансформера). Evoformer выдаёт на выходе тензор с обработанным MSA (размера N_seq*N_res, где N_seq — число последовательностей в MSA, а N_res — число аминокислот) и тензор (размера N_res*N_res) с репрезентацией пар аминокислотных остатков.

За стволом сети следует структурный модуль (structure module), генерирующий вращения и смещения для каждого из аминокислотных остатков (инициализируются они identity вращениями и позициями в начале координат) с помощью 8 слоёв с расшаренными весами.

И структурный модуль, и вся сеть целиком итеративно улучшает свои предсказания, подавая их себе же на вход. Этот процесс называется в работе “recycling”, он выполняется трижды, и существенно повышает качество результата.

Главная хитрость Evoformer’а в обмене информацией между репрезентациями MSA и пар аминокислот, образующих по сути отдельные стримы обработки данных.

Для обработки MSA используется вариант axial attention с чередующимся вниманием по строкам и по столбцам, причём оно gated через сигмоиду. Также есть transition layer, который по сути двуслойный MLP.

Стрим для обработки репрезентаций пар аминокислот по сути представляет собой графовый трансформер, узлами графа выступают соседние аминокислоты, а операции обновления репрезентаций работают над треугольниками аминокислот (следствие из интуиции относительно необходимости соблюдения неравенства треугольника для расстояний между аминокислотами). Две основные операции там это triangle multiplicative update и triangle self-attention.

По репрезентациям MSA считается outer product между всеми позициями попарно и добавляется к соответствующим репрезентациям пар. Так происходит регулярный обмен между стримом MSA и стримом парных фич.

Структурный модуль работает с репрезентацией бэкбона белка, используя прилетающие на вход репрезентации пар и оригинальную последовательность белка из MSA. Структура бэкбона представлена N_res независимыми вращениями и трансляциями каждой конкретной аминокислоты относительно глобального фрейма. Это называется “residue gas” (как бы независимо плавающие аминокислотные остатки, которые мы пытаемся ориентировать в пространстве).

Nature

Highly accurate protein structure prediction with AlphaFold

Nature - AlphaFold predicts protein structures with an accuracy competitive with experimental structures in the majority of cases using a novel deep learning architecture.

68 viewsDmitry Penzar, 20:03

AI Для Всех

#metrics
#rocauc
#дьяконов

Упоминавшаяся статья по rocauc от Дьяконова

Анализ малых данных

AUC ROC (площадь под кривой ошибок)

Площадь под ROC-кривой – один из самых популярных функционалов качества в задачах бинарной классификации. На мой взгляд, простых и полных источников информации «что же это такое» нет. Как правило, …

61 viewsDmitry Penzar, edited 08:34

AI Для Всех

Few-shot neural architecture search

#nas