AI Для Всех

Researchers from Argonne National Laboratory developed a new method for turning X-ray data into 3D visualizations, hundreds of times faster than traditional methods.

90 viewsArtemii, edited 21:37

AI Для Всех

Большая и поучительная история как AI не помог в борьбе с пандемией. Почему так вышло? Кто виноват? И что делать?

Если совсем кратко - то «garbage in - garbage out” (подаёшь мусорные данные на вход - получаешь мусорные предсказания на выходе)

Видео-разбор

#science #ScientificML #medicine

MIT Technology Review

Hundreds of AI tools have been built to catch covid. None of them helped.

Some have been used in hospitals, despite not being properly tested. But the pandemic could help make medical AI better.

85 viewsArtemii, edited 13:41

AI Для Всех

Screen Shot 2021-07-31 at 19.59.10.png

385.8 KB

В статье выше цитируется очень приятная и полезная работа - https://www.nature.com/articles/s42256-021-00307-0

Статья рассказывает о частых ошибках при машинном обучении, связанным с предсказанием COVID, и, что тоже очень полезно - дает ссылки на рекомендуемые чеклисты, которые надо смотреть:

1) автору, когда он делает работу
2) рецензенту, когда он работу оценивает
3) читателю, если он решает, стоит ли использовать работу как основу для своей

В частности, упоминаются common лажи типа исключения "неудобных" объектов, попадании фотографий из одной больницы/пациента/.. и в обучение, и в тест и тд.
И, конечно, мое любимое - сравнение качества моделей без малейшей попытки построить confidence interval для качаства моделей

На мой взгляд очень интересная статья сама по себе, и интересны те чеклисты (привел ниже cсылки), на которые она ссылается.
Надо обязательно проанализировать и сделать саммари, которое must have в нашем цикле лекций

RQS:
Lambin, P. et al. Radiomics: the bridge between medical imaging an

458 viewsDmitry Penzar, edited 17:20

AI Для Всех

#cnn #biology #dilation #ResNet #ScientificML

https://www.cell.com/cell/fulltext/S0092-8674(18)31629-5

Отличная статья на биологическую тему - предсказание сайтов сплайсинга.
Коротко - у человека ген, кодирующий белок, не весь кодирует последовательность этого белка. Есть кодирующие его части - экзоны и некодирующие,регуляторные и просто мусорные части - интроны. Отвечает за вырезание из всей последовательности мРНК только нужных экзонов процесс, называемый сплайсинг.
Одной из важных задач является предсказание по последовательности гена экзонов и интронов - соответственно участков, в которых будет происходить вырезание.
В данной работе авторы это делают при помощи resnet-like архитектуры.

Более того - на самом деле некоторые участки в зависимости от условий/великого корейского рандома могут то трактоваться сплайсингом как интроны, то как экзоны. И скоры, которые выдает модель для сайтов сплайсинга коррелируют с вероятностью участка быть экзоном/интроном. Что тоже круто.

Ну и конечно, модель умеет в insilico-скрининг - мутируем последовательность интересующего нас гена и смотрим, изменится ли предсказание модели. Если изменилось, то поменялось то, как спласинг нарезает наш ген. Это часто приводит к чему-то нехорошему - наследственные болезни, опухоли и тд.

Модель хорошая и повсеместно используется. Можно вставлять в примеры архитектур CNN. Более того - она приятна еще и тем, что в ней активно используются dilation конволюции, примеров применения которых у нас в лекциях сейчас мало

84 viewsDmitry Penzar, edited 18:45

AI Для Всех

SpliceAI2.jpeg

1.2 MB

Архитектуры моделей, тестировавшихся в статье

452 viewsDmitry Penzar, 18:46

AI Для Всех

Нейроморфные чипы для нейросетей

Достижения в области машинного обучения напрямую связаны с увеличивающимеся (с годами) вычислительными ресурсами. Но есть нюанс - ML требует больше ресурсов быстрее, чем эти ресурсы становятся доступны (например OpenAI посчитали что ресурсы необходимые для достижениня SOTA удваиваются каждые 3.4 месяца).

В качестве решения предлагают использовать нйероморфные чипы - то есть чипы, которые тем или иным способом иммитируют природные мозги. Например, у человеческого мозга крайне низкие энергозатраты - всего 20 ватт. Для сравнения, для GPT-3 нужно 20 Мегаватт.

В статье рассказывается про современные подходы к реализации нейроморфных чипов:
1) Spiking Neural Networks
2) Highly Parallel Systems
3) Analogue Computing

И про лабы и стратапы, которые такие чипы уже делают.

#hardware

Medium

Will we ever compute like a brain?

The majority of significant breakthroughs in computer science and Artificial Intelligence have been the result of an explosive increase in…

113 viewsArtemii, edited 09:42

AI Для Всех

Генеративное_глубокое_обучение_Творческий_потенци.pdf

12.4 MB

Неплохая вводная книга по генеративным сетям. Устаревшая местами, но для новичков хорошая (нуу и она на tensorflow).

Неформальное описание задачи для AE и GAN очень творческие и красивые. Имхо для GAN у автора лучше получилось описание, чем классическое сыщик-фальшивомонетчик

#generative #GAN #gpt #книги

704 viewsDmitry Penzar, edited 10:25

AI Для Всех

Красивая статья на kaggle. Автор не добивается на соревновании прям огонь результата. Но при этом очень аккуратно работает с пропущенными значениями и кодированием категориальных переменных. Читать интересно

Ну и в комментах есть ссылка на статью, где автор ручками чистит немного данные и тоже логрегом получает хорошие резы

#categorical

Kaggle

Categorical Feature Encoding Challenge II

Explore and run machine learning code with Kaggle Notebooks | Using data from Categorical Feature Encoding Challenge II

105 viewsDmitry Penzar, edited 21:30

AI Для Всех

Есть такой пакет DeepTables.

Для работы с табличными данными, содержит реализации нескольких красивых решений.

На соревновании сверху почти с нуля добивается топ-качества.

Части совсем новых сетей (типа TabNet) не имплементировано + реализации в принципе на tensorflow. Что немного затрудняет внедрение их в курс - сложно будет делать transfer learning и прочее.

Плюс качество они меряют на этом датасете в основном, а датасет по отзывам почти не содержит взаимодействия признаков и тд.
Потому можно пока упомянуть вскользь, пока/если никто из нас на реальной задаче не обнаружит, что пакет - топыч

#tabular

GitHub

GitHub - DataCanvasIO/DeepTables: DeepTables: Deep-learning Toolkit for Tabular data

DeepTables: Deep-learning Toolkit for Tabular data - DataCanvasIO/DeepTables

87 viewsDmitry Penzar, edited 22:15

AI Для Всех

Насчет датасетов - набор датасетов для демонстраций ML на химии.

К сожалению, есть нюанс - все датасеты очень простые. Но именно для иллюстрации - почему бы и нет

#ScientificML #chemistry #datasets

78 viewsDmitry Penzar, edited 03:03

AI Для Всех

Так же стоит отметить ициативу DeepChem, которые автоматизируют обучение на химических веществах.

GitHub

Там много неликвида или упрощенных схем, которые часто не будут работать, но как пример, что в принципе можно делать - они подходят.

#ScientificML #chemistry

GitHub

deepchem

deepchem has 19 repositories available. Follow their code on GitHub.

88 viewsDmitry Penzar, edited 03:15

AI Для Всех

Также в нем есть полезные фишки хотя бы для понимания - например, реализован один из правильных способов разбиение химических молекул

84 viewsDmitry Penzar, 03:20

AI Для Всех

Wasserstein WGAN-GP для генерации молекул. Опять же, датасет используется довольно бесмысленный, но можем адаптировать этот пример с tensorflow на pytorch.
Ну и взять что-нить хоть чуть осмысленнее, типа ингибиторов киназ

#ScientificML #chemistry #graph #GAN

keras.io

Keras documentation: WGAN-GP with R-GCN for the generation of small molecular graphs

135 viewsDmitry Penzar, edited 04:04

AI Для Всех

Perceiver IO: позволяет работать с различными модальностями (текст, картинки, звук, видео), в том числе одновременно

Блог-пост DeepMind
GitHub (код, колабы, предобученные модели JAX)
GitHub (реплика на PyTorch)

#transformer #multimodal

101 viewsArtemii, edited 06:12

AI Для Всех

Моя версия блокнота VQGAN+CLIP добралась до 🤗 Spaces.

Поиграться можно хоть с телефона

#text2image #GAN #CLIP #demo

Twitter

VQGAN + CLIP public now on @huggingface Spaces using @Gradio link: huggingface.co/spaces/akhaliq…

123 viewsArtemii, edited 13:34

AI Для Всех

SpeechBrain - классный репозиторий для всего связанного со звуком. Сам им пользовался пару раз.

#sound #speech #audio

Twitter

Philip Vollet

SpeechBrain an open-source and all-in-one speech toolkit based on PyTorch Develop state-of-the-art speech technologies, including systems for speech recognition, speaker recognition, speech enhancement, multi-microphone signal processing @SpeechBrain1 gi…

144 viewsArtemii, edited 18:18

AI Для Всех

Где машинка применяется в drug design
Довольно по верхам имхо. Только общее представление получить.

И, да, генерация молекул упоминается.

YouTube
NeurIPS

#ScientificML #medicine

111 viewsDmitry Penzar, edited 19:12

AI Для Всех

Ну или вот талк от главы Insilico Medicine. Про то, как у них пайплайн по разработке лекарств работает
Про longevity я бы не слушал, но это у меня аллергия.

YouTube

#ScientificML #medicine

YouTube

Alex Zhavoronkov - From AI-Powered Drug Discovery to Longevity Medicine

Alex Zhavoronkov, Insilico Medicine, Hong Kong, presents at the 2020 Aging Research and Drug Discovery conference.

About the Aging Research and Drug Discovery meeting:
According to the United Nations, the proportion of people aged over 65 now outnumber…

98 viewsDmitry Penzar, edited 19:17

AI Для Всех

На NeurIPS будет целая отдельная секция про AI for Science:

http://ai4sciencecommunity.github.io

Шикарный line-up и до 18 сентября можно подать абстракты

#ScientificML #conference

80 viewsArtemii, edited 19:49

AI Для Всех

Немного растянуто, но зато на русском. Текст про применение ML в астрономии.

#ScientificML #astronomy

education.yandex.ru

Космическая работа: как решать задачи астрономов с помощью машинного обучения

Улучшение данных, полученных с телескопов, и автоматизация рутины учёных

83 viewsArtemii, edited 22:42

AI Для Всех

StyleGAN-NADA преобразует предварительно обученный генератор в новые домены, используя только текстовую подсказку и без обучающих данных.

Естественно направляет его CLIP.

Project

#GAN #CLIP #multimodal

89 viewsArtemii, edited 05:55

About

Blog

Apps

Platform