AI Для Всех
12.1K subscribers
1.02K photos
126 videos
10 files
1.3K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор: @crimeacs

Авторы канала: @GingerSpacetail, @innovationitsme
Download Telegram
Forwarded from Dmitry Penzar
Они адекватно написали все. На уровне популяризации точно ок.

Почему задача фолдинга не решена они не поняли. Проблема не в комплексах - их альфафолдом2 иногда можно предсказать. Проблема в том, что он очень сильно не учитывает биологию, то, что у белка очень сильно структура зависит от малых изменений pH, молекул рядом и тд.
Условно канонический пример - alphafold2 предсказывает для белка, связывающегося с кальцием, структуру, характерную для того, когда он связался с кальцием. Хотя, очевидно, альфолдуу инфу про кальций не давали и по дефолту (если задача решена) он должен давать структуру без кальция.
А выдает он ее с кальцием, ибо в PDB преобладают структуры этого белка с кальцием.

Ну и аналогично есть белки, которые постоянно в ходе работы меняют две конформации - альфафолд может там предсказать одну форму, вторую форму, и среднее. И предугадать это заранее нельзя
Нейросеть для генерации картинок.

DALL-E Mini демка на 🤗 spaces

Можно поиграться прямо с телефона. Красота :)

Видео-разбор

#text2image #images #generative #demo
Большая и поучительная история как AI не помог в борьбе с пандемией. Почему так вышло? Кто виноват? И что делать?

Если совсем кратко - то «garbage in - garbage out” (подаёшь мусорные данные на вход - получаешь мусорные предсказания на выходе)

Видео-разбор

#science #ScientificML #medicine
Screen Shot 2021-07-31 at 19.59.10.png
385.8 KB
В статье выше цитируется очень приятная и полезная работа - https://www.nature.com/articles/s42256-021-00307-0

Статья рассказывает о частых ошибках при машинном обучении, связанным с предсказанием COVID, и, что тоже очень полезно - дает ссылки на рекомендуемые чеклисты, которые надо смотреть:

1) автору, когда он делает работу
2) рецензенту, когда он работу оценивает
3) читателю, если он решает, стоит ли использовать работу как основу для своей

В частности, упоминаются common лажи типа исключения "неудобных" объектов, попадании фотографий из одной больницы/пациента/.. и в обучение, и в тест и тд.
И, конечно, мое любимое - сравнение качества моделей без малейшей попытки построить confidence interval для качаства моделей

На мой взгляд очень интересная статья сама по себе, и интересны те чеклисты (привел ниже cсылки), на которые она ссылается.
Надо обязательно проанализировать и сделать саммари, которое must have в нашем цикле лекций

RQS:
Lambin, P. et al. Radiomics: the bridge between medical imaging an
#cnn #biology #dilation #ResNet #ScientificML

https://www.cell.com/cell/fulltext/S0092-8674(18)31629-5

Отличная статья на биологическую тему - предсказание сайтов сплайсинга.
Коротко - у человека ген, кодирующий белок, не весь кодирует последовательность этого белка. Есть кодирующие его части - экзоны и некодирующие,регуляторные и просто мусорные части - интроны. Отвечает за вырезание из всей последовательности мРНК только нужных экзонов процесс, называемый сплайсинг.
Одной из важных задач является предсказание по последовательности гена экзонов и интронов - соответственно участков, в которых будет происходить вырезание.
В данной работе авторы это делают при помощи resnet-like архитектуры.

Более того - на самом деле некоторые участки в зависимости от условий/великого корейского рандома могут то трактоваться сплайсингом как интроны, то как экзоны. И скоры, которые выдает модель для сайтов сплайсинга коррелируют с вероятностью участка быть экзоном/интроном. Что тоже круто.

Ну и конечно, модель умеет в insilico-скрининг - мутируем последовательность интересующего нас гена и смотрим, изменится ли предсказание модели. Если изменилось, то поменялось то, как спласинг нарезает наш ген. Это часто приводит к чему-то нехорошему - наследственные болезни, опухоли и тд.

Модель хорошая и повсеместно используется. Можно вставлять в примеры архитектур CNN. Более того - она приятна еще и тем, что в ней активно используются dilation конволюции, примеров применения которых у нас в лекциях сейчас мало
SpliceAI2.jpeg
1.2 MB
Архитектуры моделей, тестировавшихся в статье
Нейроморфные чипы для нейросетей

Достижения в области машинного обучения напрямую связаны с увеличивающимеся (с годами) вычислительными ресурсами. Но есть нюанс - ML требует больше ресурсов быстрее, чем эти ресурсы становятся доступны (например OpenAI посчитали что ресурсы необходимые для достижениня SOTA удваиваются каждые 3.4 месяца).

В качестве решения предлагают использовать нйероморфные чипы - то есть чипы, которые тем или иным способом иммитируют природные мозги. Например, у человеческого мозга крайне низкие энергозатраты - всего 20 ватт. Для сравнения, для GPT-3 нужно 20 Мегаватт.

В статье рассказывается про современные подходы к реализации нейроморфных чипов:
1) Spiking Neural Networks
2) Highly Parallel Systems
3) Analogue Computing

И про лабы и стратапы, которые такие чипы уже делают.

#hardware
Генеративное_глубокое_обучение_Творческий_потенци.pdf
12.4 MB
Неплохая вводная книга по генеративным сетям. Устаревшая местами, но для новичков хорошая (нуу и она на tensorflow).

Неформальное описание задачи для AE и GAN очень творческие и красивые. Имхо для GAN у автора лучше получилось описание, чем классическое сыщик-фальшивомонетчик

#generative #GAN #gpt #книги
Красивая статья на kaggle. Автор не добивается на соревновании прям огонь результата. Но при этом очень аккуратно работает с пропущенными значениями и кодированием категориальных переменных. Читать интересно

Ну и в комментах есть ссылка на статью, где автор ручками чистит немного данные и тоже логрегом получает хорошие резы

#categorical
Есть такой пакет DeepTables.

Для работы с табличными данными, содержит реализации нескольких красивых решений.

На соревновании сверху почти с нуля добивается топ-качества.

Части совсем новых сетей (типа TabNet) не имплементировано + реализации в принципе на tensorflow. Что немного затрудняет внедрение их в курс - сложно будет делать transfer learning и прочее.

Плюс качество они меряют на этом датасете в основном, а датасет по отзывам почти не содержит взаимодействия признаков и тд.
Потому можно пока упомянуть вскользь, пока/если никто из нас на реальной задаче не обнаружит, что пакет - топыч

#tabular
Насчет датасетов - набор датасетов для демонстраций ML на химии.

К сожалению, есть нюанс - все датасеты очень простые. Но именно для иллюстрации - почему бы и нет

#ScientificML #chemistry #datasets
Так же стоит отметить ициативу DeepChem, которые автоматизируют обучение на химических веществах.

GitHub

Там много неликвида или упрощенных схем, которые часто не будут работать, но как пример, что в принципе можно делать - они подходят.

#ScientificML #chemistry
Также в нем есть полезные фишки хотя бы для понимания - например, реализован один из правильных способов разбиение химических молекул
Wasserstein WGAN-GP для генерации молекул. Опять же, датасет используется довольно бесмысленный, но можем адаптировать этот пример с tensorflow на pytorch.
Ну и взять что-нить хоть чуть осмысленнее, типа ингибиторов киназ

#ScientificML #chemistry #graph #GAN
Perceiver IO: позволяет работать с различными модальностями (текст, картинки, звук, видео), в том числе одновременно

Блог-пост DeepMind
GitHub (код, колабы, предобученные модели JAX)
GitHub (реплика на PyTorch)

#transformer #multimodal