AI Для Всех
12K subscribers
1.02K photos
124 videos
10 files
1.3K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор: @crimeacs

Авторы канала: @GingerSpacetail, @innovationitsme
Download Telegram
Анализ гистопатологических изображений

Репозиторий посвящен использованию машинного обучения для обработки гистопатологических изображений. Все модели сделаны на PyTorch и протестированы на множестве клинически значимых задач.

#ScientificML #medicine #biology
#ScientificML #medicine #biology #transformer #classification #mlp #smalldataset #datasets

Была статья в 2020 о том, что на самом деле attention transformer - это современная хопфилдовская сеть, которая сходится за один шаг. Что дает такая идея - в современных хопфилдовских сетях есть часть, которая, фактически, хранит наиболее "харизматичные" паттерны из выборки.

По сути - то, что мы в явном виде делаем для SVM. В нем опорные вектора - это как раз самые важные для классификации объекты, с которыми мы сравниваем поступивший на вход новый объект. Именно потому, кстати, SVM можно рассматривать как очень хитрый KNN (особенно если SVM набрала в опорные вектора всю обучающую выборку, что у меня в задаче происходит).

На основе этой интуиции авторы, выпустили статью с применением хопфилдовских сетей для классификации immune repertoire человека. К сложности этой задачи относится то, что размерность входного объекта в разы больше, чем число объектов, которые можно собрать в обозримое время. То есть нужна модель с довольно жесткой регуляризацией, иначе все переобучится.

Статья в принципе интересная, однако прям видно, что выучивается что-то типо SVM (качество нейросети не отличается значимо от созданной под эти цели SVM, смотрите таблицу 1 в статье). При этом понятно, что бонус нейросетевого решения - возможность transfer learning и в принципе шкалируемость метода. Ибо SVM работает на больших датасетах очень долго.

Но как бы сделать все очень тупо и просто, но в виде attention? Авторы новой статьи предлагают решить это просто - пусть теперь key и values в наших слоях будут не вычисляться динамически на основе входных данных, а будут обучаемыми весами.
В идеале эти веса как раз и выучат паттерны и соответствующими им характеристики, нужные для решения задачи.
Кроме этого, бонусом идет то, что число паттернов можно ставить
1) не очень большое (у авторов работают значения k = 64)
2) сложность вычисления на слоях кроме первого в начинает зависеть от длины входной последовательности только линейно

Для части задач у авторов получается хорошее качество, сравнимое с state-of-the-art. При этом в идеале можно из выучиваемых весов вытаскивать какие-то инсайты по решаемой задаче.
TorchDrug

TorchDrug - это фреймворк машинного обучения, разработанный для поиска лекарств. Включает в себя методы от графового машинного обучения (графовые нейронные сети, геометрическое глубокое обучение), глубоких генеративных моделей до обучения с подкреплением. TorchDrug предоставляет комплексный и гибкий интерфейс для поддержки быстрого создания прототипов моделей для поиска лекарств в PyTorch.

Сайт
GitHub

#ScientificML #medicine #chemistry #biology
Kipoi - model zoo for genomics

Интересный репозиторий с нейронными сетями в биологии. Есть пара архитектур из хороших статей. Репозиторий обновляется нечасто, непонятно, насколько инициатива жива. Например, в коде одной нейросети можно встретить Variable из pytorch (deprecated уже года 4 как). А статью по этой штуке хотели писать в 2018(

GitHub

#ScientificML #biology #dna #medicine
#ScientificML #biology #rna

Тем временем в Science была опубликована статья по новым успехам в предсказании структуры РНК.

Почему эта задача все еще актуальна во время, когда появился AlphaFold2 для предсказания структуры белков. Казалось бы, поправить три строчки и готово?

Дело в том, что структура РНК складывается по сильно отличным от структур белка правилам и отличается очень высоким уровнем модификации нуклеотидов, из которых РНК состоит. В результате в то время как в строковом представлении последовательности РНК у вас "всего" 4 буквы, в реальности их в разы больше.

Статья позиционируется журналом Science как РНК-АльфаФолд. Конечно, этого тут пока нет.
Качество предсказания (RMSD) для большинства структур не высокое и не позволяет использовать их в биоинформатических пайплайнах (вероятно, т.к для структур РНК RMSD не является идеальной метрикой сравнения)
Статья при этом все равно крутая, так как все другие методы были побеждены нейросеткой.
2D Animal Keypoint Dataset

Содержит датасеты:
* Animal pose 🦔
* Horse-10 🐎
* Macaque Pose 🐒
* Vinegar Fly 🪰
* Desert locust 🏜
* Grevy’s Zebra 🦓
* ATRW 🐅

Доступно через MMPose тут

#datasets #ScientificML #pose #detection #biology
A Novel Dataset for Keypoint Detection of quadruped Animals from Images

Этот набор данных содержит значительно больше ключевых точек на одно животное и имеет гораздо большее разнообразие животных, чем существующие датасеты для обнаружения ключевых точек животных.

Статья
Датасет

#datasets #ScientificML #pose #detection #biology
The Natural Scenes Dataset

Natural Scenes Dataset (NSD) - это крупномасштабный набор данных фМРТ, проведенный при сверхвысоком поле (7Т) в Центре магнитно-резонансных исследований (CMRR) Университета Миннесоты. Набор данных состоит из измерений фМРТ всего мозга с высоким разрешением (изотропность 1,8 мм, частота дискретизации 1,6 с) у 8 здоровых взрослых испытуемых во время просмотра тысяч цветных естественных сцен в течение 30-40 сеансов сканирования. Во время просмотра этих изображений испытуемые выполняли задачу непрерывного распознавания, в которой они сообщали, видели ли они каждое данное изображение в любой момент эксперимента. Эти данные представляют собой массивный benchmark для вычислительных моделей визуального представления и познания и могут поддержать широкий спектр научных исследований.

Датасет

#ScientificML #images #medicine #biology