AI Для Всех
12.3K subscribers
1.05K photos
138 videos
10 files
1.34K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
#ScientificML #medicine #biology #transformer #classification #mlp #smalldataset #datasets

Была статья в 2020 о том, что на самом деле attention transformer - это современная хопфилдовская сеть, которая сходится за один шаг. Что дает такая идея - в современных хопфилдовских сетях есть часть, которая, фактически, хранит наиболее "харизматичные" паттерны из выборки.

По сути - то, что мы в явном виде делаем для SVM. В нем опорные вектора - это как раз самые важные для классификации объекты, с которыми мы сравниваем поступивший на вход новый объект. Именно потому, кстати, SVM можно рассматривать как очень хитрый KNN (особенно если SVM набрала в опорные вектора всю обучающую выборку, что у меня в задаче происходит).

На основе этой интуиции авторы, выпустили статью с применением хопфилдовских сетей для классификации immune repertoire человека. К сложности этой задачи относится то, что размерность входного объекта в разы больше, чем число объектов, которые можно собрать в обозримое время. То есть нужна модель с довольно жесткой регуляризацией, иначе все переобучится.

Статья в принципе интересная, однако прям видно, что выучивается что-то типо SVM (качество нейросети не отличается значимо от созданной под эти цели SVM, смотрите таблицу 1 в статье). При этом понятно, что бонус нейросетевого решения - возможность transfer learning и в принципе шкалируемость метода. Ибо SVM работает на больших датасетах очень долго.

Но как бы сделать все очень тупо и просто, но в виде attention? Авторы новой статьи предлагают решить это просто - пусть теперь key и values в наших слоях будут не вычисляться динамически на основе входных данных, а будут обучаемыми весами.
В идеале эти веса как раз и выучат паттерны и соответствующими им характеристики, нужные для решения задачи.
Кроме этого, бонусом идет то, что число паттернов можно ставить
1) не очень большое (у авторов работают значения k = 64)
2) сложность вычисления на слоях кроме первого в начинает зависеть от длины входной последовательности только линейно

Для части задач у авторов получается хорошее качество, сравнимое с state-of-the-art. При этом в идеале можно из выучиваемых весов вытаскивать какие-то инсайты по решаемой задаче.
TorchDrug

TorchDrug - это фреймворк машинного обучения, разработанный для поиска лекарств. Включает в себя методы от графового машинного обучения (графовые нейронные сети, геометрическое глубокое обучение), глубоких генеративных моделей до обучения с подкреплением. TorchDrug предоставляет комплексный и гибкий интерфейс для поддержки быстрого создания прототипов моделей для поиска лекарств в PyTorch.

Сайт
GitHub

#ScientificML #medicine #chemistry #biology
Kipoi - model zoo for genomics

Интересный репозиторий с нейронными сетями в биологии. Есть пара архитектур из хороших статей. Репозиторий обновляется нечасто, непонятно, насколько инициатива жива. Например, в коде одной нейросети можно встретить Variable из pytorch (deprecated уже года 4 как). А статью по этой штуке хотели писать в 2018(

GitHub

#ScientificML #biology #dna #medicine
#ScientificML #biology #rna

Тем временем в Science была опубликована статья по новым успехам в предсказании структуры РНК.

Почему эта задача все еще актуальна во время, когда появился AlphaFold2 для предсказания структуры белков. Казалось бы, поправить три строчки и готово?

Дело в том, что структура РНК складывается по сильно отличным от структур белка правилам и отличается очень высоким уровнем модификации нуклеотидов, из которых РНК состоит. В результате в то время как в строковом представлении последовательности РНК у вас "всего" 4 буквы, в реальности их в разы больше.

Статья позиционируется журналом Science как РНК-АльфаФолд. Конечно, этого тут пока нет.
Качество предсказания (RMSD) для большинства структур не высокое и не позволяет использовать их в биоинформатических пайплайнах (вероятно, т.к для структур РНК RMSD не является идеальной метрикой сравнения)
Статья при этом все равно крутая, так как все другие методы были побеждены нейросеткой.
2D Animal Keypoint Dataset

Содержит датасеты:
* Animal pose 🦔
* Horse-10 🐎
* Macaque Pose 🐒
* Vinegar Fly 🪰
* Desert locust 🏜
* Grevy’s Zebra 🦓
* ATRW 🐅

Доступно через MMPose тут

#datasets #ScientificML #pose #detection #biology
A Novel Dataset for Keypoint Detection of quadruped Animals from Images

Этот набор данных содержит значительно больше ключевых точек на одно животное и имеет гораздо большее разнообразие животных, чем существующие датасеты для обнаружения ключевых точек животных.

Статья
Датасет

#datasets #ScientificML #pose #detection #biology
The Natural Scenes Dataset

Natural Scenes Dataset (NSD) - это крупномасштабный набор данных фМРТ, проведенный при сверхвысоком поле (7Т) в Центре магнитно-резонансных исследований (CMRR) Университета Миннесоты. Набор данных состоит из измерений фМРТ всего мозга с высоким разрешением (изотропность 1,8 мм, частота дискретизации 1,6 с) у 8 здоровых взрослых испытуемых во время просмотра тысяч цветных естественных сцен в течение 30-40 сеансов сканирования. Во время просмотра этих изображений испытуемые выполняли задачу непрерывного распознавания, в которой они сообщали, видели ли они каждое данное изображение в любой момент эксперимента. Эти данные представляют собой массивный benchmark для вычислительных моделей визуального представления и познания и могут поддержать широкий спектр научных исследований.

Датасет

#ScientificML #images #medicine #biology
LIVECell

(Label-free In Vitro image Examples of Cells) - это набор данных микроскопических изображений для инстант-сегментации отдельных клеток в двумерных клеточных культурах.

LIVECell состоит из 5239 аннотированных вручную, проверенных экспертами изображений фазово-контрастной микроскопии Incucyte HD с общим количеством 1 686 352 отдельных клеток, аннотированных по восьми различным типам (в среднем 313 клеток на одном изображении). Изображения LIVECell предварительно разделены на train (3188), Val (539) и test (1512) наборы.

#ScientificML #datasets #biology #segmentation
Text2Brain

На протяжении многих лет неврологи сообщали тысячи результатов визуализации с помощью функциональной магнитно-резонансной томографии (фМРТ) и описывали свои выводы в научных статьях. Используя 13 000 опубликованных статей по нейровизуализации, авторы обучили искусственную нейронную сеть предсказывать карты активации мозга по фрагментам текста. Более подробную техническую информацию вы можете найти в статье Text2Brain: Синтез карт активации мозга из текстовых запросов в свободной форме.

Попробовать самим

#mri #medicine #biology
Neural Distance Embeddings (NeuroSEED)

Разработка эвристик зависящих от данных и представлений для биологических последовательностей, которые отражают их эволюционное расстояние, имеет решающее значение для биологических исследований. Однако популярные подходы машинного обучения, основанные на непрерывных евклидовых пространствах, с трудом с этим справляются.

Коллектив довольно знаменитых авторов (включая Величковича) предлагает использовать Neural Distance Embeddings (NeuroSEED), общую структуру для эмбеддинга последовательностей в геометрические векторные пространства.

Они говорят, что гиперболическое пространство отражает иерархическую структуру последовательностей, лучше чем другие геометрии.

Сравниваясь с обычными базовыми подходами, NeuroSEED демонстрирует значительное повышение точности и/или времени работы на реальных наборах данных.

Статья
Код

#ScientificML #biology
Искусственный интеллект предсказывает экспрессию генов.

В новой работе от DeepMind описывается архитектура Enformer, основанная на трансформерах. Эта архитектура способствует развитию генетических исследований, улучшая способность предсказывать, как последовательность ДНК влияет на экспрессию генов.

Блог-пост
Статья в Nature
Код

#ScientificML #biology #medicine
Обновления по графовым сетям, которые сейчас активно исследуются для биологических и химических целей.

(1) На YouTube выложили лекцию профессора Макса Веллинга (Max Welling) по графовым нейронным сетям для симуляции молекул.

(2) умельцы собрали Colab блокнот по обучению графовой нейронной сети для классификации молекул на основе их биологической активности. В блокноте разбираются аспекты использования Jraph (JAX библиотеки для графов).

#ScientificML #gnn #graphs #biology #chemistry
Protein complex prediction with AlphaFold-Multimer

В то время как подавляющее большинство хорошо структурированных одиночных белковых цепей теперь могут быть предсказаны с высокой точностью благодаря недавно разработанной модели AlphaFold, предсказание многоцепочечных белковых комплексов во многих случаях остается сложной задачей.

В статье от DeepMind демонстрируют, что модель AlphaFold, специально обученная на мультимерных входах с известной стехиометрией (AlphaFold-Multimer), значительно повышает точность предсказания мультимерных интерфейсов по сравнению с одноцепочечной AlphaFold, сохраняя при этом высокую точность внутри цепи.

📎Статья

#ScientificML #biology
Model-based analysis of brain activity reveals the hierarchy of language in 305 subjects

Интересная статья от авторов из Facebook AI и 2х Парижских университетов, про то как можно воспользоваться большими языковыми моделями для изучения корреляции между человеческой речью и активными зонами мозга. Хотя результаты у меня пока вызывают сомнение, посмотрим опубликуют ли вообще такое.

📎Статья

#ScientificML #nlp #biology
This media is not supported in your browser
VIEW IN TELEGRAM
DeepPoseKit

DeepPoseKit - это набор программных инструментов с высокоуровневым API для оценки 2D позы по заданным пользователем ключевым точкам. DeepPoseKit, можно использовать для: аннотирования изображений или видеокадров с заданными пользователем ключевыми точкам и для обучения моделей оценки позы.

Но самое крутое - не это. Эта библиотека была написана учеными для оценки поз животных (то есть для научных исследований).

Вот так вот ScientificML потихоньку врывается в жизнь обычных Computer Scientists. За наводку спасибо @pathetic_low_freq

📎Статья 🖥Код

#ScientificML #pose #biology
Benchmarking deep generative models for diverse antibody sequence design

Дизайн новых и разнообразных белков, соответствующих заданной структуре, остается важной нерешенной задачей. В последнее время глубокие генеративные модели, которые обучаются только на основе последовательностей или на основе последовательностей и структур совместно, показали впечатляющие результаты в решении этой задачи.

Исследователи из IBM рассматривают три недавно предложенные глубокие генеративные схемы для проектирования белков: (AR) авторегрессионная генеративная модель на основе последовательности, (GVP) графовая нейронная сеть на основе точной структуры и Fold2Seq.

Авторы сравнили эти модели на задаче вычислительного дизайна последовательностей антител, которая требует проектирования последовательностей с высоким разнообразием для функциональной привязки. Модель Fold2Seq превосходит две другие базовые модели по разнообразию конструируемых последовательностей.

📎 Статья

#ScientificML #biology #generative
This media is not supported in your browser
VIEW IN TELEGRAM
The PAIR-R24M Dataset for Multi-animal 3D Pose Estimation

Если мы разберёмся с основами социального и коллективного поведения животных - мы сможем узнать много нового о жизни. Важным шагом в изучении механизмов, лежащих в основе социального поведения, является точное считывание трехмерной позы взаимодействующих животных.

В недавней работе представлен набор данных PAIR-R24M (Paired Acquisition of Interacting oRganisms - Rat) для оценки трехмерной позы нескольких животных, который содержит 24,3 миллиона кадров RGB-видео и трехмерного захвата движения взаимодействий лабораторных крыс.

PAIR-R24M, поможет усовершенствовать подходы к трехмерному отслеживанию животных и поможет в выяснении нейронных основ социального поведения.

📎
Статья
🗂
Датасет

#datasets #ScientificML #biology
Generalized Shape Metrics on Neural Representations

В нейронауках и в глубоком обучении количественная оценка (не)сходства нейронных представлений в разных сетях является темой, представляющей значительный интерес.

Ученые из Стэнфорда, Гугла и Института Аллена придумали как вычислять метрики между нейронными представлениями. Причём, эти представления могут быть записаны как с реальных животных, так и с нейросетей.

Они регистрируют активность K сетей, следовательно могут вычислить все попарные расстояния и собрать их в матрицу расстояний K × K. Поверх матрицы они применяют алгоритмы кластеризации и уменьшения размерности.

Таким образом, они придумали довольно элегантный и простой способ сравнивать нейронную активность между животными и нейросетями.

📎 Статья
🎥 Видео
🖥 Код

#ScientificML #biology