AI Для Всех
12.1K subscribers
1.03K photos
127 videos
10 files
1.31K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор: @crimeacs

Авторы канала: @GingerSpacetail, @innovationitsme
Download Telegram
Анализ гистопатологических изображений

Репозиторий посвящен использованию машинного обучения для обработки гистопатологических изображений. Все модели сделаны на PyTorch и протестированы на множестве клинически значимых задач.

#ScientificML #medicine #biology
#ScientificML #medicine #biology #transformer #classification #mlp #smalldataset #datasets

Была статья в 2020 о том, что на самом деле attention transformer - это современная хопфилдовская сеть, которая сходится за один шаг. Что дает такая идея - в современных хопфилдовских сетях есть часть, которая, фактически, хранит наиболее "харизматичные" паттерны из выборки.

По сути - то, что мы в явном виде делаем для SVM. В нем опорные вектора - это как раз самые важные для классификации объекты, с которыми мы сравниваем поступивший на вход новый объект. Именно потому, кстати, SVM можно рассматривать как очень хитрый KNN (особенно если SVM набрала в опорные вектора всю обучающую выборку, что у меня в задаче происходит).

На основе этой интуиции авторы, выпустили статью с применением хопфилдовских сетей для классификации immune repertoire человека. К сложности этой задачи относится то, что размерность входного объекта в разы больше, чем число объектов, которые можно собрать в обозримое время. То есть нужна модель с довольно жесткой регуляризацией, иначе все переобучится.

Статья в принципе интересная, однако прям видно, что выучивается что-то типо SVM (качество нейросети не отличается значимо от созданной под эти цели SVM, смотрите таблицу 1 в статье). При этом понятно, что бонус нейросетевого решения - возможность transfer learning и в принципе шкалируемость метода. Ибо SVM работает на больших датасетах очень долго.

Но как бы сделать все очень тупо и просто, но в виде attention? Авторы новой статьи предлагают решить это просто - пусть теперь key и values в наших слоях будут не вычисляться динамически на основе входных данных, а будут обучаемыми весами.
В идеале эти веса как раз и выучат паттерны и соответствующими им характеристики, нужные для решения задачи.
Кроме этого, бонусом идет то, что число паттернов можно ставить
1) не очень большое (у авторов работают значения k = 64)
2) сложность вычисления на слоях кроме первого в начинает зависеть от длины входной последовательности только линейно

Для части задач у авторов получается хорошее качество, сравнимое с state-of-the-art. При этом в идеале можно из выучиваемых весов вытаскивать какие-то инсайты по решаемой задаче.
TorchDrug

TorchDrug - это фреймворк машинного обучения, разработанный для поиска лекарств. Включает в себя методы от графового машинного обучения (графовые нейронные сети, геометрическое глубокое обучение), глубоких генеративных моделей до обучения с подкреплением. TorchDrug предоставляет комплексный и гибкий интерфейс для поддержки быстрого создания прототипов моделей для поиска лекарств в PyTorch.

Сайт
GitHub

#ScientificML #medicine #chemistry #biology
Kipoi - model zoo for genomics

Интересный репозиторий с нейронными сетями в биологии. Есть пара архитектур из хороших статей. Репозиторий обновляется нечасто, непонятно, насколько инициатива жива. Например, в коде одной нейросети можно встретить Variable из pytorch (deprecated уже года 4 как). А статью по этой штуке хотели писать в 2018(

GitHub

#ScientificML #biology #dna #medicine
#ScientificML #biology #rna

Тем временем в Science была опубликована статья по новым успехам в предсказании структуры РНК.

Почему эта задача все еще актуальна во время, когда появился AlphaFold2 для предсказания структуры белков. Казалось бы, поправить три строчки и готово?

Дело в том, что структура РНК складывается по сильно отличным от структур белка правилам и отличается очень высоким уровнем модификации нуклеотидов, из которых РНК состоит. В результате в то время как в строковом представлении последовательности РНК у вас "всего" 4 буквы, в реальности их в разы больше.

Статья позиционируется журналом Science как РНК-АльфаФолд. Конечно, этого тут пока нет.
Качество предсказания (RMSD) для большинства структур не высокое и не позволяет использовать их в биоинформатических пайплайнах (вероятно, т.к для структур РНК RMSD не является идеальной метрикой сравнения)
Статья при этом все равно крутая, так как все другие методы были побеждены нейросеткой.
2D Animal Keypoint Dataset

Содержит датасеты:
* Animal pose 🦔
* Horse-10 🐎
* Macaque Pose 🐒
* Vinegar Fly 🪰
* Desert locust 🏜
* Grevy’s Zebra 🦓
* ATRW 🐅

Доступно через MMPose тут

#datasets #ScientificML #pose #detection #biology
A Novel Dataset for Keypoint Detection of quadruped Animals from Images

Этот набор данных содержит значительно больше ключевых точек на одно животное и имеет гораздо большее разнообразие животных, чем существующие датасеты для обнаружения ключевых точек животных.

Статья
Датасет

#datasets #ScientificML #pose #detection #biology
The Natural Scenes Dataset

Natural Scenes Dataset (NSD) - это крупномасштабный набор данных фМРТ, проведенный при сверхвысоком поле (7Т) в Центре магнитно-резонансных исследований (CMRR) Университета Миннесоты. Набор данных состоит из измерений фМРТ всего мозга с высоким разрешением (изотропность 1,8 мм, частота дискретизации 1,6 с) у 8 здоровых взрослых испытуемых во время просмотра тысяч цветных естественных сцен в течение 30-40 сеансов сканирования. Во время просмотра этих изображений испытуемые выполняли задачу непрерывного распознавания, в которой они сообщали, видели ли они каждое данное изображение в любой момент эксперимента. Эти данные представляют собой массивный benchmark для вычислительных моделей визуального представления и познания и могут поддержать широкий спектр научных исследований.

Датасет

#ScientificML #images #medicine #biology
LIVECell

(Label-free In Vitro image Examples of Cells) - это набор данных микроскопических изображений для инстант-сегментации отдельных клеток в двумерных клеточных культурах.

LIVECell состоит из 5239 аннотированных вручную, проверенных экспертами изображений фазово-контрастной микроскопии Incucyte HD с общим количеством 1 686 352 отдельных клеток, аннотированных по восьми различным типам (в среднем 313 клеток на одном изображении). Изображения LIVECell предварительно разделены на train (3188), Val (539) и test (1512) наборы.

#ScientificML #datasets #biology #segmentation
Text2Brain

На протяжении многих лет неврологи сообщали тысячи результатов визуализации с помощью функциональной магнитно-резонансной томографии (фМРТ) и описывали свои выводы в научных статьях. Используя 13 000 опубликованных статей по нейровизуализации, авторы обучили искусственную нейронную сеть предсказывать карты активации мозга по фрагментам текста. Более подробную техническую информацию вы можете найти в статье Text2Brain: Синтез карт активации мозга из текстовых запросов в свободной форме.

Попробовать самим

#mri #medicine #biology
Neural Distance Embeddings (NeuroSEED)

Разработка эвристик зависящих от данных и представлений для биологических последовательностей, которые отражают их эволюционное расстояние, имеет решающее значение для биологических исследований. Однако популярные подходы машинного обучения, основанные на непрерывных евклидовых пространствах, с трудом с этим справляются.

Коллектив довольно знаменитых авторов (включая Величковича) предлагает использовать Neural Distance Embeddings (NeuroSEED), общую структуру для эмбеддинга последовательностей в геометрические векторные пространства.

Они говорят, что гиперболическое пространство отражает иерархическую структуру последовательностей, лучше чем другие геометрии.

Сравниваясь с обычными базовыми подходами, NeuroSEED демонстрирует значительное повышение точности и/или времени работы на реальных наборах данных.

Статья
Код

#ScientificML #biology
Искусственный интеллект предсказывает экспрессию генов.

В новой работе от DeepMind описывается архитектура Enformer, основанная на трансформерах. Эта архитектура способствует развитию генетических исследований, улучшая способность предсказывать, как последовательность ДНК влияет на экспрессию генов.

Блог-пост
Статья в Nature
Код

#ScientificML #biology #medicine
Обновления по графовым сетям, которые сейчас активно исследуются для биологических и химических целей.

(1) На YouTube выложили лекцию профессора Макса Веллинга (Max Welling) по графовым нейронным сетям для симуляции молекул.

(2) умельцы собрали Colab блокнот по обучению графовой нейронной сети для классификации молекул на основе их биологической активности. В блокноте разбираются аспекты использования Jraph (JAX библиотеки для графов).

#ScientificML #gnn #graphs #biology #chemistry
Protein complex prediction with AlphaFold-Multimer

В то время как подавляющее большинство хорошо структурированных одиночных белковых цепей теперь могут быть предсказаны с высокой точностью благодаря недавно разработанной модели AlphaFold, предсказание многоцепочечных белковых комплексов во многих случаях остается сложной задачей.

В статье от DeepMind демонстрируют, что модель AlphaFold, специально обученная на мультимерных входах с известной стехиометрией (AlphaFold-Multimer), значительно повышает точность предсказания мультимерных интерфейсов по сравнению с одноцепочечной AlphaFold, сохраняя при этом высокую точность внутри цепи.

📎Статья

#ScientificML #biology