AI Для Всех
12.2K subscribers
1.05K photos
136 videos
10 files
1.34K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
🤖🏆 SimVLM — Новый CLIP

Представьте себе одну модель, которая может:
- Классифицировать фото
- Отвечать на вопросы по фото
- Дополнять текстовые описания
- Решать задачу «визуального обоснования»
- Выполнять мультимодальный перевод

А самое главное, делать все это в режиме zero-shot (обучение без обучения)!

Встречайте: SimVLM, который по факту является мультимодальной сетью Text + Image (как CLIP), с классической трансформер архитектурой. ViT+Bert энкодер + декодер GPT (см картинку поста).

Такой текстовый-визуальный претрейн сравнили с современными (SOTA) методами, включая LXMERT, VL-T5, UNITER, OSCAR, Villa, SOHO, UNIMO и VinVL.

SimVLM превосходит все существующие модели и бьет SOTA по всем рассматриваемым задачам, часто со значительным отрывом.

Скоро сделаю подробный обзор архитектуры.

📄 paper

#sota #paper #multimodal #zeroshot #сохраненки
Hire-MLP: Vision MLP via Hierarchical Rearrangement

В Hire-MLP предлагается идея иерархической перегруппировки для объединения локальной и глобальной пространственной информации. Более того, чтобы обеспечить обмен информацией между различными регионами и уловить глобальный контекст, предлагается межрегиональная перестановка для кругового смещения всех эмбедингов вдоль пространственных направлений.

Hire-MLP достигает 83.4% точности на ImageNet, что превосходит предыдущие модели на основе трансформеров и MLP (SOTA).

#images #mlp
не смог удержаться =)
Forwarded from TechSparks
От изобразительного искусства — к бижутерии. Вот так и развиваются коллаборации между белковыми художниками и ИИ 🙂 Про картины, скульптуры и всяческое цифровое искусство в таком соавторстве давно известно, вот и бренды современных брошек подтянулись.
И, кстати, генеративную сетку не учили специально на всяких существующих аксессуарах, нынче моден другой подход — генерация изображений по текстовым описаниям. Так что от художника нужна хорошая формулировка концепции, которую скармливают связке VQGAN+CLIP, желательно абстрактная типа “психическое здоровье”, — и потом выбор, допиливание и стилизация предложенных небелковым агентом (искусственной нейросетью) визуальных образов. В заметке приведены примеры этапов этого творческого пути:)
Результат, кстати, мне очень нравится, классные украшения получились:) А сгенерированные сеткой изображения сами по себе интересны, еще до стилизации.
https://msu.ai/code_and_prejudice/
Forwarded from Sberloga (Alexander C)
🚀 @SBERLOGA онлайн доклад по биоинформатике:
👨‍🔬 В. А. Шитов (СибГМУ): "Инструменты для понимания межклеточных взаимодействий по данным SC RNA-Seq"
⌚️ Четверг 1 сентября, 19.00 по Москве

Методы Single Cell RNA-Seq позволяют изучать ткани на масштабе отдельных клеток. Обычно, они используются для понимания клеточных типов и их путей дифференцировки. В последнее время появляются методы, которые позволяют извлечь ещё больше информации из данных транскриптомики единичных клеток. Например, понять как клетки взаимодействуют друг с другом. Я расскажу о существующих инструментах для понимания межклеточных взаимодействий, принципах их работы, сходствах и различиях. А также о своём небольшом проекте по созданию единого интерфейса для разных программ, решающих эту задачу.

Статьи:
CellPhoneDB: https://www.nature.com/articles/s41596-020-0292-x
CellChat: https://www.nature.com/articles/s41467-021-21246-9
CellCall: https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkab638/6332819

Презентация: https://docs.google.com/presentation/d/1apcFiHPh4vlKiIO7RELs5XKh6q-uZaUhYj1X9sLOtj8/edit?usp=sharing

PS
Ссылка на зум будет доступна через тг чат https://t.me/sberlogabio ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
Benchmarking graph neural networks for materials chemistry

Графовые нейронные сети (GNN) вызывают повышенный интерес как быстро растущий класс моделей машинного обучения, удивительно хорошо подходящих для применения в науке о материалах. На сегодняшний день предложено и продемонстрировано несколько успешных GNN для стабильности кристаллов, прогнозирования электронных свойств химией, гетерогенного катализа. Однако последовательная оценка этих моделей по-прежнему отсутствует.

Авторы представляют рабочий процесс и платформу тестирования MatDeepLearn для быстрой и воспроизводимой оценки и сравнения GNNs и других моделей машинного обучения. Они используют эту платформу для оптимизации и оценки ряда наиболее эффективных GNN на нескольких репрезентативных наборах данных в области вычислительной химии материалов. В то же время, в работе, отмечаются и некоторые недостатки GNN и обсуждаются предложения по их совершенствованию для применения в химии материалов.

Статья
Код

#ScientificML #code #chemistry
Differentiable Prompt Makes Pre-trained Language Models Better Few-shot Learners

Огромные предобученные языковые модели внесли значительный вклад в обработку естественного языка. Однако их эффективность зависит в основном от масштабирования параметров модели, что препятствует их применению в большинстве реальных приложений. В этом исследовании предлагается новый масштабируемый и эффективный подход, названный DifferentiAble pRompT (DART).

Основной принцип этого подхода заключается в переформулировании потенциальных задач обработки естественного языка в задачи предобучения языковой модели и дифференциальной оптимизации шаблона подсказки и целевой метки с помощью обратного распространения. Кроме того, предложенный подход может быть: (i) использован с любыми предобученными языковым моделями; (ii) расширен на задачи классификации.

Статья

#nlp #training #prompting
Accelerate PyTorch models with ONNX Runtime

ONNX Runtime for PyTorch ускоряет обучение моделей PyTorch с помощью ONNX Runtime.

Он доступен через пакет torch-ort python. ONNX Runtime for PyTorch дает вам возможность ускорить обучение больших трансформеров. Время и стоимость обучения сокращаются всего лишь за счет изменения одной строки кода.

GitHub

#code #training #speed
SummerTime - Text Summarization Toolkit for Non-experts

Библиотека, помогающая пользователям выбрать подходящие инструменты обобщения на основе их конкретных задач или потребностей. Включает модели, метрики оценки и наборы данных.

SummerTime поддерживает различные модели (например, TextRank, BART, Longformer), а также обертки моделей для более сложных задач обобщения (например, JointModel для обобщения нескольких документов, BM25 retrieval для обобщения на основе запросов).

Код
Colab
Демо

#nlp #text #ScientificML
High-Dimensional Bayesian Optimisation with Variational Autoencoders and Deep Metric Learning

Метод, основанный на глубоком метрическом обучении, для выполнения байесовской оптимизации над высокоразмерными структурированными входными пространствами с использованием вариационных автоэнкодеров (VAE). Авторы решают давнюю проблему в байесовской оптимизации для высокоразмерных VAE, а именно, как обеспечить дискриминативное латентное пространство в качестве индуктивного баеса.

Статья

#theory #training #baes #autoencoders #ScientificML
Want To Reduce Labeling Cost? GPT-3 Can Help

Аннотирование данных - трудоемкий и длительный процесс для многих задач NLP. Хотя существуют различные методы получения псевдометок, они часто зависят от конкретной задачи и все равно требуют значительного количества размеренных данных.

В статье исследуются способы использования GPT-3 в качестве недорогого средства для разметки данных для обучения других моделей. Авторы обнаружили, что для того, чтобы последующая модель достигла одинаковой производительности в различных задачах NLU и NLG, использование меток из GPT-3 обходится на 50%-96% дешевле, чем использование меток от человека. Более того, авторы предлагают новую схему комбинирования псевдометок из GPT-3 с человеческими метками, что приводит к еще более высокой производительности при ограниченном бюджете на разметку. Эти результаты представляют экономически эффективную методологию разметки данных, которая может быть использована во многих практических приложениях.

Статья

#gpt #labeling #generative #nlp
🎨 Text2OneLine Draw дифференцируемое рисование одной линией

Представьте себе, что вы можете заказать модную тату не у дизайнера, а у нейронной сети. Или векторный логотип в svg.

Собрал для вас новый colab:

🔮Text2OneLine Draw дифференцируемое рисования одной линией!

🤖Описание:
- Создается рандомная кривая Безье. Толщина линии width и перегибов line_comlexity задается в интерфейсе
- Кривая рендерится через дифференцируемую векторную графику
- Текстовое описание превращается в вектор (текстовый CLIP)
- Затем градиенты текут на кривую Безье, максимизируя cossim картинки с тектом

💡Интуиция:
- Представьте, что перед вами на белом листе бумаги длинная запутанная черная нитка
- Алгоритм двигает эту нитку, пытаясь создать описанное изображение

p.s: Чтобы добиться желаемого результата, нужно поиграть с запросом и line_comlexity, и возможно запустить раз пять)

Подход показывает, что эра дифференцируемой векторной графики началась!

#colab #mishin_learning_colab #neuralart
MiniF2F: a cross-system benchmark for formal Olympiad-level mathematics (OpenAI)

Датасет формальных задач по математике олимпиадного уровня, предназначенный для создания единого межсистемного бенчмарка для нейронного доказательства теорем

Статья
GitHub

#datasets #math #ScientificML #gpt
Тут оказалось, что что бы найти человеческие лица сгенерированные GAN - нужно посмотреть на зрачок.
Но конечно это борьба снаряда и брони. Теперь когда мы знаем куда смотреть, мы знаем что улучшать.
Почти 100 лет назад Вольфганг Кёлер провёл свой известный эксперимент на звукосимволизм. Людям показывали две картинки (в верхнем ряду), и предлагали выбрать, которая из них "балуба", а какая "такете". Подавляющее большинство людей выбирало округлую балубу и угловатую такете.

С тех пор эксперимент повторяли с людьми, говорящими на разных языках, с двухлетними детьми и так далее. Пробовали также менять слова на буба/кики. Во всех случах эффект сохранялся.

Так как в этом году большую моду получили мультимодальные модели (о которых я тут периодически пишу), товарищ Nearcyan из Остина решил посмотреть, что про такие слова думает модель CLIP. Во втором ряду примеры сгенерированных изображений для "кики" и "бубы", в третьем — для формы "малумы" и "такете".

Больше подробностей, картинок и других слов — в оригинальном блогопосте.
Размышляя об успехе искусственного интеллекта AlphaFold от DeepMind - каково реальное значение для исследований сворачивания белков и открытия лекарств?

В этом лонгриде профессор Пол Воркман, исполнительный директор и президент ICR, а также ученый в области открытия лекарств, размышляет о значении последней версии AlphaFold - мощной системы искусственного интеллекта, которая была применена для предсказания структур почти 99% человеческих белков - для фундаментальных исследований и открытия лекарств.

#alphafold #ScientificML
The Devil is in the Detail: Simple Tricks Improve Systematic Generalization of Transformers (Шмидтхубер)

В последнее время было предложено множество наборов данных для проверки способности нейронных сетей к систематическому обобщению. Базовые трансформеры, обычно обучаемые с гиперпараметрами по умолчанию на основе стандартных задач, с обобщением не справляются.

В статье демонстрируется, что, пересмотрев такие базовые конфигурации модели, как масштабирование embeddings, early stopping, relative positional embeddings и универсальные варианты трансформеров, мы можем значительно улучшить обобщающую способность трансформеров.

Авторские модели повышают точность с 50% до 85% в наборе PCFG и с 35% до 81% в наборе COGS. Важно отметить, что различия в производительности между этими моделями, как правило, незаметны на срезе данных IID. Это говорит о том, что для разработки нейронных сетей, которые обобщают систематически, необходимо использовать соответствующие валидационные наборы для обобщения.

Статья
Код
Видео

#training #transformer
Learning to Prompt for Vision-Language Models

Устали от настройки prompts для моделей языка зрения, таких как CLIP?

Почему бы не использовать CoOp для изучения prompts! Он эффективен с точки зрения данных и обобщаем в конкретных областях😎

Основная идея CoOp заключается в моделировании контекста в подсказках с помощью непрерывных представлений и выполнении сквозного обучения на основе данных. CoOp демонстрирует способность к эффективному обучению на основе данных, а также устойчивость к изменению распределения.

Статья
Код

#prompting #transformer #multimodal #images #text #text2image
This media is not supported in your browser
VIEW IN TELEGRAM
Discovering Anomalous Data with Self-Supervised Learning (Google AI)

Обнаружение аномалий (иногда называемое обнаружением выбросов или выявлением нераспределенности) является одним из наиболее распространенных приложений машинного обучения во многих областях, от обнаружения дефектов в производстве до выявления мошеннических операций в финансовой сфере.

Статья описывает двухэтапную схему, которая использует последние достижения в self-supervised representation learning и классические одноклассовые алгоритмы. Алгоритм прост в обучении и показывает самые современные результаты на различных бэнчмарках, включая CIFAR, f-MNIST, Cat vs Dog и CelebA.

Блог-пост
Статья
Код

#SSL #anomaly
2D Animal Keypoint Dataset

Содержит датасеты:
* Animal pose 🦔
* Horse-10 🐎
* Macaque Pose 🐒
* Vinegar Fly 🪰
* Desert locust 🏜
* Grevy’s Zebra 🦓
* ATRW 🐅

Доступно через MMPose тут

#datasets #ScientificML #pose #detection #biology
A Novel Dataset for Keypoint Detection of quadruped Animals from Images

Этот набор данных содержит значительно больше ключевых точек на одно животное и имеет гораздо большее разнообразие животных, чем существующие датасеты для обнаружения ключевых точек животных.

Статья
Датасет

#datasets #ScientificML #pose #detection #biology