AI Для Всех
12.8K subscribers
1.17K photos
152 videos
10 files
1.37K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
CLIP2Video: Mastering Video-Text Retrieval via Image CLIP (Tencent)

CLIP2Video - сеть для end-to-end переноса модели переобученой на изображениях и языке в видеотекстовый поиск. В частности, основываясь на пространственной семантике, улавливаемой моделью Contrastive Language-Image Pretraining (CLIP), модель включает в себя блок Temporal Difference для захвата движений в видеокадрах и блок Temporal Alignment для повторного выравнивания лексем видеоклипов и фраз и улучшения мультимодальной корреляции.

arXiv
Github

#clip #multimodal #video #nlp #text
Awesome Colab Notebooks

Большая подборка колабов на различные темы, от DeepFake до NeuralART

https://github.com/amrzv/awesome-colab-notebooks

#demo
Нейроброши

Мы с командой msu.ai и monolama.com запускаем первую в истории коллекцию брошек сгенерированных нейросетями.
Мы взяли VQGAN+CLIP, нагенерили картинок на разные темы, затем обработали их и превратили в красивые брошки из оргстекла. Смотрите как круто получилось:
https://monolama.com/neuro

А тут можно почитать подробнее как именно мы это сделали.
#ScientificML #biology #rna

Тем временем в Science была опубликована статья по новым успехам в предсказании структуры РНК.

Почему эта задача все еще актуальна во время, когда появился AlphaFold2 для предсказания структуры белков. Казалось бы, поправить три строчки и готово?

Дело в том, что структура РНК складывается по сильно отличным от структур белка правилам и отличается очень высоким уровнем модификации нуклеотидов, из которых РНК состоит. В результате в то время как в строковом представлении последовательности РНК у вас "всего" 4 буквы, в реальности их в разы больше.

Статья позиционируется журналом Science как РНК-АльфаФолд. Конечно, этого тут пока нет.
Качество предсказания (RMSD) для большинства структур не высокое и не позволяет использовать их в биоинформатических пайплайнах (вероятно, т.к для структур РНК RMSD не является идеальной метрикой сравнения)
Статья при этом все равно крутая, так как все другие методы были побеждены нейросеткой.
Но как эта нейросетка работала?
Она была обучена на основе данной на вход структуры РНК предсказывать, насколько та отличается от структуры той же РНК, полученной в ходе эксперимента (принимаем за истинную структуру).
Конкретно - для каждой из 18 известных структур генерировалось 1000 предсказаний при помощи Rosetta. На основании полученной таким образом выборки и учили нейронную сеть.

По сути в результате была получена нейронная scoring-функция. Собственно, и одно из сравнений авторов было на тему, насколько выученная скоринг-функция лучше ранжирует предсказания по их правильности, чем известные скоринг-функци (той же Rosetta).

Как с помощью такой штуки предсказывать структуру? Опять же, генерируем 1000 предсказаний при помощи Rosetta, а далее выбираем из них то, которое было оценено выше всего.

Таким образом подход очень сильно отличается от подхода AlphaFold2. И является во многом inferior, так как, напомним, AlphaFold2 делает end-to-end предсказание. Здесь и для обучения используются эвристики, прописанные авторами Rosetta (адцки сложного пакета с огромным числом заложенных туда рассчетов), и для предсказания используется та же Rosetta.

Об архитектуре сети судить из статьи сложно, но по-видимому, это обычный многослойный персептрон, которому на вход подаются описанные авторами признаки, содержащие информацию о каждом атоме структуры и его окружении. В этом подход напоминает подход, использовавшийся в нейросети torchANI, уже описанной нами

Кода к статье, к сожалению, нет.
Статья производит положительное впечатление, если НЕ обращать внимание на сильно завышенный хайп, который, видимо, имеет много отношения к политике между ведущими журналами
🤖🏆 SimVLM — Новый CLIP

Представьте себе одну модель, которая может:
- Классифицировать фото
- Отвечать на вопросы по фото
- Дополнять текстовые описания
- Решать задачу «визуального обоснования»
- Выполнять мультимодальный перевод

А самое главное, делать все это в режиме zero-shot (обучение без обучения)!

Встречайте: SimVLM, который по факту является мультимодальной сетью Text + Image (как CLIP), с классической трансформер архитектурой. ViT+Bert энкодер + декодер GPT (см картинку поста).

Такой текстовый-визуальный претрейн сравнили с современными (SOTA) методами, включая LXMERT, VL-T5, UNITER, OSCAR, Villa, SOHO, UNIMO и VinVL.

SimVLM превосходит все существующие модели и бьет SOTA по всем рассматриваемым задачам, часто со значительным отрывом.

Скоро сделаю подробный обзор архитектуры.

📄 paper

#sota #paper #multimodal #zeroshot #сохраненки
Hire-MLP: Vision MLP via Hierarchical Rearrangement

В Hire-MLP предлагается идея иерархической перегруппировки для объединения локальной и глобальной пространственной информации. Более того, чтобы обеспечить обмен информацией между различными регионами и уловить глобальный контекст, предлагается межрегиональная перестановка для кругового смещения всех эмбедингов вдоль пространственных направлений.

Hire-MLP достигает 83.4% точности на ImageNet, что превосходит предыдущие модели на основе трансформеров и MLP (SOTA).

#images #mlp
не смог удержаться =)
Forwarded from TechSparks
От изобразительного искусства — к бижутерии. Вот так и развиваются коллаборации между белковыми художниками и ИИ 🙂 Про картины, скульптуры и всяческое цифровое искусство в таком соавторстве давно известно, вот и бренды современных брошек подтянулись.
И, кстати, генеративную сетку не учили специально на всяких существующих аксессуарах, нынче моден другой подход — генерация изображений по текстовым описаниям. Так что от художника нужна хорошая формулировка концепции, которую скармливают связке VQGAN+CLIP, желательно абстрактная типа “психическое здоровье”, — и потом выбор, допиливание и стилизация предложенных небелковым агентом (искусственной нейросетью) визуальных образов. В заметке приведены примеры этапов этого творческого пути:)
Результат, кстати, мне очень нравится, классные украшения получились:) А сгенерированные сеткой изображения сами по себе интересны, еще до стилизации.
https://msu.ai/code_and_prejudice/
Forwarded from Sberloga (Alexander C)
🚀 @SBERLOGA онлайн доклад по биоинформатике:
👨‍🔬 В. А. Шитов (СибГМУ): "Инструменты для понимания межклеточных взаимодействий по данным SC RNA-Seq"
⌚️ Четверг 1 сентября, 19.00 по Москве

Методы Single Cell RNA-Seq позволяют изучать ткани на масштабе отдельных клеток. Обычно, они используются для понимания клеточных типов и их путей дифференцировки. В последнее время появляются методы, которые позволяют извлечь ещё больше информации из данных транскриптомики единичных клеток. Например, понять как клетки взаимодействуют друг с другом. Я расскажу о существующих инструментах для понимания межклеточных взаимодействий, принципах их работы, сходствах и различиях. А также о своём небольшом проекте по созданию единого интерфейса для разных программ, решающих эту задачу.

Статьи:
CellPhoneDB: https://www.nature.com/articles/s41596-020-0292-x
CellChat: https://www.nature.com/articles/s41467-021-21246-9
CellCall: https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkab638/6332819

Презентация: https://docs.google.com/presentation/d/1apcFiHPh4vlKiIO7RELs5XKh6q-uZaUhYj1X9sLOtj8/edit?usp=sharing

PS
Ссылка на зум будет доступна через тг чат https://t.me/sberlogabio ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
Benchmarking graph neural networks for materials chemistry

Графовые нейронные сети (GNN) вызывают повышенный интерес как быстро растущий класс моделей машинного обучения, удивительно хорошо подходящих для применения в науке о материалах. На сегодняшний день предложено и продемонстрировано несколько успешных GNN для стабильности кристаллов, прогнозирования электронных свойств химией, гетерогенного катализа. Однако последовательная оценка этих моделей по-прежнему отсутствует.

Авторы представляют рабочий процесс и платформу тестирования MatDeepLearn для быстрой и воспроизводимой оценки и сравнения GNNs и других моделей машинного обучения. Они используют эту платформу для оптимизации и оценки ряда наиболее эффективных GNN на нескольких репрезентативных наборах данных в области вычислительной химии материалов. В то же время, в работе, отмечаются и некоторые недостатки GNN и обсуждаются предложения по их совершенствованию для применения в химии материалов.

Статья
Код

#ScientificML #code #chemistry
Differentiable Prompt Makes Pre-trained Language Models Better Few-shot Learners

Огромные предобученные языковые модели внесли значительный вклад в обработку естественного языка. Однако их эффективность зависит в основном от масштабирования параметров модели, что препятствует их применению в большинстве реальных приложений. В этом исследовании предлагается новый масштабируемый и эффективный подход, названный DifferentiAble pRompT (DART).

Основной принцип этого подхода заключается в переформулировании потенциальных задач обработки естественного языка в задачи предобучения языковой модели и дифференциальной оптимизации шаблона подсказки и целевой метки с помощью обратного распространения. Кроме того, предложенный подход может быть: (i) использован с любыми предобученными языковым моделями; (ii) расширен на задачи классификации.

Статья

#nlp #training #prompting
Accelerate PyTorch models with ONNX Runtime

ONNX Runtime for PyTorch ускоряет обучение моделей PyTorch с помощью ONNX Runtime.

Он доступен через пакет torch-ort python. ONNX Runtime for PyTorch дает вам возможность ускорить обучение больших трансформеров. Время и стоимость обучения сокращаются всего лишь за счет изменения одной строки кода.

GitHub

#code #training #speed
SummerTime - Text Summarization Toolkit for Non-experts

Библиотека, помогающая пользователям выбрать подходящие инструменты обобщения на основе их конкретных задач или потребностей. Включает модели, метрики оценки и наборы данных.

SummerTime поддерживает различные модели (например, TextRank, BART, Longformer), а также обертки моделей для более сложных задач обобщения (например, JointModel для обобщения нескольких документов, BM25 retrieval для обобщения на основе запросов).

Код
Colab
Демо

#nlp #text #ScientificML
High-Dimensional Bayesian Optimisation with Variational Autoencoders and Deep Metric Learning

Метод, основанный на глубоком метрическом обучении, для выполнения байесовской оптимизации над высокоразмерными структурированными входными пространствами с использованием вариационных автоэнкодеров (VAE). Авторы решают давнюю проблему в байесовской оптимизации для высокоразмерных VAE, а именно, как обеспечить дискриминативное латентное пространство в качестве индуктивного баеса.

Статья

#theory #training #baes #autoencoders #ScientificML
Want To Reduce Labeling Cost? GPT-3 Can Help

Аннотирование данных - трудоемкий и длительный процесс для многих задач NLP. Хотя существуют различные методы получения псевдометок, они часто зависят от конкретной задачи и все равно требуют значительного количества размеренных данных.

В статье исследуются способы использования GPT-3 в качестве недорогого средства для разметки данных для обучения других моделей. Авторы обнаружили, что для того, чтобы последующая модель достигла одинаковой производительности в различных задачах NLU и NLG, использование меток из GPT-3 обходится на 50%-96% дешевле, чем использование меток от человека. Более того, авторы предлагают новую схему комбинирования псевдометок из GPT-3 с человеческими метками, что приводит к еще более высокой производительности при ограниченном бюджете на разметку. Эти результаты представляют экономически эффективную методологию разметки данных, которая может быть использована во многих практических приложениях.

Статья

#gpt #labeling #generative #nlp
🎨 Text2OneLine Draw дифференцируемое рисование одной линией

Представьте себе, что вы можете заказать модную тату не у дизайнера, а у нейронной сети. Или векторный логотип в svg.

Собрал для вас новый colab:

🔮Text2OneLine Draw дифференцируемое рисования одной линией!

🤖Описание:
- Создается рандомная кривая Безье. Толщина линии width и перегибов line_comlexity задается в интерфейсе
- Кривая рендерится через дифференцируемую векторную графику
- Текстовое описание превращается в вектор (текстовый CLIP)
- Затем градиенты текут на кривую Безье, максимизируя cossim картинки с тектом

💡Интуиция:
- Представьте, что перед вами на белом листе бумаги длинная запутанная черная нитка
- Алгоритм двигает эту нитку, пытаясь создать описанное изображение

p.s: Чтобы добиться желаемого результата, нужно поиграть с запросом и line_comlexity, и возможно запустить раз пять)

Подход показывает, что эра дифференцируемой векторной графики началась!

#colab #mishin_learning_colab #neuralart
MiniF2F: a cross-system benchmark for formal Olympiad-level mathematics (OpenAI)

Датасет формальных задач по математике олимпиадного уровня, предназначенный для создания единого межсистемного бенчмарка для нейронного доказательства теорем

Статья
GitHub

#datasets #math #ScientificML #gpt
Тут оказалось, что что бы найти человеческие лица сгенерированные GAN - нужно посмотреть на зрачок.
Но конечно это борьба снаряда и брони. Теперь когда мы знаем куда смотреть, мы знаем что улучшать.
Почти 100 лет назад Вольфганг Кёлер провёл свой известный эксперимент на звукосимволизм. Людям показывали две картинки (в верхнем ряду), и предлагали выбрать, которая из них "балуба", а какая "такете". Подавляющее большинство людей выбирало округлую балубу и угловатую такете.

С тех пор эксперимент повторяли с людьми, говорящими на разных языках, с двухлетними детьми и так далее. Пробовали также менять слова на буба/кики. Во всех случах эффект сохранялся.

Так как в этом году большую моду получили мультимодальные модели (о которых я тут периодически пишу), товарищ Nearcyan из Остина решил посмотреть, что про такие слова думает модель CLIP. Во втором ряду примеры сгенерированных изображений для "кики" и "бубы", в третьем — для формы "малумы" и "такете".

Больше подробностей, картинок и других слов — в оригинальном блогопосте.
Размышляя об успехе искусственного интеллекта AlphaFold от DeepMind - каково реальное значение для исследований сворачивания белков и открытия лекарств?

В этом лонгриде профессор Пол Воркман, исполнительный директор и президент ICR, а также ученый в области открытия лекарств, размышляет о значении последней версии AlphaFold - мощной системы искусственного интеллекта, которая была применена для предсказания структур почти 99% человеческих белков - для фундаментальных исследований и открытия лекарств.

#alphafold #ScientificML