AI Для Всех
12.8K subscribers
1.17K photos
153 videos
10 files
1.38K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
Too long; didn’t read

Вы прочитали картинку? Большинство из вас скорее всего прочитали только нижнюю часть, и то наискосок.

TLDR9+ - масштабный набор данных для обобщения, содержащий более 9 миллионов учебных примеров, извлеченных из дискуссионного форума Reddit. Этот набор данных специально собран для выполнения экстремального обобщения (т.е. генерации резюме из одного предложения с высокой степенью сжатия и абстракции).

Скорее бы появилось что-то в открытом доступе, а то сколько можно статей то в день прочитать :)

Датасет

#datasets #nlp #summarization
5 минут назад выложили код StyleGan3 (он же Alias-Free GAN, про который я писал тут) - го тестить кто может!

Код

UPD: собрал Colab StyleGAN3

#gan
This media is not supported in your browser
VIEW IN TELEGRAM
SubTab: Subsetting Features of Tabular Data for Self-Supervised Representation Learning

AstraZeneca выпустила статью и код по self-supervised learning для табличных (!) данных. Даже не задумывался что так можно было.

Одним из основных компонентов успеха self-supervised learning на изображениях, аудио и тексте является использование пространственной, временной и семантической структуры данных. Однако в табличках, такая структура может отсутствовать, что затрудняет разработку эффективного метода аугментации и препятствует аналогичному прогрессу в работе с табличными данными.

В этой статье авторы представляют новую структуру - Subsetting features of Tabular data (SubTab), которая превращает задачу обучения на основе табличных данных в задачу обучения на основе многовидового представления путем разделения входных характеристик на несколько подмножеств. Эксперименты показали, что SubTab достигает производительности SOTA 98,31% на MNIST в табличной версии.

📎Статья 🖥Код

#tables #SSL #tabular
Protein complex prediction with AlphaFold-Multimer

В то время как подавляющее большинство хорошо структурированных одиночных белковых цепей теперь могут быть предсказаны с высокой точностью благодаря недавно разработанной модели AlphaFold, предсказание многоцепочечных белковых комплексов во многих случаях остается сложной задачей.

В статье от DeepMind демонстрируют, что модель AlphaFold, специально обученная на мультимерных входах с известной стехиометрией (AlphaFold-Multimer), значительно повышает точность предсказания мультимерных интерфейсов по сравнению с одноцепочечной AlphaFold, сохраняя при этом высокую точность внутри цепи.

📎Статья

#ScientificML #biology
🔥StyleGAN3 + CLIP

В твиттере выложили Colab для StyleGAN3+CLIP (с помощью текста, можно направлять генерацию картинки, а потом создавать красивые видосы), а я привел его к божескому виду, что бы было просто играться (и это что-то!)

💻Colab

P.S.: на картинке an amazon warrior трансформированный из MetFaces

#gan #text2image #clip
Media is too big
VIEW IN TELEGRAM
a trippy walk (StyleGAN3+CLIP)
Model-based analysis of brain activity reveals the hierarchy of language in 305 subjects

Интересная статья от авторов из Facebook AI и 2х Парижских университетов, про то как можно воспользоваться большими языковыми моделями для изучения корреляции между человеческой речью и активными зонами мозга. Хотя результаты у меня пока вызывают сомнение, посмотрим опубликуют ли вообще такое.

📎Статья

#ScientificML #nlp #biology
Relative Molecule Self-Attention Transformer

Self-supervised learning обещает произвести революцию в предсказании свойств молекул - центральной задаче открытия лекарств и многих других отраслей промышленности - благодаря возможности эффективного обучения на основе скудных экспериментальных данных.

Авторы полагают, что что-бы все реально заработало нужно решить проблему с выбором правильной архитектуры, которая, по их мнению, может быть самой проблемной частью.

Авторы предлагают новый вариант self-attention, адаптированный для обработки молекул, вдохновленный слоем relative self-attention, который предполагает объединение встроенного графа и отношений расстояния между атомами. Основной вклад работы - Relative Molecule Attention Transformer (R-MAT): новая модель на основе трансформера, которая достигает современных или очень конкурентоспособных результатов в широком диапазоне задач предсказания свойств молекул.

📎Статья

#ScientifcML #chemistry #transformer #SSL
Вам кстати интересно про науку или чисто ради картинок подписаны?
Anonymous Poll
88%
Интересно про науку и ML
11%
Чисто ради картинок и арта
2%
Другое (пишу в комменты)
StyleGAN3. Смешать, но не взбалтывать.

Я тут попробовал кое-что безумное, и на удивление это сработало. Берем веса обученого SG3 на MetFace (картины) и берем веса обученые на FFHQ (фотографии лиц). Складываем между собой и делим на 2. И вуаля - получаем GAN который рисует что-то среднее между портретом и фотографией

UPD: я вообще не намереваюсь этот канал превратить в обитель StyleGAN 😂

#gan
Forwarded from Sberloga (Alexander C)
🚀 @SBERLOGA представляет онлайн доклад :
👨‍🔬 Антон Костин (МФТИ) "Биология на графах. Графы 'взаимодействия' генов на основе NLP анализа текстов."
⌚️ Пятница 15 октября, 18.00 по Москве

Рассмотрим корпус биологических текстов по определенной тематике - болезнь Альцгеймера , глиобластома и тд.
Обучим NLP модель (типа word2vec или более продвинутые) на выбранном корпусе.
Возьмем список интересующих нас терминов - например генов.
Рассмотрим эмбединги генов, которые получены данной моделью, построим по ним граф близости.
После этого мы можем анализировать данный граф и пытаться понять насколько он отражает биологическую информацию.
Насколько он зависит от корпуса текстов, насколько кластеры биологически осмысленны, и так далее.
Об этом и будет рассказано. Разобраны ноутбуки, которые делают данное построение.

Доклад является идейным продолжением предыдущего доклада - https://youtu.be/deFlfV3lB50 , https://t.me/sberloga/66

Ссылка на зум будет доступна через тг чат https://t.me/sberlogabio ближе к началу
This media is not supported in your browser
VIEW IN TELEGRAM
DeepPoseKit

DeepPoseKit - это набор программных инструментов с высокоуровневым API для оценки 2D позы по заданным пользователем ключевым точкам. DeepPoseKit, можно использовать для: аннотирования изображений или видеокадров с заданными пользователем ключевыми точкам и для обучения моделей оценки позы.

Но самое крутое - не это. Эта библиотека была написана учеными для оценки поз животных (то есть для научных исследований).

Вот так вот ScientificML потихоньку врывается в жизнь обычных Computer Scientists. За наводку спасибо @pathetic_low_freq

📎Статья 🖥Код

#ScientificML #pose #biology
Михаил и Petar - довольно известные исследователи. Михаил возглавляет отдел графовых нейронных сетей в Twitter, а Petar - старший исследователь в Deep Mind. И тем не менее, из-за анонимизированного рецензирования, и крайне субъективного процесса ревью, даже у них случаются забавные казусы 😂
⚡️Комментарии в Colab

В Colab (Jupyter Notebooks с бесплатными GPU от Google) появилась возможность оставлять комментарии, как к Google Docs. Теперь совместная работа над блокнотами стала еще более удобной. Ура-ура-ура!

#resources
Pixray Panorama

Ещё чуть чуть искусства в нашем научном сообществе. Недавно, Алексей Тихонов выложил крутейший блокнот для генерации пиксельных панорам с помощью PixelDraw + CLIP. Присылайте в комменты что получилось!

💻Colab

#text2image #gan #clip
Causal ImageNet: How to discover spurious features in Deep Learning?

Часто, нейросети обученные на казалось бы больших датасетах типа ImageNet, плохо работают в реальном мире. Авторы исследования, считают что проблема может крыться в том, что сети уделяют слишком много внимания входным признакам, которые причинно не связаны с истинной меткой класса (например хотим предсказать кошку, а сеть зачем то ещё и фон учитывает).

Фокусируясь на классификации изображений, авторы определяют набор причинных визуальных признаков (всегда являются частью объекта) и набор ложных признаков (те, которые, так или иначе связаны с объектом, но не являются его частью. Например, признак «пальцы'' для класса «повязка'').

Авторы представляют набор данных Causal Imagenet, содержащий маски причинных и ложных признаков для большого набора сэмплов из Imagenet.

Данные пока не выложили, обновлю пост когда появятся.

📎Статья

#causality #datasets #images
This media is not supported in your browser
VIEW IN TELEGRAM
NeRF 2021

Если вы интересуетесь компьютерной графикой и рендеренгом и ещё не слышали про Neuro Radiance Fields - то самое время с ними познакомиться.

NeRF был представлен в (недавней, но уже ставшей основополагающей) статье Neural Radiance Fields на ECCV 2020.

NeRF хранит объемное представление сцены в виде весов MLP (nn.Linear), обученного на множестве изображений с известной пространственной координатой (откуда снимали и куда повёрнута камера).

В блог-посте собраны обновления для NeRF выпущеные в этом году, самое то, to bring you up to speed.

#3d #nerf
97% accuracy on MNIST with a single decision tree (+ t-SNE)

Я довольно много пишу про сложные модели их интересные применения (это 662 пост в канале). Но в этот раз, давайте поговорим про простые модели. Вообще-то, добиться хорошей точности классификации можно и путем уменьшения размерности.

Берём Truncated Singular Value Decomposition (TSVD), «сжимаем» наш датасет (в этом случае MNIST - рукописные цифры) и преобразовываем данные в 2х мерное пространство с помощью T-SNE. Получаем 97% точности.

Полностью (супер подробно) метод разобран в этом блокноте.

#basics #reduction
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Вот вам музыкальные котики от SG3 (самое прикольное, что работает в режиме реального времени – 25 кадров у секунду)

Автор