AI Для Всех
12.8K subscribers
1.17K photos
153 videos
10 files
1.38K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
SofGAN: A Portrait Image Generator with Dynamic Styling

Генератор изображений SofGAN разделяет латентное пространство портретов на два подпространства: пространство геометрии и пространство текстур. Латентные коды, отобранные из двух подпространств, подаются на две ветви сети по отдельности: одна для генерации 3D-геометрии портретов с канонической позой, а другая - для генерации текстур.

Но это все фигня по сравнению с редактором который они поставляют вместе со своим ганом!

Статья
Проект
GitHub

#images #gan #generative
This media is not supported in your browser
VIEW IN TELEGRAM
Paint Transformer: Feed Forward Neural Painting with Stroke Prediction

Нейронная живопись - это процедура создания серии штрихов для заданного изображения и его нефотореалистичного воссоздания с помощью нейронных сетей. В отличие от предыдущих методов, в данной работе авторы формулируют задачу как проблему прогнозирования набора (set prediction problem) и предлагают новую систему - Paint Transformer, для прогнозирования параметров набора штрихов.

Модель может генерировать набор мазков параллельно и получать картинку размером 512 * 512 практически в реальном времени. Более того, поскольку для обучения Paint Transformer не существует набора данных, авторы разработали пайплайн самообучения (self-training pipeline), который позволяет обучать модель без использования готовых наборов данных, при этом достигая хорошей генерализации.

Статья
GitHub
Онлайн-демо

#styletransfer #images #art
CLIP Guided Diffusion HQ

Обновился Colab с guided diffusion. Теперь доступное разрешение 512х512 px и улучшилось качество генерации.

Картинка сгенерирована по тексту: a beautiful watercolor painting of wind

#text2image #generative #CLIP #diffusion
OpenAI Codex - просто чума!

Час назад, OpenAI провела лайв-демо своего нового API Codex, которое позволяет пользоваться их моделью для генерации кода. Было показано много прикольных применений типа автонаписания кода и даже игры на JavaScript. Но самое сладкое они оставили на конец.

У многих программ есть своё собственное API (например у Word). Так вот, Codeх способен к ним подключаться и напрямую управлять софтом. Например, в демо показано как с помощью одной голосовой команды можно удалить все лишние пробелы в вордовском документе или выделить жирным каждую 5ую строку!

Посмотреть презентацию можно тут: https://www.youtube.com/watch?v=SGUCcjHTmGY

#code #news #generative #nlp
Forwarded from Neural Shit
Генерация различных шрифтов с помощью VQGAN и CLIP.

На самом деле, с помощью этого инструмента помимо шизоидных картинок можно делать очень крутые и красивые вещи, лишь бы с фантазией всё хорошо было. Особенно, если учесть, что к clip можно сравнительно легко прикручивать другие модели.
Анализ гистопатологических изображений

Репозиторий посвящен использованию машинного обучения для обработки гистопатологических изображений. Все модели сделаны на PyTorch и протестированы на множестве клинически значимых задач.

#ScientificML #medicine #biology
#ScientificML #medicine #biology #transformer #classification #mlp #smalldataset #datasets

Была статья в 2020 о том, что на самом деле attention transformer - это современная хопфилдовская сеть, которая сходится за один шаг. Что дает такая идея - в современных хопфилдовских сетях есть часть, которая, фактически, хранит наиболее "харизматичные" паттерны из выборки.

По сути - то, что мы в явном виде делаем для SVM. В нем опорные вектора - это как раз самые важные для классификации объекты, с которыми мы сравниваем поступивший на вход новый объект. Именно потому, кстати, SVM можно рассматривать как очень хитрый KNN (особенно если SVM набрала в опорные вектора всю обучающую выборку, что у меня в задаче происходит).

На основе этой интуиции авторы, выпустили статью с применением хопфилдовских сетей для классификации immune repertoire человека. К сложности этой задачи относится то, что размерность входного объекта в разы больше, чем число объектов, которые можно собрать в обозримое время. То есть нужна модель с довольно жесткой регуляризацией, иначе все переобучится.

Статья в принципе интересная, однако прям видно, что выучивается что-то типо SVM (качество нейросети не отличается значимо от созданной под эти цели SVM, смотрите таблицу 1 в статье). При этом понятно, что бонус нейросетевого решения - возможность transfer learning и в принципе шкалируемость метода. Ибо SVM работает на больших датасетах очень долго.

Но как бы сделать все очень тупо и просто, но в виде attention? Авторы новой статьи предлагают решить это просто - пусть теперь key и values в наших слоях будут не вычисляться динамически на основе входных данных, а будут обучаемыми весами.
В идеале эти веса как раз и выучат паттерны и соответствующими им характеристики, нужные для решения задачи.
Кроме этого, бонусом идет то, что число паттернов можно ставить
1) не очень большое (у авторов работают значения k = 64)
2) сложность вычисления на слоях кроме первого в начинает зависеть от длины входной последовательности только линейно

Для части задач у авторов получается хорошее качество, сравнимое с state-of-the-art. При этом в идеале можно из выучиваемых весов вытаскивать какие-то инсайты по решаемой задаче.
TorchDrug

TorchDrug - это фреймворк машинного обучения, разработанный для поиска лекарств. Включает в себя методы от графового машинного обучения (графовые нейронные сети, геометрическое глубокое обучение), глубоких генеративных моделей до обучения с подкреплением. TorchDrug предоставляет комплексный и гибкий интерфейс для поддержки быстрого создания прототипов моделей для поиска лекарств в PyTorch.

Сайт
GitHub

#ScientificML #medicine #chemistry #biology
Доля пессимизма (скорее - реализма) от того, кто потестил Copilot

Если коротко - местами он прям удивительно угадывает, что от него хотят.
Но в то же время он пишет даже не на уровне среднего прогера, умеющего в гугл - например, используются старые версии библиотек. Что не удивительно, учили-то на всем. Вот хохмы будет с библиотеками, где API менялось зигзагами. И не учитываются встроенные решения самого языка.
На примерах от автора первый запрос на стаковерфлоу дает решения лучше (вспоминается стебная библиотека, позволяющая импортировать код со stackoverflow)

Почему реализм, а не пессимизм?
Так как автор честно говорит - то, что сделано - круто.
Но - без domain knowledge и активного его внедрения в модель будет получаться не очень.
И, понятно, если OpenAI реально собирается на Copilot зарабатывать, то это изменится.

В целом мораль - можно взять архитектуру из соседней области и она даст приемлемый результат на вашей задаче (что уже круто). Но обычно без domain knowledge дальше не уйти.
Multiscale Vision Transformers

Facebook AI выпустили Multiscale Vision Transformers (MViT).
Сеть используют для representation learning (на изображения и видео). MViT относится к семейству моделей пользующихся иерархическими представлениями (по заветам D.H. Hubel и T.N. Wiesel, разработавших иерархическую модель человеческого зрения в 60х годах).

Почему это важно:
MViT - это значительное улучшение по сравнению с предыдущими попытками понимания видео Трансформерами.

Блог-пост
GitHub

#transformer #images #video #SSL #representationLearning
Forwarded from Sberloga (Alexander C)
Планируем доклад Василия Раменского на 13 августа (перенос с прошлой недели)

🚀 @SBERLOGA продолжает серию онлайн докладов посвященных АльфаФолд и темам вокруг него:
👨‍🔬 В. Е. Раменский (МГУ): "Структуры белков и варианты генома"
⌚️ Пятница 13 августа, 19.00 по Москве

Первые кристаллографические структуры белков дали возможность описать возможные механизмы действия немногочисленных известных тогда болезнетворных замен аминокислот в белках. Пятьдесят лет спустя огромное количество обнаруженных у человека вариантов последовательности позволяет понять, какие участки белков являются мишенями для болезнетворных мутаций и какие структурные свойства характерны для болезнетворных и нейтральных замен.

Василий Евгеньевич Раменский, к.ф.-м.н., доцент МГУ им М.В.Ломоносова,
Руководитель лаб. геномной и медицинской биоинформатики
НМИЦ Терапии и профилактической медицины

PS
Ссылка на зум будет доступна через тг чат https://t.me/sberlogabio ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
SoundStream - an End-to-End Neural Audio Codec

Аудиокодеки используются для эффективного сжатия звука с целью снижения требований к хранению или пропускной способности сети.

SoundStream - это первый нейрокодек для работы с речью и музыкой, который может работать в режиме реального времени на процессоре смартфона. Он способен обеспечить современное качество в широком диапазоне битрейтов с помощью одной обученной модели, что представляет собой значительный прогресс в области обучаемых кодеков.

Блог-пост и сэмплы
Обещают скоро зарелизить код

#sound #signals #compression #audio #speech #music
The WikiScenes Dataset

Набор данных WikiScenes состоит из парных изображений и языковых описаний мировых достопримечательностей и культурных объектов, с соответствующими 3D-моделями и позами камеры. WikiScenes получен из обширного публичного каталога свободно лицензируемых краудсорсинговых данных проекта Wikimedia Commons, который содержит большое количество изображений с подписями и другими метаданными.

Описание
GitHub

#datasets #multimodal #images #nlp #3d
Возможно, интересный воркшоп по физике

https://msml21.github.io/workshop_phys/#Westermayr
#nips #scientificml

Воркшоп на NIPS по структурной биологии - https://www.mlsb.io/

Среди выступающих - Бронштейн (сейчас наиболее известен как специалист в графовых нейросетях), среди организаторов - Сергей Овчинников (структурная биология, в частности - предсказание структур белков)