AI Для Всех

Хорошая картинка в лекцию по dropout на тему "много их"

257 viewsDmitry Penzar, 13:25

AI Для Всех

Forwarded from Small Data Science for Russian Adventurers

#обзор
Разные виды dropout-a по годам появления. Картинка из обзорной статьи https://arxiv.org/pdf/1904.13310.pdf

271 viewsDmitry Penzar, 13:25

AI Для Всех

Хорошая картинка в лекцию по dropout на тему "много их"

R-Drop: Regularized Dropout for Neural Networks

Развивая тему дропаутов - расскажу про ещё один.
В работе представляют простую стратегию регуляризации при дропауте в обучении модели, а именно R-Drop, которая заставляет выходные распределения различных подмоделей, сгенерированных при дропауте, быть согласованными друг с другом. В частности, для каждой обучающей выборки R-Drop минимизирует двунаправленное KL-расхождение между выходными распределениями двух подмоделей, отобранных при дропауте.

Статья
Код

#training

312 viewsArtemii, edited 16:23

AI Для Всех

Altair

Существует множество библиотек визуализации на языке python, но altair предлагает несколько оригинальных возможностей. Она предлагает широкий выбор графиков, грамматически понятный api, множество интерактивных функций и возможность экспорта непосредственно в браузер.

Нашёл отличный туториал (коротко, с видео и со вкусом)

#plotting #python #basics

364 viewsArtemii, edited 07:02

AI Для Всех

Лекция по дифференцируемым физическим симуляциям для DL 22 сентября: http://www.physicsmeetsml.org/posts/sem_2021_09_22/

410 viewsArtemii, edited 08:36

AI Для Всех

Sparse MLP for Image Recognition: Is Self-Attention Really Necessary?

В этой работе авторы исследуют, является ли основной модуль self-attention в трансформере ключом к достижению превосходных результатов в распознавании изображений. Для этого они строят сеть без внимания на основе MLP.
Для лексем двумерного изображения sMLP применяет одномерную MLP вдоль осевых направлений, а параметры разделяются между строками или столбцами. Благодаря разреженному соединению и разделению веса, модуль sMLP значительно сокращает количество параметров модели и вычислительную сложность. Успех sMLPNet говорит о том, что механизм self-attention не обязательно является серебряной пулей в компьютерном зрении.

📎 Статья
🖥 Код

#mlp #transformer

487 viewsArtemii, edited 11:12

AI Для Всех

#gan #multimodal

364 viewsArtemii, 04:35

AI Для Всех

Forwarded from Мишин Лернинг 🇺🇦🇮🇱

🌄 Новый GAN от Facebook Research IC-GAN: Instance-Conditioned GAN

Новый conditional GAN (instance-conditioned), да ещё в бонус к нему нативно прикрутили CLIP, дабы zero-shot’ил по-честному, а не только по классам генерил свой мультимодальный перевод.

GAN есть, код есть, CLIP сами прикрутили, и даже colab есть. А что это значит? Значит, что fb красавцы. Го тестить сеть? Сравним с biggan и diffusion.

📰 paper 💻 git 🔮colab

332 viewsArtemii, 04:35

FreeStyleGAN: Редактируемый портретный рендеринг со свободным обзором

Смотрите какую штуку забабахали французы. Успеха добиваются благодаря camera manifold и отдельному обучению малой сети для каждого лица. FSGAN предлагает первый действительно свободный рендеринг реалистичных лиц с интерактивной скоростью. Закидываешь лишь небольшое количество случайных фотографий в качестве входных данных и получаешь возможности редактирования, такие как изменение выражения лица или освещения.

Сайт
Статья
Код обещают в октябре

#gan

14.5K viewsArtemii, 05:43

AI Для Всех

Недавно вышла статья, в которой утверждалось, что чем крупнее модель GPT - тем более неправдивые ответы она выдает на заданые вопросы. На основании этой статьи, журналист из New York Times начал хайповать на теме: “аааа, мы знали! все эти ваши GPT до добра не доведут!”. Но только оказалось, что в статье использовался датасет, который был специальным образом сконструирован так, что бы GPT выдавала конспирологические ответы.

По этому поводу у Яника вышел отличный разгон, советую всем посмотреть!

#gpt

375 viewsArtemii, edited 18:54

AI Для Всех

Merlion: A Machine Learning Library for Time Series

Salesforce представляет Merlion, библиотеку машинного обучения с открытым исходным кодом для временных рядов. Она имеет унифицированный интерфейс для многих часто используемых моделей и наборов данных для обнаружения аномалий и прогнозирования как одномерных, так и многомерных временных рядов, наряду со стандартными слоями предварительной и последующей обработки.

Цель этой библиотеки - предоставить инженерам и исследователям универсальное решение для быстрой разработки моделей для их конкретных потребностей в области временных рядов и их тестирования на различных наборах данных.

Статья
Код

#timeseries

819 viewsArtemii, 12:21

AI Для Всех

DeepMind открывает набор на стажировку. Доступны все офисы компании (от Нью-Йорка до Токио). Подаваться могут любые аспиранты с релевантным опытом.

https://deepmind.com/careers#internships

423 viewsArtemii, edited 06:43

AI Для Всех

This media is not supported in your browser

VIEW IN TELEGRAM

ML-модель быстро идентифицирует строения, поврежденные лесными пожарами 🔥

Эвакуация людей, пострадавших от лесных пожаров, и группы реагирования на стихийные бедствия вскоре смогут дистанционно просканировать город на предмет структурных повреждений в течение нескольких минут с помощью недавно разработанного искусственного интеллекта DamageMap.

DamageMap - это система для быстрой оценки ущерба зданий с удобным пользовательским интерфейсом для визуализации результатов. Она использует искусственный интеллект для определения поврежденных зданий после лесных пожаров с помощью аэрофотосъемки, загруженной пользователями.

Заметка на NVIdia

#ScientificML

401 viewsArtemii, edited 14:17

AI Для Всех

#gpt #nlp #меняопятьопередили

375 viewsArtemii, edited 18:14

AI Для Всех

Forwarded from Data Science by ODS.ai 🦜

Summarizing Books with Human Feedback

#OpenAI fine-tuned #GPT3 to summarize books well enough to be human-readable. Main approach: recursively split text into parts and then meta-summarize summaries.

This is really important because once there will be a great summarization #SOTA we won't need editors to write posts for you. And researchers ultimatively will have some asisstance interpreting models' results.

BlogPost: https://openai.com/blog/summarizing-books/
ArXiV: https://arxiv.org/abs/2109.10862

#summarization #NLU #NLP

380 viewsArtemii, 18:14

AI Для Всех

Scikit-learn наконец-то 1.0

Многие из нас активно пользуются библиотекой sk-learn. Так вот, она наконец-то обновилась до 1.0. Кардинально новых фич прям много не предлагают, основная идея - наконец-то признать что sk-learn это стабильный рабочий продукт.

Посмотреть все новые плюшки можно тут

364 viewsArtemii, 07:28

AI Для Всех

Local Metrics for Multi-Object Tracking

Метрики для многообъектного слежения (MOT) можно разделить на строгие метрики, которые обеспечивают фиксированное, один к одному соответствие между истинными и предсказанными следами, и нестрогие метрики, которые верны в подмножестве кадров.

Тип метрики, которая подходит, определяется приоритетами задачи. В то время как строгие метрики относительно бесспорны, разработка нестрогой метрики обычно включает два спорных решения: (i) как количественно оценить ошибку ассоциации и (ii) как сочетать метрики обнаружения и ассоциации.

Локальные метрики получаются путем применения существующей строгой метрики локально в скользящем окне. Они представляют собой альтернативный способ определения нестрогой метрики, где степень строгости (то есть баланс между обнаружением и ассоциацией) контролируется через временной горизонт локального окна. Варьирование параметра горизонта позволяет анализировать ошибку ассоциации в зависимости от временного расстояния.

Одним из исторических недостатков метрик, основанных на соответствии треков один-к-одному, является их непрозрачность в отношении типа ошибки. То есть может быть неясно, является ли снижение общей ошибки отслеживания следствием улучшения обнаружения или ассоциации (или того и другого). Чтобы решить эту проблему, гугл разработали декомпозицию общей ошибки отслеживания на четыре компонента: избыточное и недостаточное обнаружение (FN det, FP det) и избыточное и недостаточное объединение (merge, split). Декомпозиция ошибок в равной степени применима к локальным метрикам.

Статья
Код

#video #tracking

GitHub

GitHub - google-research/localmot

Contribute to google-research/localmot development by creating an account on GitHub.

378 viewsArtemii, 10:07

AI Для Всех

Forwarded from gonzo-обзоры ML статей

[OpenAI CLIP] Learning Transferable Visual Models From Natural Language Supervision
Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever
Статья: https://arxiv.org/abs/2103.00020
Пост в блоге: https://openai.com/blog/clip/
Код (официальный, но неполный): https://github.com/openai/CLIP
Код (неофициальный, но с обучением): https://github.com/mlfoundations/open_clip
Мультиязычный CLIP: https://github.com/FreddeFrallan/Multilingual-CLIP
Русский CLIP от Сбера: https://github.com/sberbank-ai/ru-clip

В предыдущем посте про DALL·E мы упомянули, что частью системы является CLIP, использующийся для ранжирования пар <картинка, текст>. Собственно, надо и про CLIP рассказать.

Глобальная идея CLIP в том, что традиционный подход к обучению в компьютерном зрении заключался в обучении по заранее заданным категориям (предопределённые классы), в то время как в природе есть гораздо более богатый (и потенциально более “дешёвый”, потому что классическая разметка по классам довольно дорога) тип данных — обычные тексты, которые и можно использовать в качестве supervised сигнала. Это идейно похоже на подход из области NLP принятый в трансформере T5, когда все задачи оформляются как seq2seq и для всех задач, включая классификацию, выходы являются текстовыми (а не категориальными в случае той же классификации). Дополнительным бонусом такого подхода является то, что мы не только выучиваем хорошее представление для задачи, но и ещё связываем представление текстов с представлением картинок, то есть получаем какое-то общее мультимодальное пространство.

CLIP расшифровывается как Contrastive Language-Image Pre-Training и технически его идея достаточно проста — возьмём огромный датасет пар <картинка, текстовое описание>, намайненный из интернета (таковых набралось 400М пар) и на этом датасете обучим контрастивную модель, которая для соответствующих друг другу элементов пары даст высокий скор, а для всех остальных — низкий. В этом смысле — классика contrastive learning (про который мы много писали ранее), только теперь он мультимодальный, тексты + картинки.

Про датасет на самом деле довольно мутная и почти неописанная часть. И он, конечно, не выложен. Вроде как искали пары <картинки, текст> по различным запросам (500К слов, которые встретились по крайней мере 100 раз в англоязычной википедии + информативные биграммы) и получая примерно 20К пар на каждый запрос. Датасет вышел аналогичный по числу слов датасету WebText, на котором обучалась GPT-2. Этот датасет назвали WIT (WebImageText). Я пока не уловил, что именно всё-таки в этих текстах, не сами запросы же? Какие-то прикартиночные тексты, или что-то ещё?

На таком датасете можно было бы обучить полноценный seq2seq в режиме похожем на image captioning, то есть генерить по картинке текст. Но авторы показали, что, например, если генерить по картинке описывающий её bag of words, то с точки зрения compute effieiency это получается в три раза эффективнее. А если потом предсказание заменить на контрастивное обучение, то эффективность ещё в четыре раза выше. Так пришли к контрастивному CLIP.

Собственно модель состоит из картиночного и текстового энкодеров, а дальше поверх нормализованных эмбеддингов считается косинусное расстояние, которое модель максимизирует для соответствующих элементов пары и минимизирует для несоответствующих.

В качестве картиночного энкодера попробовали 8 моделей: 5 свёрточных и 3 трансформера. В качестве свёрточных энкодеров взят базовый ResNet-50 с несколькими модификациями, более тяжёлый вариант ResNet-101, и EfficientNet-подобные RN50x4, RN50x16, RN50x64; а в качестве трансформеров используются ViT (https://t.me/gonzo_ML/434): ViT-B/32, ViT-B/16 и ViT-L/14. Для ViT-L/14 в дальнейшем сделали версию дообученную одну эпоху на разрешении 336 пикселей (все предыдущие были 224), её называют ViT-L/14@336px и дальше собственно её и подразумевают под версией в CLIP, так как её перформанс лучший.

Openai

CLIP: Connecting text and images

We’re introducing a neural network called CLIP which efficiently learns visual concepts from natural language supervision. CLIP can be applied to any visual classification benchmark by simply providing the names of the visual categories to be recognized,…

362 viewsArtemii, 10:57

AI Для Всех

С помощью краудсорсинга, передачи простых заданий большому числу исполнителей, можно быстро и эффективно собрать и разметить данные для любых проектов — в том числе и исследовательских.

Яндекс.Толока запустила проект Toloka Academy:

— Toloka Research Grant

Это грантовая программа для поддержки data-heavy исследований. Грант представляет собой промокод на сумму от 100 до 500 долларов, активировав который, исследователь получает возможность запускать проекты по сбору и разметке данных в Яндекс.Толоке. Подать заявку может каждый, единственное условие — Yandex просим лауреатов указывать в статьях и на конференциях, что данные для исследования они собирали с помощью их сервиса.

— Toloka Education Pricing Plan

Это специальный тариф для студентов и университетов, который дает возможность в течение года пользоваться Толокой с нулевой комиссией, оплачивая только труд толокеров. Для подключения тарифа, нужно подать заявку, указав университетскую почту или прикрепив официальный документ.

#resources

394 viewsArtemii, 15:39

AI Для Всех

0:30

This media is not supported in your browser

VIEW IN TELEGRAM

CLIPort

Рисовать картинки с помощью CLIP и GAN было весело. А теперь у CLIP нашлось новое, асболютно бомбическое применение! Оказалось, что CLIP можно использовать для того что бы давать команды манипулятору.

В работе CLIPort (загляните на сайт, там много красивых примеров) предлагают сетку которая понимает команды данные на человеческом языке, при этом робот не ограничен каким-то заранее известным набором команд и способен “понимать” чего от него хотят!

Статья
Код

#CLIP #robots #NLP #multimodal

398 viewsArtemii, edited 18:44

AI Для Всех

Seismic Data Augmentation Library

Только что зарелизил библиотеку для аугментации сейсмических данных.

Код

#ScientificML #earthscience

409 viewsArtemii, edited 14:32

About

Blog

Apps

Platform