AI Для Всех
12.8K subscribers
1.17K photos
152 videos
10 files
1.37K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
MPIRE, сокращение от MultiProcessing Is Really Easy, - библиотека для мультипроцессинга, но только быстрее (сильно быстрее). Сочетает в себе удобные map-подобные функции multiprocessing.Pool с преимуществами использования общих объектов multiprocessing.Process, а также простую в использовании функциональность состояния воркера и прогресс бар tqdm.

Код
Документация

#python #parallel
Список ближайших конференций по машинному обучению со временем подачи статей и датами проведения. Отранжированы по импакт-фактору (насколько хорошо цитируются опубликованные на конференции статьи)

👉 Список
Хорошая картинка в лекцию по dropout на тему "много их"
#обзор
Разные виды dropout-a по годам появления. Картинка из обзорной статьи https://arxiv.org/pdf/1904.13310.pdf
AI Для Всех
Хорошая картинка в лекцию по dropout на тему "много их"
R-Drop: Regularized Dropout for Neural Networks

Развивая тему дропаутов - расскажу про ещё один.
В работе представляют простую стратегию регуляризации при дропауте в обучении модели, а именно R-Drop, которая заставляет выходные распределения различных подмоделей, сгенерированных при дропауте, быть согласованными друг с другом. В частности, для каждой обучающей выборки R-Drop минимизирует двунаправленное KL-расхождение между выходными распределениями двух подмоделей, отобранных при дропауте.

Статья
Код

#training
Altair

Существует множество библиотек визуализации на языке python, но altair предлагает несколько оригинальных возможностей. Она предлагает широкий выбор графиков, грамматически понятный api, множество интерактивных функций и возможность экспорта непосредственно в браузер.

Нашёл отличный туториал (коротко, с видео и со вкусом)

#plotting #python #basics
Лекция по дифференцируемым физическим симуляциям для DL 22 сентября: http://www.physicsmeetsml.org/posts/sem_2021_09_22/
Sparse MLP for Image Recognition: Is Self-Attention Really Necessary?

В этой работе авторы исследуют, является ли основной модуль self-attention в трансформере ключом к достижению превосходных результатов в распознавании изображений. Для этого они строят сеть без внимания на основе MLP.
Для лексем двумерного изображения sMLP применяет одномерную MLP вдоль осевых направлений, а параметры разделяются между строками или столбцами. Благодаря разреженному соединению и разделению веса, модуль sMLP значительно сокращает количество параметров модели и вычислительную сложность. Успех sMLPNet говорит о том, что механизм self-attention не обязательно является серебряной пулей в компьютерном зрении.

📎 Статья
🖥 Код

#mlp #transformer
🌄 Новый GAN от Facebook Research IC-GAN: Instance-Conditioned GAN

Новый conditional GAN (instance-conditioned), да ещё в бонус к нему нативно прикрутили CLIP, дабы zero-shot’ил по-честному, а не только по классам генерил свой мультимодальный перевод.

GAN есть, код есть, CLIP сами прикрутили, и даже colab есть. А что это значит? Значит, что fb красавцы. Го тестить сеть? Сравним с biggan и diffusion.

📰 paper 💻 git 🔮colab
Media is too big
VIEW IN TELEGRAM
FreeStyleGAN: Редактируемый портретный рендеринг со свободным обзором

Смотрите какую штуку забабахали французы. Успеха добиваются благодаря camera manifold и отдельному обучению малой сети для каждого лица. FSGAN предлагает первый действительно свободный рендеринг реалистичных лиц с интерактивной скоростью. Закидываешь лишь небольшое количество случайных фотографий в качестве входных данных и получаешь возможности редактирования, такие как изменение выражения лица или освещения.

Сайт
Статья
Код обещают в октябре

#gan
Недавно вышла статья, в которой утверждалось, что чем крупнее модель GPT - тем более неправдивые ответы она выдает на заданые вопросы. На основании этой статьи, журналист из New York Times начал хайповать на теме: “аааа, мы знали! все эти ваши GPT до добра не доведут!”. Но только оказалось, что в статье использовался датасет, который был специальным образом сконструирован так, что бы GPT выдавала конспирологические ответы.

По этому поводу у Яника вышел отличный разгон, советую всем посмотреть!

#gpt
Merlion: A Machine Learning Library for Time Series

Salesforce представляет Merlion, библиотеку машинного обучения с открытым исходным кодом для временных рядов. Она имеет унифицированный интерфейс для многих часто используемых моделей и наборов данных для обнаружения аномалий и прогнозирования как одномерных, так и многомерных временных рядов, наряду со стандартными слоями предварительной и последующей обработки.

Цель этой библиотеки - предоставить инженерам и исследователям универсальное решение для быстрой разработки моделей для их конкретных потребностей в области временных рядов и их тестирования на различных наборах данных.

Статья
Код

#timeseries
DeepMind открывает набор на стажировку. Доступны все офисы компании (от Нью-Йорка до Токио). Подаваться могут любые аспиранты с релевантным опытом.

https://deepmind.com/careers#internships
This media is not supported in your browser
VIEW IN TELEGRAM
ML-модель быстро идентифицирует строения, поврежденные лесными пожарами 🔥

Эвакуация людей, пострадавших от лесных пожаров, и группы реагирования на стихийные бедствия вскоре смогут дистанционно просканировать город на предмет структурных повреждений в течение нескольких минут с помощью недавно разработанного искусственного интеллекта DamageMap.

DamageMap - это система для быстрой оценки ущерба зданий с удобным пользовательским интерфейсом для визуализации результатов. Она использует искусственный интеллект для определения поврежденных зданий после лесных пожаров с помощью аэрофотосъемки, загруженной пользователями.

Заметка на NVIdia

#ScientificML
​​Summarizing Books with Human Feedback

#OpenAI fine-tuned #GPT3 to summarize books well enough to be human-readable. Main approach: recursively split text into parts and then meta-summarize summaries.

This is really important because once there will be a great summarization #SOTA we won't need editors to write posts for you. And researchers ultimatively will have some asisstance interpreting models' results.

BlogPost: https://openai.com/blog/summarizing-books/
ArXiV: https://arxiv.org/abs/2109.10862

#summarization #NLU #NLP
Scikit-learn наконец-то 1.0

Многие из нас активно пользуются библиотекой sk-learn. Так вот, она наконец-то обновилась до 1.0. Кардинально новых фич прям много не предлагают, основная идея - наконец-то признать что sk-learn это стабильный рабочий продукт.

Посмотреть все новые плюшки можно тут
Local Metrics for Multi-Object Tracking

Метрики для многообъектного слежения (MOT) можно разделить на строгие метрики, которые обеспечивают фиксированное, один к одному соответствие между истинными и предсказанными следами, и нестрогие метрики, которые верны в подмножестве кадров.

Тип метрики, которая подходит, определяется приоритетами задачи. В то время как строгие метрики относительно бесспорны, разработка нестрогой метрики обычно включает два спорных решения: (i) как количественно оценить ошибку ассоциации и (ii) как сочетать метрики обнаружения и ассоциации.

Локальные метрики получаются путем применения существующей строгой метрики локально в скользящем окне. Они представляют собой альтернативный способ определения нестрогой метрики, где степень строгости (то есть баланс между обнаружением и ассоциацией) контролируется через временной горизонт локального окна. Варьирование параметра горизонта позволяет анализировать ошибку ассоциации в зависимости от временного расстояния.

Одним из исторических недостатков метрик, основанных на соответствии треков один-к-одному, является их непрозрачность в отношении типа ошибки. То есть может быть неясно, является ли снижение общей ошибки отслеживания следствием улучшения обнаружения или ассоциации (или того и другого). Чтобы решить эту проблему, гугл разработали декомпозицию общей ошибки отслеживания на четыре компонента: избыточное и недостаточное обнаружение (FN det, FP det) и избыточное и недостаточное объединение (merge, split). Декомпозиция ошибок в равной степени применима к локальным метрикам.

Статья
Код

#video #tracking
[OpenAI CLIP] Learning Transferable Visual Models From Natural Language Supervision
Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever
Статья: https://arxiv.org/abs/2103.00020
Пост в блоге: https://openai.com/blog/clip/
Код (официальный, но неполный): https://github.com/openai/CLIP
Код (неофициальный, но с обучением): https://github.com/mlfoundations/open_clip
Мультиязычный CLIP: https://github.com/FreddeFrallan/Multilingual-CLIP
Русский CLIP от Сбера: https://github.com/sberbank-ai/ru-clip

В предыдущем посте про DALL·E мы упомянули, что частью системы является CLIP, использующийся для ранжирования пар <картинка, текст>. Собственно, надо и про CLIP рассказать.

Глобальная идея CLIP в том, что традиционный подход к обучению в компьютерном зрении заключался в обучении по заранее заданным категориям (предопределённые классы), в то время как в природе есть гораздо более богатый (и потенциально более “дешёвый”, потому что классическая разметка по классам довольно дорога) тип данных — обычные тексты, которые и можно использовать в качестве supervised сигнала. Это идейно похоже на подход из области NLP принятый в трансформере T5, когда все задачи оформляются как seq2seq и для всех задач, включая классификацию, выходы являются текстовыми (а не категориальными в случае той же классификации). Дополнительным бонусом такого подхода является то, что мы не только выучиваем хорошее представление для задачи, но и ещё связываем представление текстов с представлением картинок, то есть получаем какое-то общее мультимодальное пространство.

CLIP расшифровывается как Contrastive Language-Image Pre-Training и технически его идея достаточно проста — возьмём огромный датасет пар <картинка, текстовое описание>, намайненный из интернета (таковых набралось 400М пар) и на этом датасете обучим контрастивную модель, которая для соответствующих друг другу элементов пары даст высокий скор, а для всех остальных — низкий. В этом смысле — классика contrastive learning (про который мы много писали ранее), только теперь он мультимодальный, тексты + картинки.

Про датасет на самом деле довольно мутная и почти неописанная часть. И он, конечно, не выложен. Вроде как искали пары <картинки, текст> по различным запросам (500К слов, которые встретились по крайней мере 100 раз в англоязычной википедии + информативные биграммы) и получая примерно 20К пар на каждый запрос. Датасет вышел аналогичный по числу слов датасету WebText, на котором обучалась GPT-2. Этот датасет назвали WIT (WebImageText). Я пока не уловил, что именно всё-таки в этих текстах, не сами запросы же? Какие-то прикартиночные тексты, или что-то ещё?

На таком датасете можно было бы обучить полноценный seq2seq в режиме похожем на image captioning, то есть генерить по картинке текст. Но авторы показали, что, например, если генерить по картинке описывающий её bag of words, то с точки зрения compute effieiency это получается в три раза эффективнее. А если потом предсказание заменить на контрастивное обучение, то эффективность ещё в четыре раза выше. Так пришли к контрастивному CLIP.

Собственно модель состоит из картиночного и текстового энкодеров, а дальше поверх нормализованных эмбеддингов считается косинусное расстояние, которое модель максимизирует для соответствующих элементов пары и минимизирует для несоответствующих.

В качестве картиночного энкодера попробовали 8 моделей: 5 свёрточных и 3 трансформера. В качестве свёрточных энкодеров взят базовый ResNet-50 с несколькими модификациями, более тяжёлый вариант ResNet-101, и EfficientNet-подобные RN50x4, RN50x16, RN50x64; а в качестве трансформеров используются ViT (https://t.me/gonzo_ML/434): ViT-B/32, ViT-B/16 и ViT-L/14. Для ViT-L/14 в дальнейшем сделали версию дообученную одну эпоху на разрешении 336 пикселей (все предыдущие были 224), её называют ViT-L/14@336px и дальше собственно её и подразумевают под версией в CLIP, так как её перформанс лучший.