Forwarded from Data Science by ODS.ai 🦜
Summarizing Books with Human Feedback
#OpenAI fine-tuned #GPT3 to summarize books well enough to be human-readable. Main approach: recursively split text into parts and then meta-summarize summaries.
This is really important because once there will be a great summarization #SOTA we won't need editors to write posts for you. And researchers ultimatively will have some asisstance interpreting models' results.
BlogPost: https://openai.com/blog/summarizing-books/
ArXiV: https://arxiv.org/abs/2109.10862
#summarization #NLU #NLP
#OpenAI fine-tuned #GPT3 to summarize books well enough to be human-readable. Main approach: recursively split text into parts and then meta-summarize summaries.
This is really important because once there will be a great summarization #SOTA we won't need editors to write posts for you. And researchers ultimatively will have some asisstance interpreting models' results.
BlogPost: https://openai.com/blog/summarizing-books/
ArXiV: https://arxiv.org/abs/2109.10862
#summarization #NLU #NLP
Scikit-learn наконец-то 1.0
Многие из нас активно пользуются библиотекой sk-learn. Так вот, она наконец-то обновилась до 1.0. Кардинально новых фич прям много не предлагают, основная идея - наконец-то признать что sk-learn это стабильный рабочий продукт.
Посмотреть все новые плюшки можно тут
Многие из нас активно пользуются библиотекой sk-learn. Так вот, она наконец-то обновилась до 1.0. Кардинально новых фич прям много не предлагают, основная идея - наконец-то признать что sk-learn это стабильный рабочий продукт.
Посмотреть все новые плюшки можно тут
Local Metrics for Multi-Object Tracking
Метрики для многообъектного слежения (MOT) можно разделить на строгие метрики, которые обеспечивают фиксированное, один к одному соответствие между истинными и предсказанными следами, и нестрогие метрики, которые верны в подмножестве кадров.
Тип метрики, которая подходит, определяется приоритетами задачи. В то время как строгие метрики относительно бесспорны, разработка нестрогой метрики обычно включает два спорных решения: (i) как количественно оценить ошибку ассоциации и (ii) как сочетать метрики обнаружения и ассоциации.
Локальные метрики получаются путем применения существующей строгой метрики локально в скользящем окне. Они представляют собой альтернативный способ определения нестрогой метрики, где степень строгости (то есть баланс между обнаружением и ассоциацией) контролируется через временной горизонт локального окна. Варьирование параметра горизонта позволяет анализировать ошибку ассоциации в зависимости от временного расстояния.
Одним из исторических недостатков метрик, основанных на соответствии треков один-к-одному, является их непрозрачность в отношении типа ошибки. То есть может быть неясно, является ли снижение общей ошибки отслеживания следствием улучшения обнаружения или ассоциации (или того и другого). Чтобы решить эту проблему, гугл разработали декомпозицию общей ошибки отслеживания на четыре компонента: избыточное и недостаточное обнаружение (FN det, FP det) и избыточное и недостаточное объединение (merge, split). Декомпозиция ошибок в равной степени применима к локальным метрикам.
Статья
Код
#video #tracking
Метрики для многообъектного слежения (MOT) можно разделить на строгие метрики, которые обеспечивают фиксированное, один к одному соответствие между истинными и предсказанными следами, и нестрогие метрики, которые верны в подмножестве кадров.
Тип метрики, которая подходит, определяется приоритетами задачи. В то время как строгие метрики относительно бесспорны, разработка нестрогой метрики обычно включает два спорных решения: (i) как количественно оценить ошибку ассоциации и (ii) как сочетать метрики обнаружения и ассоциации.
Локальные метрики получаются путем применения существующей строгой метрики локально в скользящем окне. Они представляют собой альтернативный способ определения нестрогой метрики, где степень строгости (то есть баланс между обнаружением и ассоциацией) контролируется через временной горизонт локального окна. Варьирование параметра горизонта позволяет анализировать ошибку ассоциации в зависимости от временного расстояния.
Одним из исторических недостатков метрик, основанных на соответствии треков один-к-одному, является их непрозрачность в отношении типа ошибки. То есть может быть неясно, является ли снижение общей ошибки отслеживания следствием улучшения обнаружения или ассоциации (или того и другого). Чтобы решить эту проблему, гугл разработали декомпозицию общей ошибки отслеживания на четыре компонента: избыточное и недостаточное обнаружение (FN det, FP det) и избыточное и недостаточное объединение (merge, split). Декомпозиция ошибок в равной степени применима к локальным метрикам.
Статья
Код
#video #tracking
GitHub
GitHub - google-research/localmot
Contribute to google-research/localmot development by creating an account on GitHub.
Forwarded from gonzo-обзоры ML статей
[OpenAI CLIP] Learning Transferable Visual Models From Natural Language Supervision
Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever
Статья: https://arxiv.org/abs/2103.00020
Пост в блоге: https://openai.com/blog/clip/
Код (официальный, но неполный): https://github.com/openai/CLIP
Код (неофициальный, но с обучением): https://github.com/mlfoundations/open_clip
Мультиязычный CLIP: https://github.com/FreddeFrallan/Multilingual-CLIP
Русский CLIP от Сбера: https://github.com/sberbank-ai/ru-clip
В предыдущем посте про DALL·E мы упомянули, что частью системы является CLIP, использующийся для ранжирования пар <картинка, текст>. Собственно, надо и про CLIP рассказать.
Глобальная идея CLIP в том, что традиционный подход к обучению в компьютерном зрении заключался в обучении по заранее заданным категориям (предопределённые классы), в то время как в природе есть гораздо более богатый (и потенциально более “дешёвый”, потому что классическая разметка по классам довольно дорога) тип данных — обычные тексты, которые и можно использовать в качестве supervised сигнала. Это идейно похоже на подход из области NLP принятый в трансформере T5, когда все задачи оформляются как seq2seq и для всех задач, включая классификацию, выходы являются текстовыми (а не категориальными в случае той же классификации). Дополнительным бонусом такого подхода является то, что мы не только выучиваем хорошее представление для задачи, но и ещё связываем представление текстов с представлением картинок, то есть получаем какое-то общее мультимодальное пространство.
CLIP расшифровывается как Contrastive Language-Image Pre-Training и технически его идея достаточно проста — возьмём огромный датасет пар <картинка, текстовое описание>, намайненный из интернета (таковых набралось 400М пар) и на этом датасете обучим контрастивную модель, которая для соответствующих друг другу элементов пары даст высокий скор, а для всех остальных — низкий. В этом смысле — классика contrastive learning (про который мы много писали ранее), только теперь он мультимодальный, тексты + картинки.
Про датасет на самом деле довольно мутная и почти неописанная часть. И он, конечно, не выложен. Вроде как искали пары <картинки, текст> по различным запросам (500К слов, которые встретились по крайней мере 100 раз в англоязычной википедии + информативные биграммы) и получая примерно 20К пар на каждый запрос. Датасет вышел аналогичный по числу слов датасету WebText, на котором обучалась GPT-2. Этот датасет назвали WIT (WebImageText). Я пока не уловил, что именно всё-таки в этих текстах, не сами запросы же? Какие-то прикартиночные тексты, или что-то ещё?
На таком датасете можно было бы обучить полноценный seq2seq в режиме похожем на image captioning, то есть генерить по картинке текст. Но авторы показали, что, например, если генерить по картинке описывающий её bag of words, то с точки зрения compute effieiency это получается в три раза эффективнее. А если потом предсказание заменить на контрастивное обучение, то эффективность ещё в четыре раза выше. Так пришли к контрастивному CLIP.
Собственно модель состоит из картиночного и текстового энкодеров, а дальше поверх нормализованных эмбеддингов считается косинусное расстояние, которое модель максимизирует для соответствующих элементов пары и минимизирует для несоответствующих.
В качестве картиночного энкодера попробовали 8 моделей: 5 свёрточных и 3 трансформера. В качестве свёрточных энкодеров взят базовый ResNet-50 с несколькими модификациями, более тяжёлый вариант ResNet-101, и EfficientNet-подобные RN50x4, RN50x16, RN50x64; а в качестве трансформеров используются ViT (https://t.me/gonzo_ML/434): ViT-B/32, ViT-B/16 и ViT-L/14. Для ViT-L/14 в дальнейшем сделали версию дообученную одну эпоху на разрешении 336 пикселей (все предыдущие были 224), её называют ViT-L/14@336px и дальше собственно её и подразумевают под версией в CLIP, так как её перформанс лучший.
Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever
Статья: https://arxiv.org/abs/2103.00020
Пост в блоге: https://openai.com/blog/clip/
Код (официальный, но неполный): https://github.com/openai/CLIP
Код (неофициальный, но с обучением): https://github.com/mlfoundations/open_clip
Мультиязычный CLIP: https://github.com/FreddeFrallan/Multilingual-CLIP
Русский CLIP от Сбера: https://github.com/sberbank-ai/ru-clip
В предыдущем посте про DALL·E мы упомянули, что частью системы является CLIP, использующийся для ранжирования пар <картинка, текст>. Собственно, надо и про CLIP рассказать.
Глобальная идея CLIP в том, что традиционный подход к обучению в компьютерном зрении заключался в обучении по заранее заданным категориям (предопределённые классы), в то время как в природе есть гораздо более богатый (и потенциально более “дешёвый”, потому что классическая разметка по классам довольно дорога) тип данных — обычные тексты, которые и можно использовать в качестве supervised сигнала. Это идейно похоже на подход из области NLP принятый в трансформере T5, когда все задачи оформляются как seq2seq и для всех задач, включая классификацию, выходы являются текстовыми (а не категориальными в случае той же классификации). Дополнительным бонусом такого подхода является то, что мы не только выучиваем хорошее представление для задачи, но и ещё связываем представление текстов с представлением картинок, то есть получаем какое-то общее мультимодальное пространство.
CLIP расшифровывается как Contrastive Language-Image Pre-Training и технически его идея достаточно проста — возьмём огромный датасет пар <картинка, текстовое описание>, намайненный из интернета (таковых набралось 400М пар) и на этом датасете обучим контрастивную модель, которая для соответствующих друг другу элементов пары даст высокий скор, а для всех остальных — низкий. В этом смысле — классика contrastive learning (про который мы много писали ранее), только теперь он мультимодальный, тексты + картинки.
Про датасет на самом деле довольно мутная и почти неописанная часть. И он, конечно, не выложен. Вроде как искали пары <картинки, текст> по различным запросам (500К слов, которые встретились по крайней мере 100 раз в англоязычной википедии + информативные биграммы) и получая примерно 20К пар на каждый запрос. Датасет вышел аналогичный по числу слов датасету WebText, на котором обучалась GPT-2. Этот датасет назвали WIT (WebImageText). Я пока не уловил, что именно всё-таки в этих текстах, не сами запросы же? Какие-то прикартиночные тексты, или что-то ещё?
На таком датасете можно было бы обучить полноценный seq2seq в режиме похожем на image captioning, то есть генерить по картинке текст. Но авторы показали, что, например, если генерить по картинке описывающий её bag of words, то с точки зрения compute effieiency это получается в три раза эффективнее. А если потом предсказание заменить на контрастивное обучение, то эффективность ещё в четыре раза выше. Так пришли к контрастивному CLIP.
Собственно модель состоит из картиночного и текстового энкодеров, а дальше поверх нормализованных эмбеддингов считается косинусное расстояние, которое модель максимизирует для соответствующих элементов пары и минимизирует для несоответствующих.
В качестве картиночного энкодера попробовали 8 моделей: 5 свёрточных и 3 трансформера. В качестве свёрточных энкодеров взят базовый ResNet-50 с несколькими модификациями, более тяжёлый вариант ResNet-101, и EfficientNet-подобные RN50x4, RN50x16, RN50x64; а в качестве трансформеров используются ViT (https://t.me/gonzo_ML/434): ViT-B/32, ViT-B/16 и ViT-L/14. Для ViT-L/14 в дальнейшем сделали версию дообученную одну эпоху на разрешении 336 пикселей (все предыдущие были 224), её называют ViT-L/14@336px и дальше собственно её и подразумевают под версией в CLIP, так как её перформанс лучший.
Openai
CLIP: Connecting text and images
We’re introducing a neural network called CLIP which efficiently learns visual concepts from natural language supervision. CLIP can be applied to any visual classification benchmark by simply providing the names of the visual categories to be recognized,…
С помощью краудсорсинга, передачи простых заданий большому числу исполнителей, можно быстро и эффективно собрать и разметить данные для любых проектов — в том числе и исследовательских.
Яндекс.Толока запустила проект Toloka Academy:
— Toloka Research Grant
Это грантовая программа для поддержки data-heavy исследований. Грант представляет собой промокод на сумму от 100 до 500 долларов, активировав который, исследователь получает возможность запускать проекты по сбору и разметке данных в Яндекс.Толоке. Подать заявку может каждый, единственное условие — Yandex просим лауреатов указывать в статьях и на конференциях, что данные для исследования они собирали с помощью их сервиса.
— Toloka Education Pricing Plan
Это специальный тариф для студентов и университетов, который дает возможность в течение года пользоваться Толокой с нулевой комиссией, оплачивая только труд толокеров. Для подключения тарифа, нужно подать заявку, указав университетскую почту или прикрепив официальный документ.
#resources
Яндекс.Толока запустила проект Toloka Academy:
— Toloka Research Grant
Это грантовая программа для поддержки data-heavy исследований. Грант представляет собой промокод на сумму от 100 до 500 долларов, активировав который, исследователь получает возможность запускать проекты по сбору и разметке данных в Яндекс.Толоке. Подать заявку может каждый, единственное условие — Yandex просим лауреатов указывать в статьях и на конференциях, что данные для исследования они собирали с помощью их сервиса.
— Toloka Education Pricing Plan
Это специальный тариф для студентов и университетов, который дает возможность в течение года пользоваться Толокой с нулевой комиссией, оплачивая только труд толокеров. Для подключения тарифа, нужно подать заявку, указав университетскую почту или прикрепив официальный документ.
#resources
This media is not supported in your browser
VIEW IN TELEGRAM
CLIPort
Рисовать картинки с помощью CLIP и GAN было весело. А теперь у CLIP нашлось новое, асболютно бомбическое применение! Оказалось, что CLIP можно использовать для того что бы давать команды манипулятору.
В работе CLIPort (загляните на сайт, там много красивых примеров) предлагают сетку которая понимает команды данные на человеческом языке, при этом робот не ограничен каким-то заранее известным набором команд и способен “понимать” чего от него хотят!
Статья
Код
#CLIP #robots #NLP #multimodal
Рисовать картинки с помощью CLIP и GAN было весело. А теперь у CLIP нашлось новое, асболютно бомбическое применение! Оказалось, что CLIP можно использовать для того что бы давать команды манипулятору.
В работе CLIPort (загляните на сайт, там много красивых примеров) предлагают сетку которая понимает команды данные на человеческом языке, при этом робот не ограничен каким-то заранее известным набором команд и способен “понимать” чего от него хотят!
Статья
Код
#CLIP #robots #NLP #multimodal
Seismic Data Augmentation Library
Только что зарелизил библиотеку для аугментации сейсмических данных.
Код
#ScientificML #earthscience
Только что зарелизил библиотеку для аугментации сейсмических данных.
Код
#ScientificML #earthscience
PASS - An ImageNet replacement
PASS - это крупномасштабный набор изображений, в котором нет людей и который можно использовать для обучения, при этом значительно снижая требования к конфиденциальности.
Набор данных географически разнообразен, и почти треть изображений содержит геопривязку.
Сайт
Статья
#images #datasets
PASS - это крупномасштабный набор изображений, в котором нет людей и который можно использовать для обучения, при этом значительно снижая требования к конфиденциальности.
Набор данных географически разнообразен, и почти треть изображений содержит геопривязку.
Сайт
Статья
#images #datasets
Text2Brain
На протяжении многих лет неврологи сообщали тысячи результатов визуализации с помощью функциональной магнитно-резонансной томографии (фМРТ) и описывали свои выводы в научных статьях. Используя 13 000 опубликованных статей по нейровизуализации, авторы обучили искусственную нейронную сеть предсказывать карты активации мозга по фрагментам текста. Более подробную техническую информацию вы можете найти в статье Text2Brain: Синтез карт активации мозга из текстовых запросов в свободной форме.
Попробовать самим
#mri #medicine #biology
На протяжении многих лет неврологи сообщали тысячи результатов визуализации с помощью функциональной магнитно-резонансной томографии (фМРТ) и описывали свои выводы в научных статьях. Используя 13 000 опубликованных статей по нейровизуализации, авторы обучили искусственную нейронную сеть предсказывать карты активации мозга по фрагментам текста. Более подробную техническую информацию вы можете найти в статье Text2Brain: Синтез карт активации мозга из текстовых запросов в свободной форме.
Попробовать самим
#mri #medicine #biology
От упаковки зонтика до подготовки к экстремальным условиям, прогнозирование краткосрочных погодных условий имеет решающее значение для повседневной жизни.
Новое исследование с участием @metoffice и DeepMind предсказывает дождь.
Современные метеорологические системы обеспечивают прогнозирование в масштабах планеты на несколько дней вперед, но часто испытывают трудности с составлением прогнозов высокого разрешения на короткое время (ближайшие 1-2 часа). Именно такую модель и выпустил DeepMind.
Статья в Nature
Код
#ScientificML #earthscience
Новое исследование с участием @metoffice и DeepMind предсказывает дождь.
Современные метеорологические системы обеспечивают прогнозирование в масштабах планеты на несколько дней вперед, но часто испытывают трудности с составлением прогнозов высокого разрешения на короткое время (ближайшие 1-2 часа). Именно такую модель и выпустил DeepMind.
Статья в Nature
Код
#ScientificML #earthscience
ΦFlow
ΦFlow - это Фреймворк для физических симуляций, созданный для оптимизации и машинного обучения. Он написан в основном на языке Python и может использоваться с NumPy, PyTorch, Jax или TensorFlow. Тесная интеграция с этими фреймворками машинного обучения позволяет использовать их функции автоматического дифференцирования, что упрощает построение сквозных дифференцируемых функций, включающих как модели обучения, так и физические симуляции.
Отдельно хочется отметить разнообразие встроенных операций PDE с фокусом на явлениях в жидкости, что позволяет лаконично формулировать моделирование.
Статья
Код
Colab
#ScientificML #physics
ΦFlow - это Фреймворк для физических симуляций, созданный для оптимизации и машинного обучения. Он написан в основном на языке Python и может использоваться с NumPy, PyTorch, Jax или TensorFlow. Тесная интеграция с этими фреймворками машинного обучения позволяет использовать их функции автоматического дифференцирования, что упрощает построение сквозных дифференцируемых функций, включающих как модели обучения, так и физические симуляции.
Отдельно хочется отметить разнообразие встроенных операций PDE с фокусом на явлениях в жидкости, что позволяет лаконично формулировать моделирование.
Статья
Код
Colab
#ScientificML #physics
Second-Order Neural ODE Optimizer
Новый механизм оптимизации второго порядка для обучения нейронных обыкновенных дифференциальных уравнений (нейронных ОДУ). Поскольку их обучение уже включает в себя дорогостоящее вычисление градиента путем решения обратного ОДУ, создание эффективных методов второго порядка становится весьма нетривиальным. Тем не менее, вдохновленные недавней интерпретацией оптимального управления (ОУ) для обучения глубоких сетей, авторы показывают, что конкретная методология ОУ с непрерывным временем, называемая дифференциальным программированием, может быть принята для получения обратных ОДУ для производных высшего порядка при тех же затратах памяти O(1).
Сеть сходится намного быстрее, чем базовые решения первого порядка за часы, и это улучшение сохраняется в различных приложениях, например, в классификации изображений, генеративном потоке и прогнозировании временных рядов.
Статья
#ScientificML #ode #physics
Новый механизм оптимизации второго порядка для обучения нейронных обыкновенных дифференциальных уравнений (нейронных ОДУ). Поскольку их обучение уже включает в себя дорогостоящее вычисление градиента путем решения обратного ОДУ, создание эффективных методов второго порядка становится весьма нетривиальным. Тем не менее, вдохновленные недавней интерпретацией оптимального управления (ОУ) для обучения глубоких сетей, авторы показывают, что конкретная методология ОУ с непрерывным временем, называемая дифференциальным программированием, может быть принята для получения обратных ОДУ для производных высшего порядка при тех же затратах памяти O(1).
Сеть сходится намного быстрее, чем базовые решения первого порядка за часы, и это улучшение сохраняется в различных приложениях, например, в классификации изображений, генеративном потоке и прогнозировании временных рядов.
Статья
#ScientificML #ode #physics
Physics-based Deep Learning
Этот документ содержит практическое и исчерпывающее введение во все, что связано с глубоким обучением в контексте физического моделирования. По мере возможности все темы сопровождаются практическими примерами кода в виде блокнотов Jupyter для быстрого начала работы. Помимо стандартного обучения на данных, рассматривают ограничения на физические потери, дифференцируемые симуляции, а ещё обучение с подкреплением и моделирование неопределенности.
Мы живем в захватывающие времена: эти методы обладают огромным потенциалом, чтобы фундаментально изменить то, чего могут достичь компьютерные симуляции!
Книга
Сайт
#books #physics #ScientificML #RL
Этот документ содержит практическое и исчерпывающее введение во все, что связано с глубоким обучением в контексте физического моделирования. По мере возможности все темы сопровождаются практическими примерами кода в виде блокнотов Jupyter для быстрого начала работы. Помимо стандартного обучения на данных, рассматривают ограничения на физические потери, дифференцируемые симуляции, а ещё обучение с подкреплением и моделирование неопределенности.
Мы живем в захватывающие времена: эти методы обладают огромным потенциалом, чтобы фундаментально изменить то, чего могут достичь компьютерные симуляции!
Книга
Сайт
#books #physics #ScientificML #RL
Filling the Gaps in Ancient Akkadian Texts: A Masked Language Modelling Approach
Тут запилили модель, которая дополняет недостающий текст транслитерациями древних месопотамских манускриптов, первоначально написанных на клинописных глиняных табличках (2500 г. до н. э. - 100 г. н. э.). Из-за порчи табличек ученые часто полагаются на контекст, чтобы вручную заполнить недостающие части текста (субъективный и трудоемкий процесс).
Авторы определили, что эта задача может быть сформулирована как задача моделирования языка по маске (masked language model). Были разработаны несколько моделей, сфокусированных на аккадском языке, лингва-франка того времени. Для предварительного обучения использовали данные из других языков и различных временных периодов.
Наконец, они проводят оценку на людях, демонстрируя применимость их моделей для помощи экспертам в расшифровке текстов на вымерших языках.
#ScientificML #nlp #linguistics #history
Тут запилили модель, которая дополняет недостающий текст транслитерациями древних месопотамских манускриптов, первоначально написанных на клинописных глиняных табличках (2500 г. до н. э. - 100 г. н. э.). Из-за порчи табличек ученые часто полагаются на контекст, чтобы вручную заполнить недостающие части текста (субъективный и трудоемкий процесс).
Авторы определили, что эта задача может быть сформулирована как задача моделирования языка по маске (masked language model). Были разработаны несколько моделей, сфокусированных на аккадском языке, лингва-франка того времени. Для предварительного обучения использовали данные из других языков и различных временных периодов.
Наконец, они проводят оценку на людях, демонстрируя применимость их моделей для помощи экспертам в расшифровке текстов на вымерших языках.
#ScientificML #nlp #linguistics #history
Forwarded from gonzo-обзоры ML статей
[Google ALIGN] Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision
Chao Jia, Yinfei Yang, Ye Xia, Yi-Ting Chen, Zarana Parekh, Hieu Pham, Quoc V. Le, Yunhsuan Sung, Zhen Li, Tom Duerig
Статья: https://arxiv.org/abs/2102.05918
Пост в блоге: https://ai.googleblog.com/2021/05/align-scaling-up-visual-and-vision.html
Модель: ?
Код: ?
TL;DR: Аналог CLIP от Гугла. Отличия в архитектуре, но, главное, в датасете — обучались на шумном нефильтрованном датасете размера 4.5x относительно датасета CLIP. Качество вроде как лучше.
ALIGN расшифровывается как A Large-scale ImaGe and Noisy-text embedding.
Заходит работа с примерно той же стороны, что и CLIP — хочется собрать большую претренированную модель, а для неё нужны данные. Авторы CLIP собрали для этого свой датасет на 400М пар <картинка, текст>. Детали процесса малопонятны, датасет не выложен, но зато недавно, в августе 2021, появился аналогичный открытый датасет LAION-400M (https://laion.ai/laion-400-open-dataset/). Разработчики ALIGN решили при составлении датасета отказаться от сложных процедур курирования, фильтрации и постпроцессинга, что позволило собрать датасет размером 1.8B пар. Шумный, но размер в итоге перевешивает этот недостаток. Тоже не выложен.
Авторы взяли методологию создания датасета от Conceptual Captions и получили английские alt-тексты для картинок. Большинство фильтраций и очисток оригинальной работы они убрали, оставив только какие-то базовые вещи: убрали порнографические картинки (я уже вижу, как кто-то обучает свою версию CLIP/ALIGN на порнхабе...), убрали картинки размером менее 200 пикселей по одному из измерений и отношению сторон больше 3; также выкинули картинки, для которых было более 1000 связанных альт-текстов, а также дубликаты и почти-дубликаты тестовых картинок. По текстам отфильтровали такие, которые были привязаны к более чем 10 картинкам, и тексты с редкими токенами (за пределами 100М наиболее частых униграмм и биграмм), а также слишком короткие (<3 униграмм) и длинные (>20 униграмм) — это отфильтровало треш вида “image tid 25&id mggqpuweqdpd&cache 0&lan code 0” или слишком общие тексты.
В модели также как и в CLIP два энкодера, картиночный и текстовый, и косинусная функция близости поверх. Также обучаются через contrastive loss. В качестве картиночного используется EfficientNet (L2) с глобальным пулингом, а в качестве текстового — BERT (Large) и его [CLS] токен. Картинки на входе разрешения 289x289, а тексты максимум 64 токена (даже меньше чем у CLIP с его 76).
Из прикольных мелочей, которые в последнее время часто попадаются — обучаемый параметр для температуры в софтмаксе, чтобы не возиться с гиперпараметром.
Предобучают на шумных парах текст-картинка, потом делают трансфер на задачи retrieval и классификацию.
Обучали на 1024 ядрах TPUv3, с 16 позитивными парами на каждом ядре. Негативные собираются со всех ядер, так что эффективный размер батча получается 16384.
ALIGN достиг SoTA на всех метриках в Flickr30K и MSCOCO. В zero-shot лучше CLIP, а с файнтюнингом бьёт существующие методы, включая методы с кросс-модальным вниманием типа ImageBERT, UNITER, ERNIE-ViL, VILLA и Oscar. Также достигли SoTA на всех метриках в Crisscrossed Captions (retrieval).
Zero-shot классификацию проверяли аналогично CLIP, на матчинге со строками вида “A photo of a {classname}”. Сравнимо с CLIP, где-то лучше, где-то хуже. Ансамблирование также улучшает результат (на 2.9%).
Фичи выучиваются нормальные, если поверх картиночных обучить линейный классификатор, то получается чуть лучше CLIP, а с файнтюнингом обходит BiT и ViT-H/14.
Из интересных инсайтов то, что если сравнивать фильтрованный датасет с нефильтрованным, то на фильтрованном аналогичного размера обучается, конечно, лучше, но достаточно взять нефильтрованный датасет в 4 раза больше, и он уже обходит фильтрованный. Что при дорогой процедуре очистки может иметь большой смысл.
Chao Jia, Yinfei Yang, Ye Xia, Yi-Ting Chen, Zarana Parekh, Hieu Pham, Quoc V. Le, Yunhsuan Sung, Zhen Li, Tom Duerig
Статья: https://arxiv.org/abs/2102.05918
Пост в блоге: https://ai.googleblog.com/2021/05/align-scaling-up-visual-and-vision.html
Модель: ?
Код: ?
TL;DR: Аналог CLIP от Гугла. Отличия в архитектуре, но, главное, в датасете — обучались на шумном нефильтрованном датасете размера 4.5x относительно датасета CLIP. Качество вроде как лучше.
ALIGN расшифровывается как A Large-scale ImaGe and Noisy-text embedding.
Заходит работа с примерно той же стороны, что и CLIP — хочется собрать большую претренированную модель, а для неё нужны данные. Авторы CLIP собрали для этого свой датасет на 400М пар <картинка, текст>. Детали процесса малопонятны, датасет не выложен, но зато недавно, в августе 2021, появился аналогичный открытый датасет LAION-400M (https://laion.ai/laion-400-open-dataset/). Разработчики ALIGN решили при составлении датасета отказаться от сложных процедур курирования, фильтрации и постпроцессинга, что позволило собрать датасет размером 1.8B пар. Шумный, но размер в итоге перевешивает этот недостаток. Тоже не выложен.
Авторы взяли методологию создания датасета от Conceptual Captions и получили английские alt-тексты для картинок. Большинство фильтраций и очисток оригинальной работы они убрали, оставив только какие-то базовые вещи: убрали порнографические картинки (я уже вижу, как кто-то обучает свою версию CLIP/ALIGN на порнхабе...), убрали картинки размером менее 200 пикселей по одному из измерений и отношению сторон больше 3; также выкинули картинки, для которых было более 1000 связанных альт-текстов, а также дубликаты и почти-дубликаты тестовых картинок. По текстам отфильтровали такие, которые были привязаны к более чем 10 картинкам, и тексты с редкими токенами (за пределами 100М наиболее частых униграмм и биграмм), а также слишком короткие (<3 униграмм) и длинные (>20 униграмм) — это отфильтровало треш вида “image tid 25&id mggqpuweqdpd&cache 0&lan code 0” или слишком общие тексты.
В модели также как и в CLIP два энкодера, картиночный и текстовый, и косинусная функция близости поверх. Также обучаются через contrastive loss. В качестве картиночного используется EfficientNet (L2) с глобальным пулингом, а в качестве текстового — BERT (Large) и его [CLS] токен. Картинки на входе разрешения 289x289, а тексты максимум 64 токена (даже меньше чем у CLIP с его 76).
Из прикольных мелочей, которые в последнее время часто попадаются — обучаемый параметр для температуры в софтмаксе, чтобы не возиться с гиперпараметром.
Предобучают на шумных парах текст-картинка, потом делают трансфер на задачи retrieval и классификацию.
Обучали на 1024 ядрах TPUv3, с 16 позитивными парами на каждом ядре. Негативные собираются со всех ядер, так что эффективный размер батча получается 16384.
ALIGN достиг SoTA на всех метриках в Flickr30K и MSCOCO. В zero-shot лучше CLIP, а с файнтюнингом бьёт существующие методы, включая методы с кросс-модальным вниманием типа ImageBERT, UNITER, ERNIE-ViL, VILLA и Oscar. Также достигли SoTA на всех метриках в Crisscrossed Captions (retrieval).
Zero-shot классификацию проверяли аналогично CLIP, на матчинге со строками вида “A photo of a {classname}”. Сравнимо с CLIP, где-то лучше, где-то хуже. Ансамблирование также улучшает результат (на 2.9%).
Фичи выучиваются нормальные, если поверх картиночных обучить линейный классификатор, то получается чуть лучше CLIP, а с файнтюнингом обходит BiT и ViT-H/14.
Из интересных инсайтов то, что если сравнивать фильтрованный датасет с нефильтрованным, то на фильтрованном аналогичного размера обучается, конечно, лучше, но достаточно взять нефильтрованный датасет в 4 раза больше, и он уже обходит фильтрованный. Что при дорогой процедуре очистки может иметь большой смысл.
blog.research.google
ALIGN: Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision
This media is not supported in your browser
VIEW IN TELEGRAM
Как написать целый абзац для статьи на английском языке, всего лишь из одного предложения на русском?
Пишем одно предложение, переводим его на английский с помощью DeepL. Подаем его на вход в GPT-J, затем перефразируем его с помощью Wordtune и проверим грамматику Grammarly.
Поздравляю - у вас есть целый абзац текста. Нейросети рулят!
#ScientificML #writing
Пишем одно предложение, переводим его на английский с помощью DeepL. Подаем его на вход в GPT-J, затем перефразируем его с помощью Wordtune и проверим грамматику Grammarly.
Поздравляю - у вас есть целый абзац текста. Нейросети рулят!
#ScientificML #writing
KaoKore:
Исследование пересечения гуманитарных наук и ML с помощью набора данных по японскому искусству
Гуманитарные исследования и машинное обучение могут обогатить друг друга. Машинное обучение может стать трамплином для новых видов исследований в области гуманитарных наук. Наборы данных, на которых работают модели машинного обучения, и сами модели могут влиять на плодотворность таких исследований.
Авторы создали общедоступный набор данных под названием KaoKore, чтобы облегчить работу моделей машинного обучения с японским искусством. Набор данных включает метки от экспертов по японскому искусству, которые маркировали лица на основе пола и социального статуса.
Для получения новых результатов, авторы так же исследовали генеративные состязательные сети (GAN) и модели нейронного рисования с обучением.
Блог-пост
#ScientificML #art #social
Исследование пересечения гуманитарных наук и ML с помощью набора данных по японскому искусству
Гуманитарные исследования и машинное обучение могут обогатить друг друга. Машинное обучение может стать трамплином для новых видов исследований в области гуманитарных наук. Наборы данных, на которых работают модели машинного обучения, и сами модели могут влиять на плодотворность таких исследований.
Авторы создали общедоступный набор данных под названием KaoKore, чтобы облегчить работу моделей машинного обучения с японским искусством. Набор данных включает метки от экспертов по японскому искусству, которые маркировали лица на основе пола и социального статуса.
Для получения новых результатов, авторы так же исследовали генеративные состязательные сети (GAN) и модели нейронного рисования с обучением.
Блог-пост
#ScientificML #art #social