Набор данных LAION-400M находится в полном открытом, свободном доступе (400 миллионов пар картинка-текст).
Собран благодаря crowd-computing усилиям ElutherAI (я тоже поучаствовал 🤏).
Все изображения и тексты в LAION-400M были отфильтрованы с помощью OpenAI's CLIP путем вычисления косинусного сходства между эмбедингами текста и изображения и отбрасывания тех, чье сходство ниже 0,3.
Датасет
Инсайдерская инфа (Скоро будет 1 миллиард)
#datasets #multimodal #clip
Собран благодаря crowd-computing усилиям ElutherAI (я тоже поучаствовал 🤏).
Все изображения и тексты в LAION-400M были отфильтрованы с помощью OpenAI's CLIP путем вычисления косинусного сходства между эмбедингами текста и изображения и отбрасывания тех, чье сходство ниже 0,3.
Датасет
Инсайдерская инфа (Скоро будет 1 миллиард)
#datasets #multimodal #clip