Набор данных LAION-400M находится в полном открытом, свободном доступе (400 миллионов пар картинка-текст).
Собран благодаря crowd-computing усилиям ElutherAI (я тоже поучаствовал 🤏).
Все изображения и тексты в LAION-400M были отфильтрованы с помощью OpenAI's CLIP путем вычисления косинусного сходства между эмбедингами текста и изображения и отбрасывания тех, чье сходство ниже 0,3.
Датасет
Инсайдерская инфа (Скоро будет 1 миллиард)
#datasets #multimodal #clip
Собран благодаря crowd-computing усилиям ElutherAI (я тоже поучаствовал 🤏).
Все изображения и тексты в LAION-400M были отфильтрованы с помощью OpenAI's CLIP путем вычисления косинусного сходства между эмбедингами текста и изображения и отбрасывания тех, чье сходство ниже 0,3.
Датасет
Инсайдерская инфа (Скоро будет 1 миллиард)
#datasets #multimodal #clip
LIVECell
(Label-free In Vitro image Examples of Cells) - это набор данных микроскопических изображений для инстант-сегментации отдельных клеток в двумерных клеточных культурах.
LIVECell состоит из 5239 аннотированных вручную, проверенных экспертами изображений фазово-контрастной микроскопии Incucyte HD с общим количеством 1 686 352 отдельных клеток, аннотированных по восьми различным типам (в среднем 313 клеток на одном изображении). Изображения LIVECell предварительно разделены на train (3188), Val (539) и test (1512) наборы.
#ScientificML #datasets #biology #segmentation
(Label-free In Vitro image Examples of Cells) - это набор данных микроскопических изображений для инстант-сегментации отдельных клеток в двумерных клеточных культурах.
LIVECell состоит из 5239 аннотированных вручную, проверенных экспертами изображений фазово-контрастной микроскопии Incucyte HD с общим количеством 1 686 352 отдельных клеток, аннотированных по восьми различным типам (в среднем 313 клеток на одном изображении). Изображения LIVECell предварительно разделены на train (3188), Val (539) и test (1512) наборы.
#ScientificML #datasets #biology #segmentation
img2dataset
Програмка позволяет с легкостью превращать наборы url в ImageDataset. Обещают что за 20 часов на домашнем компе можно подгрузить и упаковать до 100 млн изображений.
Код
#datasets #images #multimodal
Програмка позволяет с легкостью превращать наборы url в ImageDataset. Обещают что за 20 часов на домашнем компе можно подгрузить и упаковать до 100 млн изображений.
Код
#datasets #images #multimodal
GitHub
GitHub - rom1504/img2dataset: Easily turn large sets of image urls to an image dataset. Can download, resize and package 100M urls…
Easily turn large sets of image urls to an image dataset. Can download, resize and package 100M urls in 20h on one machine. - rom1504/img2dataset
PASS - An ImageNet replacement
PASS - это крупномасштабный набор изображений, в котором нет людей и который можно использовать для обучения, при этом значительно снижая требования к конфиденциальности.
Набор данных географически разнообразен, и почти треть изображений содержит геопривязку.
Сайт
Статья
#images #datasets
PASS - это крупномасштабный набор изображений, в котором нет людей и который можно использовать для обучения, при этом значительно снижая требования к конфиденциальности.
Набор данных географически разнообразен, и почти треть изображений содержит геопривязку.
Сайт
Статья
#images #datasets
This media is not supported in your browser
VIEW IN TELEGRAM
Fake It Till You Make It
Microsoft демонстрирует, что можно обучать алгоритмы компьютерноего зрения,используя только синтетические данные, при этом, нейронки будут хорошо обобщать и на настоящих людях.
Сообщество уже давно пользуется преимуществами синтеза обучающих данных, но разрыв между реальными и синтетическими данными остается проблемой, особенно там, где это касается человеческих лиц.
Исследователи пытались преодолеть этот разрыв с помощью смешивания данных, адаптации к домену и аверсариального обучения, но увы. Microsoft же показывает, что можно синтезировать данные с минимальным отрывом от реальности, так что модели, обученные на синтетических данных, обобщаются на реальные лица в естественных условиях.
Только подумайте какие крутые возможности это все открывает!
Статья
Сайт проекта
#training #datasets
Microsoft демонстрирует, что можно обучать алгоритмы компьютерноего зрения,используя только синтетические данные, при этом, нейронки будут хорошо обобщать и на настоящих людях.
Сообщество уже давно пользуется преимуществами синтеза обучающих данных, но разрыв между реальными и синтетическими данными остается проблемой, особенно там, где это касается человеческих лиц.
Исследователи пытались преодолеть этот разрыв с помощью смешивания данных, адаптации к домену и аверсариального обучения, но увы. Microsoft же показывает, что можно синтезировать данные с минимальным отрывом от реальности, так что модели, обученные на синтетических данных, обобщаются на реальные лица в естественных условиях.
Только подумайте какие крутые возможности это все открывает!
Статья
Сайт проекта
#training #datasets
Molecule3D - это новый датасет с точными геометриями основного состояния приблизительно 4 миллионов молекул, полученных на основе density functional theory (DFT).
Датасет также снабжён набор программных инструментов для обработки данных, разбиения, обучения, оценки и т.д.
Датасет
Статья
#ScientificML #graphs #chemistry #datasets
Датасет также снабжён набор программных инструментов для обработки данных, разбиения, обучения, оценки и т.д.
Датасет
Статья
#ScientificML #graphs #chemistry #datasets