MEDIC
MEDIC - это большой набор данных классификации изображений из социальных сетей для гуманитарного реагирования, состоящий из 71 198 изображений для решения четырех различных задач. Он составлен из данных из нескольких источников (таких как CrisisMMD, AIDR и Damage Multimodal Dataset)
Датасет
#datasets #images #ScientifcML
MEDIC - это большой набор данных классификации изображений из социальных сетей для гуманитарного реагирования, состоящий из 71 198 изображений для решения четырех различных задач. Он составлен из данных из нескольких источников (таких как CrisisMMD, AIDR и Damage Multimodal Dataset)
Датасет
#datasets #images #ScientifcML
Набор данных LAION-400M находится в полном открытом, свободном доступе (400 миллионов пар картинка-текст).
Собран благодаря crowd-computing усилиям ElutherAI (я тоже поучаствовал 🤏).
Все изображения и тексты в LAION-400M были отфильтрованы с помощью OpenAI's CLIP путем вычисления косинусного сходства между эмбедингами текста и изображения и отбрасывания тех, чье сходство ниже 0,3.
Датасет
Инсайдерская инфа (Скоро будет 1 миллиард)
#datasets #multimodal #clip
Собран благодаря crowd-computing усилиям ElutherAI (я тоже поучаствовал 🤏).
Все изображения и тексты в LAION-400M были отфильтрованы с помощью OpenAI's CLIP путем вычисления косинусного сходства между эмбедингами текста и изображения и отбрасывания тех, чье сходство ниже 0,3.
Датасет
Инсайдерская инфа (Скоро будет 1 миллиард)
#datasets #multimodal #clip
LIVECell
(Label-free In Vitro image Examples of Cells) - это набор данных микроскопических изображений для инстант-сегментации отдельных клеток в двумерных клеточных культурах.
LIVECell состоит из 5239 аннотированных вручную, проверенных экспертами изображений фазово-контрастной микроскопии Incucyte HD с общим количеством 1 686 352 отдельных клеток, аннотированных по восьми различным типам (в среднем 313 клеток на одном изображении). Изображения LIVECell предварительно разделены на train (3188), Val (539) и test (1512) наборы.
#ScientificML #datasets #biology #segmentation
(Label-free In Vitro image Examples of Cells) - это набор данных микроскопических изображений для инстант-сегментации отдельных клеток в двумерных клеточных культурах.
LIVECell состоит из 5239 аннотированных вручную, проверенных экспертами изображений фазово-контрастной микроскопии Incucyte HD с общим количеством 1 686 352 отдельных клеток, аннотированных по восьми различным типам (в среднем 313 клеток на одном изображении). Изображения LIVECell предварительно разделены на train (3188), Val (539) и test (1512) наборы.
#ScientificML #datasets #biology #segmentation
img2dataset
Програмка позволяет с легкостью превращать наборы url в ImageDataset. Обещают что за 20 часов на домашнем компе можно подгрузить и упаковать до 100 млн изображений.
Код
#datasets #images #multimodal
Програмка позволяет с легкостью превращать наборы url в ImageDataset. Обещают что за 20 часов на домашнем компе можно подгрузить и упаковать до 100 млн изображений.
Код
#datasets #images #multimodal
GitHub
GitHub - rom1504/img2dataset: Easily turn large sets of image urls to an image dataset. Can download, resize and package 100M urls…
Easily turn large sets of image urls to an image dataset. Can download, resize and package 100M urls in 20h on one machine. - rom1504/img2dataset
PASS - An ImageNet replacement
PASS - это крупномасштабный набор изображений, в котором нет людей и который можно использовать для обучения, при этом значительно снижая требования к конфиденциальности.
Набор данных географически разнообразен, и почти треть изображений содержит геопривязку.
Сайт
Статья
#images #datasets
PASS - это крупномасштабный набор изображений, в котором нет людей и который можно использовать для обучения, при этом значительно снижая требования к конфиденциальности.
Набор данных географически разнообразен, и почти треть изображений содержит геопривязку.
Сайт
Статья
#images #datasets
This media is not supported in your browser
VIEW IN TELEGRAM
Fake It Till You Make It
Microsoft демонстрирует, что можно обучать алгоритмы компьютерноего зрения,используя только синтетические данные, при этом, нейронки будут хорошо обобщать и на настоящих людях.
Сообщество уже давно пользуется преимуществами синтеза обучающих данных, но разрыв между реальными и синтетическими данными остается проблемой, особенно там, где это касается человеческих лиц.
Исследователи пытались преодолеть этот разрыв с помощью смешивания данных, адаптации к домену и аверсариального обучения, но увы. Microsoft же показывает, что можно синтезировать данные с минимальным отрывом от реальности, так что модели, обученные на синтетических данных, обобщаются на реальные лица в естественных условиях.
Только подумайте какие крутые возможности это все открывает!
Статья
Сайт проекта
#training #datasets
Microsoft демонстрирует, что можно обучать алгоритмы компьютерноего зрения,используя только синтетические данные, при этом, нейронки будут хорошо обобщать и на настоящих людях.
Сообщество уже давно пользуется преимуществами синтеза обучающих данных, но разрыв между реальными и синтетическими данными остается проблемой, особенно там, где это касается человеческих лиц.
Исследователи пытались преодолеть этот разрыв с помощью смешивания данных, адаптации к домену и аверсариального обучения, но увы. Microsoft же показывает, что можно синтезировать данные с минимальным отрывом от реальности, так что модели, обученные на синтетических данных, обобщаются на реальные лица в естественных условиях.
Только подумайте какие крутые возможности это все открывает!
Статья
Сайт проекта
#training #datasets
Molecule3D - это новый датасет с точными геометриями основного состояния приблизительно 4 миллионов молекул, полученных на основе density functional theory (DFT).
Датасет также снабжён набор программных инструментов для обработки данных, разбиения, обучения, оценки и т.д.
Датасет
Статья
#ScientificML #graphs #chemistry #datasets
Датасет также снабжён набор программных инструментов для обработки данных, разбиения, обучения, оценки и т.д.
Датасет
Статья
#ScientificML #graphs #chemistry #datasets
Too long; didn’t read
Вы прочитали картинку? Большинство из вас скорее всего прочитали только нижнюю часть, и то наискосок.
TLDR9+ - масштабный набор данных для обобщения, содержащий более 9 миллионов учебных примеров, извлеченных из дискуссионного форума Reddit. Этот набор данных специально собран для выполнения экстремального обобщения (т.е. генерации резюме из одного предложения с высокой степенью сжатия и абстракции).
Скорее бы появилось что-то в открытом доступе, а то сколько можно статей то в день прочитать :)
Датасет
#datasets #nlp #summarization
Вы прочитали картинку? Большинство из вас скорее всего прочитали только нижнюю часть, и то наискосок.
TLDR9+ - масштабный набор данных для обобщения, содержащий более 9 миллионов учебных примеров, извлеченных из дискуссионного форума Reddit. Этот набор данных специально собран для выполнения экстремального обобщения (т.е. генерации резюме из одного предложения с высокой степенью сжатия и абстракции).
Скорее бы появилось что-то в открытом доступе, а то сколько можно статей то в день прочитать :)
Датасет
#datasets #nlp #summarization
Causal ImageNet: How to discover spurious features in Deep Learning?
Часто, нейросети обученные на казалось бы больших датасетах типа ImageNet, плохо работают в реальном мире. Авторы исследования, считают что проблема может крыться в том, что сети уделяют слишком много внимания входным признакам, которые причинно не связаны с истинной меткой класса (например хотим предсказать кошку, а сеть зачем то ещё и фон учитывает).
Фокусируясь на классификации изображений, авторы определяют набор причинных визуальных признаков (всегда являются частью объекта) и набор ложных признаков (те, которые, так или иначе связаны с объектом, но не являются его частью. Например, признак «пальцы'' для класса «повязка'').
Авторы представляют набор данных Causal Imagenet, содержащий маски причинных и ложных признаков для большого набора сэмплов из Imagenet.
Данные пока не выложили, обновлю пост когда появятся.
📎Статья
#causality #datasets #images
Часто, нейросети обученные на казалось бы больших датасетах типа ImageNet, плохо работают в реальном мире. Авторы исследования, считают что проблема может крыться в том, что сети уделяют слишком много внимания входным признакам, которые причинно не связаны с истинной меткой класса (например хотим предсказать кошку, а сеть зачем то ещё и фон учитывает).
Фокусируясь на классификации изображений, авторы определяют набор причинных визуальных признаков (всегда являются частью объекта) и набор ложных признаков (те, которые, так или иначе связаны с объектом, но не являются его частью. Например, признак «пальцы'' для класса «повязка'').
Авторы представляют набор данных Causal Imagenet, содержащий маски причинных и ложных признаков для большого набора сэмплов из Imagenet.
Данные пока не выложили, обновлю пост когда появятся.
📎Статья
#causality #datasets #images
SciCap: Generating Captions for Scientific Figures
Исследователи используют рисунки (figures) для передачи богатой, сложной информации в научных статьях. Подписи к этим рисункам имеют решающее значение для эффективной передачи информации. Однако в научных статьях часто встречаются низкокачественные подписи к рисункам, что может снизить уровень их понимания.
Что бы начать с этой проблемой справляться нейронными методами, выпустили SCICAP - крупномасштабный набор данных с подписями к рисункам. В основном используют рисунки из статей arXiv по информатике, опубликованных в период с 2010 по 2020 год. SCICAP содержит более двух миллионов рисунков, извлеченных из более чем 290 000 статей.
Боюсь что подписи все равно генерировать будет сложно без текста статьи, но что-то мультимодальное наверное в ближайшее время справится и с такой задачей.
📎 Статья
🗂 Данные
#ScientificML #captioning #datasets
Исследователи используют рисунки (figures) для передачи богатой, сложной информации в научных статьях. Подписи к этим рисункам имеют решающее значение для эффективной передачи информации. Однако в научных статьях часто встречаются низкокачественные подписи к рисункам, что может снизить уровень их понимания.
Что бы начать с этой проблемой справляться нейронными методами, выпустили SCICAP - крупномасштабный набор данных с подписями к рисункам. В основном используют рисунки из статей arXiv по информатике, опубликованных в период с 2010 по 2020 год. SCICAP содержит более двух миллионов рисунков, извлеченных из более чем 290 000 статей.
Боюсь что подписи все равно генерировать будет сложно без текста статьи, но что-то мультимодальное наверное в ближайшее время справится и с такой задачей.
📎 Статья
🗂 Данные
#ScientificML #captioning #datasets