AI Для Всех
12.8K subscribers
1.17K photos
153 videos
10 files
1.38K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
Набор данных LAION-400M находится в полном открытом, свободном доступе (400 миллионов пар картинка-текст).

Собран благодаря crowd-computing усилиям ElutherAI (я тоже поучаствовал 🤏).

Все изображения и тексты в LAION-400M были отфильтрованы с помощью OpenAI's CLIP путем вычисления косинусного сходства между эмбедингами текста и изображения и отбрасывания тех, чье сходство ниже 0,3.

Датасет

Инсайдерская инфа (Скоро будет 1 миллиард)

#datasets #multimodal #clip
LIVECell

(Label-free In Vitro image Examples of Cells) - это набор данных микроскопических изображений для инстант-сегментации отдельных клеток в двумерных клеточных культурах.

LIVECell состоит из 5239 аннотированных вручную, проверенных экспертами изображений фазово-контрастной микроскопии Incucyte HD с общим количеством 1 686 352 отдельных клеток, аннотированных по восьми различным типам (в среднем 313 клеток на одном изображении). Изображения LIVECell предварительно разделены на train (3188), Val (539) и test (1512) наборы.

#ScientificML #datasets #biology #segmentation
img2dataset

Програмка позволяет с легкостью превращать наборы url в ImageDataset. Обещают что за 20 часов на домашнем компе можно подгрузить и упаковать до 100 млн изображений.

Код

#datasets #images #multimodal
PASS - An ImageNet replacement

PASS - это крупномасштабный набор изображений, в котором нет людей и который можно использовать для обучения, при этом значительно снижая требования к конфиденциальности.

Набор данных географически разнообразен, и почти треть изображений содержит геопривязку.

Сайт
Статья

#images #datasets
This media is not supported in your browser
VIEW IN TELEGRAM
Fake It Till You Make It

Microsoft демонстрирует, что можно обучать алгоритмы компьютерноего зрения,используя только синтетические данные, при этом, нейронки будут хорошо обобщать и на настоящих людях.

Сообщество уже давно пользуется преимуществами синтеза обучающих данных, но разрыв между реальными и синтетическими данными остается проблемой, особенно там, где это касается человеческих лиц.

Исследователи пытались преодолеть этот разрыв с помощью смешивания данных, адаптации к домену и аверсариального обучения, но увы. Microsoft же показывает, что можно синтезировать данные с минимальным отрывом от реальности, так что модели, обученные на синтетических данных, обобщаются на реальные лица в естественных условиях.

Только подумайте какие крутые возможности это все открывает!

Статья
Сайт проекта

#training #datasets
Molecule3D - это новый датасет с точными геометриями основного состояния приблизительно 4 миллионов молекул, полученных на основе density functional theory (DFT).

Датасет также снабжён набор программных инструментов для обработки данных, разбиения, обучения, оценки и т.д.

Датасет
Статья

#ScientificML #graphs #chemistry #datasets
Too long; didn’t read

Вы прочитали картинку? Большинство из вас скорее всего прочитали только нижнюю часть, и то наискосок.

TLDR9+ - масштабный набор данных для обобщения, содержащий более 9 миллионов учебных примеров, извлеченных из дискуссионного форума Reddit. Этот набор данных специально собран для выполнения экстремального обобщения (т.е. генерации резюме из одного предложения с высокой степенью сжатия и абстракции).

Скорее бы появилось что-то в открытом доступе, а то сколько можно статей то в день прочитать :)

Датасет

#datasets #nlp #summarization
Causal ImageNet: How to discover spurious features in Deep Learning?

Часто, нейросети обученные на казалось бы больших датасетах типа ImageNet, плохо работают в реальном мире. Авторы исследования, считают что проблема может крыться в том, что сети уделяют слишком много внимания входным признакам, которые причинно не связаны с истинной меткой класса (например хотим предсказать кошку, а сеть зачем то ещё и фон учитывает).

Фокусируясь на классификации изображений, авторы определяют набор причинных визуальных признаков (всегда являются частью объекта) и набор ложных признаков (те, которые, так или иначе связаны с объектом, но не являются его частью. Например, признак «пальцы'' для класса «повязка'').

Авторы представляют набор данных Causal Imagenet, содержащий маски причинных и ложных признаков для большого набора сэмплов из Imagenet.

Данные пока не выложили, обновлю пост когда появятся.

📎Статья

#causality #datasets #images
SciCap: Generating Captions for Scientific Figures

Исследователи используют рисунки (figures) для передачи богатой, сложной информации в научных статьях. Подписи к этим рисункам имеют решающее значение для эффективной передачи информации. Однако в научных статьях часто встречаются низкокачественные подписи к рисункам, что может снизить уровень их понимания.

Что бы начать с этой проблемой справляться нейронными методами, выпустили SCICAP - крупномасштабный набор данных с подписями к рисункам. В основном используют рисунки из статей arXiv по информатике, опубликованных в период с 2010 по 2020 год. SCICAP содержит более двух миллионов рисунков, извлеченных из более чем 290 000 статей.

Боюсь что подписи все равно генерировать будет сложно без текста статьи, но что-то мультимодальное наверное в ближайшее время справится и с такой задачей.

📎 Статья
🗂 Данные

#ScientificML #captioning #datasets
This media is not supported in your browser
VIEW IN TELEGRAM
Unidentified Video Objects

UVO - это новый бенчмарк для сегментации объектов в видео с открытым миром, не зависящей от класса. Помимо смещения фокуса проблемы в сторону открытого мира, UVO значительно больше (примерно в 8 раз больше видео по сравнению с DAVIS, и в 7 раз больше по сравнению с YouTube-VOS и YouTube-VIS).

UVO также является более сложным бенчмарком, поскольку включает в себя множество видео с переполненными сценами и сложными фоновыми движениями. Некоторые основные моменты датасета включают:

Качественные, плотно аннотированные маски сэмлов.

Открытый мир: аннотирование всех объектов в каждом видео, в среднем 13,5 объектов на видео

Разнообразные категории объектов: 57% объектов не охватываются категориями COCO

📎 Статья
🗂 Датасет

#segmentation #datasets #video
AI4Mars

Мы с вами можем помочь обучить алгоритм искусственного интеллекта распознавать научные особенности на снимках, сделанных марсоходом NASA Perseverance.

ИИ обладает огромным потенциалом для помощи в изучения Вселенной космическими аппаратами. В связи с чем, предлагается размечать снимки на которых есть интересные особенности (например камне, почву и тп).

Проект, получивший название AI4Mars, является продолжением прошлогоднего проекта, в котором использовались снимки, полученные марсоходом NASA Curiosity.

Поразмечать марсианские пейзажи можно тут.

#ScientificML #datasets #training
This media is not supported in your browser
VIEW IN TELEGRAM
Drawdata ✏️

Для тех кто преподаёт. Это небольшое приложение на питоне позволяет рисовать датасеты в блокноте Jupyter (и в Colab тоже). Мне кажется эта штука может быть очень полезна при обучении алгоритмам машинного обучения.

🖥 Код

#teaching #datasets
MedMNIST v2 👩‍⚕️

Вышла большая MNIST-подобная коллекция стандартизированных биомедицинских изображений, включающая 12 наборов данных для 2D и 6 наборов данных для 3D. Все изображения предварительно обработаны в формат 28 x 28 (2D) или 28 x 28 x 28 (3D) с соответствующими классификационными метками.

Охватывая основные модальности данных в биомедицинских изображениях, MedMNIST v2 предназначен для выполнения классификации на легких 2D и 3D изображениях с различными масштабами данных (от 100 до 100 000) и разнообразными задачами (бинарные/многоклассовые, порядковые регрессии и мульти-метки). Полученный набор данных, состоящий из 708 069 2D-изображений и 10 214 3D-изображений в целом, может помочь в многочисленных исследовательских и образовательных целях в области анализа биомедицинских изображений, компьютерного зрения и машинного обучения.

Про предыдущую версию мы писали тут (оказалось что мы писали про второй medmnist, как мне верно напомнили).

🗂 Датасет
📎 Статья

#ScientificML #datasets #medicine #3d
SustainBench

SustainBench - это коллекция из 15 эталонных задач по 7 целям устойчивого развития (SDG), включая задачи, касающиеся экономического развития, сельского хозяйства, здравоохранения, образования, водоснабжения и санитарии, действий по защите климата и жизни на земле. Целями SustainBench являются:

🚷 снизить входные барьеры для сообщества машинного обучения, чтобы внести свой вклад в измерение и достижение SGD;
📈 предоставить стандартные эталоны для оценки моделей машинного обучения на задачах по целому ряду SDG

📎 Статья
🗂 Датасет

#datasets #ScientificML