AI Для Всех
12K subscribers
1.02K photos
124 videos
10 files
1.3K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор: @crimeacs

Авторы канала: @GingerSpacetail, @innovationitsme
Download Telegram
Too long; didn’t read

Вы прочитали картинку? Большинство из вас скорее всего прочитали только нижнюю часть, и то наискосок.

TLDR9+ - масштабный набор данных для обобщения, содержащий более 9 миллионов учебных примеров, извлеченных из дискуссионного форума Reddit. Этот набор данных специально собран для выполнения экстремального обобщения (т.е. генерации резюме из одного предложения с высокой степенью сжатия и абстракции).

Скорее бы появилось что-то в открытом доступе, а то сколько можно статей то в день прочитать :)

Датасет

#datasets #nlp #summarization
Causal ImageNet: How to discover spurious features in Deep Learning?

Часто, нейросети обученные на казалось бы больших датасетах типа ImageNet, плохо работают в реальном мире. Авторы исследования, считают что проблема может крыться в том, что сети уделяют слишком много внимания входным признакам, которые причинно не связаны с истинной меткой класса (например хотим предсказать кошку, а сеть зачем то ещё и фон учитывает).

Фокусируясь на классификации изображений, авторы определяют набор причинных визуальных признаков (всегда являются частью объекта) и набор ложных признаков (те, которые, так или иначе связаны с объектом, но не являются его частью. Например, признак «пальцы'' для класса «повязка'').

Авторы представляют набор данных Causal Imagenet, содержащий маски причинных и ложных признаков для большого набора сэмплов из Imagenet.

Данные пока не выложили, обновлю пост когда появятся.

📎Статья

#causality #datasets #images
SciCap: Generating Captions for Scientific Figures

Исследователи используют рисунки (figures) для передачи богатой, сложной информации в научных статьях. Подписи к этим рисункам имеют решающее значение для эффективной передачи информации. Однако в научных статьях часто встречаются низкокачественные подписи к рисункам, что может снизить уровень их понимания.

Что бы начать с этой проблемой справляться нейронными методами, выпустили SCICAP - крупномасштабный набор данных с подписями к рисункам. В основном используют рисунки из статей arXiv по информатике, опубликованных в период с 2010 по 2020 год. SCICAP содержит более двух миллионов рисунков, извлеченных из более чем 290 000 статей.

Боюсь что подписи все равно генерировать будет сложно без текста статьи, но что-то мультимодальное наверное в ближайшее время справится и с такой задачей.

📎 Статья
🗂 Данные

#ScientificML #captioning #datasets
This media is not supported in your browser
VIEW IN TELEGRAM
Unidentified Video Objects

UVO - это новый бенчмарк для сегментации объектов в видео с открытым миром, не зависящей от класса. Помимо смещения фокуса проблемы в сторону открытого мира, UVO значительно больше (примерно в 8 раз больше видео по сравнению с DAVIS, и в 7 раз больше по сравнению с YouTube-VOS и YouTube-VIS).

UVO также является более сложным бенчмарком, поскольку включает в себя множество видео с переполненными сценами и сложными фоновыми движениями. Некоторые основные моменты датасета включают:

Качественные, плотно аннотированные маски сэмлов.

Открытый мир: аннотирование всех объектов в каждом видео, в среднем 13,5 объектов на видео

Разнообразные категории объектов: 57% объектов не охватываются категориями COCO

📎 Статья
🗂 Датасет

#segmentation #datasets #video
AI4Mars

Мы с вами можем помочь обучить алгоритм искусственного интеллекта распознавать научные особенности на снимках, сделанных марсоходом NASA Perseverance.

ИИ обладает огромным потенциалом для помощи в изучения Вселенной космическими аппаратами. В связи с чем, предлагается размечать снимки на которых есть интересные особенности (например камне, почву и тп).

Проект, получивший название AI4Mars, является продолжением прошлогоднего проекта, в котором использовались снимки, полученные марсоходом NASA Curiosity.

Поразмечать марсианские пейзажи можно тут.

#ScientificML #datasets #training
This media is not supported in your browser
VIEW IN TELEGRAM
Drawdata ✏️

Для тех кто преподаёт. Это небольшое приложение на питоне позволяет рисовать датасеты в блокноте Jupyter (и в Colab тоже). Мне кажется эта штука может быть очень полезна при обучении алгоритмам машинного обучения.

🖥 Код

#teaching #datasets
MedMNIST v2 👩‍⚕️

Вышла большая MNIST-подобная коллекция стандартизированных биомедицинских изображений, включающая 12 наборов данных для 2D и 6 наборов данных для 3D. Все изображения предварительно обработаны в формат 28 x 28 (2D) или 28 x 28 x 28 (3D) с соответствующими классификационными метками.

Охватывая основные модальности данных в биомедицинских изображениях, MedMNIST v2 предназначен для выполнения классификации на легких 2D и 3D изображениях с различными масштабами данных (от 100 до 100 000) и разнообразными задачами (бинарные/многоклассовые, порядковые регрессии и мульти-метки). Полученный набор данных, состоящий из 708 069 2D-изображений и 10 214 3D-изображений в целом, может помочь в многочисленных исследовательских и образовательных целях в области анализа биомедицинских изображений, компьютерного зрения и машинного обучения.

Про предыдущую версию мы писали тут (оказалось что мы писали про второй medmnist, как мне верно напомнили).

🗂 Датасет
📎 Статья

#ScientificML #datasets #medicine #3d
SustainBench

SustainBench - это коллекция из 15 эталонных задач по 7 целям устойчивого развития (SDG), включая задачи, касающиеся экономического развития, сельского хозяйства, здравоохранения, образования, водоснабжения и санитарии, действий по защите климата и жизни на земле. Целями SustainBench являются:

🚷 снизить входные барьеры для сообщества машинного обучения, чтобы внести свой вклад в измерение и достижение SGD;
📈 предоставить стандартные эталоны для оценки моделей машинного обучения на задачах по целому ряду SDG

📎 Статья
🗂 Датасет

#datasets #ScientificML
FS-Mol

Microsoft выпустил датасет молекул для обучения в режиме few-shot (это когда обученной модели показывают несколько примеров чего от неё хотят и просят предсказать на новом).

Данные представляют из себя молекулярные соединения с измерениями активности против различных белковых мишеней.

К данным предлагаются ещё и обученные модельки, что бы было с чем сравнивать.

🗂 Датасет

#ScientificML #datasets
SDSS Galaxies

Набор данных из 306 006 галактик, координаты которых взяты из Sloan Digital Sky Survey Data Release. Изображения галактик получены с помощью спектроскопического прибора Dark Energy Spectroscopic Instrument.

🗂 Данные
📎 Статья

#ScientificML #astronomy #datasets
PartImageNet: Большой датасет деталей и частей

В работе PartImageNet авторы заморочились настолько, что выпустили огроменный датасет с размеренными частями объектов (например лапы отдельно, хвосты отдельно).

Он состоит из 158 классов из ImageNet с приблизительно 24000 изображений.

📎 Статья
🗂 Датасет

#datasets #segmentation
This media is not supported in your browser
VIEW IN TELEGRAM
The PAIR-R24M Dataset for Multi-animal 3D Pose Estimation

Если мы разберёмся с основами социального и коллективного поведения животных - мы сможем узнать много нового о жизни. Важным шагом в изучении механизмов, лежащих в основе социального поведения, является точное считывание трехмерной позы взаимодействующих животных.

В недавней работе представлен набор данных PAIR-R24M (Paired Acquisition of Interacting oRganisms - Rat) для оценки трехмерной позы нескольких животных, который содержит 24,3 миллиона кадров RGB-видео и трехмерного захвата движения взаимодействий лабораторных крыс.

PAIR-R24M, поможет усовершенствовать подходы к трехмерному отслеживанию животных и поможет в выяснении нейронных основ социального поведения.

📎
Статья
🗂
Датасет

#datasets #ScientificML #biology
Artstation Artistic Face HQ

Не могу удержаться и не рассказать. Помните, этим летом обнаружили, что если в VQGAN + CLIP подавать дополнительные затравки типа “artstation”, то есть работает лучше?

Тут кто-то пошёл дальше и собрал целый датасет на 25к лиц с сайта Artstation.

🗂 Dataset
📎 Статья

#datasets #images
MARIDA (Архив морского мусора)

Это первый набор данных, основанный на мультиспектральных спутниковых данных Sentinel-2 (S2), который позволяет отличить морской мусор от других морских объектов, включая макроводоросли Sargassum, корабли, природные органические материалы, волны, волнения, пену, различные типы воды (т.е. прозрачная, мутная вода, вода с осадками, мелководье) и облака.

🗂 Датасет

#ScientificML #datasets #earthscience
The Met Dataset: произведения искусства

Для формирования обучающего набора используется коллекция Метрополитен-музея (Metropolitan Museum of Art, The Met) в Нью-Йорке, находящаяся в открытом доступе и состоящая из около 400 тысяч изображений из более чем 224 тысяч классов, начиная с эпохи палеолита и заканчивая моднейшими художниками современности.

Каждый музейный экспонат соответствует уникальному произведению искусства и определяет свой собственный класс. Обучающее множество имеет распределение с длинным хвостом, где более половины классов представлены одним изображением, что делает его особым случаем обучения на нескольких снимках.

🗂 Датасет

#datasets #art #history
Пока все спорят о том что такое сознание, и есть ли оно в больших языковых моделях, предлагаю сосредоточится на более научной дискуссии.

ArgSciChat - это набор данных аргументированных диалогов. Он состоит из 498 сообщений, собранных из обсуждения 20 научных статей.

Датасет может быть использован для оценки разговорных агентов и дальнейшего стимулирования исследований в области аргументированных научных агентов.

🗂 Датасет

#ScientificML #nlp #datasets