AI Для Всех
12.8K subscribers
1.18K photos
153 videos
10 files
1.38K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
PASS - An ImageNet replacement

PASS - это крупномасштабный набор изображений, в котором нет людей и который можно использовать для обучения, при этом значительно снижая требования к конфиденциальности.

Набор данных географически разнообразен, и почти треть изображений содержит геопривязку.

Сайт
Статья

#images #datasets
This media is not supported in your browser
VIEW IN TELEGRAM
Fake It Till You Make It

Microsoft демонстрирует, что можно обучать алгоритмы компьютерноего зрения,используя только синтетические данные, при этом, нейронки будут хорошо обобщать и на настоящих людях.

Сообщество уже давно пользуется преимуществами синтеза обучающих данных, но разрыв между реальными и синтетическими данными остается проблемой, особенно там, где это касается человеческих лиц.

Исследователи пытались преодолеть этот разрыв с помощью смешивания данных, адаптации к домену и аверсариального обучения, но увы. Microsoft же показывает, что можно синтезировать данные с минимальным отрывом от реальности, так что модели, обученные на синтетических данных, обобщаются на реальные лица в естественных условиях.

Только подумайте какие крутые возможности это все открывает!

Статья
Сайт проекта

#training #datasets
Molecule3D - это новый датасет с точными геометриями основного состояния приблизительно 4 миллионов молекул, полученных на основе density functional theory (DFT).

Датасет также снабжён набор программных инструментов для обработки данных, разбиения, обучения, оценки и т.д.

Датасет
Статья

#ScientificML #graphs #chemistry #datasets
Too long; didn’t read

Вы прочитали картинку? Большинство из вас скорее всего прочитали только нижнюю часть, и то наискосок.

TLDR9+ - масштабный набор данных для обобщения, содержащий более 9 миллионов учебных примеров, извлеченных из дискуссионного форума Reddit. Этот набор данных специально собран для выполнения экстремального обобщения (т.е. генерации резюме из одного предложения с высокой степенью сжатия и абстракции).

Скорее бы появилось что-то в открытом доступе, а то сколько можно статей то в день прочитать :)

Датасет

#datasets #nlp #summarization
Causal ImageNet: How to discover spurious features in Deep Learning?

Часто, нейросети обученные на казалось бы больших датасетах типа ImageNet, плохо работают в реальном мире. Авторы исследования, считают что проблема может крыться в том, что сети уделяют слишком много внимания входным признакам, которые причинно не связаны с истинной меткой класса (например хотим предсказать кошку, а сеть зачем то ещё и фон учитывает).

Фокусируясь на классификации изображений, авторы определяют набор причинных визуальных признаков (всегда являются частью объекта) и набор ложных признаков (те, которые, так или иначе связаны с объектом, но не являются его частью. Например, признак «пальцы'' для класса «повязка'').

Авторы представляют набор данных Causal Imagenet, содержащий маски причинных и ложных признаков для большого набора сэмплов из Imagenet.

Данные пока не выложили, обновлю пост когда появятся.

📎Статья

#causality #datasets #images
SciCap: Generating Captions for Scientific Figures

Исследователи используют рисунки (figures) для передачи богатой, сложной информации в научных статьях. Подписи к этим рисункам имеют решающее значение для эффективной передачи информации. Однако в научных статьях часто встречаются низкокачественные подписи к рисункам, что может снизить уровень их понимания.

Что бы начать с этой проблемой справляться нейронными методами, выпустили SCICAP - крупномасштабный набор данных с подписями к рисункам. В основном используют рисунки из статей arXiv по информатике, опубликованных в период с 2010 по 2020 год. SCICAP содержит более двух миллионов рисунков, извлеченных из более чем 290 000 статей.

Боюсь что подписи все равно генерировать будет сложно без текста статьи, но что-то мультимодальное наверное в ближайшее время справится и с такой задачей.

📎 Статья
🗂 Данные

#ScientificML #captioning #datasets
This media is not supported in your browser
VIEW IN TELEGRAM
Unidentified Video Objects

UVO - это новый бенчмарк для сегментации объектов в видео с открытым миром, не зависящей от класса. Помимо смещения фокуса проблемы в сторону открытого мира, UVO значительно больше (примерно в 8 раз больше видео по сравнению с DAVIS, и в 7 раз больше по сравнению с YouTube-VOS и YouTube-VIS).

UVO также является более сложным бенчмарком, поскольку включает в себя множество видео с переполненными сценами и сложными фоновыми движениями. Некоторые основные моменты датасета включают:

Качественные, плотно аннотированные маски сэмлов.

Открытый мир: аннотирование всех объектов в каждом видео, в среднем 13,5 объектов на видео

Разнообразные категории объектов: 57% объектов не охватываются категориями COCO

📎 Статья
🗂 Датасет

#segmentation #datasets #video
AI4Mars

Мы с вами можем помочь обучить алгоритм искусственного интеллекта распознавать научные особенности на снимках, сделанных марсоходом NASA Perseverance.

ИИ обладает огромным потенциалом для помощи в изучения Вселенной космическими аппаратами. В связи с чем, предлагается размечать снимки на которых есть интересные особенности (например камне, почву и тп).

Проект, получивший название AI4Mars, является продолжением прошлогоднего проекта, в котором использовались снимки, полученные марсоходом NASA Curiosity.

Поразмечать марсианские пейзажи можно тут.

#ScientificML #datasets #training
This media is not supported in your browser
VIEW IN TELEGRAM
Drawdata ✏️

Для тех кто преподаёт. Это небольшое приложение на питоне позволяет рисовать датасеты в блокноте Jupyter (и в Colab тоже). Мне кажется эта штука может быть очень полезна при обучении алгоритмам машинного обучения.

🖥 Код

#teaching #datasets
MedMNIST v2 👩‍⚕️

Вышла большая MNIST-подобная коллекция стандартизированных биомедицинских изображений, включающая 12 наборов данных для 2D и 6 наборов данных для 3D. Все изображения предварительно обработаны в формат 28 x 28 (2D) или 28 x 28 x 28 (3D) с соответствующими классификационными метками.

Охватывая основные модальности данных в биомедицинских изображениях, MedMNIST v2 предназначен для выполнения классификации на легких 2D и 3D изображениях с различными масштабами данных (от 100 до 100 000) и разнообразными задачами (бинарные/многоклассовые, порядковые регрессии и мульти-метки). Полученный набор данных, состоящий из 708 069 2D-изображений и 10 214 3D-изображений в целом, может помочь в многочисленных исследовательских и образовательных целях в области анализа биомедицинских изображений, компьютерного зрения и машинного обучения.

Про предыдущую версию мы писали тут (оказалось что мы писали про второй medmnist, как мне верно напомнили).

🗂 Датасет
📎 Статья

#ScientificML #datasets #medicine #3d
SustainBench

SustainBench - это коллекция из 15 эталонных задач по 7 целям устойчивого развития (SDG), включая задачи, касающиеся экономического развития, сельского хозяйства, здравоохранения, образования, водоснабжения и санитарии, действий по защите климата и жизни на земле. Целями SustainBench являются:

🚷 снизить входные барьеры для сообщества машинного обучения, чтобы внести свой вклад в измерение и достижение SGD;
📈 предоставить стандартные эталоны для оценки моделей машинного обучения на задачах по целому ряду SDG

📎 Статья
🗂 Датасет

#datasets #ScientificML
FS-Mol

Microsoft выпустил датасет молекул для обучения в режиме few-shot (это когда обученной модели показывают несколько примеров чего от неё хотят и просят предсказать на новом).

Данные представляют из себя молекулярные соединения с измерениями активности против различных белковых мишеней.

К данным предлагаются ещё и обученные модельки, что бы было с чем сравнивать.

🗂 Датасет

#ScientificML #datasets
SDSS Galaxies

Набор данных из 306 006 галактик, координаты которых взяты из Sloan Digital Sky Survey Data Release. Изображения галактик получены с помощью спектроскопического прибора Dark Energy Spectroscopic Instrument.

🗂 Данные
📎 Статья

#ScientificML #astronomy #datasets
PartImageNet: Большой датасет деталей и частей

В работе PartImageNet авторы заморочились настолько, что выпустили огроменный датасет с размеренными частями объектов (например лапы отдельно, хвосты отдельно).

Он состоит из 158 классов из ImageNet с приблизительно 24000 изображений.

📎 Статья
🗂 Датасет

#datasets #segmentation
This media is not supported in your browser
VIEW IN TELEGRAM
The PAIR-R24M Dataset for Multi-animal 3D Pose Estimation

Если мы разберёмся с основами социального и коллективного поведения животных - мы сможем узнать много нового о жизни. Важным шагом в изучении механизмов, лежащих в основе социального поведения, является точное считывание трехмерной позы взаимодействующих животных.

В недавней работе представлен набор данных PAIR-R24M (Paired Acquisition of Interacting oRganisms - Rat) для оценки трехмерной позы нескольких животных, который содержит 24,3 миллиона кадров RGB-видео и трехмерного захвата движения взаимодействий лабораторных крыс.

PAIR-R24M, поможет усовершенствовать подходы к трехмерному отслеживанию животных и поможет в выяснении нейронных основ социального поведения.

📎
Статья
🗂
Датасет

#datasets #ScientificML #biology
Artstation Artistic Face HQ

Не могу удержаться и не рассказать. Помните, этим летом обнаружили, что если в VQGAN + CLIP подавать дополнительные затравки типа “artstation”, то есть работает лучше?

Тут кто-то пошёл дальше и собрал целый датасет на 25к лиц с сайта Artstation.

🗂 Dataset
📎 Статья

#datasets #images
MARIDA (Архив морского мусора)

Это первый набор данных, основанный на мультиспектральных спутниковых данных Sentinel-2 (S2), который позволяет отличить морской мусор от других морских объектов, включая макроводоросли Sargassum, корабли, природные органические материалы, волны, волнения, пену, различные типы воды (т.е. прозрачная, мутная вода, вода с осадками, мелководье) и облака.

🗂 Датасет

#ScientificML #datasets #earthscience
The Met Dataset: произведения искусства

Для формирования обучающего набора используется коллекция Метрополитен-музея (Metropolitan Museum of Art, The Met) в Нью-Йорке, находящаяся в открытом доступе и состоящая из около 400 тысяч изображений из более чем 224 тысяч классов, начиная с эпохи палеолита и заканчивая моднейшими художниками современности.

Каждый музейный экспонат соответствует уникальному произведению искусства и определяет свой собственный класс. Обучающее множество имеет распределение с длинным хвостом, где более половины классов представлены одним изображением, что делает его особым случаем обучения на нескольких снимках.

🗂 Датасет

#datasets #art #history
Пока все спорят о том что такое сознание, и есть ли оно в больших языковых моделях, предлагаю сосредоточится на более научной дискуссии.

ArgSciChat - это набор данных аргументированных диалогов. Он состоит из 498 сообщений, собранных из обсуждения 20 научных статей.

Датасет может быть использован для оценки разговорных агентов и дальнейшего стимулирования исследований в области аргументированных научных агентов.

🗂 Датасет

#ScientificML #nlp #datasets