AI Для Всех
12.8K subscribers
1.18K photos
153 videos
10 files
1.38K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
Deep Neural Networks and Tabular Data: A Survey

Гетерогенные табличные данные являются наиболее часто используемой формой данных в науке и необходимы для многочисленных критически важных и требовательных к вычислениям приложений. На однородных наборах данных глубокие нейронные сети неоднократно демонстрировали отличную производительность и поэтому получили широкое распространение. Однако их применение для моделирования табличных данных (вывод или генерация) остается весьма проблематичным. В данной работе представлен обзор современных методов глубокого обучения для табличных данных.

Методы разделили на три группы: преобразования данных, специализированные архитектуры и модели регуляризации. По каждой группе предоставлен обзор основных подходов.

Основной вклад работы заключается в рассмотрении основных направлений исследований и существующих методологий в этой области, а также в выделении соответствующих проблем и открытых исследовательских вопросов.

Насколько я понимаю, это первый углубленный взгляд на подходы глубокого обучения для табличных данных. Работа может послужить ценной отправной точкой и руководством для исследователей и практиков, заинтересованных в глубоком обучении с использованием табличных данных.

Статья

#tabular #tables
This media is not supported in your browser
VIEW IN TELEGRAM
SubTab: Subsetting Features of Tabular Data for Self-Supervised Representation Learning

AstraZeneca выпустила статью и код по self-supervised learning для табличных (!) данных. Даже не задумывался что так можно было.

Одним из основных компонентов успеха self-supervised learning на изображениях, аудио и тексте является использование пространственной, временной и семантической структуры данных. Однако в табличках, такая структура может отсутствовать, что затрудняет разработку эффективного метода аугментации и препятствует аналогичному прогрессу в работе с табличными данными.

В этой статье авторы представляют новую структуру - Subsetting features of Tabular data (SubTab), которая превращает задачу обучения на основе табличных данных в задачу обучения на основе многовидового представления путем разделения входных характеристик на несколько подмножеств. Эксперименты показали, что SubTab достигает производительности SOTA 98,31% на MNIST в табличной версии.

📎Статья 🖥Код

#tables #SSL #tabular