AI Для Всех
12.8K subscribers
1.17K photos
153 videos
10 files
1.38K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
Говорят что круче всех на свете работают с табличными данными.

Twitter пост

Но код, что бы это проверить ещё не доступен.

#tabular
Интересная статья (и код) от Яндекса про DL с табличными данными.

GitHub

#tabular
Хорошая статья про отбор важных признаков в табличных данных, зачем нам это надо, и классификацию подходов. Там же есть ссылка на хорошую статью этого же автора про Boruta

#tabular
Есть такой пакет DeepTables.

Для работы с табличными данными, содержит реализации нескольких красивых решений.

На соревновании сверху почти с нуля добивается топ-качества.

Части совсем новых сетей (типа TabNet) не имплементировано + реализации в принципе на tensorflow. Что немного затрудняет внедрение их в курс - сложно будет делать transfer learning и прочее.

Плюс качество они меряют на этом датасете в основном, а датасет по отзывам почти не содержит взаимодействия признаков и тд.
Потому можно пока упомянуть вскользь, пока/если никто из нас на реальной задаче не обнаружит, что пакет - топыч

#tabular
Deep Neural Networks and Tabular Data: A Survey

Гетерогенные табличные данные являются наиболее часто используемой формой данных в науке и необходимы для многочисленных критически важных и требовательных к вычислениям приложений. На однородных наборах данных глубокие нейронные сети неоднократно демонстрировали отличную производительность и поэтому получили широкое распространение. Однако их применение для моделирования табличных данных (вывод или генерация) остается весьма проблематичным. В данной работе представлен обзор современных методов глубокого обучения для табличных данных.

Методы разделили на три группы: преобразования данных, специализированные архитектуры и модели регуляризации. По каждой группе предоставлен обзор основных подходов.

Основной вклад работы заключается в рассмотрении основных направлений исследований и существующих методологий в этой области, а также в выделении соответствующих проблем и открытых исследовательских вопросов.

Насколько я понимаю, это первый углубленный взгляд на подходы глубокого обучения для табличных данных. Работа может послужить ценной отправной точкой и руководством для исследователей и практиков, заинтересованных в глубоком обучении с использованием табличных данных.

Статья

#tabular #tables
This media is not supported in your browser
VIEW IN TELEGRAM
SubTab: Subsetting Features of Tabular Data for Self-Supervised Representation Learning

AstraZeneca выпустила статью и код по self-supervised learning для табличных (!) данных. Даже не задумывался что так можно было.

Одним из основных компонентов успеха self-supervised learning на изображениях, аудио и тексте является использование пространственной, временной и семантической структуры данных. Однако в табличках, такая структура может отсутствовать, что затрудняет разработку эффективного метода аугментации и препятствует аналогичному прогрессу в работе с табличными данными.

В этой статье авторы представляют новую структуру - Subsetting features of Tabular data (SubTab), которая превращает задачу обучения на основе табличных данных в задачу обучения на основе многовидового представления путем разделения входных характеристик на несколько подмножеств. Эксперименты показали, что SubTab достигает производительности SOTA 98,31% на MNIST в табличной версии.

📎Статья 🖥Код

#tables #SSL #tabular