Говорят что круче всех на свете работают с табличными данными.
Twitter пост
Но код, что бы это проверить ещё не доступен.
#tabular
Twitter пост
Но код, что бы это проверить ещё не доступен.
#tabular
Twitter
AK
SAINT: Improved Neural Networks for Tabular Data via Row Attention and Contrastive Pre-Training pdf: arxiv.org/pdf/2106.01342… abs: arxiv.org/abs/2106.01342 performs attention over both rows and columns, and it includes an enhanced embedding method
Хорошая статья про отбор важных признаков в табличных данных, зачем нам это надо, и классификацию подходов. Там же есть ссылка на хорошую статью этого же автора про Boruta
#tabular
#tabular
Medium
“MRMR” Explained Exactly How You Wished Someone Explained to You
Want to improve your feature selection? “Maximum Relevance — Minimum Redundancy” (aka MRMR) is a simple, fast and efficient algorithm for…
Есть такой пакет DeepTables.
Для работы с табличными данными, содержит реализации нескольких красивых решений.
На соревновании сверху почти с нуля добивается топ-качества.
Части совсем новых сетей (типа TabNet) не имплементировано + реализации в принципе на tensorflow. Что немного затрудняет внедрение их в курс - сложно будет делать transfer learning и прочее.
Плюс качество они меряют на этом датасете в основном, а датасет по отзывам почти не содержит взаимодействия признаков и тд.
Потому можно пока упомянуть вскользь, пока/если никто из нас на реальной задаче не обнаружит, что пакет - топыч
#tabular
Для работы с табличными данными, содержит реализации нескольких красивых решений.
На соревновании сверху почти с нуля добивается топ-качества.
Части совсем новых сетей (типа TabNet) не имплементировано + реализации в принципе на tensorflow. Что немного затрудняет внедрение их в курс - сложно будет делать transfer learning и прочее.
Плюс качество они меряют на этом датасете в основном, а датасет по отзывам почти не содержит взаимодействия признаков и тд.
Потому можно пока упомянуть вскользь, пока/если никто из нас на реальной задаче не обнаружит, что пакет - топыч
#tabular
GitHub
GitHub - DataCanvasIO/DeepTables: DeepTables: Deep-learning Toolkit for Tabular data
DeepTables: Deep-learning Toolkit for Tabular data - DataCanvasIO/DeepTables
Тэги доступные в канале на данный момент:
#alphafold2, #astronomy, #audio, #augmentation, #automl, #bayes, #biology, #botany, #captioning, #categorical, #chemistry, #classification, #clip, #cnn, #code, #community, #competition, #compression, #conference, #contrastivelearning, #course, #datasets, #debugging, #demo, #depth, #detection, #diffusion, #dilation, #dimensionality, #distillation, #earthscience, #economics, #explainability, #gan, #generative, #geometric, #gnn, #gpt, #gpu, #graph, #hardware, #holdontoyoirpapers, #image2text, #images, #inference, #joke, #julia, #jupyterlab, #jupyterlite, #labeling, #latex, #lnl, #medicine, #metrics, #mlp, #money, #multimodal, #nas, #news, #nlp, #noise, #novelviews, #optimizer, #outliers, #physics, #presentation, #python, #resnet, #resources, #rl, #rnn, #rocauc, #science, #scientificml, #segmentation, #SSL, #XAI, #separation, #sequences, #signal, #social, #sound, #speech, #styletransfer, #superresolution, #tabular, #text2image, #theory, #torrent, #training, #transformer, #translate, #tutorial, #twominutespapers, #video, #visualization, #waveforms, #гумунитарии, #дьяконов, #книги, #отборочные
#alphafold2, #astronomy, #audio, #augmentation, #automl, #bayes, #biology, #botany, #captioning, #categorical, #chemistry, #classification, #clip, #cnn, #code, #community, #competition, #compression, #conference, #contrastivelearning, #course, #datasets, #debugging, #demo, #depth, #detection, #diffusion, #dilation, #dimensionality, #distillation, #earthscience, #economics, #explainability, #gan, #generative, #geometric, #gnn, #gpt, #gpu, #graph, #hardware, #holdontoyoirpapers, #image2text, #images, #inference, #joke, #julia, #jupyterlab, #jupyterlite, #labeling, #latex, #lnl, #medicine, #metrics, #mlp, #money, #multimodal, #nas, #news, #nlp, #noise, #novelviews, #optimizer, #outliers, #physics, #presentation, #python, #resnet, #resources, #rl, #rnn, #rocauc, #science, #scientificml, #segmentation, #SSL, #XAI, #separation, #sequences, #signal, #social, #sound, #speech, #styletransfer, #superresolution, #tabular, #text2image, #theory, #torrent, #training, #transformer, #translate, #tutorial, #twominutespapers, #video, #visualization, #waveforms, #гумунитарии, #дьяконов, #книги, #отборочные
Deep Neural Networks and Tabular Data: A Survey
Гетерогенные табличные данные являются наиболее часто используемой формой данных в науке и необходимы для многочисленных критически важных и требовательных к вычислениям приложений. На однородных наборах данных глубокие нейронные сети неоднократно демонстрировали отличную производительность и поэтому получили широкое распространение. Однако их применение для моделирования табличных данных (вывод или генерация) остается весьма проблематичным. В данной работе представлен обзор современных методов глубокого обучения для табличных данных.
Методы разделили на три группы: преобразования данных, специализированные архитектуры и модели регуляризации. По каждой группе предоставлен обзор основных подходов.
Основной вклад работы заключается в рассмотрении основных направлений исследований и существующих методологий в этой области, а также в выделении соответствующих проблем и открытых исследовательских вопросов.
Насколько я понимаю, это первый углубленный взгляд на подходы глубокого обучения для табличных данных. Работа может послужить ценной отправной точкой и руководством для исследователей и практиков, заинтересованных в глубоком обучении с использованием табличных данных.
Статья
#tabular #tables
Гетерогенные табличные данные являются наиболее часто используемой формой данных в науке и необходимы для многочисленных критически важных и требовательных к вычислениям приложений. На однородных наборах данных глубокие нейронные сети неоднократно демонстрировали отличную производительность и поэтому получили широкое распространение. Однако их применение для моделирования табличных данных (вывод или генерация) остается весьма проблематичным. В данной работе представлен обзор современных методов глубокого обучения для табличных данных.
Методы разделили на три группы: преобразования данных, специализированные архитектуры и модели регуляризации. По каждой группе предоставлен обзор основных подходов.
Основной вклад работы заключается в рассмотрении основных направлений исследований и существующих методологий в этой области, а также в выделении соответствующих проблем и открытых исследовательских вопросов.
Насколько я понимаю, это первый углубленный взгляд на подходы глубокого обучения для табличных данных. Работа может послужить ценной отправной точкой и руководством для исследователей и практиков, заинтересованных в глубоком обучении с использованием табличных данных.
Статья
#tabular #tables
This media is not supported in your browser
VIEW IN TELEGRAM
SubTab: Subsetting Features of Tabular Data for Self-Supervised Representation Learning
AstraZeneca выпустила статью и код по self-supervised learning для табличных (!) данных. Даже не задумывался что так можно было.
Одним из основных компонентов успеха self-supervised learning на изображениях, аудио и тексте является использование пространственной, временной и семантической структуры данных. Однако в табличках, такая структура может отсутствовать, что затрудняет разработку эффективного метода аугментации и препятствует аналогичному прогрессу в работе с табличными данными.
В этой статье авторы представляют новую структуру - Subsetting features of Tabular data (SubTab), которая превращает задачу обучения на основе табличных данных в задачу обучения на основе многовидового представления путем разделения входных характеристик на несколько подмножеств. Эксперименты показали, что SubTab достигает производительности SOTA 98,31% на MNIST в табличной версии.
📎Статья 🖥Код
#tables #SSL #tabular
AstraZeneca выпустила статью и код по self-supervised learning для табличных (!) данных. Даже не задумывался что так можно было.
Одним из основных компонентов успеха self-supervised learning на изображениях, аудио и тексте является использование пространственной, временной и семантической структуры данных. Однако в табличках, такая структура может отсутствовать, что затрудняет разработку эффективного метода аугментации и препятствует аналогичному прогрессу в работе с табличными данными.
В этой статье авторы представляют новую структуру - Subsetting features of Tabular data (SubTab), которая превращает задачу обучения на основе табличных данных в задачу обучения на основе многовидового представления путем разделения входных характеристик на несколько подмножеств. Эксперименты показали, что SubTab достигает производительности SOTA 98,31% на MNIST в табличной версии.
📎Статья 🖥Код
#tables #SSL #tabular