Не от меня, так от пацанов во дворе увидите все равно:
Advancing AI theory with a first-principles understanding of deep neural networks.
#theory
Advancing AI theory with a first-principles understanding of deep neural networks.
#theory
Facebook
Advancing AI theory with a first-principles understanding of deep neural networks
Deep neural networks have long been considered too complex to understand from first principles — but new research does just that, presenting a theoretical framework for DNNs.
Тэги доступные в канале на данный момент:
#alphafold2, #astronomy, #audio, #augmentation, #automl, #bayes, #biology, #botany, #captioning, #categorical, #chemistry, #classification, #clip, #cnn, #code, #community, #competition, #compression, #conference, #contrastivelearning, #course, #datasets, #debugging, #demo, #depth, #detection, #diffusion, #dilation, #dimensionality, #distillation, #earthscience, #economics, #explainability, #gan, #generative, #geometric, #gnn, #gpt, #gpu, #graph, #hardware, #holdontoyoirpapers, #image2text, #images, #inference, #joke, #julia, #jupyterlab, #jupyterlite, #labeling, #latex, #lnl, #medicine, #metrics, #mlp, #money, #multimodal, #nas, #news, #nlp, #noise, #novelviews, #optimizer, #outliers, #physics, #presentation, #python, #resnet, #resources, #rl, #rnn, #rocauc, #science, #scientificml, #segmentation, #SSL, #XAI, #separation, #sequences, #signal, #social, #sound, #speech, #styletransfer, #superresolution, #tabular, #text2image, #theory, #torrent, #training, #transformer, #translate, #tutorial, #twominutespapers, #video, #visualization, #waveforms, #гумунитарии, #дьяконов, #книги, #отборочные
#alphafold2, #astronomy, #audio, #augmentation, #automl, #bayes, #biology, #botany, #captioning, #categorical, #chemistry, #classification, #clip, #cnn, #code, #community, #competition, #compression, #conference, #contrastivelearning, #course, #datasets, #debugging, #demo, #depth, #detection, #diffusion, #dilation, #dimensionality, #distillation, #earthscience, #economics, #explainability, #gan, #generative, #geometric, #gnn, #gpt, #gpu, #graph, #hardware, #holdontoyoirpapers, #image2text, #images, #inference, #joke, #julia, #jupyterlab, #jupyterlite, #labeling, #latex, #lnl, #medicine, #metrics, #mlp, #money, #multimodal, #nas, #news, #nlp, #noise, #novelviews, #optimizer, #outliers, #physics, #presentation, #python, #resnet, #resources, #rl, #rnn, #rocauc, #science, #scientificml, #segmentation, #SSL, #XAI, #separation, #sequences, #signal, #social, #sound, #speech, #styletransfer, #superresolution, #tabular, #text2image, #theory, #torrent, #training, #transformer, #translate, #tutorial, #twominutespapers, #video, #visualization, #waveforms, #гумунитарии, #дьяконов, #книги, #отборочные
Do Vision Transformers See Like Convolutional Neural Networks? (Google AI)
Недавние работы показали, что (Vision) Transformer models (ViT) могут достигать высокой производительности в задачах классификации изображений. В связи с этим возникает главный вопрос: как они эти задачи решают? Действуют ли они подобно сверточным сетям или учат совершенно другие визуальные представления?
Анализируя внутреннюю структуру представления ViTs и CNNs, авторы обнаружили поразительные различия между этими двумя архитектурами, например, ViT имеет более однородное представление во всех слоях. Оказалось, решающую роль играют self-attention, который позволяет рано агрегировать глобальную информацию, и остаточные связи ViT, которые передают признаки от нижних слоев к верхним.
Ещё авторы демонстрируют влияние предварительного обучения и масштаба датасетовна промежуточные признаки и transfer learning, и в заключение обсуждают связи с новыми архитектурами, такими как MLP-Mixer.
ArXiv
#transformer #image #Convolutions #theory
Недавние работы показали, что (Vision) Transformer models (ViT) могут достигать высокой производительности в задачах классификации изображений. В связи с этим возникает главный вопрос: как они эти задачи решают? Действуют ли они подобно сверточным сетям или учат совершенно другие визуальные представления?
Анализируя внутреннюю структуру представления ViTs и CNNs, авторы обнаружили поразительные различия между этими двумя архитектурами, например, ViT имеет более однородное представление во всех слоях. Оказалось, решающую роль играют self-attention, который позволяет рано агрегировать глобальную информацию, и остаточные связи ViT, которые передают признаки от нижних слоев к верхним.
Ещё авторы демонстрируют влияние предварительного обучения и масштаба датасетовна промежуточные признаки и transfer learning, и в заключение обсуждают связи с новыми архитектурами, такими как MLP-Mixer.
ArXiv
#transformer #image #Convolutions #theory
How Can Increased Randomness in Stochastic Gradient Descent Improve Generalization?
В недавних работах сообщается, что увеличение скорости обучения или уменьшение размера минимального батча в стохастическом градиентном спуске (SGD) может улучшить производительность на тесте. Авторы утверждают, что это ожидаемо при некоторых условиях в моделях с функцией потерь с несколькими локальными минимумами. Предлагается использовать приближенный, но аналитический подход, вдохновленный методами физики, для изучения роли скорости обучения SGD и размера батча в генерализации.
Авторы характеризуют производительность на тесте при сдвиге (data shift) между распределениями обучающих и тестовых данных для функций потерь с несколькими минимумами. Сдвиг может быть вызван просто выборкой и поэтому обычно присутствует в практических приложениях.
Оказывается, что вызванное этим сдвигом смещение локальных минимумов ухудшает производительность теста.
Еще показывают, что скорость обучения, деленная на размер минимального батча, играет роль, аналогичную температуре в статистической механике, и подразумевает, что СГД, включая его стационарное распределение, в значительной степени инвариантен к изменениям скорости обучения или размера батча, которые оставляют его температуру постоянной. Авторы показывают, что повышение температуры SGD способствует выбору локальных минимумов с меньшей кривизной и может обеспечить лучшее обобщение.
arXiv
#theory #training
В недавних работах сообщается, что увеличение скорости обучения или уменьшение размера минимального батча в стохастическом градиентном спуске (SGD) может улучшить производительность на тесте. Авторы утверждают, что это ожидаемо при некоторых условиях в моделях с функцией потерь с несколькими локальными минимумами. Предлагается использовать приближенный, но аналитический подход, вдохновленный методами физики, для изучения роли скорости обучения SGD и размера батча в генерализации.
Авторы характеризуют производительность на тесте при сдвиге (data shift) между распределениями обучающих и тестовых данных для функций потерь с несколькими минимумами. Сдвиг может быть вызван просто выборкой и поэтому обычно присутствует в практических приложениях.
Оказывается, что вызванное этим сдвигом смещение локальных минимумов ухудшает производительность теста.
Еще показывают, что скорость обучения, деленная на размер минимального батча, играет роль, аналогичную температуре в статистической механике, и подразумевает, что СГД, включая его стационарное распределение, в значительной степени инвариантен к изменениям скорости обучения или размера батча, которые оставляют его температуру постоянной. Авторы показывают, что повышение температуры SGD способствует выбору локальных минимумов с меньшей кривизной и может обеспечить лучшее обобщение.
arXiv
#theory #training
How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers (Google AI)
Visual Transformers (ViT) показали, что они достигают высокой конкурентоспособности в широком спектре задач зрения, таких как классификация изображений, обнаружение объектов и семантическая сегментация. По сравнению со сверточными нейронными сетями, более слабый индуктивный баес трансформатора зрения обычно приводит к увеличению зависимости от регуляризации модели или аугментации данных ("AugReg" для краткости) при обучении на небольших наборах данных. В статье проводится систематическое эмпирическое исследование взаимосвязанности между количеством обучающих данных, AugReg, размером модели и вычислительным бюджетом.
В результате этого исследования обнаружили, что сочетание увеличения вычислительных ресурсов и AugReg может выдавать модели с такой же производительностью, что и модели, обученные на значительно большем количестве обучающих данных.
arXiv
#transformer #images #training #theory
Visual Transformers (ViT) показали, что они достигают высокой конкурентоспособности в широком спектре задач зрения, таких как классификация изображений, обнаружение объектов и семантическая сегментация. По сравнению со сверточными нейронными сетями, более слабый индуктивный баес трансформатора зрения обычно приводит к увеличению зависимости от регуляризации модели или аугментации данных ("AugReg" для краткости) при обучении на небольших наборах данных. В статье проводится систематическое эмпирическое исследование взаимосвязанности между количеством обучающих данных, AugReg, размером модели и вычислительным бюджетом.
В результате этого исследования обнаружили, что сочетание увеличения вычислительных ресурсов и AugReg может выдавать модели с такой же производительностью, что и модели, обученные на значительно большем количестве обучающих данных.
arXiv
#transformer #images #training #theory
High-Dimensional Bayesian Optimisation with Variational Autoencoders and Deep Metric Learning
Метод, основанный на глубоком метрическом обучении, для выполнения байесовской оптимизации над высокоразмерными структурированными входными пространствами с использованием вариационных автоэнкодеров (VAE). Авторы решают давнюю проблему в байесовской оптимизации для высокоразмерных VAE, а именно, как обеспечить дискриминативное латентное пространство в качестве индуктивного баеса.
Статья
#theory #training #baes #autoencoders #ScientificML
Метод, основанный на глубоком метрическом обучении, для выполнения байесовской оптимизации над высокоразмерными структурированными входными пространствами с использованием вариационных автоэнкодеров (VAE). Авторы решают давнюю проблему в байесовской оптимизации для высокоразмерных VAE, а именно, как обеспечить дискриминативное латентное пространство в качестве индуктивного баеса.
Статья
#theory #training #baes #autoencoders #ScientificML
This media is not supported in your browser
VIEW IN TELEGRAM
How Computationally Complex Is a Single Neuron?
Вычислительные нейробиологи научили искусственную нейронную сеть имитировать биологический нейрон. Полученный результат позволяет по-новому взглянуть на сложность отдельных клеток мозга.
Статья на QuantaMagazine
Статья
Код
#theory #SceintificML
Вычислительные нейробиологи научили искусственную нейронную сеть имитировать биологический нейрон. Полученный результат позволяет по-новому взглянуть на сложность отдельных клеток мозга.
Статья на QuantaMagazine
Статья
Код
#theory #SceintificML
WeightWatcher (WW) - это диагностический инструмент с открытым исходным кодом для анализа глубоких нейронных сетей (DNN), не требующий доступа к обучающим или даже тестовым данным. Он может быть использован для:
* анализа предобученых сетей
* контроля за переобучением или перепараметризацией
* прогноза точности тестов для различных моделей, с обучающими данными или без них
* выявления потенциальных проблем при сжатии или точной настройке предварительно обученных моделей
И ещё много чего. Библиотека основана на серьезных исследованиях лаборатории в Беркли. Собираюсь дать этой штуке шанс и посмотреть насколько это все полезно в реальных задачах.
🖥 Код
#training #inference #theory
* анализа предобученых сетей
* контроля за переобучением или перепараметризацией
* прогноза точности тестов для различных моделей, с обучающими данными или без них
* выявления потенциальных проблем при сжатии или точной настройке предварительно обученных моделей
И ещё много чего. Библиотека основана на серьезных исследованиях лаборатории в Беркли. Собираюсь дать этой штуке шанс и посмотреть насколько это все полезно в реальных задачах.
🖥 Код
#training #inference #theory