Ссылка на сегодняшний семинар про использование эволюционной информации в DL. В программе Байесовский вариационный автоэнкодер для предсказания эффекта мутаций и contrastive learning на белках в реализации SimCLR. Начало в 19:00.
Instance-level contrastive learning yields human brain-like representation without category-supervision
Текст: https://www.biorxiv.org/content/10.1101/2020.06.15.153247v1
Неожиданный бенчмарк архитектур и способов их обучения. Авторы проверили, насколько представления картинок, выученные нейросетями, похожи на те, что формируются в зрительной коре человеческого мозга.
Сетки разных архитектур (Alexnet, Resnet, Cornet) учили на аугментированном картиночном датасете ImageNet в двух режимах. В supervised режиме сетку учили правильно определять класс картинки, а в unsupervised сетка должна была, не зная классов, выучить для картинок хорошие низкоразмерные представления — эмбеддинги. Хорошесть эмбеддингов определялась через contrastive loss — требовалось, чтобы похожие изображения (размноженные варианты одной и той же исходной картинки) давали близкие эмбеддинги, а непохожие — далекие.
После обучения каждой сетке показывали 72 новые картинки разных неодушевленных предметов и сравнивали эмбеддинги сетки с активациями зрительной коры живых людей, которым в предыдущем исследовании показывали ровно те же самые 72 картинки.
Напрямую сопоставить нейроны искусственной сетки участкам мозга нельзя, поэтому для сравнения использовали следующий трюк. Смотрели, насколько похожи между собой представления всех возможных пар картинок — в сетке и в мозге. Например, если картинки A и В активируют зрительную кору похожим образом, а картинка C — каким-то совсем другим, то и от сетки, работающей по похожему на мозг принципу, разумно ожидать такого же соотношения между эмбеддингами этих картинок.
Оказалось, что по паттерну схожести представлений больше всего на зрительную кору похожи те сетки, которые учились методом contrastive learning. Все эмбеддинги, получаемые supervised методом, меньше похожи на мозг. Что, по мнению авторов, и не удивительно: мозгу не требуются миллионы размеченных картинок, чтобы научиться различать классы объектов, — а значит, он учится больше в unsupervised режиме.
К разбору не предлагаем.
Текст: https://www.biorxiv.org/content/10.1101/2020.06.15.153247v1
Неожиданный бенчмарк архитектур и способов их обучения. Авторы проверили, насколько представления картинок, выученные нейросетями, похожи на те, что формируются в зрительной коре человеческого мозга.
Сетки разных архитектур (Alexnet, Resnet, Cornet) учили на аугментированном картиночном датасете ImageNet в двух режимах. В supervised режиме сетку учили правильно определять класс картинки, а в unsupervised сетка должна была, не зная классов, выучить для картинок хорошие низкоразмерные представления — эмбеддинги. Хорошесть эмбеддингов определялась через contrastive loss — требовалось, чтобы похожие изображения (размноженные варианты одной и той же исходной картинки) давали близкие эмбеддинги, а непохожие — далекие.
После обучения каждой сетке показывали 72 новые картинки разных неодушевленных предметов и сравнивали эмбеддинги сетки с активациями зрительной коры живых людей, которым в предыдущем исследовании показывали ровно те же самые 72 картинки.
Напрямую сопоставить нейроны искусственной сетки участкам мозга нельзя, поэтому для сравнения использовали следующий трюк. Смотрели, насколько похожи между собой представления всех возможных пар картинок — в сетке и в мозге. Например, если картинки A и В активируют зрительную кору похожим образом, а картинка C — каким-то совсем другим, то и от сетки, работающей по похожему на мозг принципу, разумно ожидать такого же соотношения между эмбеддингами этих картинок.
Оказалось, что по паттерну схожести представлений больше всего на зрительную кору похожи те сетки, которые учились методом contrastive learning. Все эмбеддинги, получаемые supervised методом, меньше похожи на мозг. Что, по мнению авторов, и не удивительно: мозгу не требуются миллионы размеченных картинок, чтобы научиться различать классы объектов, — а значит, он учится больше в unsupervised режиме.
К разбору не предлагаем.
Завтра в 18:10 будет онлайн-семинар на ФКН ВШЭ. Обещают два доклада, первый про использование механизма внимания для предсказания вторичной структуры ДНК, а второй — про динамику репостов в соцсетях.
https://aspirantura.hse.ru/en/cs/announcements/440391999.html
https://aspirantura.hse.ru/en/cs/announcements/440391999.html
aspirantura.hse.ru
PhD Research Seminar: DNA secondary structures and the attention mechanism, social network"s critical phases and stochastic repost…
В следующую пятницу 26 марта в 18:00 Борис Бурков расскажет о методах оценки неопределенности предсказания нейросетей при помощи байесовских методов (вдогонку прошлому докладу про байесовский вариационный автокодировщик) по мотивам работ Ярина Гала и Зубина Гарамани.
Концепция вариационного дропаута построена на ряде идей-пререквизитов, и для раскрытия требует достаточно серьезной артподготовки. Поэтому программа-максимум доклада:
- пара слов об истории байесовских нейросетей
- байесовская регрессия
- ядерная регрессия
- гауссовы процессы
- вариационный вывод и ELBO, стохастический вариационный вывод
- регуляризация нейросетей, бинарный и гауссовский дропаут
- собственно вариационный дропаут
- прикладная конкретика: библиотека вероятностного программирования Uber Pyro
Концепция вариационного дропаута построена на ряде идей-пререквизитов, и для раскрытия требует достаточно серьезной артподготовки. Поэтому программа-максимум доклада:
- пара слов об истории байесовских нейросетей
- байесовская регрессия
- ядерная регрессия
- гауссовы процессы
- вариационный вывод и ELBO, стохастический вариационный вывод
- регуляризация нейросетей, бинарный и гауссовский дропаут
- собственно вариационный дропаут
- прикладная конкретика: библиотека вероятностного программирования Uber Pyro
Напоминаем, что сегодня в 18:00 будет семинар про байесовские методы. Ссылка на зум.
variational-dropout-1.html
1.8 MB
Запись и презентация предыдущего семинара. Успели очень немного, поэтому в эту пятницу в 18:00 будет вторая часть, в начале которой тезисно повторим первую.
Напоминаем, что сегодня в 18:00 будет продолжение семинара про байесовские методы. Ссылка на зум.
variational-dropout-2.html
1.8 MB
Запись вчерашнего семинара. Презентация приложена.
Relation-Guided Representation Learning
Текст: https://www.sciencedirect.com/science/article/abs/pii/S0893608020302550
Код: https://github.com/nbShawnLu/RGRL
Автоэнкодеры часто используют для уменьшения размерности данных. При уменьшении размерности хочется, чтобы похожие образцы отображались в близкие точки, а не похожие — в далекие. Однако стандартные процедуры обучения энкодеров этого в явном виде не гарантируют. Здесь авторы предлагают простую модификацию, которая заставляет автоэнкодер учитывать расстояния между образцами.
Функция похожести — одна и та же для образцов и их низкоразмерных представлений (эмбеддингов), — обучается одновременно с весами всей остальной сетки. При этом на выходе из декодера требуется восстановить уже не просто что-то похожее на входной образец, а еще и похожее одновременно на другие близкие ему образцы. По идее это требование должно делать эмбеддинги более гладкими.
Авторы применяют свой подход к нескольким простым картиночным датасетам, состоящим из кластеров: так, например, в MNIST один кластер составляют картинки с одной и той же цифрой. Оказывается, что функции похожести, выученные в процессе такого обучения, позволяют очень хорошо кластеризовать картинки, даже используя сетки с тремя сверточными слоями.
Текст: https://www.sciencedirect.com/science/article/abs/pii/S0893608020302550
Код: https://github.com/nbShawnLu/RGRL
Автоэнкодеры часто используют для уменьшения размерности данных. При уменьшении размерности хочется, чтобы похожие образцы отображались в близкие точки, а не похожие — в далекие. Однако стандартные процедуры обучения энкодеров этого в явном виде не гарантируют. Здесь авторы предлагают простую модификацию, которая заставляет автоэнкодер учитывать расстояния между образцами.
Функция похожести — одна и та же для образцов и их низкоразмерных представлений (эмбеддингов), — обучается одновременно с весами всей остальной сетки. При этом на выходе из декодера требуется восстановить уже не просто что-то похожее на входной образец, а еще и похожее одновременно на другие близкие ему образцы. По идее это требование должно делать эмбеддинги более гладкими.
Авторы применяют свой подход к нескольким простым картиночным датасетам, состоящим из кластеров: так, например, в MNIST один кластер составляют картинки с одной и той же цифрой. Оказывается, что функции похожести, выученные в процессе такого обучения, позволяют очень хорошо кластеризовать картинки, даже используя сетки с тремя сверточными слоями.