462 subscribers
478 photos
23 videos
36 files
941 links
Download Telegram
👍1
Forwarded from DL in NLP (Vlad Lialin)
Scalable Second Order Optimization for Deep Learning
arxiv.org/abs/2002.09018

На обзор статьи меня навёл вот этот трэд в твиттере. Главный его момент был в том, что авторы DALLE-mini столкнулись с тем, что большие версии модели склонны внезапно расходиться посреди тренировки. Перепробовав кучу оптимизаторов и lr они обнаружили что некий Distributed Shampoo сходится гораздо быстрее и стабильнее Adam и Adafactor.

Главное отличие Dist Shampoo от Adam в том, что это метод оптимизации второго порядка, типа метода Ньютона, LBFGS или KFAC. Для апдейта Shampoo использует не только градиент G, но и матрицы ковариации градиента G G^T и G^T G, которые нужно ещё и возвести в степень 1/4 (возводить матрицы в степень это боль, а когда степень < 1 это боль в кубе).

Dist Shampoo добавляет кучу хаков, чтобы ускорить Shampoo. Первый хак: для матриц эмбеддингов, размер которых [vocab_size, hidden] используют только G G^T, тк вычислять произведение [vocab_size, hidden] @ [hidden, vocab_size] относительно дешево, а [hidden, vocab_size] @ [vocab_size, hidden] - безумно долго, тк vocab_size обычно раз в 50 больше hidden. Второй хак: в любом матричном произведении, если hidden очень большой, матрицу разбивают на N блоков размера hidden/N и вычисляют ковариации только этих блоков. Третий хак уже более хитрый: матрицы ковариации пересчитывают не на каждом шаге оптимизации, а только каждые ~100 шагов. Идея в том, что их рассчёт происходит на отдельной GPU/TPU параллельно обучению сети.

В оригинальной статье показали, что с помощью Dist Shampoo можно обучать трансформеры размером в 100M параметров за примерно в полтора раза меньшее время, чем Adam.

Подробнее про Distributed Shampoo:
1. WandB Report с DALLE mini
1. Имплементация на Jax
Forwarded from karpik.realtime
This media is not supported in your browser
VIEW IN TELEGRAM
чудесный подгон от спейсфиллера - основы симуляции биологических организмов

https://notes.spacefiller.space/living-wall/
🔥3
Forwarded from PolitiCAS
This channel is dedicated to modelling politics using complex adaptive systems. The objective is to apply complexity theory to correctly model the political world, it's problems and solutions.
Forwarded from Не нравится
>this diagram of one of the mass graves resulting from collective lethal violence during the Linearbandkeramik period in the neolithic goes so hard lowkey

В треде по ссылке ещё картинки: https://twitter.com/policefala/status/1486908554623832064
🎉1
🎓🔥 OpenAI обучили нейросеть для решения задач олимпиадой математики, способную доказывать теоремы

OpenAI создали нейронный прувер теорем, который научился решать множество сложных задач олимпиадой математики, включая задачи соревнований AMC12 и AIME.

Это языковая модель для построения формальных доказательств и утверждений. Формально — GPT-3 с 774M обучаемыми параметрами (36тислойный трансформер).

Обучение происходит по методологии expert iteration: каждый раз, когда находится новое доказательство, оно поступает в датесет новых данных для обучения, что улучшает нейронную сеть и позволяет ей итеративно находить решения для все более и более сложных задач.

📑
paper 📝 blog post
🔥2
https://www.cambridge.org/core/elements/theoretical-computer-science-for-the-working-category-theorist/5F3499D1F326D2D77567AA1041627699#

Using basic category theory, this Element describes all the central concepts and proves the main theorems of theoretical computer science. Category theory, which works with functions, processes, and structures, is uniquely qualified to present the fundamental results of theoretical computer science. In this Element, readers will meet some of the deepest ideas and theorems of modern computers and mathematics, such as Turing machines, unsolvable problems, the P=NP question, Kurt Gödel's incompleteness theorem, intractable problems, cryptographic protocols, Alan Turing's Halting problem, and much more. The concepts come alive with many examples and exercises.
Forwarded from Axis of Ordinary
What are “shape rotators” and “wordcels”? An explanation: https://roonscape.substack.com/p/a-song-of-shapes-and-words
это из "очень элементарного введения в пучки" (пару дней назад на архив кто-то положил). Не воспринимаю всерьёз потому что автор не собирается отличать предпучки от пучков, из соображений элементарности изложения. Ну а для понятия предпучка вообще никакой интуиции как будто не нужно. Может, я и не прав
👍4
Forwarded from _moire.experience}}%
👍3