Forwarded from DL in NLP (Vlad Lialin)
Scalable Second Order Optimization for Deep Learning
arxiv.org/abs/2002.09018
На обзор статьи меня навёл вот этот трэд в твиттере. Главный его момент был в том, что авторы DALLE-mini столкнулись с тем, что большие версии модели склонны внезапно расходиться посреди тренировки. Перепробовав кучу оптимизаторов и lr они обнаружили что некий Distributed Shampoo сходится гораздо быстрее и стабильнее Adam и Adafactor.
Главное отличие Dist Shampoo от Adam в том, что это метод оптимизации второго порядка, типа метода Ньютона, LBFGS или KFAC. Для апдейта Shampoo использует не только градиент G, но и матрицы ковариации градиента G G^T и G^T G, которые нужно ещё и возвести в степень 1/4 (возводить матрицы в степень это боль, а когда степень < 1 это боль в кубе).
Dist Shampoo добавляет кучу хаков, чтобы ускорить Shampoo. Первый хак: для матриц эмбеддингов, размер которых [vocab_size, hidden] используют только G G^T, тк вычислять произведение [vocab_size, hidden] @ [hidden, vocab_size] относительно дешево, а [hidden, vocab_size] @ [vocab_size, hidden] - безумно долго, тк vocab_size обычно раз в 50 больше hidden. Второй хак: в любом матричном произведении, если hidden очень большой, матрицу разбивают на N блоков размера hidden/N и вычисляют ковариации только этих блоков. Третий хак уже более хитрый: матрицы ковариации пересчитывают не на каждом шаге оптимизации, а только каждые ~100 шагов. Идея в том, что их рассчёт происходит на отдельной GPU/TPU параллельно обучению сети.
В оригинальной статье показали, что с помощью Dist Shampoo можно обучать трансформеры размером в 100M параметров за примерно в полтора раза меньшее время, чем Adam.
Подробнее про Distributed Shampoo:
1. WandB Report с DALLE mini
1. Имплементация на Jax
arxiv.org/abs/2002.09018
На обзор статьи меня навёл вот этот трэд в твиттере. Главный его момент был в том, что авторы DALLE-mini столкнулись с тем, что большие версии модели склонны внезапно расходиться посреди тренировки. Перепробовав кучу оптимизаторов и lr они обнаружили что некий Distributed Shampoo сходится гораздо быстрее и стабильнее Adam и Adafactor.
Главное отличие Dist Shampoo от Adam в том, что это метод оптимизации второго порядка, типа метода Ньютона, LBFGS или KFAC. Для апдейта Shampoo использует не только градиент G, но и матрицы ковариации градиента G G^T и G^T G, которые нужно ещё и возвести в степень 1/4 (возводить матрицы в степень это боль, а когда степень < 1 это боль в кубе).
Dist Shampoo добавляет кучу хаков, чтобы ускорить Shampoo. Первый хак: для матриц эмбеддингов, размер которых [vocab_size, hidden] используют только G G^T, тк вычислять произведение [vocab_size, hidden] @ [hidden, vocab_size] относительно дешево, а [hidden, vocab_size] @ [vocab_size, hidden] - безумно долго, тк vocab_size обычно раз в 50 больше hidden. Второй хак: в любом матричном произведении, если hidden очень большой, матрицу разбивают на N блоков размера hidden/N и вычисляют ковариации только этих блоков. Третий хак уже более хитрый: матрицы ковариации пересчитывают не на каждом шаге оптимизации, а только каждые ~100 шагов. Идея в том, что их рассчёт происходит на отдельной GPU/TPU параллельно обучению сети.
В оригинальной статье показали, что с помощью Dist Shampoo можно обучать трансформеры размером в 100M параметров за примерно в полтора раза меньшее время, чем Adam.
Подробнее про Distributed Shampoo:
1. WandB Report с DALLE mini
1. Имплементация на Jax
Twitter
Boris Dayma 🥑
We just finished comparing Adam, Adafactor & Distributed Shampoo (thanks to @_arohan_) for dalle-mini training 🥳 TLDR: Distributed Shampoo is 🔥 and will become the new default for dalle-mini 🥑
Forwarded from karpik.realtime
This media is not supported in your browser
VIEW IN TELEGRAM
чудесный подгон от спейсфиллера - основы симуляции биологических организмов
https://notes.spacefiller.space/living-wall/
https://notes.spacefiller.space/living-wall/
🔥3
Forwarded from Не нравится
>this diagram of one of the mass graves resulting from collective lethal violence during the Linearbandkeramik period in the neolithic goes so hard lowkey
В треде по ссылке ещё картинки: https://twitter.com/policefala/status/1486908554623832064
В треде по ссылке ещё картинки: https://twitter.com/policefala/status/1486908554623832064
🎉1
Forwarded from Мишин Лернинг
🎓🔥 OpenAI обучили нейросеть для решения задач олимпиадой математики, способную доказывать теоремы
OpenAI создали нейронный прувер теорем, который научился решать множество сложных задач олимпиадой математики, включая задачи соревнований AMC12 и AIME.
Это языковая модель для построения формальных доказательств и утверждений. Формально — GPT-3 с 774M обучаемыми параметрами (36тислойный трансформер).
Обучение происходит по методологии expert iteration: каждый раз, когда находится новое доказательство, оно поступает в датесет новых данных для обучения, что улучшает нейронную сеть и позволяет ей итеративно находить решения для все более и более сложных задач.
📑 paper 📝 blog post
OpenAI создали нейронный прувер теорем, который научился решать множество сложных задач олимпиадой математики, включая задачи соревнований AMC12 и AIME.
Это языковая модель для построения формальных доказательств и утверждений. Формально — GPT-3 с 774M обучаемыми параметрами (36тислойный трансформер).
Обучение происходит по методологии expert iteration: каждый раз, когда находится новое доказательство, оно поступает в датесет новых данных для обучения, что улучшает нейронную сеть и позволяет ей итеративно находить решения для все более и более сложных задач.
📑 paper 📝 blog post
🔥2
∅
https://liltinkerer.surge.sh/noscript.html
https://github.com/gorhill/uMatrix
look like an alternative
upd: even more cool stuff
https://digdeeper.neocities.org/ghost/addons.html
look like an alternative
upd: even more cool stuff
https://digdeeper.neocities.org/ghost/addons.html
GitHub
GitHub - gorhill/uMatrix: uMatrix: Point and click matrix to filter net requests according to source, destination and type
uMatrix: Point and click matrix to filter net requests according to source, destination and type - gorhill/uMatrix
https://www.cambridge.org/core/elements/theoretical-computer-science-for-the-working-category-theorist/5F3499D1F326D2D77567AA1041627699#
Using basic category theory, this Element describes all the central concepts and proves the main theorems of theoretical computer science. Category theory, which works with functions, processes, and structures, is uniquely qualified to present the fundamental results of theoretical computer science. In this Element, readers will meet some of the deepest ideas and theorems of modern computers and mathematics, such as Turing machines, unsolvable problems, the P=NP question, Kurt Gödel's incompleteness theorem, intractable problems, cryptographic protocols, Alan Turing's Halting problem, and much more. The concepts come alive with many examples and exercises.
Using basic category theory, this Element describes all the central concepts and proves the main theorems of theoretical computer science. Category theory, which works with functions, processes, and structures, is uniquely qualified to present the fundamental results of theoretical computer science. In this Element, readers will meet some of the deepest ideas and theorems of modern computers and mathematics, such as Turing machines, unsolvable problems, the P=NP question, Kurt Gödel's incompleteness theorem, intractable problems, cryptographic protocols, Alan Turing's Halting problem, and much more. The concepts come alive with many examples and exercises.
Forwarded from Axis of Ordinary
This media is not supported in your browser
VIEW IN TELEGRAM
"Distributive laws for pseudomonads." by F. Marmolejo
Paper: http://directory.umm.ac.id/Journals/Journal_of_mathematics/TAC/n5_13.pdf
Video via @andre_videla
Paper: http://directory.umm.ac.id/Journals/Journal_of_mathematics/TAC/n5_13.pdf
Video via @andre_videla
Forwarded from Axis of Ordinary
What are “shape rotators” and “wordcels”? An explanation: https://roonscape.substack.com/p/a-song-of-shapes-and-words
Forwarded from сладко стянул
это из "очень элементарного введения в пучки" (пару дней назад на архив кто-то положил). Не воспринимаю всерьёз потому что автор не собирается отличать предпучки от пучков, из соображений элементарности изложения. Ну а для понятия предпучка вообще никакой интуиции как будто не нужно. Может, я и не прав
https://www.youtube.com/watch?v=6eWG7x_6Y5U
computational schizo-psychology meets Schrodinger equation
big shitpost energy
computational schizo-psychology meets Schrodinger equation
big shitpost energy
YouTube
Entangling Conscious Agents, Donald Hoffman
Scientific investigations of consciousness that seek its biological basis typically assume that objects in space-time—such as neurons—exist even if unperceived, and have causal powers. I evaluate this assumption, using evolutionary games and genetic algorithms…