∅ – Telegram

Forwarded from vvilderness ov mirrors [tigrve kvlt]

👍1

80 views15:37

Forwarded from DL in NLP (Vlad Lialin)

Scalable Second Order Optimization for Deep Learning
arxiv.org/abs/2002.09018

На обзор статьи меня навёл вот этот трэд в твиттере. Главный его момент был в том, что авторы DALLE-mini столкнулись с тем, что большие версии модели склонны внезапно расходиться посреди тренировки. Перепробовав кучу оптимизаторов и lr они обнаружили что некий Distributed Shampoo сходится гораздо быстрее и стабильнее Adam и Adafactor.

Главное отличие Dist Shampoo от Adam в том, что это метод оптимизации второго порядка, типа метода Ньютона, LBFGS или KFAC. Для апдейта Shampoo использует не только градиент G, но и матрицы ковариации градиента G G^T и G^T G, которые нужно ещё и возвести в степень 1/4 (возводить матрицы в степень это боль, а когда степень < 1 это боль в кубе).

Dist Shampoo добавляет кучу хаков, чтобы ускорить Shampoo. Первый хак: для матриц эмбеддингов, размер которых [vocab_size, hidden] используют только G G^T, тк вычислять произведение [vocab_size, hidden] @ [hidden, vocab_size] относительно дешево, а [hidden, vocab_size] @ [vocab_size, hidden] - безумно долго, тк vocab_size обычно раз в 50 больше hidden. Второй хак: в любом матричном произведении, если hidden очень большой, матрицу разбивают на N блоков размера hidden/N и вычисляют ковариации только этих блоков. Третий хак уже более хитрый: матрицы ковариации пересчитывают не на каждом шаге оптимизации, а только каждые ~100 шагов. Идея в том, что их рассчёт происходит на отдельной GPU/TPU параллельно обучению сети.

В оригинальной статье показали, что с помощью Dist Shampoo можно обучать трансформеры размером в 100M параметров за примерно в полтора раза меньшее время, чем Adam.

Подробнее про Distributed Shampoo:
1. WandB Report с DALLE mini
1. Имплементация на Jax

Twitter

Boris Dayma 🥑

We just finished comparing Adam, Adafactor & Distributed Shampoo (thanks to @_arohan_) for dalle-mini training 🥳 TLDR: Distributed Shampoo is 🔥 and will become the new default for dalle-mini 🥑

102 views20:40

∅

Forwarded from karpik.realtime

0:15

This media is not supported in your browser

VIEW IN TELEGRAM

чудесный подгон от спейсфиллера - основы симуляции биологических организмов

https://notes.spacefiller.space/living-wall/

🔥3

89 views20:10

∅

Forwarded from PolitiCAS

This channel is dedicated to modelling politics using complex adaptive systems. The objective is to apply complexity theory to correctly model the political world, it's problems and solutions.

79 views12:19

∅

Forwarded from Не нравится

>this diagram of one of the mass graves resulting from collective lethal violence during the Linearbandkeramik period in the neolithic goes so hard lowkey

В треде по ссылке ещё картинки: https://twitter.com/policefala/status/1486908554623832064

🎉1

74 views12:07

∅

Forwarded from Мишин Лернинг

🎓🔥 OpenAI обучили нейросеть для решения задач олимпиадой математики, способную доказывать теоремы

OpenAI создали нейронный прувер теорем, который научился решать множество сложных задач олимпиадой математики, включая задачи соревнований AMC12 и AIME.

Это языковая модель для построения формальных доказательств и утверждений. Формально — GPT-3 с 774M обучаемыми параметрами (36тислойный трансформер).

Обучение происходит по методологии expert iteration: каждый раз, когда находится новое доказательство, оно поступает в датесет новых данных для обучения, что улучшает нейронную сеть и позволяет ей итеративно находить решения для все более и более сложных задач.

📑 paper 📝 blog post

🔥2

73 views20:30

∅

https://liltinkerer.surge.sh/noscript.html

75 views20:03

∅

https://liltinkerer.surge.sh/noscript.html

https://github.com/gorhill/uMatrix
look like an alternative
upd: even more cool stuff
https://digdeeper.neocities.org/ghost/addons.html

GitHub

GitHub - gorhill/uMatrix: uMatrix: Point and click matrix to filter net requests according to source, destination and type

uMatrix: Point and click matrix to filter net requests according to source, destination and type - gorhill/uMatrix

81 viewsedited 20:09

∅

https://www.youtube.com/watch?v=7KMcXHwQzZs

YouTube

Michael Bronstein | Neural diffusion PDEs, differential geometry, and graph neural networks

2/2/2022 CMSA New Technologies in Mathematics Seminar

Speaker: Michael Bronstein, University of Oxford and Twitter

Title: Neural diffusion PDEs, differential geometry, and graph neural networks

Abstract: In this talk, I will make connections between Graph…

93 views15:55

∅

https://www.cambridge.org/core/elements/theoretical-computer-science-for-the-working-category-theorist/5F3499D1F326D2D77567AA1041627699#

Using basic category theory, this Element describes all the central concepts and proves the main theorems of theoretical computer science. Category theory, which works with functions, processes, and structures, is uniquely qualified to present the fundamental results of theoretical computer science. In this Element, readers will meet some of the deepest ideas and theorems of modern computers and mathematics, such as Turing machines, unsolvable problems, the P=NP question, Kurt Gödel's incompleteness theorem, intractable problems, cryptographic protocols, Alan Turing's Halting problem, and much more. The concepts come alive with many examples and exercises.

87 views12:14

∅

Forwarded from Axis of Ordinary

0:34

This media is not supported in your browser

VIEW IN TELEGRAM

"Distributive laws for pseudomonads." by F. Marmolejo

Paper: http://directory.umm.ac.id/Journals/Journal_of_mathematics/TAC/n5_13.pdf

Video via @andre_videla

73 views13:21

∅

Forwarded from Axis of Ordinary

What are “shape rotators” and “wordcels”? An explanation: https://roonscape.substack.com/p/a-song-of-shapes-and-words

78 views13:21

∅

Forwarded from сладко стянул

это из "очень элементарного введения в пучки" (пару дней назад на архив кто-то положил). Не воспринимаю всерьёз потому что автор не собирается отличать предпучки от пучков, из соображений элементарности изложения. Ну а для понятия предпучка вообще никакой интуиции как будто не нужно. Может, я и не прав

77 views15:06

∅

https://www.youtube.com/watch?v=6eWG7x_6Y5U
computational schizo-psychology meets Schrodinger equation
big shitpost energy

YouTube

Entangling Conscious Agents, Donald Hoffman

Scientific investigations of consciousness that seek its biological basis typically assume that objects in space-time—such as neurons—exist even if unperceived, and have causal powers. I evaluate this assumption, using evolutionary games and genetic algorithms…

94 views19:09

∅

https://telegra.ph/SHCHo-ne-tak-z-D%D1%96yeyu-02-06

Telegraph

Що не так з Дією?

Громадянам України все більш наполегливо нав’язують Додаток Дія як безальтернативний засіб надання державних електронних послуг. Але у Дії існує ряд серйозних проблем: як з її архітектурною моделлю, так і з якістю її реалізації. Багато українців підсвідомо…