465 subscribers
478 photos
23 videos
36 files
942 links
Download Telegram
Forwarded from Axis of Ordinary
"Google just released a 442-author paper about a monster new test suite for evaluating Large Language Models (GPT-3 and the like), and in particular, their study of the language models' performance on their test suite as the number of parameters is scaled. As a striking example, see below for a neural net's ability to guess a movie from emojis (rather than, say, outputting random nonsense) as the number of parameters is gradually scaled from 2 million all the way to 128 billion." (via Scott Aaronson )

https://github.com/google/BIG-bench/blob/main/docs/paper/BIG-bench.pdf

This should be a little bit worrying because it makes it difficult to predict future progress. They are not just getting predictably better with more training, data, and parameters but sometimes capabilities emerge in a jumpy and unpredictable way. There can be sudden phase transitions.
🎉4
http://flatkill.org/
who could have guessed
Forwarded from AbstractDL
Недообученные нейросети — лучшие feature экстракторы

К удивительному выводу пришли две независимые группы исследователей из Google и Baidu — чем дольше учить нейронную сеть, тем хуже выразительная способность её фичей. То есть, не смотря на рост top-1 accuracy по мере обучения, качество её репрезентаций в какой-то момент начинает падать!

VGG и AlexNet давно известны тем, что их фичи отлично подходят для оценки perceptual similarity, но оказалось, что и все современные SOTA модели тоже подходят — просто надо брать не самый последний чекпоинт.

Более того, похоже, что для down-stream задач тоже лучше использовать эмбеддинги от недообученных моделей.

P.S. Проблема в том, что в какой-то момент модель становится настолько умной, что её фичи только она сама и понимает 🤷‍♂️

статья1, статья2