rizzearch

Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models

не первый год так получается, что чаще всего токенизатор фиттится отдельно от основной модели, которая потом и обучается с его помощью. только это может вызывать проблему недо-обученных или вовсе необученных токенов - таких токенов, из которых можно получить строку, а если снова эту строку закодировать, то получим другой токен (и получается к изначальному мы вернуться не сможем).

в основном известно, что такие токены появляются

- из-за ошибки кодировки utf-8
- из-за накладки при расширении вокабуляра
- специальные токены, заранее введенные с определенной целью (<s>)
- и другие (непонятно какие)

авторы из Cohere, компании которая полностью на ЛЛМках базируется, попытались решить эту проблемку

как они это сделали? вычли главную компоненту последней матрицы, которая эмбеддинги переводит в распределение над токенами, получили общий эмбеддинг неиспользуемого токена путем усреднения и далее по косинусному расстоянию сравнивали с заранее выбранными токенами для проверки

несмотря на то что у авторов был относительно большой трешхолд, все равно 0.1-1% токенов от общего вокабуляра отстают в натреннированности, что так-то много и влияет на эффективность инференса

есть красивые графики, которые показывают какую-то семантику в скрытых пространствах

и вообще много моделей они смогли протестить, в том числе и получить некоторые результаты на закрытых (тот же опенаи), таблички все вставить сюда не сможем, но ссылку мы как всегда прикрепляем

+ конечно выложен код такой процедуры, что очень приятно

👀LINK

👍3🤔1

477 views16:27

rizzearch

Reinformer: Max-Return Sequence Modeling for offline RL

Есть такая замечательная статья - Decision Transformer, которая показала, как можно совместить трансформеры и супервайзд лернинг в рле, преимущественно в оффлайн рле (потому что есть статический датасет, но идею обобщили и до онлайн сеттинга)

так вот, загвоздка в том, что от рля в постановке модели там данные - все обучение происходит в привычном супервайзд стиле, а награды (и конкретнее returns-to-go, сумма наград с определенного таймстепа до конца эпизода) являются частью входных данных. при инференсе, кстати, мы сами выбираем, какой награды хотим достичь - скользкая дорожка на пути к ООД

но можно ли как-то на хоть на йоту приблизить трансформеры к тому, чтобы они были более рльными в плане обучения?

авторы предложили пока самый легкий вариант, который есть - заставить модель самой предсказывать максимальные ретерны, которые можно получить из конкретных состояний, а уже по ним она далее предсказывает оптимальное действие - и это работает! правда надо еще справиться с оод проблемами в моделировании награды, а с этим справляется ассиметричный мсе лосс

да и в общем и целом, весь метод кодится максимум за вечер-два

как это и происходит очень часто, простые идеи выстреливают

👀LINK

👍3

376 views14:02

rizzearch

Effectiveness of an intermittent fasting diet versus regular diet on fat loss in overweight and obese middle-aged and elderly people without metabolic disease: a systematic review and meta-analysis of randomized controlled trials

Недавно был опубликован мета-анализ, который подтверждает эффективность периодического голодания.

Ученые проанализировали 9 рандомизированных контролируемых работ и пришли к выводу, что:

IF reduces BMI and triglyceride levels compared to a normal diet, primarily by reducing fat mass while maintaining lean body mass, making it a healthy and effective weight loss solution.

форрест плот все наглядно демонстрирует

👀LINK

🌭9👎1

364 views17:52

rizzearch

Я так понимаю, никто не обратил внимание, что тут рисерч по совершенно другой науке 🤔

🤔

Please open Telegram to view this post

VIEW IN TELEGRAM

🥴8❤3

394 views18:01

rizzearch

Jack of All Trades, Master of Some, a Multi-Purpose Transformer Agent

ребятам из хаггинг фейс надоело, что так мало подвижек в рле в сторону foundation models, и они решили это исправить

вдохновившись результатами Gato с 596 тасками, где модель не завязана только на текстовых данных и может обрабатывать гетерогенные рл данные, авторы этой папиры решили пойти еще дальше - сделать модель поменьше, датасет тоже поменьше (157 тасок), но зато выложить в опенсурс и веса, и данные

итак, что же умеет авторский мульти таск трансформер, так называемый Jack of All Trades (JAT)?

- image captioning
- (funny) language modelling
- играть хорошо в атари
- нормально перформить в муджоко
- а так же BabyAI & MetaWorld
- так же моделька может декодить картинки, но авторы не обучали ее на это

не менее (а может и даже более) важен датасет, который они выложили - модальности в виде картинок реальных, текста и многих видов обсервейшнов из рл сред для разных тасок ⇒ с такой экипировкой и to the moon недалеко 🚀

👀LINK

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4😱4

483 views18:27

rizzearch

Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

Oh God, неужели наконец решили (холиварную) тему ограниченного контекста трансформеров - и получили бесконечный контекст при фиксированном компьюте брррррр

что же придумали авторы из гугла - давайте будем хранить в качестве памяти скользящее среднее (по сегментам) дот продакта между V и f(K), где f это какая-то нонлинеарити. затем такую память скармливаем с запросами (queries, Q) из нынешнего сегмента ⇒ получаем “аттеншн мапы” , которые потом суммируем взвешенного с обычным механизмом внимания ⇒ вот нам и бесконечный контекст, не так ли?

напоминает то, что придумали в TransformerXL, однако там история берется только по предыдущему сегменту, а не по всем, как тут. да и по сути компрессив мемори из инфини-аттеншна есть не что иное, как associative memory (которое мы упоминали здесь и здесь)

по факту это все выглядит как рнн со всеми ее недостатками (что вся история и память компрессится в один объект - в рнн в хидден стейт а тут в компрессив мемори) и при том без ее преимуществ, как бэкпроп во времени

к тому же и сами авторы отмечают, что их аттеншн по памяти происходит линейный - да, между нелинейными преобразованиями f(Q)f(K), но это не оч хорошо аппроксимирует софтмакс из стандартного аттна - а это сильно так бьет по перформансу на более сложных тасках (as far as I know)

коэффициент ЕМА, который соединяет аттеншн, полученный по предыдущей памяти, с аттеншном на данном сегменте (то есть классический) - обучаемый, но он никак не зависит от инпута - задается просто какой-то приор таким образом, ничем не лучше фиксированного гипера - его перебирать не надо руками или свипом, вот и вся разница

но если весь мой скепсис напрасен и это действительно работает - так только лучше 🙏

👀LINK

да, без лекций с индусами никуда

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👏3👍1

542 views14:13

rizzearch

Looped Transformers are Better at Learning Learning Algorithms

in-context learning (ICL)—the ability to infer a conditional or unconditional distribution over natural language strings simply by performing next-token prediction following a sequence of examples from the distribution of interest.

Повторили определение авторов отсюда (оно мне нравится)

трансформеры обычное большие, это да. и даже если они маленькие относительно других трансформеров, они будут скорее всего большими по сравнению с млп или еще чем-то (глубокая мысль.)

есть такого рода данные, которые подвержены итеративной структуре, например, learning algorithms, с которыми легко изучать и получать ICL

However, итеративная структура напрямую не введена в архитектуру трансформера, что может вызывать трудности для модели при обучении (несмотря на то, что и без этой структуры трансформер вполне отлично может справиться)

авторы решили посмотреть, а что может Looped Transformer, в котором есть итеративность (что кстати может ускорить модель из-за ее гораздно меньшего размера) ⇒ и у него получается лучше фиттиться на данных, в которых есть тенденция обучения (learning learning algorithms hehe)

who knows, может это найдет свой сильный отголосок в рл и смежных путях

👀LINK

👍5❤2🤔2

492 views16:25

rizzearch

SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking

авторы очень ясно подняли вопрос накопительной ошибки (как снежный ком) у авторегрессионных языковых моделей: если в какой-то момент на инференсе модель выдает оод относительно трейн данных, то дальше все идет по накатанной

если переформулировать вопрос генерации текстовых последовательностей как марковский процесс принятия решений (MDP, выглядит уже как тренд, потому что появлялось и здесь), то можно использовать наработки из imitation learning’a, которые минимизируют другие дивергенции, не KL, штрафующие оод выходы модели более жестко

И их можно использовать и в нлп таким образом - в этой работе используется хи-квадрат дивергенция, и не просто между распределением модели и данных, а между распределением модели и средним арифметическим обоих

Furthermore, авторы ввели новый токен, который значит backspace - если модель поняла, что надо откатиться, то она может это сделать ⇒ для этого надо было подправить процесс генерации и маскирования + это не вызывает проблем с KV кешем, просто роллимся назад если что

по результатам обгоняет стандартный сетап с Maxiumum Likelihood Estimation (который соответствует КЛ дивергенции) на генерации текста и арифметике, но с небольшим оверхедом из-за возможности бекапаться

👀LINK

👍4❤1

491 views12:53

About

Blog

Apps

Platform