rizzearch

Linear Transformers with Learnable Kernel Functions are Better In-Context Models

возвращаясь к линейным аттеншнам (мы уже писали про классную статью об этом), наши ребята смогли улучшить базированную (based) идею, которая до этого считалась что-то типа классикой

итак - в линейном аттеншне тем или иным образом с feature map’ами стараются аппроксимировать оригинальный аттеншн, где есть возведение экспоненты в степень. Ну и based делал это через разложение в тейлора до второй степени. и было круто

все бы ничего - только экспонента на то и экспонента, что не парабола. откидываем серьезную часть того, что называется о малое (или что-то типо того я чет уже не помню), а это сильно влияет во время оптимизации - разные точки экстремума, манера возрастания/убывания и все такое

но авторы решили оч круто это - не изменили квадратичный кернел, а просто аргумент начали подавать туда другой - с обучаемым аффинным преобразованием (который выражен в виде леернормы, пушто до этого увидели благоприятность нормализации данных)

и ко всему прочему есть и код - и хф, и все-все

👀LINK

❤6

521 views12:01

rizzearch

Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning

Расширить возможности Vision-Language Models при помощи рл, чтобы они могли например играть в блекджек? да! и тут Сергей Левин не остался в стороне (кстати, он также успел поработать и с относительно большими диффузионками, тем самым тоже расширил границы рл)

Тюнили модельку llava-v1.6-mistral-7b в классических традициях - сначала сфт с инструкт датасетом, затем по аналогии с рлхф обучают как рл агента (в принципе логично, только ревард модель не учат поскольку реварды выдают сами среды)

состояния подаются в виде картинок и текста - в тексте постоянно напоминают описание задачи + подаются возможные действия, которые можно сделать в данном состоянии (частично зависит от картинки) и говорят выдать действие в виде “action”: “…” в конце промпта (уточняю на этом внимание, потому что авторы пишут, что иногда моделька такое не выдавала и тогда они брали действие на рандоме. звучит не оч безопасно, несмотря на то, что при каждом шаге в зависимости от картинки подаются только legal actions, мало ли что на рандоме может выдать модель, когда мы выпускаем ее в более реальную среду)

а тюнят при помощи ппо - вычисляем log-likelihood промпта, который содержит акшн ⇒ вычисляем вероятность и сохраняем все необходимое в буффере

есть еще важный момент - если просить добавлять модель свои рассуждения в виде CoT в аутпут, то результат жоско улучшается. это и супер прикольно, и оч практично

правда надо тогда учесть, что при вычислении лог лайклихуда промпта больший масштаб будет иметь именно СоТ ⇒ уменьшаем его при помощи гипера < 1, и все идет гладко

А на каких средах тестили?

- Number Line, где надо последовательными плюсами или минусами из данного числа получить таргетное
- пара вариаций чего-то типа двадцати одного, где надо просто из карт составить эту сумму (EZPoints)
- blackjack of course
- Alfworld - среда, которая тестит может ли VLM в принятие действий на основании осмысления визуального пространства (среды выше проверяли может ли моделька в арифметику при умении распознавать визуальные паттерны), а именно взять что-то с полки, положить туда-то, осмотри что-то на свету и тд и тп

обгоняет гпт-4в и гемини йо, что говорит о небесполезности рл в данном сетапе (рльном сетапе, да-да, но верим что можно пойти еще дальше)

выглядит свежо и интересно, в основном применяются стандартные и относительно не новые методы, но и то хорошо. появляется почва для улучшения результата при помощи более современных методов. банально грамотно вставить оффлайн рл уже повысит результаты и степень применимости на реальных задачах, что уже говорить о SAC для перехода на недискретные действия, и его сюда будет нетривиально вставить, или расширении политики на гоал-кондишнд или около ин-контекст явления (тут уже серьезно надо будет подумать как такое сшивать вместе)

👀LINK

По просьбе нашего подписчика☝️

🔥7❤‍🔥2❤1👏1

579 views09:26

rizzearch

Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models

не первый год так получается, что чаще всего токенизатор фиттится отдельно от основной модели, которая потом и обучается с его помощью. только это может вызывать проблему недо-обученных или вовсе необученных токенов - таких токенов, из которых можно получить строку, а если снова эту строку закодировать, то получим другой токен (и получается к изначальному мы вернуться не сможем).

в основном известно, что такие токены появляются

- из-за ошибки кодировки utf-8
- из-за накладки при расширении вокабуляра
- специальные токены, заранее введенные с определенной целью (<s>)
- и другие (непонятно какие)

авторы из Cohere, компании которая полностью на ЛЛМках базируется, попытались решить эту проблемку

как они это сделали? вычли главную компоненту последней матрицы, которая эмбеддинги переводит в распределение над токенами, получили общий эмбеддинг неиспользуемого токена путем усреднения и далее по косинусному расстоянию сравнивали с заранее выбранными токенами для проверки

несмотря на то что у авторов был относительно большой трешхолд, все равно 0.1-1% токенов от общего вокабуляра отстают в натреннированности, что так-то много и влияет на эффективность инференса

есть красивые графики, которые показывают какую-то семантику в скрытых пространствах

и вообще много моделей они смогли протестить, в том числе и получить некоторые результаты на закрытых (тот же опенаи), таблички все вставить сюда не сможем, но ссылку мы как всегда прикрепляем

+ конечно выложен код такой процедуры, что очень приятно

👀LINK

👍3🤔1

477 views16:27

rizzearch

Reinformer: Max-Return Sequence Modeling for offline RL

Есть такая замечательная статья - Decision Transformer, которая показала, как можно совместить трансформеры и супервайзд лернинг в рле, преимущественно в оффлайн рле (потому что есть статический датасет, но идею обобщили и до онлайн сеттинга)

так вот, загвоздка в том, что от рля в постановке модели там данные - все обучение происходит в привычном супервайзд стиле, а награды (и конкретнее returns-to-go, сумма наград с определенного таймстепа до конца эпизода) являются частью входных данных. при инференсе, кстати, мы сами выбираем, какой награды хотим достичь - скользкая дорожка на пути к ООД

но можно ли как-то на хоть на йоту приблизить трансформеры к тому, чтобы они были более рльными в плане обучения?

авторы предложили пока самый легкий вариант, который есть - заставить модель самой предсказывать максимальные ретерны, которые можно получить из конкретных состояний, а уже по ним она далее предсказывает оптимальное действие - и это работает! правда надо еще справиться с оод проблемами в моделировании награды, а с этим справляется ассиметричный мсе лосс

да и в общем и целом, весь метод кодится максимум за вечер-два

как это и происходит очень часто, простые идеи выстреливают

👀LINK

👍3

376 views14:02

rizzearch

Effectiveness of an intermittent fasting diet versus regular diet on fat loss in overweight and obese middle-aged and elderly people without metabolic disease: a systematic review and meta-analysis of randomized controlled trials

Недавно был опубликован мета-анализ, который подтверждает эффективность периодического голодания.

Ученые проанализировали 9 рандомизированных контролируемых работ и пришли к выводу, что:

IF reduces BMI and triglyceride levels compared to a normal diet, primarily by reducing fat mass while maintaining lean body mass, making it a healthy and effective weight loss solution.

форрест плот все наглядно демонстрирует

👀LINK

🌭9👎1

364 views17:52

rizzearch

Я так понимаю, никто не обратил внимание, что тут рисерч по совершенно другой науке 🤔

🤔

Please open Telegram to view this post

VIEW IN TELEGRAM

🥴8❤3

394 views18:01

rizzearch

Jack of All Trades, Master of Some, a Multi-Purpose Transformer Agent

ребятам из хаггинг фейс надоело, что так мало подвижек в рле в сторону foundation models, и они решили это исправить

вдохновившись результатами Gato с 596 тасками, где модель не завязана только на текстовых данных и может обрабатывать гетерогенные рл данные, авторы этой папиры решили пойти еще дальше - сделать модель поменьше, датасет тоже поменьше (157 тасок), но зато выложить в опенсурс и веса, и данные

итак, что же умеет авторский мульти таск трансформер, так называемый Jack of All Trades (JAT)?

- image captioning
- (funny) language modelling
- играть хорошо в атари
- нормально перформить в муджоко
- а так же BabyAI & MetaWorld
- так же моделька может декодить картинки, но авторы не обучали ее на это

не менее (а может и даже более) важен датасет, который они выложили - модальности в виде картинок реальных, текста и многих видов обсервейшнов из рл сред для разных тасок ⇒ с такой экипировкой и to the moon недалеко 🚀

👀LINK

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4😱4

483 views18:27

rizzearch

Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

Oh God, неужели наконец решили (холиварную) тему ограниченного контекста трансформеров - и получили бесконечный контекст при фиксированном компьюте брррррр

что же придумали авторы из гугла - давайте будем хранить в качестве памяти скользящее среднее (по сегментам) дот продакта между V и f(K), где f это какая-то нонлинеарити. затем такую память скармливаем с запросами (queries, Q) из нынешнего сегмента ⇒ получаем “аттеншн мапы” , которые потом суммируем взвешенного с обычным механизмом внимания ⇒ вот нам и бесконечный контекст, не так ли?

напоминает то, что придумали в TransformerXL, однако там история берется только по предыдущему сегменту, а не по всем, как тут. да и по сути компрессив мемори из инфини-аттеншна есть не что иное, как associative memory (которое мы упоминали здесь и здесь)

по факту это все выглядит как рнн со всеми ее недостатками (что вся история и память компрессится в один объект - в рнн в хидден стейт а тут в компрессив мемори) и при том без ее преимуществ, как бэкпроп во времени

к тому же и сами авторы отмечают, что их аттеншн по памяти происходит линейный - да, между нелинейными преобразованиями f(Q)f(K), но это не оч хорошо аппроксимирует софтмакс из стандартного аттна - а это сильно так бьет по перформансу на более сложных тасках (as far as I know)

коэффициент ЕМА, который соединяет аттеншн, полученный по предыдущей памяти, с аттеншном на данном сегменте (то есть классический) - обучаемый, но он никак не зависит от инпута - задается просто какой-то приор таким образом, ничем не лучше фиксированного гипера - его перебирать не надо руками или свипом, вот и вся разница

но если весь мой скепсис напрасен и это действительно работает - так только лучше 🙏

👀LINK

да, без лекций с индусами никуда

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👏3👍1

542 views14:13

About

Blog

Apps

Platform