Linear Transformers with Learnable Kernel Functions are Better In-Context Models
возвращаясь к линейным аттеншнам (мы уже писали про классную статью об этом), наши ребята смогли улучшить базированную (based) идею, которая до этого считалась что-то типа классикой
итак - в линейном аттеншне тем или иным образом с feature map’ами стараются аппроксимировать оригинальный аттеншн, где есть возведение экспоненты в степень. Ну и based делал это через разложение в тейлора до второй степени. и было круто
все бы ничего - только экспонента на то и экспонента, что не парабола. откидываем серьезную часть того, что называется о малое (или что-то типо того я чет уже не помню), а это сильно влияет во время оптимизации - разные точки экстремума, манера возрастания/убывания и все такое
но авторы решили оч круто это - не изменили квадратичный кернел, а просто аргумент начали подавать туда другой - с обучаемым аффинным преобразованием (который выражен в виде леернормы, пушто до этого увидели благоприятность нормализации данных)
и ко всему прочему есть и код - и хф, и все-все
👀LINK
возвращаясь к линейным аттеншнам (мы уже писали про классную статью об этом), наши ребята смогли улучшить базированную (based) идею, которая до этого считалась что-то типа классикой
итак - в линейном аттеншне тем или иным образом с feature map’ами стараются аппроксимировать оригинальный аттеншн, где есть возведение экспоненты в степень. Ну и based делал это через разложение в тейлора до второй степени. и было круто
все бы ничего - только экспонента на то и экспонента, что не парабола. откидываем серьезную часть того, что называется о малое (или что-то типо того я чет уже не помню), а это сильно влияет во время оптимизации - разные точки экстремума, манера возрастания/убывания и все такое
но авторы решили оч круто это - не изменили квадратичный кернел, а просто аргумент начали подавать туда другой - с обучаемым аффинным преобразованием (который выражен в виде леернормы, пушто до этого увидели благоприятность нормализации данных)
и ко всему прочему есть и код - и хф, и все-все
👀LINK
❤6
Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning
Расширить возможности Vision-Language Models при помощи рл, чтобы они могли например играть в блекджек? да! и тут Сергей Левин не остался в стороне (кстати, он также успел поработать и с относительно большими диффузионками, тем самым тоже расширил границы рл)
Тюнили модельку
состояния подаются в виде картинок и текста - в тексте постоянно напоминают описание задачи + подаются возможные действия, которые можно сделать в данном состоянии (частично зависит от картинки) и говорят выдать действие в виде “action”: “…” в конце промпта(уточняю на этом внимание, потому что авторы пишут, что иногда моделька такое не выдавала и тогда они брали действие на рандоме. звучит не оч безопасно, несмотря на то, что при каждом шаге в зависимости от картинки подаются только legal actions, мало ли что на рандоме может выдать модель, когда мы выпускаем ее в более реальную среду)
а тюнят при помощи ппо - вычисляем log-likelihood промпта, который содержит акшн ⇒ вычисляем вероятность и сохраняем все необходимое в буффере
есть еще важный момент - если просить добавлять модель свои рассуждения в виде CoT в аутпут, то результат жоско улучшается. это и супер прикольно, и оч практично
правда надо тогда учесть, что при вычислении лог лайклихуда промпта больший масштаб будет иметь именно СоТ ⇒ уменьшаем его при помощи гипера < 1, и все идет гладко
А на каких средах тестили?
- Number Line, где надо последовательными плюсами или минусами из данного числа получить таргетное
- пара вариаций чего-то типа двадцати одного, где надо просто из карт составить эту сумму (EZPoints)
- blackjack of course
- Alfworld - среда, которая тестит может ли VLM в принятие действий на основании осмысления визуального пространства (среды выше проверяли может ли моделька в арифметику при умении распознавать визуальные паттерны), а именно взять что-то с полки, положить туда-то, осмотри что-то на свету и тд и тп
обгоняет гпт-4в и гемини йо, что говорит о небесполезности рл в данном сетапе (рльном сетапе, да-да, но верим что можно пойти еще дальше)
выглядит свежо и интересно, в основном применяются стандартные и относительно не новые методы, но и то хорошо. появляется почва для улучшения результата при помощи более современных методов. банально грамотно вставить оффлайн рл уже повысит результаты и степень применимости на реальных задачах, что уже говорить о SAC для перехода на недискретные действия, и его сюда будет нетривиально вставить, или расширении политики на гоал-кондишнд или около ин-контекст явления (тут уже серьезно надо будет подумать как такое сшивать вместе)
👀LINK
По просьбе нашего подписчика☝️
Расширить возможности Vision-Language Models при помощи рл, чтобы они могли например играть в блекджек? да! и тут Сергей Левин не остался в стороне (кстати, он также успел поработать и с относительно большими диффузионками, тем самым тоже расширил границы рл)
Тюнили модельку
llava-v1.6-mistral-7b в классических традициях - сначала сфт с инструкт датасетом, затем по аналогии с рлхф обучают как рл агента (в принципе логично, только ревард модель не учат поскольку реварды выдают сами среды)состояния подаются в виде картинок и текста - в тексте постоянно напоминают описание задачи + подаются возможные действия, которые можно сделать в данном состоянии (частично зависит от картинки) и говорят выдать действие в виде “action”: “…” в конце промпта
а тюнят при помощи ппо - вычисляем log-likelihood промпта, который содержит акшн ⇒ вычисляем вероятность и сохраняем все необходимое в буффере
есть еще важный момент - если просить добавлять модель свои рассуждения в виде CoT в аутпут, то результат жоско улучшается. это и супер прикольно, и оч практично
правда надо тогда учесть, что при вычислении лог лайклихуда промпта больший масштаб будет иметь именно СоТ ⇒ уменьшаем его при помощи гипера < 1, и все идет гладко
А на каких средах тестили?
- Number Line, где надо последовательными плюсами или минусами из данного числа получить таргетное
- пара вариаций чего-то типа двадцати одного, где надо просто из карт составить эту сумму (EZPoints)
- blackjack of course
- Alfworld - среда, которая тестит может ли VLM в принятие действий на основании осмысления визуального пространства (среды выше проверяли может ли моделька в арифметику при умении распознавать визуальные паттерны), а именно взять что-то с полки, положить туда-то, осмотри что-то на свету и тд и тп
обгоняет гпт-4в и гемини йо, что говорит о небесполезности рл в данном сетапе (рльном сетапе, да-да, но верим что можно пойти еще дальше)
👀LINK
По просьбе нашего подписчика☝️
🔥7❤🔥2❤1👏1
Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models
не первый год так получается, что чаще всего токенизатор фиттится отдельно от основной модели, которая потом и обучается с его помощью. только это может вызывать проблему недо-обученных или вовсе необученных токенов - таких токенов, из которых можно получить строку, а если снова эту строку закодировать, то получим другой токен (и получается к изначальному мы вернуться не сможем).
в основном известно, что такие токены появляются
- из-за ошибки кодировки utf-8
- из-за накладки при расширении вокабуляра
- специальные токены, заранее введенные с определенной целью (<s>)
- и другие (непонятно какие)
авторы из Cohere, компании которая полностью на ЛЛМках базируется, попытались решить эту проблемку
как они это сделали? вычли главную компоненту последней матрицы, которая эмбеддинги переводит в распределение над токенами, получили общий эмбеддинг неиспользуемого токена путем усреднения и далее по косинусному расстоянию сравнивали с заранее выбранными токенами для проверки
несмотря на то что у авторов был относительно большой трешхолд, все равно 0.1-1% токенов от общего вокабуляра отстают в натреннированности, что так-то много и влияет на эффективность инференса
есть красивые графики, которые показывают какую-то семантику в скрытых пространствах
и вообще много моделей они смогли протестить, в том числе и получить некоторые результаты на закрытых (тот же опенаи), таблички все вставить сюда не сможем, но ссылку мы как всегда прикрепляем
+ конечно выложен код такой процедуры, что очень приятно
👀LINK
не первый год так получается, что чаще всего токенизатор фиттится отдельно от основной модели, которая потом и обучается с его помощью. только это может вызывать проблему недо-обученных или вовсе необученных токенов - таких токенов, из которых можно получить строку, а если снова эту строку закодировать, то получим другой токен (и получается к изначальному мы вернуться не сможем).
в основном известно, что такие токены появляются
- из-за ошибки кодировки utf-8
- из-за накладки при расширении вокабуляра
- специальные токены, заранее введенные с определенной целью (<s>)
- и другие (непонятно какие)
авторы из Cohere, компании которая полностью на ЛЛМках базируется, попытались решить эту проблемку
как они это сделали? вычли главную компоненту последней матрицы, которая эмбеддинги переводит в распределение над токенами, получили общий эмбеддинг неиспользуемого токена путем усреднения и далее по косинусному расстоянию сравнивали с заранее выбранными токенами для проверки
несмотря на то что у авторов был относительно большой трешхолд, все равно 0.1-1% токенов от общего вокабуляра отстают в натреннированности, что так-то много и влияет на эффективность инференса
есть красивые графики, которые показывают какую-то семантику в скрытых пространствах
и вообще много моделей они смогли протестить, в том числе и получить некоторые результаты на закрытых (тот же опенаи), таблички все вставить сюда не сможем, но ссылку мы как всегда прикрепляем
+ конечно выложен код такой процедуры, что очень приятно
👀LINK
👍3🤔1
Reinformer: Max-Return Sequence Modeling for offline RL
Есть такая замечательная статья - Decision Transformer, которая показала, как можно совместить трансформеры и супервайзд лернинг в рле, преимущественно в оффлайн рле (потому что есть статический датасет, но идею обобщили и до онлайн сеттинга)
так вот, загвоздка в том, что от рля в постановке модели там данные - все обучение происходит в привычном супервайзд стиле, а награды (и конкретнее returns-to-go, сумма наград с определенного таймстепа до конца эпизода) являются частью входных данных. при инференсе, кстати, мы сами выбираем, какой награды хотим достичь - скользкая дорожка на пути к ООД
но можно ли как-то на хоть на йоту приблизить трансформеры к тому, чтобы они были более рльными в плане обучения?
авторы предложили пока самый легкий вариант, который есть - заставить модель самой предсказывать максимальные ретерны, которые можно получить из конкретных состояний, а уже по ним она далее предсказывает оптимальное действие - и это работает! правда надо еще справиться с оод проблемами в моделировании награды, а с этим справляется ассиметричный мсе лосс
да и в общем и целом, весь метод кодится максимум за вечер-два
как это и происходит очень часто, простые идеи выстреливают
👀LINK
Есть такая замечательная статья - Decision Transformer, которая показала, как можно совместить трансформеры и супервайзд лернинг в рле, преимущественно в оффлайн рле (потому что есть статический датасет, но идею обобщили и до онлайн сеттинга)
так вот, загвоздка в том, что от рля в постановке модели там данные - все обучение происходит в привычном супервайзд стиле, а награды (и конкретнее returns-to-go, сумма наград с определенного таймстепа до конца эпизода) являются частью входных данных. при инференсе, кстати, мы сами выбираем, какой награды хотим достичь - скользкая дорожка на пути к ООД
но можно ли как-то на хоть на йоту приблизить трансформеры к тому, чтобы они были более рльными в плане обучения?
авторы предложили пока самый легкий вариант, который есть - заставить модель самой предсказывать максимальные ретерны, которые можно получить из конкретных состояний, а уже по ним она далее предсказывает оптимальное действие - и это работает! правда надо еще справиться с оод проблемами в моделировании награды, а с этим справляется ассиметричный мсе лосс
да и в общем и целом, весь метод кодится максимум за вечер-два
как это и происходит очень часто, простые идеи выстреливают
👀LINK
👍3
Effectiveness of an intermittent fasting diet versus regular diet on fat loss in overweight and obese middle-aged and elderly people without metabolic disease: a systematic review and meta-analysis of randomized controlled trials
Недавно был опубликован мета-анализ, который подтверждает эффективность периодического голодания.
Ученые проанализировали 9 рандомизированных контролируемых работ и пришли к выводу, что:
форрест плот все наглядно демонстрирует
👀LINK
Недавно был опубликован мета-анализ, который подтверждает эффективность периодического голодания.
Ученые проанализировали 9 рандомизированных контролируемых работ и пришли к выводу, что:
IF reduces BMI and triglyceride levels compared to a normal diet, primarily by reducing fat mass while maintaining lean body mass, making it a healthy and effective weight loss solution.
форрест плот все наглядно демонстрирует
👀LINK
🌭9👎1
rizzearch
Effectiveness of an intermittent fasting diet versus regular diet on fat loss in overweight and obese middle-aged and elderly people without metabolic disease: a systematic review and meta-analysis of randomized controlled trials Недавно был опубликован мета…
Я так понимаю, никто не обратил внимание, что тут рисерч по совершенно другой науке 🤔 🤔 🤔
Please open Telegram to view this post
VIEW IN TELEGRAM
🥴8❤3
Jack of All Trades, Master of Some, a Multi-Purpose Transformer Agent
ребятам из хаггинг фейс надоело, что так мало подвижек в рле в сторону foundation models, и они решили это исправить
вдохновившись результатами Gato с 596 тасками, где модель не завязана только на текстовых данных и может обрабатывать гетерогенные рл данные, авторы этой папиры решили пойти еще дальше - сделать модель поменьше, датасет тоже поменьше (157 тасок), но зато выложить в опенсурс и веса, и данные
итак, что же умеет авторский мульти таск трансформер, так называемый Jack of All Trades (JAT)?
- image captioning
- (funny) language modelling
- играть хорошо в атари
- нормально перформить в муджоко
- а так же BabyAI & MetaWorld
- так же моделька может декодить картинки, но авторы не обучали ее на это
не менее (а может и даже более) важен датасет, который они выложили - модальности в виде картинок реальных, текста и многих видов обсервейшнов из рл сред для разных тасок ⇒ с такой экипировкой и to the moon недалеко🚀
👀LINK
ребятам из хаггинг фейс надоело, что так мало подвижек в рле в сторону foundation models, и они решили это исправить
вдохновившись результатами Gato с 596 тасками, где модель не завязана только на текстовых данных и может обрабатывать гетерогенные рл данные, авторы этой папиры решили пойти еще дальше - сделать модель поменьше, датасет тоже поменьше (157 тасок), но зато выложить в опенсурс и веса, и данные
итак, что же умеет авторский мульти таск трансформер, так называемый Jack of All Trades (JAT)?
- image captioning
- (funny) language modelling
- играть хорошо в атари
- нормально перформить в муджоко
- а так же BabyAI & MetaWorld
- так же моделька может декодить картинки, но авторы не обучали ее на это
не менее (а может и даже более) важен датасет, который они выложили - модальности в виде картинок реальных, текста и многих видов обсервейшнов из рл сред для разных тасок ⇒ с такой экипировкой и to the moon недалеко
👀LINK
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4😱4
Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention
Oh God, неужели наконец решили (холиварную) тему ограниченного контекста трансформеров - и получили бесконечный контекст при фиксированном компьюте брррррр
что же придумали авторы из гугла - давайте будем хранить в качестве памяти скользящее среднее (по сегментам) дот продакта между V и f(K), где f это какая-то нонлинеарити. затем такую память скармливаем с запросами (queries, Q) из нынешнего сегмента ⇒ получаем “аттеншн мапы” , которые потом суммируем взвешенного с обычным механизмом внимания ⇒ вот нам и бесконечный контекст, не так ли?
напоминает то, что придумали в TransformerXL, однако там история берется только по предыдущему сегменту, а не по всем, как тут. да и по сути компрессив мемори из инфини-аттеншна есть не что иное, как associative memory (которое мы упоминали здесь и здесь)
по факту это все выглядит как рнн со всеми ее недостатками (что вся история и память компрессится в один объект - в рнн в хидден стейт а тут в компрессив мемори) и при том без ее преимуществ, как бэкпроп во времени
к тому же и сами авторы отмечают, что их аттеншн по памяти происходит линейный - да, между нелинейными преобразованиями f(Q)f(K), но это не оч хорошо аппроксимирует софтмакс из стандартного аттна - а это сильно так бьет по перформансу на более сложных тасках (as far as I know)
коэффициент ЕМА, который соединяет аттеншн, полученный по предыдущей памяти, с аттеншном на данном сегменте (то есть классический) - обучаемый, но он никак не зависит от инпута - задается просто какой-то приор таким образом, ничем не лучше фиксированного гипера - его перебирать не надо руками или свипом, вот и вся разница
но если весь мой скепсис напрасен и это действительно работает - так только лучше🙏
👀LINK
да, без лекций с индусами никуда
Oh God, неужели наконец решили (холиварную) тему ограниченного контекста трансформеров - и получили бесконечный контекст при фиксированном компьюте брррррр
что же придумали авторы из гугла - давайте будем хранить в качестве памяти скользящее среднее (по сегментам) дот продакта между V и f(K), где f это какая-то нонлинеарити. затем такую память скармливаем с запросами (queries, Q) из нынешнего сегмента ⇒ получаем “аттеншн мапы” , которые потом суммируем взвешенного с обычным механизмом внимания ⇒ вот нам и бесконечный контекст, не так ли?
напоминает то, что придумали в TransformerXL, однако там история берется только по предыдущему сегменту, а не по всем, как тут. да и по сути компрессив мемори из инфини-аттеншна есть не что иное, как associative memory (которое мы упоминали здесь и здесь)
по факту это все выглядит как рнн со всеми ее недостатками (что вся история и память компрессится в один объект - в рнн в хидден стейт а тут в компрессив мемори) и при том без ее преимуществ, как бэкпроп во времени
к тому же и сами авторы отмечают, что их аттеншн по памяти происходит линейный - да, между нелинейными преобразованиями f(Q)f(K), но это не оч хорошо аппроксимирует софтмакс из стандартного аттна - а это сильно так бьет по перформансу на более сложных тасках (as far as I know)
коэффициент ЕМА, который соединяет аттеншн, полученный по предыдущей памяти, с аттеншном на данном сегменте (то есть классический) - обучаемый, но он никак не зависит от инпута - задается просто какой-то приор таким образом, ничем не лучше фиксированного гипера - его перебирать не надо руками или свипом, вот и вся разница
но если весь мой скепсис напрасен и это действительно работает - так только лучше
👀LINK
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👏3👍1