я обучала одну модель
3.4K subscribers
422 photos
28 videos
21 files
355 links
Shitposting on various subjects

Ответственная за шитпост: @exitcodezero
PS рекламы в канале нет
Download Telegram
Наткнулась на какую-то редкую пасхалку в коде huggingface для инференса BLOOM 😐
Please open Telegram to view this post
VIEW IN TELEGRAM
Хорошая новость, которой я забыла чуть раньше поделиться, – помимо хайпа вокруг того, что скоро может случиться релиз GPT-4, HuggingFace со своей стороны обещают выпустить опенсорс версию модели Flamingo от DeepMind

Напомню, что основная суть Flamingo в том, что взяли замороженные веса визуальной модели и языковой модели и «склеили» их вместе с помощью обучаемых параметров (ресемплера и аттеншена, если точнее). Имхо, Flamingo входит в число самых важных релизов прошлого года: там и показали, что замораживать веса можно очень эффективно, и ввернули в обычную LM мультимодальность, так, что она смогла например отвечать на вопросы по картинке

В целом рискну предположить, что сейчас начнется вторая волна хайпа по мультимодальности, так как мультимодальность со способностю даже в видео обещают в отношении GPT-4, а Microsoft уже собрал Visual ChatGPT, которой можно отправлять картинки

Поэтому мне кажется, что HF делают очень важное дело, так как они могут зарелизить крутые туториалы о том, как подобные модели обучать (как все уже похвалили их гайд по RLHF) и сами модели, которые можно будет тюнить. Сейчас уже есть техническая записка c заметками о том, с какими сложностями они столкнулись при обучении. Например, пишут, как справляться со взрывающимися градиентами и активациями и советуют RMSNorm вместо LayerNorm
И еще из хороших опенсорсных новостей – Open Assistant релизнули первую модель, и ее даже можно инферить в бесплатном колабе

Для тех, кто пропустил, Open Assistant – это инициатива, запущенная Янником Килхером и поддержанная LAION, напраленная на то, чтобы создать опенсорсную версию ChatGPT. Планируют релизить и сами модели, и накраудсорсенные instruction data для обучения
Если хотите помочь в этом деле, регайтесь вот тут – https://open-assistant.io/

Как сообщает Янник в дискорде, первый батч данных на 100k сообщений уже собрали и обучили первые версии гпт. Вот модель 12B на huggingface и ссылка на колаб, где можно подгрузить ее в 8bit

Дальше должно быть еще лучше, так как данные будут еще собирать и еще фильтровать
Отец знакомого работает в Опенаи. Сегодня срочно вызвали на совещание. Вернулся поздно и ничего не объяснил. Сказал лишь собирать вещи и бежать в магазин за продуктами на две недели. Сейчас едем куда-то далеко за город. Не знаю что происходит, но мне кажется началось...
Как все уже отметили и пожаловались, из сопроводительной статьи к GPT-4 нельзя понять примерно ничего, ведь мы с вами не какие-нибудь важные third party эксперты, с которыми OpenAI хотят обсудить архитектуру и данные

НО в конце очень мило отметили бейбиситтеров ☺️ Кто сам что-то большое тренировал тот прочувствовал сейчас
Please open Telegram to view this post
VIEW IN TELEGRAM
Думала, писать про эту новость или нет, но вроде как подтвердилась уже аутентичность этого письма, где ресерчеры и им сочувствующие (типа Юваля Ноя Харари почему-то?) просят приостановить развитие моделей, превышающие по способностям и/или размерам GPT-4

Подписал его, кроме Илона Маска, еще Эмад Мостак, который при этом говорит в твиттере, что с письмом не до конца согласен, но что rat race корпораций нужно уже останавливать. Многие в Твиттере справедливо пишут, что Китаю будет все равно на это письмо и если западные компании замедлятся, то это только даст им преимущество. Эмад почему-то отвечает, что Китай и Россия не заинтересованы в AGI, так как это угрожает устойчивости их систем (???? кажется он капитально не прав)

Сэм Альтман кстати сначала появился в списке подписантов, но это оказался фейк

Мне кажется посыл письма правильный, даже за рамками шутки о том, что люди уже не успевают про апдейты писать. Например на фоне вот этого кейса, когда GPT-4 пыталась сбежать в открытый Интернет и очень успешно решала капчу на своем пути. Но и скептическую позицию комментаторов тоже могу понять. Watcha think, дорогие подписчики 🤨
Please open Telegram to view this post
VIEW IN TELEGRAM
я обучала одну модель
Хорошая новость, которой я забыла чуть раньше поделиться, – помимо хайпа вокруг того, что скоро может случиться релиз GPT-4, HuggingFace со своей стороны обещают выпустить опенсорс версию модели Flamingo от DeepMind Напомню, что основная суть Flamingo в…
И к более прикольным вещам: вышел Open Flamingo, о котором я раньше тут писала

Это большая колаба LAION x Stability. По-божески выпустили блог пост, код для тренировки и evaluation мультимодальных архитектур, чекпоинт модели, мультимодальный датасет и новый бенчмарк и демо (всем бы так!). Думаю в Huggingface интегрируют довольно скоро

При всем при этом кидаю огромный дизреспект за использование LLaMA в качестве языкового бекбоуна, так как у нее все еще запрет на коммерческое использование (у Open Flamingo получается тоже). Но другие модели они тоже поддерживают, если обучать свою версию

репа: https://github.com/mlfoundations/open_flamingo
демо: https://7164d2142d11.ngrok.app/
блог: https://laion.ai/blog/open-flamingo/
Давно пора
This media is not supported in your browser
VIEW IN TELEGRAM
Увидела полезную тулу на GPT-4 для визуализации данных – Chat Explore от Akkio

Можно подгрузить свои данные и на естественном языке просить визуализировать. Имхо это не заменит более серьезные инструменты для виза, но на этапе разведывательного анализа очень много времени может сэкономить

https://www.akkio.com/chat-explore
Разгребаю завалы статей, про которые хотела тут написать – Chain of Hindsight Aligns Language Models with Feedback
https://arxiv.org/abs/2302.02676

Очень простая и изящная идея: в RLHF парадигме мы сначала генрируем ответы модели, потом их ранжируют люди, потом на этом учится reward модель, и потом сама LM (например, через PPO). Авторы разумно предполагают, что можно скипнуть часть с reward моделью, и использовать ранжирование напрямую для тюна модели

То есть, если у нас есть два ответа модели на какой-то промпт, A и B, и разметка, что ответ A лучше ответа B, то тренировочный семпл будет: промпт, «bad answer»: B, «good answer»: A. Понятно, что так отранжировать можно больше двух ответов, и не только как плохой/хороший, но и по более информативным качествам. Например, что ответ А более helpful, interesting, accurate, etc. На инференсе модель просят, соответственно, сгенерировать a good/helpful/interesting answer (идея очень похожа на Quark)

Авторы потом показывают, что этот метод ощутимо обходит RLHF и обычный supervised learning на задачах суммаризации и диалога. И что Chain of Hindsight лучше может в итеративное улучшение, когда например в диалоге пользователь просит улучшить или сконкретизировать ответ. Еще приводят данные, что на куче других задач CoH не хуже supervised learning, но с RLHF не сравнивают (that’s sus)

В целом я думаю это может быть хорошим вариантов RLHF бедного человека, так как к PPO в известной степени сложно нормально подобрать гиперпараметры и что-то на нем обучить. Плюс меньше траты на компьют
Невероятно крутая статья, не похожая вообще ни на что, что я до этого видела – Generative Agents: Interactive Simulacra of Human Behavior
https://arxiv.org/pdf/2304.03442.pdf

Если кратко, то игру по типу Симс населили 25 персонажами, каждый со своим описанием личности, со своими воспоминаниями и со своими целями. Все действия персонажей и взаимодействия друг с другом происходили через генерацию LLM. В итоге персонажи очень быстро стали имитировать довольно сложное человеческое поведение – например, вместе организовали вечеринку в честь дня Святого Валентина, раздвали приглашения и назначали свидании. Более того, их действия, согласно оценкам размечиков, были более human, чем поведение людей, которых попросили играть за этих персонажей

У авторов очень прикольная идея с использованием контекста модели: все действия и наблюдения за окружающим миром сохраняются, далее из этой памяти достаются какие-то релевантные воспоминания. Их используют, чтобы генерить следующее действие / реплику в разговоре, и еще для модель просят над ними порефлексировать, чтобы сформулировать более долгосрочные планы. Так что персонаж может в observation, planning, and reflection

Кажется что это вообще бомба для всяких отыгрываний тех или иных агентов в чатах и может быть так будут выглядеть NPC будущего

UPD: забыла приложить также отличное демо – https://reverie.herokuapp.com/arXiv_Demo/

и довольно подробный тред о статье
я обучала одну модель
Невероятно крутая статья, не похожая вообще ни на что, что я до этого видела – Generative Agents: Interactive Simulacra of Human Behavior https://arxiv.org/pdf/2304.03442.pdf Если кратко, то игру по типу Симс населили 25 персонажами, каждый со своим описанием…
Не сразу но накидала немного инфы про то, как работает поведение персонажей в статье Generative Agents: Interactive Simulacra of Human Behavior, которую все уже называют Westworld Sims. Все не влезло в пост в тг, так что можно почитать тут

Две основные фишки статьи в том, что они 1) смогли создать персонажей, которые очень хорошо придерживаются своей персоны и своего предыдущего опыта, что позволяет им более убедительно и консистентно себя играть 2) смогли доказать на практике emergent social behaviour (у персонажей не было цели кооперироваться, но они это все равно делали)

вопрос изобрели ли авторы consciousness у LLM решает каждый сам для себя
Please open Telegram to view this post
VIEW IN TELEGRAM
Кстати мало кто упомянул про релиз от DeepSpeed, в котором они:
– подготовили скрипт для тренировки RLHF, в который надо просто передать модель с Huggingface
– подготовили API для питона, чтобы тренировку можно было кастомизировать
– смогли, как показывают в брошюре, сильно снизить время и косты обучения
– позволяют впихнуть OPT-13B на одну A100, например

Для оптимизации ввернули туда и Low Rank Adaption (LoRA), который сейчас используют кажется все для обучения LLaMA-моделей больших размеров

Чек ит аут короче, в датасетах для инстракшн тюнинга сейчас тоже дефицита нет
https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-chat
Многозначительная картинка, идея которой честно украдена из коментов этого поста

Два дня назад кстати AutoGPT обошла PyTorch по числу звезд на гитхабе. Мне если честно не до конца понятен сам феномен этого, так как помимо очевидного хайпа, AutoGPT сложно к чему-то применить. Это крутой эксперимент и крутое демо, но на нем так сказать не стоит ни один продакшн, в отличие от торча
Статья с немного underwhelming названием LongForm: Optimizing Instruction Tuning for Long Text Generation with Corpus Extraction
https://arxiv.org/pdf/2304.08460.pdf

По сути тут реализовали идею, которая давно витала в воздухе – зачем собирать human instructions, если можно брать из корпусов куски текста и просить LLM (тут GPT-3 обычная) к этому куску текста сгенерировать инструкцию. То есть, если у вас есть кусок текста про развитие LLM, к нему сама LLM генерит инструкцию «опиши развитие LLM за последнее время» и ответом на инструкцию будет сам изначальный кусок текста
При чем, в статье три «стиля» инструкций генерят: обычные инструкции в повелительном наклонениии (опиши/расскажи/объясни/etc), инструкции как какой-то вопрос в чатботе и запросы как в поисковик

Тут конкретно авторы решили не просто куски корпусов брать (С4 и Wiki в основном), но и обязательно большие куски, чтобы модель генерила также довольно развернутые ответы. Имхо длина генерации тут вообще не главый поинт, и тут важнее, что их модели, обученные на таких синтетических инструкциях, вполне побили на бенчмарках предыдущие instruct-модели типа FLAN и Alpaca, даже с большим числом параметров

В общем это хороший proof of concept, как похожая статья ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks

А еще все модели обученные (кроме LLaMA) и сам датасет выложили на HF и гит
Stability теперь релизят еще и языковые модели 👀

Почему это круто:
1️⃣ Сейчас выложены чекпоинты на 3B и 7B, обученные на 800B токенов. Но скоро обещают докинуть моделей, обученных на датсете размером 1.5T

Ранее создатели LLaMA сделали ставку на то, что большие языковые модели были сильно undertrained – их тренировали на недостаточно большом числе токенов. Поэтому какое-то время LLaMA-модели являлись самыми «натренированными» в этом отношении. LLaMA 7B училась на 1 триллионе токенов, а 65B и 33B модели – на 1.4 триллиона

Теперь Stability смогут составить им конкуренцию – их 7B модель будет учиться на датасете, который на 50% больше, чем у аналогичной LLaMA-модели

2️⃣ Во-вторых, Stability, в отличие от Meta, релизят по очень божеской лицензии Creative Commons. То есть модели можно использовать как угодно (земной им поклон)

3️⃣ Еще обещают натренировать и выпустить модели по 5 свежим и хайповым датасетам: Stanford's Alpaca, Nomic-AI's gpt4all, RyokoAI's ShareGPT52K datasets, Databricks labs' Dolly, and Anthropic's HH

репа: https://github.com/Stability-AI/StableLM
початиться с моделью 7B: https://huggingface.co/spaces/stabilityai/stablelm-tuned-alpha-chat
Please open Telegram to view this post
VIEW IN TELEGRAM
Давайте уже сразу выводы в название папир запихивать ну а че
Scaling Transformer to 1M tokens and beyond with
RMT

https://arxiv.org/pdf/2304.11062.pdf

Крутой резерч да еще и от DeepPavlov!
Статья Recurrent Memory Transformer вышла год назад, но завирусился сейчас именно этот технический репорт, где авторы применяют механизм конкретно к BERT

Схема может быть не очень понятная, но суть достаточно простая: длинный текст разбивают на отрывки, к началу первого отрывка добавляют обучаемый memory-вектор, он обрабатывается как часть входной последовательности. После форвард-пасса в этом векторе обновляется информация, его подают в начало следующего сегмента, и так реккурентно идут, пока не кончится исходный длинный текст. Во время тренировки, как синей линией показано, эти вектора обучаются через обычный бэкпроп

Проверяли способности модели на нескольких типах заданий: 1) в начале подается факт, который нужен для ответа на вопрос, а потом много нерелевантной информации 2) нужный факт замешан где-то в тексте и его нужно найти 3) нужно найти несколько фактов и исходя из них ответить на вопрос

При тренировке на 7 больших отрывках у модели получается accuracy в районе 100%. Авторы даже показывают, что размер текста можно до 2М токенов увеличить без существенной потери качества

Ограничений тут несколько:
- На инференсе вам все равно нужно прогнать через модель весь огромный текст в 1-2М токенов, а это долго, и ретривал пока для этого лучше работает
- В задачах, которые приводятся в статье, модели нужно вычленить один или несколько фактов, а не запомнить весь контекст. С этим относительно небольшой тренируемый вектор справляется, но нет уверенности, что этот подход сработает, если нужно запомнить сильно больше деталей

P.S. Шмидхубер опять был прав, когда сказал, что чем больше что-то похоже на RNN, тем лучше