я обучала одну модель
Хорошая новость, которой я забыла чуть раньше поделиться, – помимо хайпа вокруг того, что скоро может случиться релиз GPT-4, HuggingFace со своей стороны обещают выпустить опенсорс версию модели Flamingo от DeepMind Напомню, что основная суть Flamingo в…
И к более прикольным вещам: вышел Open Flamingo, о котором я раньше тут писала
Это большая колаба LAION x Stability. По-божески выпустили блог пост, код для тренировки и evaluation мультимодальных архитектур, чекпоинт модели, мультимодальный датасет и новый бенчмарк и демо (всем бы так!). Думаю в Huggingface интегрируют довольно скоро
При всем при этом кидаю огромный дизреспект за использование LLaMA в качестве языкового бекбоуна, так как у нее все еще запрет на коммерческое использование (у Open Flamingo получается тоже). Но другие модели они тоже поддерживают, если обучать свою версию
репа: https://github.com/mlfoundations/open_flamingo
демо: https://7164d2142d11.ngrok.app/
блог: https://laion.ai/blog/open-flamingo/
Это большая колаба LAION x Stability. По-божески выпустили блог пост, код для тренировки и evaluation мультимодальных архитектур, чекпоинт модели, мультимодальный датасет и новый бенчмарк и демо (всем бы так!). Думаю в Huggingface интегрируют довольно скоро
При всем при этом кидаю огромный дизреспект за использование LLaMA в качестве языкового бекбоуна, так как у нее все еще запрет на коммерческое использование (у Open Flamingo получается тоже). Но другие модели они тоже поддерживают, если обучать свою версию
репа: https://github.com/mlfoundations/open_flamingo
демо: https://7164d2142d11.ngrok.app/
блог: https://laion.ai/blog/open-flamingo/
laion.ai
Announcing OpenFlamingo: An open-source framework for training vision-language models with in-context learning | LAION
<p><strong>Overview.</strong>
We are thrilled to announce the release of OpenFlamingo, an open-source reproduction of DeepMind's Flamingo model. At its core,...
We are thrilled to announce the release of OpenFlamingo, an open-source reproduction of DeepMind's Flamingo model. At its core,...
🔥9👍2❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Увидела полезную тулу на GPT-4 для визуализации данных – Chat Explore от Akkio
Можно подгрузить свои данные и на естественном языке просить визуализировать. Имхо это не заменит более серьезные инструменты для виза, но на этапе разведывательного анализа очень много времени может сэкономить
https://www.akkio.com/chat-explore
Можно подгрузить свои данные и на естественном языке просить визуализировать. Имхо это не заменит более серьезные инструменты для виза, но на этапе разведывательного анализа очень много времени может сэкономить
https://www.akkio.com/chat-explore
🔥22
Разгребаю завалы статей, про которые хотела тут написать – Chain of Hindsight Aligns Language Models with Feedback
https://arxiv.org/abs/2302.02676
Очень простая и изящная идея: в RLHF парадигме мы сначала генрируем ответы модели, потом их ранжируют люди, потом на этом учится reward модель, и потом сама LM (например, через PPO). Авторы разумно предполагают, что можно скипнуть часть с reward моделью, и использовать ранжирование напрямую для тюна модели
То есть, если у нас есть два ответа модели на какой-то промпт, A и B, и разметка, что ответ A лучше ответа B, то тренировочный семпл будет: промпт, «bad answer»: B, «good answer»: A. Понятно, что так отранжировать можно больше двух ответов, и не только как плохой/хороший, но и по более информативным качествам. Например, что ответ А более helpful, interesting, accurate, etc. На инференсе модель просят, соответственно, сгенерировать a good/helpful/interesting answer (идея очень похожа на Quark)
Авторы потом показывают, что этот метод ощутимо обходит RLHF и обычный supervised learning на задачах суммаризации и диалога. И что Chain of Hindsight лучше может в итеративное улучшение, когда например в диалоге пользователь просит улучшить или сконкретизировать ответ. Еще приводят данные, что на куче других задач CoH не хуже supervised learning, но с RLHF не сравнивают (that’s sus)
В целом я думаю это может быть хорошим вариантов RLHF бедного человека, так как к PPO в известной степени сложно нормально подобрать гиперпараметры и что-то на нем обучить. Плюс меньше траты на компьют
https://arxiv.org/abs/2302.02676
Очень простая и изящная идея: в RLHF парадигме мы сначала генрируем ответы модели, потом их ранжируют люди, потом на этом учится reward модель, и потом сама LM (например, через PPO). Авторы разумно предполагают, что можно скипнуть часть с reward моделью, и использовать ранжирование напрямую для тюна модели
То есть, если у нас есть два ответа модели на какой-то промпт, A и B, и разметка, что ответ A лучше ответа B, то тренировочный семпл будет: промпт, «bad answer»: B, «good answer»: A. Понятно, что так отранжировать можно больше двух ответов, и не только как плохой/хороший, но и по более информативным качествам. Например, что ответ А более helpful, interesting, accurate, etc. На инференсе модель просят, соответственно, сгенерировать a good/helpful/interesting answer (идея очень похожа на Quark)
Авторы потом показывают, что этот метод ощутимо обходит RLHF и обычный supervised learning на задачах суммаризации и диалога. И что Chain of Hindsight лучше может в итеративное улучшение, когда например в диалоге пользователь просит улучшить или сконкретизировать ответ. Еще приводят данные, что на куче других задач CoH не хуже supervised learning, но с RLHF не сравнивают (that’s sus)
В целом я думаю это может быть хорошим вариантов RLHF бедного человека, так как к PPO в известной степени сложно нормально подобрать гиперпараметры и что-то на нем обучить. Плюс меньше траты на компьют
👍11🤡1
Невероятно крутая статья, не похожая вообще ни на что, что я до этого видела – Generative Agents: Interactive Simulacra of Human Behavior
https://arxiv.org/pdf/2304.03442.pdf
Если кратко, то игру по типу Симс населили 25 персонажами, каждый со своим описанием личности, со своими воспоминаниями и со своими целями. Все действия персонажей и взаимодействия друг с другом происходили через генерацию LLM. В итоге персонажи очень быстро стали имитировать довольно сложное человеческое поведение – например, вместе организовали вечеринку в честь дня Святого Валентина, раздвали приглашения и назначали свидании. Более того, их действия, согласно оценкам размечиков, были более human, чем поведение людей, которых попросили играть за этих персонажей
У авторов очень прикольная идея с использованием контекста модели: все действия и наблюдения за окружающим миром сохраняются, далее из этой памяти достаются какие-то релевантные воспоминания. Их используют, чтобы генерить следующее действие / реплику в разговоре, и еще для модель просят над ними порефлексировать, чтобы сформулировать более долгосрочные планы. Так что персонаж может в observation, planning, and reflection
Кажется что это вообще бомба для всяких отыгрываний тех или иных агентов в чатах и может быть так будут выглядеть NPC будущего
UPD: забыла приложить также отличное демо – https://reverie.herokuapp.com/arXiv_Demo/
и довольно подробный тред о статье
https://arxiv.org/pdf/2304.03442.pdf
Если кратко, то игру по типу Симс населили 25 персонажами, каждый со своим описанием личности, со своими воспоминаниями и со своими целями. Все действия персонажей и взаимодействия друг с другом происходили через генерацию LLM. В итоге персонажи очень быстро стали имитировать довольно сложное человеческое поведение – например, вместе организовали вечеринку в честь дня Святого Валентина, раздвали приглашения и назначали свидании. Более того, их действия, согласно оценкам размечиков, были более human, чем поведение людей, которых попросили играть за этих персонажей
У авторов очень прикольная идея с использованием контекста модели: все действия и наблюдения за окружающим миром сохраняются, далее из этой памяти достаются какие-то релевантные воспоминания. Их используют, чтобы генерить следующее действие / реплику в разговоре, и еще для модель просят над ними порефлексировать, чтобы сформулировать более долгосрочные планы. Так что персонаж может в observation, planning, and reflection
Кажется что это вообще бомба для всяких отыгрываний тех или иных агентов в чатах и может быть так будут выглядеть NPC будущего
UPD: забыла приложить также отличное демо – https://reverie.herokuapp.com/arXiv_Demo/
и довольно подробный тред о статье
🔥68❤6👍5🤯2
я обучала одну модель
Невероятно крутая статья, не похожая вообще ни на что, что я до этого видела – Generative Agents: Interactive Simulacra of Human Behavior https://arxiv.org/pdf/2304.03442.pdf Если кратко, то игру по типу Симс населили 25 персонажами, каждый со своим описанием…
Не сразу но накидала немного инфы про то, как работает поведение персонажей в статье Generative Agents: Interactive Simulacra of Human Behavior, которую все уже называют Westworld Sims. Все не влезло в пост в тг, так что можно почитать тут
Две основные фишки статьи в том, что они 1) смогли создать персонажей, которые очень хорошо придерживаются своей персоны и своего предыдущего опыта, что позволяет им более убедительно и консистентно себя играть 2) смогли доказать на практике emergent social behaviour (у персонажей не было цели кооперироваться, но они это все равно делали)
вопрос изобрели ли авторы consciousness у LLM решает каждый сам для себя♟
Две основные фишки статьи в том, что они 1) смогли создать персонажей, которые очень хорошо придерживаются своей персоны и своего предыдущего опыта, что позволяет им более убедительно и консистентно себя играть 2) смогли доказать на практике emergent social behaviour (у персонажей не было цели кооперироваться, но они это все равно делали)
вопрос изобрели ли авторы consciousness у LLM решает каждый сам для себя
Please open Telegram to view this post
VIEW IN TELEGRAM
Teletype
Generative Agents: Interactive Simulacra of Human Behavior
– Одна из целей авторов в том, чтобы герой реагировал на окружающую среду и других героев консистентно, то есть с учетом его описания...
👍18🔥10❤2💩1🤡1
Хорошая новость, но интересно, сколько в процентном отношении там Common Crawl с учетом того, что C4 – это тоже огромный корпус CC
UPD: аналитическим путем выяснено, что CC в общем около 87%
https://t.me/ai_newz/1862
UPD: аналитическим путем выяснено, что CC в общем около 87%
https://t.me/ai_newz/1862
Telegram
эйай ньюз
📑RedPajama: текстовый датасет на 1.2 триллиона токенов!
Недавно я писал про открытую модель Dolly 2.0. Теперь таких моделей станет больше, ведь подъехал самосвал с текстовыми данными!
RedPajama - это датасет на 1.2 триллиона текстовых токенов, созданный…
Недавно я писал про открытую модель Dolly 2.0. Теперь таких моделей станет больше, ведь подъехал самосвал с текстовыми данными!
RedPajama - это датасет на 1.2 триллиона текстовых токенов, созданный…
🔥4
Кстати мало кто упомянул про релиз от DeepSpeed, в котором они:
– подготовили скрипт для тренировки RLHF, в который надо просто передать модель с Huggingface
– подготовили API для питона, чтобы тренировку можно было кастомизировать
– смогли, как показывают в брошюре, сильно снизить время и косты обучения
– позволяют впихнуть OPT-13B на одну A100, например
Для оптимизации ввернули туда и Low Rank Adaption (LoRA), который сейчас используют кажется все для обучения LLaMA-моделей больших размеров
Чек ит аут короче, в датасетах для инстракшн тюнинга сейчас тоже дефицита нет
https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-chat
– подготовили скрипт для тренировки RLHF, в который надо просто передать модель с Huggingface
– подготовили API для питона, чтобы тренировку можно было кастомизировать
– смогли, как показывают в брошюре, сильно снизить время и косты обучения
– позволяют впихнуть OPT-13B на одну A100, например
Для оптимизации ввернули туда и Low Rank Adaption (LoRA), который сейчас используют кажется все для обучения LLaMA-моделей больших размеров
Чек ит аут короче, в датасетах для инстракшн тюнинга сейчас тоже дефицита нет
https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-chat
❤12
Многозначительная картинка, идея которой честно украдена из коментов этого поста
Два дня назад кстати AutoGPT обошла PyTorch по числу звезд на гитхабе. Мне если честно не до конца понятен сам феномен этого, так как помимо очевидного хайпа, AutoGPT сложно к чему-то применить. Это крутой эксперимент и крутое демо, но на нем так сказать не стоит ни один продакшн, в отличие от торча
Два дня назад кстати AutoGPT обошла PyTorch по числу звезд на гитхабе. Мне если честно не до конца понятен сам феномен этого, так как помимо очевидного хайпа, AutoGPT сложно к чему-то применить. Это крутой эксперимент и крутое демо, но на нем так сказать не стоит ни один продакшн, в отличие от торча
❤7🤯3
Статья с немного underwhelming названием LongForm: Optimizing Instruction Tuning for Long Text Generation with Corpus Extraction
https://arxiv.org/pdf/2304.08460.pdf
По сути тут реализовали идею, которая давно витала в воздухе – зачем собирать human instructions, если можно брать из корпусов куски текста и просить LLM (тут GPT-3 обычная) к этому куску текста сгенерировать инструкцию. То есть, если у вас есть кусок текста про развитие LLM, к нему сама LLM генерит инструкцию «опиши развитие LLM за последнее время» и ответом на инструкцию будет сам изначальный кусок текста
При чем, в статье три «стиля» инструкций генерят: обычные инструкции в повелительном наклонениии (опиши/расскажи/объясни/etc), инструкции как какой-то вопрос в чатботе и запросы как в поисковик
Тут конкретно авторы решили не просто куски корпусов брать (С4 и Wiki в основном), но и обязательно большие куски, чтобы модель генерила также довольно развернутые ответы. Имхо длина генерации тут вообще не главый поинт, и тут важнее, что их модели, обученные на таких синтетических инструкциях, вполне побили на бенчмарках предыдущие instruct-модели типа FLAN и Alpaca, даже с большим числом параметров
В общем это хороший proof of concept, как похожая статья ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks
А еще все модели обученные (кроме LLaMA) и сам датасет выложили на HF и гит
https://arxiv.org/pdf/2304.08460.pdf
По сути тут реализовали идею, которая давно витала в воздухе – зачем собирать human instructions, если можно брать из корпусов куски текста и просить LLM (тут GPT-3 обычная) к этому куску текста сгенерировать инструкцию. То есть, если у вас есть кусок текста про развитие LLM, к нему сама LLM генерит инструкцию «опиши развитие LLM за последнее время» и ответом на инструкцию будет сам изначальный кусок текста
При чем, в статье три «стиля» инструкций генерят: обычные инструкции в повелительном наклонениии (опиши/расскажи/объясни/etc), инструкции как какой-то вопрос в чатботе и запросы как в поисковик
Тут конкретно авторы решили не просто куски корпусов брать (С4 и Wiki в основном), но и обязательно большие куски, чтобы модель генерила также довольно развернутые ответы. Имхо длина генерации тут вообще не главый поинт, и тут важнее, что их модели, обученные на таких синтетических инструкциях, вполне побили на бенчмарках предыдущие instruct-модели типа FLAN и Alpaca, даже с большим числом параметров
В общем это хороший proof of concept, как похожая статья ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks
А еще все модели обученные (кроме LLaMA) и сам датасет выложили на HF и гит
👍13❤1
Stability теперь релизят еще и языковые модели 👀
Почему это круто:
1️⃣ Сейчас выложены чекпоинты на 3B и 7B, обученные на 800B токенов. Но скоро обещают докинуть моделей, обученных на датсете размером 1.5T
Ранее создатели LLaMA сделали ставку на то, что большие языковые модели были сильно undertrained – их тренировали на недостаточно большом числе токенов. Поэтому какое-то время LLaMA-модели являлись самыми «натренированными» в этом отношении. LLaMA 7B училась на 1 триллионе токенов, а 65B и 33B модели – на 1.4 триллиона
Теперь Stability смогут составить им конкуренцию – их 7B модель будет учиться на датасете, который на 50% больше, чем у аналогичной LLaMA-модели
2️⃣ Во-вторых, Stability, в отличие от Meta, релизят по очень божеской лицензии Creative Commons. То есть модели можно использовать как угодно (земной им поклон)
3️⃣ Еще обещают натренировать и выпустить модели по 5 свежим и хайповым датасетам: Stanford's Alpaca, Nomic-AI's gpt4all, RyokoAI's ShareGPT52K datasets, Databricks labs' Dolly, and Anthropic's HH
репа: https://github.com/Stability-AI/StableLM
початиться с моделью 7B: https://huggingface.co/spaces/stabilityai/stablelm-tuned-alpha-chat
Почему это круто:
Ранее создатели LLaMA сделали ставку на то, что большие языковые модели были сильно undertrained – их тренировали на недостаточно большом числе токенов. Поэтому какое-то время LLaMA-модели являлись самыми «натренированными» в этом отношении. LLaMA 7B училась на 1 триллионе токенов, а 65B и 33B модели – на 1.4 триллиона
Теперь Stability смогут составить им конкуренцию – их 7B модель будет учиться на датасете, который на 50% больше, чем у аналогичной LLaMA-модели
репа: https://github.com/Stability-AI/StableLM
початиться с моделью 7B: https://huggingface.co/spaces/stabilityai/stablelm-tuned-alpha-chat
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24👍12❤6
Scaling Transformer to 1M tokens and beyond with
RMT
https://arxiv.org/pdf/2304.11062.pdf
Крутой резерч да еще и от DeepPavlov!
Статья Recurrent Memory Transformer вышла год назад, но завирусился сейчас именно этот технический репорт, где авторы применяют механизм конкретно к BERT
Схема может быть не очень понятная, но суть достаточно простая: длинный текст разбивают на отрывки, к началу первого отрывка добавляют обучаемый memory-вектор, он обрабатывается как часть входной последовательности. После форвард-пасса в этом векторе обновляется информация, его подают в начало следующего сегмента, и так реккурентно идут, пока не кончится исходный длинный текст. Во время тренировки, как синей линией показано, эти вектора обучаются через обычный бэкпроп
Проверяли способности модели на нескольких типах заданий: 1) в начале подается факт, который нужен для ответа на вопрос, а потом много нерелевантной информации 2) нужный факт замешан где-то в тексте и его нужно найти 3) нужно найти несколько фактов и исходя из них ответить на вопрос
При тренировке на 7 больших отрывках у модели получается accuracy в районе 100%. Авторы даже показывают, что размер текста можно до 2М токенов увеличить без существенной потери качества
Ограничений тут несколько:
- На инференсе вам все равно нужно прогнать через модель весь огромный текст в 1-2М токенов, а это долго, и ретривал пока для этого лучше работает
- В задачах, которые приводятся в статье, модели нужно вычленить один или несколько фактов, а не запомнить весь контекст. С этим относительно небольшой тренируемый вектор справляется, но нет уверенности, что этот подход сработает, если нужно запомнить сильно больше деталей
P.S. Шмидхубер опять был прав, когда сказал, что чем больше что-то похоже на RNN, тем лучше
RMT
https://arxiv.org/pdf/2304.11062.pdf
Крутой резерч да еще и от DeepPavlov!
Статья Recurrent Memory Transformer вышла год назад, но завирусился сейчас именно этот технический репорт, где авторы применяют механизм конкретно к BERT
Схема может быть не очень понятная, но суть достаточно простая: длинный текст разбивают на отрывки, к началу первого отрывка добавляют обучаемый memory-вектор, он обрабатывается как часть входной последовательности. После форвард-пасса в этом векторе обновляется информация, его подают в начало следующего сегмента, и так реккурентно идут, пока не кончится исходный длинный текст. Во время тренировки, как синей линией показано, эти вектора обучаются через обычный бэкпроп
Проверяли способности модели на нескольких типах заданий: 1) в начале подается факт, который нужен для ответа на вопрос, а потом много нерелевантной информации 2) нужный факт замешан где-то в тексте и его нужно найти 3) нужно найти несколько фактов и исходя из них ответить на вопрос
При тренировке на 7 больших отрывках у модели получается accuracy в районе 100%. Авторы даже показывают, что размер текста можно до 2М токенов увеличить без существенной потери качества
Ограничений тут несколько:
- На инференсе вам все равно нужно прогнать через модель весь огромный текст в 1-2М токенов, а это долго, и ретривал пока для этого лучше работает
- В задачах, которые приводятся в статье, модели нужно вычленить один или несколько фактов, а не запомнить весь контекст. С этим относительно небольшой тренируемый вектор справляется, но нет уверенности, что этот подход сработает, если нужно запомнить сильно больше деталей
P.S. Шмидхубер опять был прав, когда сказал, что чем больше что-то похоже на RNN, тем лучше
🔥22👍5👌1
Нашла крутую тулу, где можно посравнивать вышедшие за последние время модели 🌟
С учетом того, сколько новых моделей выходит каждую неделю, очень сложно становится понять, что из этого вообще работает хорошо и для каких задач. Тут можно попарно сравнивать LLM: вы пишете что-то в чат, вам отвечают две рандомные модели, вы в слепую оцениваете результаты, и вам раскрывают, где какая. Сейчас поддерживаются пожалуй самые нашумевшие недавние релизы: Vicuna, OpenAssistant, LLaMA, Alpaca, StableLM и не только
https://chat.lmsys.org/?arena
С учетом того, сколько новых моделей выходит каждую неделю, очень сложно становится понять, что из этого вообще работает хорошо и для каких задач. Тут можно попарно сравнивать LLM: вы пишете что-то в чат, вам отвечают две рандомные модели, вы в слепую оцениваете результаты, и вам раскрывают, где какая. Сейчас поддерживаются пожалуй самые нашумевшие недавние релизы: Vicuna, OpenAssistant, LLaMA, Alpaca, StableLM и не только
https://chat.lmsys.org/?arena
Please open Telegram to view this post
VIEW IN TELEGRAM
❤18👍7🔥5
Another day another model, на этот раз от Mosaic
Почему может быть интересно:
- Выпустили модель MPT-7B-StoryWriter-65k+, с контекстным окном 65k токенов для написания длинных историй (учили на книжках). Кажется самый большой контекст, который есть в опенсорсе сейчас
- Выпустили MPT-7B-Instruct, которая следуюет инструкциям и отвечает в краткой форме. Учили на датасетах Dolly и HH-RLHF от Anthropic
- Last but not least выпустили MPT-7B-Chat, который учили на ShareGPT-Vicuna (это пошернные переписки пользователей с ChatGPT), Alpaca и снова HH-RLHF
Еще из приятного:
- Foundation model MPT-7B (от которой тюнили все остальное) учили на 1T токенов, как и LLaMA
- У всего этого снова божеская лицензия, позволяющая коммерческое использование
- Выложили код для тренировки с FlashAttention
- Поддерживают сервинг из коробки через FasterTransformer (вау!)
hf: https://huggingface.co/mosaicml/mpt-7b
демо для чата: https://huggingface.co/spaces/mosaicml/mpt-7b-chat
Почему может быть интересно:
- Выпустили модель MPT-7B-StoryWriter-65k+, с контекстным окном 65k токенов для написания длинных историй (учили на книжках). Кажется самый большой контекст, который есть в опенсорсе сейчас
- Выпустили MPT-7B-Instruct, которая следуюет инструкциям и отвечает в краткой форме. Учили на датасетах Dolly и HH-RLHF от Anthropic
- Last but not least выпустили MPT-7B-Chat, который учили на ShareGPT-Vicuna (это пошернные переписки пользователей с ChatGPT), Alpaca и снова HH-RLHF
Еще из приятного:
- Foundation model MPT-7B (от которой тюнили все остальное) учили на 1T токенов, как и LLaMA
- У всего этого снова божеская лицензия, позволяющая коммерческое использование
- Выложили код для тренировки с FlashAttention
- Поддерживают сервинг из коробки через FasterTransformer (вау!)
hf: https://huggingface.co/mosaicml/mpt-7b
демо для чата: https://huggingface.co/spaces/mosaicml/mpt-7b-chat
👍17🔥3
Статья с завораживающим названием Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes
https://arxiv.org/abs/2305.02301
В качестве затравки авторы утверждают: 🌸«our 770M T5 model outperforms the 540B PaLM model using only 80% of available data on a benchmark task» 🌸
Что по факту они предлагают делать:
1. Взять действительно большую LLM (они используют PaLM)
2. Попросить ее нагенарить для нужного датасета ответы + объяснение, почему именно такой ответ выбран (rationale). Под ответами в статье в основном имеются в виду конкретно ответы на вопросы, выбрать что-то из multiple choice, задачки на логику и тд. Промт делают достаточно простой, просто во few-shot запихивают пару примеров ответов
3. Обучить на этих данных модель поменьше. Модель-ученика тренируют предсказывать и ответ, и объясение (через спецтокены label и rationale соответственно). Лосс на них считают по отдельности и складывают
4. ???
5. PROFIT
Имхо авторы занимаются здесь хайпожорством, так как дистилляцией такой подход сложно назвать. Вроде еще год назад, что ChatGPT, все поняли, что качество моделей сильно возрастает, если попросить их мыслить step by step и объяснять свой путь принятия решения. Я видела пару работ и про классификаторы, где использовалась ровно такая же логика: модель отдельно просили выдавать лейбл и отдельно объяснение; объяснение далее не использовалось, но сама необходимость его генерации очень бустило качество
В статье показано только то, что огромные LLM очень хорошо генерят эти rationale и на этом можно неплохо обучаться, а не пытаться от маленькой модели такой reasoning без дообучения просить
Неожиданно пожалуй, насколько крутой рост по метриках на бенчмарках это даает и насколько меньше данных оказывается нужно. Так что годный proof of concept получается, но с очень уж претенциозным названием
https://arxiv.org/abs/2305.02301
В качестве затравки авторы утверждают: 🌸«our 770M T5 model outperforms the 540B PaLM model using only 80% of available data on a benchmark task» 🌸
Что по факту они предлагают делать:
1. Взять действительно большую LLM (они используют PaLM)
2. Попросить ее нагенарить для нужного датасета ответы + объяснение, почему именно такой ответ выбран (rationale). Под ответами в статье в основном имеются в виду конкретно ответы на вопросы, выбрать что-то из multiple choice, задачки на логику и тд. Промт делают достаточно простой, просто во few-shot запихивают пару примеров ответов
3. Обучить на этих данных модель поменьше. Модель-ученика тренируют предсказывать и ответ, и объясение (через спецтокены label и rationale соответственно). Лосс на них считают по отдельности и складывают
4. ???
5. PROFIT
Имхо авторы занимаются здесь хайпожорством, так как дистилляцией такой подход сложно назвать. Вроде еще год назад, что ChatGPT, все поняли, что качество моделей сильно возрастает, если попросить их мыслить step by step и объяснять свой путь принятия решения. Я видела пару работ и про классификаторы, где использовалась ровно такая же логика: модель отдельно просили выдавать лейбл и отдельно объяснение; объяснение далее не использовалось, но сама необходимость его генерации очень бустило качество
В статье показано только то, что огромные LLM очень хорошо генерят эти rationale и на этом можно неплохо обучаться, а не пытаться от маленькой модели такой reasoning без дообучения просить
Неожиданно пожалуй, насколько крутой рост по метриках на бенчмарках это даает и насколько меньше данных оказывается нужно. Так что годный proof of concept получается, но с очень уж претенциозным названием
❤22
Please open Telegram to view this post
VIEW IN TELEGRAM
😱36
Language models can explain neurons in language models 🤔
Очень крутая и очень интерактивная статья про explainable ai. Советую всем открыть и потыкать:
https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html
В чем идея:
1. Берем исследуюемую модель и какой-то фиксированный датасет. Собираем инфу о том, какие нейроны как сильно активируются на каждом токене. Далее по этой информации просим GPT-4 для каждого нейрона предположить, за что он отвечает
2. Далее симулирем поведение этого нейрона, исходя из его предполагаемого назначения. Передаем в ту же GPT-4 описание, что этот нейрон якобы делает, кусок текста, и просим предсказать, какой силы активация должна у этого нейрона быть на последнем токене последовательности
3. Прогоняем этот текст через исследуемую модель и смотрим, какие активации у каких нейронов реально получились. Считаем скор, насколько предположение GPT-4 оказалось точным
Авторы исследовали GPT-2 XL и в целом для большей части нейронов ни GPT-4, ни человеческим разметчикам не удалось точно предполжить, что они делают. Но нашлись 1000+ нейронов, для которых удалось предсказать объяснение с точностью 0.8+. Еще авторы находят, что часто нейроны полисемантичны, и гораздо большую точность можно получить, если брать линейные комбинации от наиболее «ярких» нейронов
Как я уже написала, самая крутая чать работы – интерактивная
- Есть сниппет текста, где для каждого слова можно посмотреть, какие нейроны на него реагируют, какое им дано объяснение и к какому семантическому кластеру они относятся
– И есть neuron viewer, где для каждого нейрона GPT-2 можно посмотреть его объяснение и все токены в датасете, на которые он реагирует. Можно предложить и свое объяснение его поведения, так что мб так и накраудсорсится 🥳
Там же перечислен набор нейронов, которые кажется были хорошо объяснены. Например, авторы нашли отдельный нейрон для Канады, нейрон для улыбок и даже абстрактные нейроны про «doing things right» и «certainty»
Очень крутая и очень интерактивная статья про explainable ai. Советую всем открыть и потыкать:
https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html
В чем идея:
1. Берем исследуюемую модель и какой-то фиксированный датасет. Собираем инфу о том, какие нейроны как сильно активируются на каждом токене. Далее по этой информации просим GPT-4 для каждого нейрона предположить, за что он отвечает
2. Далее симулирем поведение этого нейрона, исходя из его предполагаемого назначения. Передаем в ту же GPT-4 описание, что этот нейрон якобы делает, кусок текста, и просим предсказать, какой силы активация должна у этого нейрона быть на последнем токене последовательности
3. Прогоняем этот текст через исследуемую модель и смотрим, какие активации у каких нейронов реально получились. Считаем скор, насколько предположение GPT-4 оказалось точным
Авторы исследовали GPT-2 XL и в целом для большей части нейронов ни GPT-4, ни человеческим разметчикам не удалось точно предполжить, что они делают. Но нашлись 1000+ нейронов, для которых удалось предсказать объяснение с точностью 0.8+. Еще авторы находят, что часто нейроны полисемантичны, и гораздо большую точность можно получить, если брать линейные комбинации от наиболее «ярких» нейронов
Как я уже написала, самая крутая чать работы – интерактивная
- Есть сниппет текста, где для каждого слова можно посмотреть, какие нейроны на него реагируют, какое им дано объяснение и к какому семантическому кластеру они относятся
– И есть neuron viewer, где для каждого нейрона GPT-2 можно посмотреть его объяснение и все токены в датасете, на которые он реагирует. Можно предложить и свое объяснение его поведения, так что мб так и накраудсорсится 🥳
Там же перечислен набор нейронов, которые кажется были хорошо объяснены. Например, авторы нашли отдельный нейрон для Канады, нейрон для улыбок и даже абстрактные нейроны про «doing things right» и «certainty»
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22❤7