я обучала одну модель – Telegram

я обучала одну модель

@def_model_train

4.58K subscribers

457 photos

29 videos

21 files

379 links

Shitposting on various subjects

PS рекламы в канале нет

Download Telegram

About

Blog

Apps

Platform

я обучала одну модель

4.58K subscribers

я обучала одну модель

Хорошая новость, но интересно, сколько в процентном отношении там Common Crawl с учетом того, что C4 – это тоже огромный корпус CC
UPD: аналитическим путем выяснено, что CC в общем около 87%

https://t.me/ai_newz/1862

эйай ньюз

📑RedPajama: текстовый датасет на 1.2 триллиона токенов!

Недавно я писал про открытую модель Dolly 2.0. Теперь таких моделей станет больше, ведь подъехал самосвал с текстовыми данными!

RedPajama - это датасет на 1.2 триллиона текстовых токенов, созданный…

🔥4

2.1K viewsedited 20:38

я обучала одну модель

Кстати мало кто упомянул про релиз от DeepSpeed, в котором они:
– подготовили скрипт для тренировки RLHF, в который надо просто передать модель с Huggingface
– подготовили API для питона, чтобы тренировку можно было кастомизировать
– смогли, как показывают в брошюре, сильно снизить время и косты обучения
– позволяют впихнуть OPT-13B на одну A100, например

Для оптимизации ввернули туда и Low Rank Adaption (LoRA), который сейчас используют кажется все для обучения LLaMA-моделей больших размеров

Чек ит аут короче, в датасетах для инстракшн тюнинга сейчас тоже дефицита нет
https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-chat

❤12

2.49K views20:56

я обучала одну модель

Многозначительная картинка, идея которой честно украдена из коментов этого поста

Два дня назад кстати AutoGPT обошла PyTorch по числу звезд на гитхабе. Мне если честно не до конца понятен сам феномен этого, так как помимо очевидного хайпа, AutoGPT сложно к чему-то применить. Это крутой эксперимент и крутое демо, но на нем так сказать не стоит ни один продакшн, в отличие от торча

❤7🤯3

2.19K views07:01

я обучала одну модель

Статья с немного underwhelming названием LongForm: Optimizing Instruction Tuning for Long Text Generation with Corpus Extraction
https://arxiv.org/pdf/2304.08460.pdf

По сути тут реализовали идею, которая давно витала в воздухе – зачем собирать human instructions, если можно брать из корпусов куски текста и просить LLM (тут GPT-3 обычная) к этому куску текста сгенерировать инструкцию. То есть, если у вас есть кусок текста про развитие LLM, к нему сама LLM генерит инструкцию «опиши развитие LLM за последнее время» и ответом на инструкцию будет сам изначальный кусок текста
При чем, в статье три «стиля» инструкций генерят: обычные инструкции в повелительном наклонениии (опиши/расскажи/объясни/etc), инструкции как какой-то вопрос в чатботе и запросы как в поисковик

Тут конкретно авторы решили не просто куски корпусов брать (С4 и Wiki в основном), но и обязательно большие куски, чтобы модель генерила также довольно развернутые ответы. Имхо длина генерации тут вообще не главый поинт, и тут важнее, что их модели, обученные на таких синтетических инструкциях, вполне побили на бенчмарках предыдущие instruct-модели типа FLAN и Alpaca, даже с большим числом параметров

В общем это хороший proof of concept, как похожая статья ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks

А еще все модели обученные (кроме LLaMA) и сам датасет выложили на HF и гит

👍13❤1

2.9K viewsedited 12:36

я обучала одну модель

Stability теперь релизят еще и языковые модели

👀

Почему это круто:
1️⃣ Сейчас выложены чекпоинты на 3B и 7B, обученные на 800B токенов. Но скоро обещают докинуть моделей, обученных на датсете размером 1.5T

Ранее создатели LLaMA сделали ставку на то, что большие языковые модели были сильно undertrained – их тренировали на недостаточно большом числе токенов. Поэтому какое-то время LLaMA-модели являлись самыми «натренированными» в этом отношении. LLaMA 7B училась на 1 триллионе токенов, а 65B и 33B модели – на 1.4 триллиона

Теперь Stability смогут составить им конкуренцию – их 7B модель будет учиться на датасете, который на 50% больше, чем у аналогичной LLaMA-модели

2️⃣ Во-вторых, Stability, в отличие от Meta, релизят по очень божеской лицензии Creative Commons. То есть модели можно использовать как угодно (земной им поклон)

3️⃣ Еще обещают натренировать и выпустить модели по 5 свежим и хайповым датасетам: Stanford's Alpaca, Nomic-AI's gpt4all, RyokoAI's ShareGPT52K datasets, Databricks labs' Dolly, and Anthropic's HH

репа: https://github.com/Stability-AI/StableLM
початиться с моделью 7B: https://huggingface.co/spaces/stabilityai/stablelm-tuned-alpha-chat

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥24👍12❤6

2.86K viewsedited 18:21

я обучала одну модель

Давайте уже сразу выводы в название папир запихивать ну а че

🤩10👍3👎1🥴1

1.96K views19:55

я обучала одну модель

Scaling Transformer to 1M tokens and beyond with
RMT
https://arxiv.org/pdf/2304.11062.pdf

Крутой резерч да еще и от DeepPavlov!
Статья Recurrent Memory Transformer вышла год назад, но завирусился сейчас именно этот технический репорт, где авторы применяют механизм конкретно к BERT

Схема может быть не очень понятная, но суть достаточно простая: длинный текст разбивают на отрывки, к началу первого отрывка добавляют обучаемый memory-вектор, он обрабатывается как часть входной последовательности. После форвард-пасса в этом векторе обновляется информация, его подают в начало следующего сегмента, и так реккурентно идут, пока не кончится исходный длинный текст. Во время тренировки, как синей линией показано, эти вектора обучаются через обычный бэкпроп

Проверяли способности модели на нескольких типах заданий: 1) в начале подается факт, который нужен для ответа на вопрос, а потом много нерелевантной информации 2) нужный факт замешан где-то в тексте и его нужно найти 3) нужно найти несколько фактов и исходя из них ответить на вопрос

При тренировке на 7 больших отрывках у модели получается accuracy в районе 100%. Авторы даже показывают, что размер текста можно до 2М токенов увеличить без существенной потери качества

Ограничений тут несколько:
- На инференсе вам все равно нужно прогнать через модель весь огромный текст в 1-2М токенов, а это долго, и ретривал пока для этого лучше работает
- В задачах, которые приводятся в статье, модели нужно вычленить один или несколько фактов, а не запомнить весь контекст. С этим относительно небольшой тренируемый вектор справляется, но нет уверенности, что этот подход сработает, если нужно запомнить сильно больше деталей

P.S. Шмидхубер опять был прав, когда сказал, что чем больше что-то похоже на RNN, тем лучше

🔥22👍5👌1

2.61K views20:50

я обучала одну модель

Нашла крутую тулу, где можно посравнивать вышедшие за последние время модели 🌟

С учетом того, сколько новых моделей выходит каждую неделю, очень сложно становится понять, что из этого вообще работает хорошо и для каких задач. Тут можно попарно сравнивать LLM: вы пишете что-то в чат, вам отвечают две рандомные модели, вы в слепую оцениваете результаты, и вам раскрывают, где какая. Сейчас поддерживаются пожалуй самые нашумевшие недавние релизы: Vicuna, OpenAssistant, LLaMA, Alpaca, StableLM и не только

https://chat.lmsys.org/?arena

Please open Telegram to view this post

VIEW IN TELEGRAM

❤18👍7🔥5

2.88K views15:31

я обучала одну модель

Another day another model, на этот раз от Mosaic

Почему может быть интересно:
- Выпустили модель MPT-7B-StoryWriter-65k+, с контекстным окном 65k токенов для написания длинных историй (учили на книжках). Кажется самый большой контекст, который есть в опенсорсе сейчас
- Выпустили MPT-7B-Instruct, которая следуюет инструкциям и отвечает в краткой форме. Учили на датасетах Dolly и HH-RLHF от Anthropic
- Last but not least выпустили MPT-7B-Chat, который учили на ShareGPT-Vicuna (это пошернные переписки пользователей с ChatGPT), Alpaca и снова HH-RLHF

Еще из приятного:
- Foundation model MPT-7B (от которой тюнили все остальное) учили на 1T токенов, как и LLaMA
- У всего этого снова божеская лицензия, позволяющая коммерческое использование
- Выложили код для тренировки с FlashAttention
- Поддерживают сервинг из коробки через FasterTransformer (вау!)

hf: https://huggingface.co/mosaicml/mpt-7b
демо для чата: https://huggingface.co/spaces/mosaicml/mpt-7b-chat

👍17🔥3

3.12K viewsedited 16:34

я обучала одну модель

Статья с завораживающим названием Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes
https://arxiv.org/abs/2305.02301

В качестве затравки авторы утверждают: 🌸«our 770M T5 model outperforms the 540B PaLM model using only 80% of available data on a benchmark task» 🌸

Что по факту они предлагают делать:
1. Взять действительно большую LLM (они используют PaLM)
2. Попросить ее нагенарить для нужного датасета ответы + объяснение, почему именно такой ответ выбран (rationale). Под ответами в статье в основном имеются в виду конкретно ответы на вопросы, выбрать что-то из multiple choice, задачки на логику и тд. Промт делают достаточно простой, просто во few-shot запихивают пару примеров ответов
3. Обучить на этих данных модель поменьше. Модель-ученика тренируют предсказывать и ответ, и объясение (через спецтокены label и rationale соответственно). Лосс на них считают по отдельности и складывают
4. ???
5. PROFIT

Имхо авторы занимаются здесь хайпожорством, так как дистилляцией такой подход сложно назвать. Вроде еще год назад, что ChatGPT, все поняли, что качество моделей сильно возрастает, если попросить их мыслить step by step и объяснять свой путь принятия решения. Я видела пару работ и про классификаторы, где использовалась ровно такая же логика: модель отдельно просили выдавать лейбл и отдельно объяснение; объяснение далее не использовалось, но сама необходимость его генерации очень бустило качество

В статье показано только то, что огромные LLM очень хорошо генерят эти rationale и на этом можно неплохо обучаться, а не пытаться от маленькой модели такой reasoning без дообучения просить

Неожиданно пожалуй, насколько крутой рост по метриках на бенчмарках это даает и насколько меньше данных оказывается нужно. Так что годный proof of concept получается, но с очень уж претенциозным названием

❤22

2.34K views07:38

я обучала одну модель

впервые на моей памяти хаггингфейс лежит больше получаса 🏥

Please open Telegram to view this post

VIEW IN TELEGRAM

😱36

2.12K views10:40

я обучала одну модель

Language models can explain neurons in language models

🤔

Очень крутая и очень интерактивная статья про explainable ai. Советую всем открыть и потыкать:
https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html

В чем идея:
1. Берем исследуюемую модель и какой-то фиксированный датасет. Собираем инфу о том, какие нейроны как сильно активируются на каждом токене. Далее по этой информации просим GPT-4 для каждого нейрона предположить, за что он отвечает
2. Далее симулирем поведение этого нейрона, исходя из его предполагаемого назначения. Передаем в ту же GPT-4 описание, что этот нейрон якобы делает, кусок текста, и просим предсказать, какой силы активация должна у этого нейрона быть на последнем токене последовательности
3. Прогоняем этот текст через исследуемую модель и смотрим, какие активации у каких нейронов реально получились. Считаем скор, насколько предположение GPT-4 оказалось точным

Авторы исследовали GPT-2 XL и в целом для большей части нейронов ни GPT-4, ни человеческим разметчикам не удалось точно предполжить, что они делают. Но нашлись 1000+ нейронов, для которых удалось предсказать объяснение с точностью 0.8+. Еще авторы находят, что часто нейроны полисемантичны, и гораздо большую точность можно получить, если брать линейные комбинации от наиболее «ярких» нейронов

Как я уже написала, самая крутая чать работы – интерактивная
- Есть сниппет текста, где для каждого слова можно посмотреть, какие нейроны на него реагируют, какое им дано объяснение и к какому семантическому кластеру они относятся
– И есть neuron viewer, где для каждого нейрона GPT-2 можно посмотреть его объяснение и все токены в датасете, на которые он реагирует. Можно предложить и свое объяснение его поведения, так что мб так и накраудсорсится 🥳

Там же перечислен набор нейронов, которые кажется были хорошо объяснены. Например, авторы нашли отдельный нейрон для Канады, нейрон для улыбок и даже абстрактные нейроны про «doing things right» и «certainty»

Please open Telegram to view this post

VIEW IN TELEGRAM

👍22❤7

3.2K viewsedited 19:24

я обучала одну модель

я обучала одну модель

Language models can explain neurons in language models 🤔 Очень крутая и очень интерактивная статья про explainable ai. Советую всем открыть и потыкать: https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html В чем идея: 1. Берем исследуюемую…

А вот и мемы подоспели

😁32🔥7👍3🤔2

3.6K viewsedited 20:22

я обучала одну модель

Редкая рубрика ‘сегодня нейросеть сказала’:

❤24😁11👏3

3.28K viewsedited 12:47

я обучала одну модель

It’s that time of the day again

👍16

3.18K views11:29

я обучала одну модель

Forwarded from Science Doge

😁27

2.68K views19:58

я обучала одну модель

Возвращаюсь после небольшого перерыва и сразу с овервью еще одной модели Falcon LLM

- Основная модель размером 40B, тренировалась на 1T токенов (это все еще меньше, чем 1.4T у LLAMA). Есть версия и на 7B
- Инференс ускоряли через Flash-Attention и Multi-query Attention, так что модель получилась в 5 раз быстрее GPT-3
- На данный момент эта архитектура занимает первые два места в OpenLLM Leaderboard от Huggingface и наконец-то подвинула LLaMA 65B. Также она обходит StableLM, RedPajama и MPT от Mosaic. Но вообще надо признать, что в топ-10 лидерборда все еще много моделей по 30B, и есть даже одна 13B (вот она)
- Выпущена под лицензией Apache 2.0, и вчера авторы заявили, что больше не будут требовать роялтис за коммерческое использование
- Секрет, как утверждается, снова в кристалльно чистых данных, скауленных с интернета. Но датасет и папиру пока не релизнули(

https://huggingface.co/tiiuae/falcon-40b-instruct

👍12

2.6K views17:15

я обучала одну модель

я обучала одну модель

Возвращаюсь после небольшого перерыва и сразу с овервью еще одной модели Falcon LLM - Основная модель размером 40B, тренировалась на 1T токенов (это все еще меньше, чем 1.4T у LLAMA). Есть версия и на 7B - Инференс ускоряли через Flash-Attention и Multi-query…

Кстати всякие оптимизации аттеншена, типа Flash Attention и Multi-Query Attention и не только, неплохо описаны в этой статье (которую я честно увидела в DL in NLP)

https://medium.com/gopenai/how-to-speed-up-llms-and-use-100k-context-window-all-tricks-in-one-place-ffd40577b4c

Как LLMs могут принимать сразу 100К токенов на вход?

Недавно несколько компаний объявили о возможности своих LLMs брать на вход аж до 100K токенов. Это промпт размером с книгу!
Для примера, OpenAI GPT-4 может брать 8-32K, а опен-сорсные модели всего 2K.…

👍5❤2

2.78K views17:22