LLM2Vec: Large Language Models Are Secretly Powerful Text
Encoders
Знаете мем про "You know what? Screw you, *unkits your kat*"? Авторы статьи повторили буквально этот мем и сказали "Screw you, *unmasks your masked attention*" и сделали бочку энкодер из декодера.
Их алгоритм до безобразия прост: берём претрейн, заменяем треугольную маску аттеншна на матрицу с единичками, хилим чутка на MLM (который они называют как то по другому, но суть та же), доучиваем на контрастиве -- и энкодер готов.
Причем учить надо совсем чуть чуть и не на каких-то уникальных данных -- авторам хватило 1000 шагов на Викитексте с батчом 32, чтобы получить рабочую модель. Для 7б это всего лишь примерно 100 минут на одной А100. К слову, вопрос, а как они уместили 7б на А100 -- это Лора, галор, восьмибитный адамв? Подозрительная история.
Контрастив учится дольше -- примерно 3 часа, но количество данных, пролитое через модель, тоже не слишком большое -- 1000 шагов с бс 128.
Авторы проверили идею на четырёх моделях: tinyllama, Mistral 7b, llama-2-7b и meta-llama-3-8b. И если ламы вели себя как полагается, то мистраль, внезапно, доучивать на MLM не пришлось, то есть он сразу, после анмаскинга работает нормально и даёт вменяемые эмбеддинги.
Авторы предполагают, что этот феномен связан с тем, что мистраль какое-то время учили на какой-то таске с двунаправленным аттеншном -- например, на PrefixLM. С другой стороны, в репорте мистраля этого не было, только описание sliding window attention, которое я тогда не понял, но как будто бы оно все равно не двунаправленное. Кто врёт -- решительно непонятно, но если авторы статьи правы, то мы не только из декодеров можем делать энкодеры, но и из энкодеров декодеры!
Итоговые модели после контрастива заняли высокие места на MTEB, так что подход оказался вполне себе viable. Учитывая размеры нынешних лидеров мтеба и простоту создания подобных моделей, я удивлен, что никто ещё не занял зияющую нишу и не сделал эмбеддер на основе какой-нибудь небольшой кодинговой сети типа qwen-2.5-1.5b-coder. Множество людей, пилящих раг на коде, сказали бы спасибо.
Paper: https://arxiv.org/abs/2404.05961
Code: https://github.com/McGill-NLP/llm2vec
Page: https://mcgill-nlp.github.io/llm2vec/
Encoders
Знаете мем про "You know what? Screw you, *unkits your kat*"? Авторы статьи повторили буквально этот мем и сказали "Screw you, *unmasks your masked attention*" и сделали бочку энкодер из декодера.
Их алгоритм до безобразия прост: берём претрейн, заменяем треугольную маску аттеншна на матрицу с единичками, хилим чутка на MLM (который они называют как то по другому, но суть та же), доучиваем на контрастиве -- и энкодер готов.
Причем учить надо совсем чуть чуть и не на каких-то уникальных данных -- авторам хватило 1000 шагов на Викитексте с батчом 32, чтобы получить рабочую модель. Для 7б это всего лишь примерно 100 минут на одной А100. К слову, вопрос, а как они уместили 7б на А100 -- это Лора, галор, восьмибитный адамв? Подозрительная история.
Контрастив учится дольше -- примерно 3 часа, но количество данных, пролитое через модель, тоже не слишком большое -- 1000 шагов с бс 128.
Авторы проверили идею на четырёх моделях: tinyllama, Mistral 7b, llama-2-7b и meta-llama-3-8b. И если ламы вели себя как полагается, то мистраль, внезапно, доучивать на MLM не пришлось, то есть он сразу, после анмаскинга работает нормально и даёт вменяемые эмбеддинги.
Авторы предполагают, что этот феномен связан с тем, что мистраль какое-то время учили на какой-то таске с двунаправленным аттеншном -- например, на PrefixLM. С другой стороны, в репорте мистраля этого не было, только описание sliding window attention, которое я тогда не понял, но как будто бы оно все равно не двунаправленное. Кто врёт -- решительно непонятно, но если авторы статьи правы, то мы не только из декодеров можем делать энкодеры, но и из энкодеров декодеры!
Итоговые модели после контрастива заняли высокие места на MTEB, так что подход оказался вполне себе viable. Учитывая размеры нынешних лидеров мтеба и простоту создания подобных моделей, я удивлен, что никто ещё не занял зияющую нишу и не сделал эмбеддер на основе какой-нибудь небольшой кодинговой сети типа qwen-2.5-1.5b-coder. Множество людей, пилящих раг на коде, сказали бы спасибо.
Paper: https://arxiv.org/abs/2404.05961
Code: https://github.com/McGill-NLP/llm2vec
Page: https://mcgill-nlp.github.io/llm2vec/
arXiv.org
LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders
Large decoder-only language models (LLMs) are the state-of-the-art models on most of today's NLP tasks and benchmarks. Yet, the community is only slowly adopting these models for text embedding...
1🔥6
Почему чатгпт не могли обойти целый год или как спасти российские ллм
На берегу скажу, что в этом посте нет ничего полезного, это такой отчаявшийся крик в пустоту.
13 марта 2023 года OpenAI представили gpt4. Её фишкой было количество и качество данных, огромный размер модели и талант инженеров и исследователей, которые смогли заставить всё работать. Почти сразу стало понятно, что штука очень полезная, в ближайшем будущем прорывная и что надо закупать карточки и пилить аналог. Ответом на gpt4 стали бесконечные палмы и гемини от Гугла, клоды от антропика, лламы от меты, мистрали от мистраля и, конечно же, гигачаты и яндексгпт от наших коллег из Сбера и Яндекса, соответственно. На обучение и ресерч были потрачены миллионы человекочасов, миллиарды долларов и триллионы гпучасов -- и все с одной целью: обойти gpt4 и стать новой сотой, подмяв под себя как можно большую долю рынка до того, как он устаканится.
Аналоги gpt4 начали появляться примерно с марта 2024 (то есть, спустя год после запуска модели). Claude 3 Opus страшно дорогой и медленный, но во многих задачах он работает сильно лучше gpt4. Прочие компании подтянулись чуть позже — летом гугл выпустил в арену gemini pro 1.5 experimental, которая обошла и опус, и gpt4o, мета выпустила llama-3.1-405b, которая была приблизительно наравне с gpt4o во многих задачах, а Mistral AI выпустили Mistral Large, которую я не тыкал, но про которую говорят, что она тоже хороша.
Так причём тут спасение российского нлп и почему выход аналогов gpt4 так затянулся? Ведь казалось бы, компании уровня Google или Сбера/Яндекса уж точно имеют деньги, чтобы купить карточек, разметить данных и поставить учиться модель, которая будет обходить чатгпт, почему этого не произошло? Ответ простой — карьеризм и самообман.
Над гигачатом в нашей среде принято либо подтрунивать, либо недоумевать по поводу его качества, поскольку в лидербордах он занимает последние места, а руководство делает очень странные заявления о том, что они на сбс обогнали ChatGPT*. И ведь эти заявления, скорее всего, истинные — на их воронках. Я вполне верю, что если подобрать правильные промпты, то гигачат будет наравне или даже обходить gpt3.5 на сбсе. Вопрос только в репрезентативности таких воронок — потому что на вопрос про свиные крылышки он пишет много не очень хорошего питоновского кода, не выполняя заданные инструкции. Наверняка я этого не знаю, но у меня есть подозрение, что у яндекса проблемы похожего характера — потому что они точно так же побеждают гпт-3.5 и другие не очень новые модели на сбс и своих бенчмарках, но при личном использовании я не чувствую, что это viable альтернатива даже опенсорсным моделям с HF Chat.
Зачем им так врать? Очень просто — начальство сказало "надо сделать российский чатгпт", так что приходится рожать кривые воронки и побеждать на них чатгпт. Начальство довольно метриками, можно продолжать работать дальше. Получается порочный круг: они врут начальству о том, что всё хорошо, начальство гладит их по головке, мотивируя продолжать в том же духе, а инженеры продолжают делать модели, которые на flawed воронках показывают хорошие результаты. А ведь это вредит итоговому качеству модели — я слышал страшные истории о том, что в команде гиги отказались от preference tuning, потому что на сбс качество падало, то есть начальству такое продать будет сложнее.
И авторы гигачата, и авторы YaGPT ставят себе задачей повторить успех OpenAI, замеряясь на (вероятно) flawed бенчмарках, которые недостаточно репрезентативны. Я подозреваю, что эта проблема ещё более актуальна в больших западных компаниях типа меты или гугла, с поправкой на то, что англоязычные модели делать проще.
На берегу скажу, что в этом посте нет ничего полезного, это такой отчаявшийся крик в пустоту.
13 марта 2023 года OpenAI представили gpt4. Её фишкой было количество и качество данных, огромный размер модели и талант инженеров и исследователей, которые смогли заставить всё работать. Почти сразу стало понятно, что штука очень полезная, в ближайшем будущем прорывная и что надо закупать карточки и пилить аналог. Ответом на gpt4 стали бесконечные палмы и гемини от Гугла, клоды от антропика, лламы от меты, мистрали от мистраля и, конечно же, гигачаты и яндексгпт от наших коллег из Сбера и Яндекса, соответственно. На обучение и ресерч были потрачены миллионы человекочасов, миллиарды долларов и триллионы гпучасов -- и все с одной целью: обойти gpt4 и стать новой сотой, подмяв под себя как можно большую долю рынка до того, как он устаканится.
Аналоги gpt4 начали появляться примерно с марта 2024 (то есть, спустя год после запуска модели). Claude 3 Opus страшно дорогой и медленный, но во многих задачах он работает сильно лучше gpt4. Прочие компании подтянулись чуть позже — летом гугл выпустил в арену gemini pro 1.5 experimental, которая обошла и опус, и gpt4o, мета выпустила llama-3.1-405b, которая была приблизительно наравне с gpt4o во многих задачах, а Mistral AI выпустили Mistral Large, которую я не тыкал, но про которую говорят, что она тоже хороша.
Так причём тут спасение российского нлп и почему выход аналогов gpt4 так затянулся? Ведь казалось бы, компании уровня Google или Сбера/Яндекса уж точно имеют деньги, чтобы купить карточек, разметить данных и поставить учиться модель, которая будет обходить чатгпт, почему этого не произошло? Ответ простой — карьеризм и самообман.
Над гигачатом в нашей среде принято либо подтрунивать, либо недоумевать по поводу его качества, поскольку в лидербордах он занимает последние места, а руководство делает очень странные заявления о том, что они на сбс обогнали ChatGPT*. И ведь эти заявления, скорее всего, истинные — на их воронках. Я вполне верю, что если подобрать правильные промпты, то гигачат будет наравне или даже обходить gpt3.5 на сбсе. Вопрос только в репрезентативности таких воронок — потому что на вопрос про свиные крылышки он пишет много не очень хорошего питоновского кода, не выполняя заданные инструкции. Наверняка я этого не знаю, но у меня есть подозрение, что у яндекса проблемы похожего характера — потому что они точно так же побеждают гпт-3.5 и другие не очень новые модели на сбс и своих бенчмарках, но при личном использовании я не чувствую, что это viable альтернатива даже опенсорсным моделям с HF Chat.
Зачем им так врать? Очень просто — начальство сказало "надо сделать российский чатгпт", так что приходится рожать кривые воронки и побеждать на них чатгпт. Начальство довольно метриками, можно продолжать работать дальше. Получается порочный круг: они врут начальству о том, что всё хорошо, начальство гладит их по головке, мотивируя продолжать в том же духе, а инженеры продолжают делать модели, которые на flawed воронках показывают хорошие результаты. А ведь это вредит итоговому качеству модели — я слышал страшные истории о том, что в команде гиги отказались от preference tuning, потому что на сбс качество падало, то есть начальству такое продать будет сложнее.
И авторы гигачата, и авторы YaGPT ставят себе задачей повторить успех OpenAI, замеряясь на (вероятно) flawed бенчмарках, которые недостаточно репрезентативны. Я подозреваю, что эта проблема ещё более актуальна в больших западных компаниях типа меты или гугла, с поправкой на то, что англоязычные модели делать проще.
4👍8😢2
Ну и как же спасти российские ллм? Ответ прост: делать русскоязычные бенчмарки. Причём не бенчмарки типа пинг-понга (идея которого мне нравится, но я не считаю его очень полезным для моих юзкейсов**), арены (где результат модели всё ещё зависит от формата ответа, а сложность для моделей зависит от сложности запросов юзеров), или сбса, который можно собрать нерепрезентативно, а те, где качество модели можно замерить чётко и без вариаций. Например, мой любимый ifeval, хоть и имеет аналог для русского языка, я ни разу не встречал его в замерах качества моделей***.
Если таких verifiable бенчей будет больше и если они станут industry standard, если модели начнут на них замерять и сравнивать, если у нас появится надёжный и репрезентативный инструмент для оценки качества модели — то врать начальству (или самому себе!) станет значительно сложнее. Халявщиков уволят, оставшимся выпишут целительных пенделей, а мы чётко поймём, насколько вихри, сайги, гигачаты и ягпт лучше или хуже друг друга, чатгпт или опенсорсных аналогов и получим значительно более качественные модели.
*Этой статье уже довольно много времени, с тех пор гигачат обновили и он стал чуточку лучше, but not really. Я смотрел внутреннюю презентацию с анонсом, описанные в этом абзаце проблемы новой версии гигачата ещё более справедливы, чем ранее, тем более, что сравнивались они уже не с 3.5, а с gpt4-turbo. То, что они стыдливо скрывают значения метрик лишь будет подтверждением моих слов.
**На пинг-понге в последнее время в топе закрепились модели, обученные с помощью simpio — на моих задачах такие модели становятся хуже оригинальных, потому что мне важно следование инструкциям и качество ответа, а не форма. Вполне возможно, что для оценки качества рп бенч подходит, но имхо, гораздо полезнее было бы замерить, например, tool call, следование инструкциям, написание и правку кода и reasoning.
***Не так давно появилась вторая версия меры, где пофиксили много ошибок из первой версии — но там до сих пор почему-то не приняли на замеры ни сайгу, ни вихрь, так что сравниться в качестве моделей на этом бенче, к сожалению, не получится. Это шаг в правильном направлении, надеюсь, что авторы упростят процесс подачи заявок и бенч не умрёт.
Если таких verifiable бенчей будет больше и если они станут industry standard, если модели начнут на них замерять и сравнивать, если у нас появится надёжный и репрезентативный инструмент для оценки качества модели — то врать начальству (или самому себе!) станет значительно сложнее. Халявщиков уволят, оставшимся выпишут целительных пенделей, а мы чётко поймём, насколько вихри, сайги, гигачаты и ягпт лучше или хуже друг друга, чатгпт или опенсорсных аналогов и получим значительно более качественные модели.
*Этой статье уже довольно много времени, с тех пор гигачат обновили и он стал чуточку лучше, but not really. Я смотрел внутреннюю презентацию с анонсом, описанные в этом абзаце проблемы новой версии гигачата ещё более справедливы, чем ранее, тем более, что сравнивались они уже не с 3.5, а с gpt4-turbo. То, что они стыдливо скрывают значения метрик лишь будет подтверждением моих слов.
**На пинг-понге в последнее время в топе закрепились модели, обученные с помощью simpio — на моих задачах такие модели становятся хуже оригинальных, потому что мне важно следование инструкциям и качество ответа, а не форма. Вполне возможно, что для оценки качества рп бенч подходит, но имхо, гораздо полезнее было бы замерить, например, tool call, следование инструкциям, написание и правку кода и reasoning.
***Не так давно появилась вторая версия меры, где пофиксили много ошибок из первой версии — но там до сих пор почему-то не приняли на замеры ни сайгу, ни вихрь, так что сравниться в качестве моделей на этом бенче, к сожалению, не получится. Это шаг в правильном направлении, надеюсь, что авторы упростят процесс подачи заявок и бенч не умрёт.
3👍10
Гречневые мысли
То, что они стыдливо скрывают значения метрик лишь будет подтверждением моих слов.
Урааа, метрики появились. Гигачат про (на английском) хуже, чем qwen-2-7b, лайт хуже, чем qwen-2.5-3b.
Вполне возможно, китайцы учились на тесте, да, но мой личный опыт общения с квеном примерно подтверждает метрики.
¯\_(ツ)_/¯
https://developers.sber.ru/docs/ru/gigachat/models/updates?utm_campaign=gigachat_api20241004&utm_source=email&utm_medium=owned&utm_content=button
Вполне возможно, китайцы учились на тесте, да, но мой личный опыт общения с квеном примерно подтверждает метрики.
¯\_(ツ)_/¯
https://developers.sber.ru/docs/ru/gigachat/models/updates?utm_campaign=gigachat_api20241004&utm_source=email&utm_medium=owned&utm_content=button
Sber Developers Documentation
Документация для разработчиков
Обновления моделей | Нейросетевая модель от Сбера на русском языке
1👍2😁2🤣2😢1
При проверке некоторой гипотезы столкнулся с очень странным артефактом: у подозрительно многих моделей возникают сложности с ответом на вопрос про типы столовых приборов.
Модели постарше, такие как mistral-tiny, рассказывают про шприцы для лимонада (?), зонтики (??) и тёрки для соусов (???). С небольшими нерусскоязычными моделями поновее тоже не всё гладко: llama-3.1-8b-instruct придумывает крахмалистые и кислотные ножи для резки картофеля и апельсинов соответственно — я даже загуглил, вдруг я чего-то не знаю о кулинарии, но нет, это галлюцинация.
Понятно, что эти модели не обучались как мультиязычные и не имеют поддержки русского языка, но всё равно, галлюцинации в такой простой теме видеть довольно неожиданно — промпт то простой, не требующий от модели никаких особенных узкоспециализированных знаний. Да и потом, на вопросы про типы одежды, например, все они отвечают вполне сносно.
А что у адаптированных под русский язык моделей? При стандартных параметрах семплирования в боте сайги у них тоже возникают проблемы: новые Вихри (и vikhr-nemo-12b, и vikhr-l31-8b) начинают придумывать какие-то галетные кольца, восточные суповые ложки с ручками для "еды супов без залива в тарелку" (???) и трапециевидные вилки, а у сайги-tlite откуда то вылезают молотки для перца (видимо, имелись в виду мельницы) и сольницы (солонки?). Причём у оригинальных моделей всё хорошо: tlite генерит идеальный текст, а mistral nemo вставляет в ответ один токен по английски, но сам текст откровенного бреда не имеет.
У гигачата и яндексгпт тоже всё нормально — никаких особенных проблем с описанием таксономии вилок у них не наблюдается, также как и у моделей побольше типа llama-3.1-70b, mistral-large-2, mixtral-8x7b или разных коммандеров.
Я решил провести дополнительный эксперимент над Вихрями: задать им вопрос про посуду, который был в обучающем сете и попробовать воспроизвести ответ из датасета. На удивление, vikhr-l31-8b с нулевой температурой не просто не смогла избавиться от странных предметов домашней утвари вроде "песка для чистки посуды", но и зациклилась, уйдя в бесконечное перечисление средств кухонной гигиены. vikhr-nemo-12b справилась нормально, но всё ещё не очень похоже на то, что было в обучающем сете. Само качество текста вопросов почти не вызывает — один раз модель перепутала падеж и один раз придумала "сковороду-вегетарианку", что указывает на низкую уверенность модели в том, что она пишет, но текст в целом был вполне приемлемым. С другой стороны, если спросить вот этот вопрос, то vikhr-l31-8b воспроизведёт информацию из обучающего сета практически без изменений, а vikhr-nemo-12b будет добавлять забавные детали и писать, в среднем, более длинно.
В чём же причина таких галлюцинаций? А чёрт его знает. Возможно, это артефакт preference tuning'а — может быть в сетах было мало информации про кухонную утварь, а так как модель оптимизируется в сторону более живого и креативного рассказа, появляются сковороды-вегетарианки и кислотные ножи из вархаммера. А может быть и нет — всё таки вихреллама смогла вспомнить текст второго промпта.
Если интересно, можете тоже потыкаться сами, вот промпт:
Модели постарше, такие как mistral-tiny, рассказывают про шприцы для лимонада (?), зонтики (??) и тёрки для соусов (???). С небольшими нерусскоязычными моделями поновее тоже не всё гладко: llama-3.1-8b-instruct придумывает крахмалистые и кислотные ножи для резки картофеля и апельсинов соответственно — я даже загуглил, вдруг я чего-то не знаю о кулинарии, но нет, это галлюцинация.
Понятно, что эти модели не обучались как мультиязычные и не имеют поддержки русского языка, но всё равно, галлюцинации в такой простой теме видеть довольно неожиданно — промпт то простой, не требующий от модели никаких особенных узкоспециализированных знаний. Да и потом, на вопросы про типы одежды, например, все они отвечают вполне сносно.
А что у адаптированных под русский язык моделей? При стандартных параметрах семплирования в боте сайги у них тоже возникают проблемы: новые Вихри (и vikhr-nemo-12b, и vikhr-l31-8b) начинают придумывать какие-то галетные кольца, восточные суповые ложки с ручками для "еды супов без залива в тарелку" (???) и трапециевидные вилки, а у сайги-tlite откуда то вылезают молотки для перца (видимо, имелись в виду мельницы) и сольницы (солонки?). Причём у оригинальных моделей всё хорошо: tlite генерит идеальный текст, а mistral nemo вставляет в ответ один токен по английски, но сам текст откровенного бреда не имеет.
У гигачата и яндексгпт тоже всё нормально — никаких особенных проблем с описанием таксономии вилок у них не наблюдается, также как и у моделей побольше типа llama-3.1-70b, mistral-large-2, mixtral-8x7b или разных коммандеров.
Я решил провести дополнительный эксперимент над Вихрями: задать им вопрос про посуду, который был в обучающем сете и попробовать воспроизвести ответ из датасета. На удивление, vikhr-l31-8b с нулевой температурой не просто не смогла избавиться от странных предметов домашней утвари вроде "песка для чистки посуды", но и зациклилась, уйдя в бесконечное перечисление средств кухонной гигиены. vikhr-nemo-12b справилась нормально, но всё ещё не очень похоже на то, что было в обучающем сете. Само качество текста вопросов почти не вызывает — один раз модель перепутала падеж и один раз придумала "сковороду-вегетарианку", что указывает на низкую уверенность модели в том, что она пишет, но текст в целом был вполне приемлемым. С другой стороны, если спросить вот этот вопрос, то vikhr-l31-8b воспроизведёт информацию из обучающего сета практически без изменений, а vikhr-nemo-12b будет добавлять забавные детали и писать, в среднем, более длинно.
В чём же причина таких галлюцинаций? А чёрт его знает. Возможно, это артефакт preference tuning'а — может быть в сетах было мало информации про кухонную утварь, а так как модель оптимизируется в сторону более живого и креативного рассказа, появляются сковороды-вегетарианки и кислотные ножи из вархаммера. А может быть и нет — всё таки вихреллама смогла вспомнить текст второго промпта.
Если интересно, можете тоже потыкаться сами, вот промпт:
Расскажи мне, какие бывают виды столовых принадлежностей.huggingface.co
Vikhrmodels/GrandMaster-PRO-MAX · Datasets at Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
😁3🤔1
Ответы моделей со стандартными параметрами семплирования бота. Обратите внимание на характерные артефакты англоязычных моделей — "суши-палочки" это как будто бы прямое калькирование фразы sushi sticks? Они, правда, называются chopsticks...
Видимо, всё таки вихри не так хороши на русском в домене кухонной утвари, как о них пишут авторы :D
Видимо, всё таки вихри не так хороши на русском в домене кухонной утвари, как о них пишут авторы :D
😁1
GPU Poor Arena
В качестве одного из сравнительно честных способов сравнить качество моделей раньше была ллмарена. Почему раньше? Потому что модели стали достаточно большими и умными, а преференс тюнинг достаточно продвинутым, чтобы появилась возможность хакать лидерборд через, например, красивость ответа, длину или ещё что-то.
К примеру, вопросы, которые задают люди, не особенно сложные для нынешних моделей. У меня есть предположение, что большинство людей, которые хотят сравнить модели, задают одну из стандартных загадок про сестер Салли, сохнущие футболки или банан и выбирают ту модель, которая ответит лучше. Разумеется, лучше ответит та модель, которую потюнили на парах ответов из арены -- потому что её ответ будет лучше попадать во вкусы юзеров, будучи гарантированно верным (ведь модель уже запомнила ответ). Реально сложных задач, на которые ответить могут только мощные модели, довольно мало -- а инвесторы ведь платят за высокое место в популярных бенчмарках, а не за хорошие модели, так что авторы продолжают тюнить модели на ответах с арены, а лидерборд становится все более и более бессмысленным. Весь топ забит моделями, которые хорошо решают загадки, но не впечатляют при реальном использовании: Gemini Flash там, к примеру, обходит соннет 3.5, а Mistral Large -- Claude Opus.
Ну и главная проблема арены -- там в топе здоровенные модели. Мы -- простые смертные с 3060 и оперативкой -- не можем запустить, так что и применимость такого лидерборда не то чтобы нулевая, но, скажем так, ограниченная.
Авторы GPU Poor LLM Arena подошли к описанным проблемам радикально -- они принципиально берут в лидерборд только модели меньше 9б параметров и с квантизацией. Эти модельки мы сможем гонять дома на консумерских карточках -- и, что ещё важнее, сможем реально оценить на новом, пока что не насыщенном, бенчмарке, качество мелких моделей.
Идея, имхо, офигенная, но я бы по другому поставил границу требовательности моделей. Лучшие карты по доллару на гигабайт сейчас это 3060 и 3090 -- с 12 и 24 гб памяти соответственно -- так что я бы сделал лидерборд, который ориентирован на модели, которые бы умещались в эти карты. С 24 гигами памяти уже можно развернуться -- туда влезет и gemma-2-27b в 4 битах, и qwen-2.5-14b в восьми, и даже 7-9b модельки без квантизации. Тысячи инженеров, пытающихся впихнуть раг в одну 3090 сказали бы спасибо за такой лидерборд!
Жаль только, что очередь на генерацию длинная (мне показало 120 секунд) и из-за этого все загнётся через неделю.
https://huggingface.co/spaces/k-mktr/gpu-poor-llm-arena
В качестве одного из сравнительно честных способов сравнить качество моделей раньше была ллмарена. Почему раньше? Потому что модели стали достаточно большими и умными, а преференс тюнинг достаточно продвинутым, чтобы появилась возможность хакать лидерборд через, например, красивость ответа, длину или ещё что-то.
К примеру, вопросы, которые задают люди, не особенно сложные для нынешних моделей. У меня есть предположение, что большинство людей, которые хотят сравнить модели, задают одну из стандартных загадок про сестер Салли, сохнущие футболки или банан и выбирают ту модель, которая ответит лучше. Разумеется, лучше ответит та модель, которую потюнили на парах ответов из арены -- потому что её ответ будет лучше попадать во вкусы юзеров, будучи гарантированно верным (ведь модель уже запомнила ответ). Реально сложных задач, на которые ответить могут только мощные модели, довольно мало -- а инвесторы ведь платят за высокое место в популярных бенчмарках, а не за хорошие модели, так что авторы продолжают тюнить модели на ответах с арены, а лидерборд становится все более и более бессмысленным. Весь топ забит моделями, которые хорошо решают загадки, но не впечатляют при реальном использовании: Gemini Flash там, к примеру, обходит соннет 3.5, а Mistral Large -- Claude Opus.
Ну и главная проблема арены -- там в топе здоровенные модели. Мы -- простые смертные с 3060 и оперативкой -- не можем запустить, так что и применимость такого лидерборда не то чтобы нулевая, но, скажем так, ограниченная.
Авторы GPU Poor LLM Arena подошли к описанным проблемам радикально -- они принципиально берут в лидерборд только модели меньше 9б параметров и с квантизацией. Эти модельки мы сможем гонять дома на консумерских карточках -- и, что ещё важнее, сможем реально оценить на новом, пока что не насыщенном, бенчмарке, качество мелких моделей.
Идея, имхо, офигенная, но я бы по другому поставил границу требовательности моделей. Лучшие карты по доллару на гигабайт сейчас это 3060 и 3090 -- с 12 и 24 гб памяти соответственно -- так что я бы сделал лидерборд, который ориентирован на модели, которые бы умещались в эти карты. С 24 гигами памяти уже можно развернуться -- туда влезет и gemma-2-27b в 4 битах, и qwen-2.5-14b в восьми, и даже 7-9b модельки без квантизации. Тысячи инженеров, пытающихся впихнуть раг в одну 3090 сказали бы спасибо за такой лидерборд!
Жаль только, что очередь на генерацию длинная (мне показало 120 секунд) и из-за этого все загнётся через неделю.
https://huggingface.co/spaces/k-mktr/gpu-poor-llm-arena
huggingface.co
GPU Poor LLM Arena - a Hugging Face Space by k-mktr
Compact LLM Battle Arena: Frugal AI Face-Off!
🔥12