LLM Arena
1.23K subscribers
61 photos
1 video
76 links
llmarena.ru - открытая краудсорсинговая платформа для оценки больших языковых моделей (LLM) на русском языке
Download Telegram
Forwarded from GK trips (George Korepanov)
Ну вы уже поняли тенденцию, да?

Я изучил ещё десяток задач, где Opus зачли решение, а GPT-5 — нет. Они почти все сводятся к одной вещи: Opus заранее пишет тесты к своим правкам, а GPT-5 — нет. В результате Opus вносит правки до посинения, пока все тесты не пройдут (иногда упираясь в лимит, настрочив сотни строк кода). GPT-5 же идёт, засучивает рукава, сразу делает фикс и сабмитит ответ. То есть на всех этих задачах банальная инструкция в промпте — «сначала напиши хороший тест, который покрывает разные случаи, убедись, что он запускается и ловит все ошибки из issue; затем вноси правки в код до тех пор, пока твои тесты и все существующие не проходят» — перетасовала бы результаты с ног на голову.

И теперь на десерт: знаете, сколько среди 500 задач таких, на которых результаты Opus и GPT-5 отличаются, и при этом GPT-5 не упёрся в лимит по токенам? 36. Тридцать шесть, Карл! Вся «точность» датасета, которая определяет, какая модель лучше, а какая хуже, оказалась заперта внутри 36 задач — это 7% набора. Все остальные задачи либо настолько простые, что их решают обе модели, либо настолько корявые/специфичные, что их не решает никто.

Какие выводы? Проверять знания — крайне сложная задача. Точно так же, как ЕГЭ не измеряет глубину понимания, как собеседование не гарантирует успешность в работе, как Канеман в израильской армии не смог по психотестам определять пригодность к службе, так и бенчмарки являются сомнительным способом измерять «интеллект» модели. Те, кто хоть раз обучал сложные ML-модели, это знают. Но то, что бенчмарк, на который опираются крупные компании, продавая модели пользователям и инвесторам, окажется настолько мусорным, — такого я не ожидал 🤯. Честно, я не уверен, что встретил в нём хотя бы одну задачу, где реально видно качественное превосходство одной модели над другой.

tl;dr
Не смотрите на SWE-bench-verified. Он ничего не проверяет и не говорит, какая модель лучше, а какая хуже.
🔥16👏4
Добавили 2 модели на LLM Arena:

Deepseek V3.1 — модель с поддержкой контекста до 128K токенов и оптимизированным инференсом. Разработчик заявляет, что достигает уровня DeepSeek-R1 при более высокой скорости ответа.

Также доступна T-pro 2.0 — модель на базе Qwen3 32B с более плотной токенизацией для русского языка. Поддерживает гибридный reasoning и может формировать рассуждения перед ответом.

👉 Развернули их для вас через Polza.ai, где доступен единый API к 250+ моделям. Будем рады вашей обратной связи о скорости и качестве ответа моделей.
1👍9🔥2
❗️Добавили отдельный фильтр для российских моделей на лидерборде — теперь можно наглядно сравнивать их между собой и видеть, какая RU-LLM показывает лучшие результаты.

На данный момент в лидерах — GigaChat 2 Max, который с незначительным отрывом опережает GigaChat 2 Pro.

Для отображения в разделе "Лидерборд" необходимо установить флаг на фильтре "только RU-модели".
1👍13🔥74
Можно ли воспроизвести рейтинг LLM силами краудсорсинга?

Мы в LLM Arena проверили гипотезу: получится ли воспроизвести рейтинг LLM не силами тысяч реальных пользователей, а через отобранных аннотаторов с крауд-платформ?

Результат превзошел ожидания: за 3 дня удалось получить рейтинг с точностью до 90% к продакшен-данным.

Мы разработали систему фильтрации аннотаторов и промптов, научились отсекать фрод и «мусор», и теперь можем быстро выдавать предрейтинг новых моделей ещё до массового запуска.

Читайте на Хабре: Воспроизводимый рейтинг: можно ли с помощью краудсорсинга предсказать выбор пользователей LLM? В статье — подробности эксперимента, препятствия и находки, метрики, графики и два открытых датасета для исследований.

👏Особую благодарность за помощь в проведении эксперимента и консультировании выражаем Александру Кукушкину @alexkuk!
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍9🔥4💯2
На связи команда LLM Arena. Видим как за последнее время активно растет число подписчиков и пользователей платформы, поэтому самое время рассказать, кто мы и чем можем быть полезны.

1. LLM Arena — открытая краудсорсинговая платформа для сравнения и тестирования LLM и text-to-image-моделей. С июля 2024 года мы публикуем объективный рейтинг российских и зарубежных языковых моделей.

Кто стоит за ru-Ареной: Роман Куцев — Founder LLM Arena, Founder TrainingData, выпускник ВМК МГУ, 8 лет в сборе и разметке данных. ⛓️ Канал «Роман с данными»

2. Что можно делать на llmarena.ru

👀Тестировать свои задачи — анонимно для большей объективности. Отправляйте разные промпты и ставьте оценки. Именно из ваших голосов формируется рейтинг LLM для русскоязычных кейсов. ⛓️ Арена (анонимно)

👀Сравнивать передовые LLM. У нас доступны российские и зарубежные решения для A/B-тестирования. Отдельные модели развёрнуты нами эксклюзивно и недоступны на других платформах. ⛓️ Арена (сравнение)

👀Следить за рейтингами и авторскими бенчмарками. Регулярно публикуем рейтинги LLM и t2i-моделей и дополняем их авторскими бенчмарками ⛓️ Таблица лидеров

3. Полезные кейсы и материалы

Arena Explorer — интерактивное исследование тем и сценариев пользовательских запросов + статья
POLLUX — уникальный бенчмарк и демо-сервис, который можно попробовать на llmarena.ru
Text-to-image арена 1.0 — первая в РФ t2i арена с российскими моделями
Кейс LLMArena — можно ли воспроизвести рейтинг LLM силами краудсорсинга? Спойлер: мы — можем.
Исследование про LLM-бенчмарки — о том, как команды походят к выбору моделей под свои бизнес-сценарии.

4. Чем можем быть полезны и как связаться

Для партнёрств: @roman_kucev
Для официальных запросов: info@llmarena.ru
Для идей, предложений и вопросов: комьюнити

Наш мини-апп
Наш Хабр
Наши услуги
Please open Telegram to view this post
VIEW IN TELEGRAM
19👍7🔥3
📈Рейтинги LLM теряют доверие

Наше исследование (21 июля — 10 августа 2025, практики и предприниматели в сфере ИИ) показало реальную картину: команды всё меньше ориентируются на абстрактные бенчмарки и всё чаще принимают решения через собственные тесты.

👀 Ключевые данные:

— 82,2% проводят собственные проверки и используют бенчмарки только как дополнительный сигнал.

— 26,7% принципиально не опираются на рейтинги.

— Лишь около 18% обращаются к агрегаторам по типу llmstats

Главные критерии выбора AI-решений для продуктов: качество + цена + скорость, устойчивость без галлюцинаций и совместимость с инфраструктурой

📄Отдельная ценность исследования — мы постарались отразить мнение участников рынка таким, какое оно есть: с аргументами «за» и «против», со скепсисом и практическими отзывами. Полный отчёт с графиками, аналитикой и комментариями уже доступен на сайте.

P.S. Огромная благодарность всем, кто помогал собирать данные для исследования, а также авторам и энтузиастам, помогающим его популязировать. Замечания по исследованию и предложения по будущим рисёрч-проектам можно оставить здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥12👍6👌4
Новый Qwen3-Max и Sentiment control

ℹ️ Продолжая тему объективности рейтингов, о которой мы писали в исследовании, отметим: летом мы доработали методику построения нашего ЛБ. Если раньше применялся только style control (снижение влияния оформления ответов), то теперь добавлен и sentiment control (снижение влияния тона ответа).

Такая связка позволяет уменьшить субъективные предпочтения при голосовании и сместить акцент на содержательную корректность — то, что в итоге определяет лучше ценность модели для практического применения.

🚪 Чтобы рейтинг оставался актуальным, нам необходимы ваши оценки на анонимной арене. В частности, сегодня добавлена новая модель — Qwen3-Max (фактически модель вышла из стадии preview), уже доступная для тестирования.

Qwen3-Max — новая флагманская модель семейства Qwen с архитектурой MoE и масштабом более 1 трлн параметров. В практическом применении модель особенно сильна в программировании, сложных рассуждениях и работе с длинным контекстом (до 1 млн токенов).
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍75🔥3
Добавили Claude Sonnet 4.5 — новая модель от Anthropic. Она лучше справляется с кодом, прикладными задачами, а также заметно прибавила в математике и логике.

📈 На тестах Sonnet 4.5 уверенно обходит прошлые версии: 77% в кодинге (против 74,5% у Opus 4.1), 61% в задачах по работе с компьютером (OSWorld) (+17% к Opus 4.1). Также выросли показатели в reasoning и многоязычных задачах, но главное — модель стала лучше именно в агентных функциях.

💬 Нам нужны ваши голоса на анонимной арене, так модель быстрее попадет в рейтинг.
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥7👍62
Forwarded from Роман с данными
Всем привет! Хочу анонсировать бета-запуск нашего нового проекта VseLLM!🥳

Вместе с командой LLM Arena мы решили собрать информацию про все LLM в одном месте: какие модели доступны у российских провайдеров, сколько стоит использование, скорость и пропускная способность, и другая прикладная информация для интеграции моделей в ваши проекты.

❗️Помимо агрегатора данных о LLM мы делаем единый API-доступ: через один ключ можно работать и с ChatGPT, и с Гигачатом. На текущий момент доступно 20 моделей. Всё это — с оплатой в рублях и закрывающими документами для юрлиц.

Как это устроено:
— У каждой модели есть основная версия с SLA на уровне 99%+ за счет прямых подключений (минимум сбоев, SLA высокого уровня, рекомендовано для задач, где важна максимальная стабильность и высокий отклик).
— Дополнительно для некоторых моделей доступны noSLA версии — более гибкий SLA из альтернативных каналов (~95% доступности), при этом качество работы моделей остаётся на том же уровне при более низкой цене.

Мы открываем бета-тестирование и дарим 500 ₽ по промокоду SPECIALGIFT на баланс первым пользователям.
Хочешь попробовать? Забирай свой API-ключ в @vsellm_bot.

Чтобы избежать накруток, можем запросить дополнительные данные для модерации перед начислением бонуса
2👍8🔥4👏2
⚪️ White Circle

Всем привет, мы делаем лучшую AI safety платформу, чтобы модельки не делали rm -rf без вашего ведома

Про нас:
- Подняли 💸 $10m 💸, инвесторы — топы OpenAI, Anthropic, Deepmind, Mistral, HuggingFace, etc
- Команда из 10 человек с офисом в самом центре Парижа
- Обрабатываем десятки миллионов API запросов в месяц
- 🍴 80-150к USD

Вакансии:
1. FullStack Engineer
Typescript, React, Nextjs, Nodejs, Tailwind, GraphQL, ClickHouse

2. AI Engineer
MoE, multimodality (audio / images), Megatron, distributed training, Triton

3. AI Engineer
Redteaming, agents, rlhf - если у вас нет опыта на mle, но есть опыт swe и построения всякого промптового - позиция для вас


📨 CV → https://forms.gle/XysjrjHgxiRicGsb6
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍5🔥2
👁 Рекомендуем посмотреть выступление CEO LLM Arena — Романа Куцева на конференции Conversations.

За 20 минут он объясняет, почему классические бенчмарки искажают реальность, и как оценивать LLM так, чтобы это работало для бизнес-целей, а не только на маркетинг.

Тема напрямую продолжает наше недавнее исследование о том, как специалисты выбирают LLM для своих проектов.

👀 P.S. А если вы ищете где можно попробовать разные модели под свои задачи, то рекомендуем VseLLM. По промокоду SPECIALGIFT можно получить приветственный бонус на 500 рублей.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥42
Forwarded from Роман с данными
Поделюсь обновлениями проекта VseLLM!

Кроме того, что это удобное единое окно API-доступа к различным передовым моделям (с ценами ниже Openrouter), теперь еще и наши юзеры получают бесплатный доступ к настроенному и готовому n8n-серверу. Достаточно иметь просто ключ с положительным балансом и запросить приглашение прямо в боте.

С нашей платформой и n8n можно быстро собирать собственные AI-пайплайны на стабильной платформе с высокой отказоустойчивостью.

Если вы работаете с LLM или автоматизацией — ошибкой будет не попробовать самому тут — https://t.me/vsellm_bot.
👍6🔥2😁1
Polaris Alpha

Добавили модель, которая совсем недавно стала доступна у провайдеров без официальных анонсов. И имя ей — «Polaris Alpha».

Объемного количества данных по ней на текущий момент нет, однако сообщество предполагает, что Polaris Alpha может быть тестовой версией GPT-5.1 от OpenAI.

Модель с контекстным окном до 256 тыс. токенов. По результатам EQ-Bench производительность модели сопоставима с Claude-3.5-Sonnet.

❗️ Интересно, что сама модель о себе при уточнении деталей отзывается так: «Архитектурно похожа на модели уровня GPT-4, но оптимизирована под более живое и полезное поведение в диалогах».

Попробовать можете уже на Арене: https://llmarena.ru/

📸 Ждем ваших отзывов и традиционно благодарны за ваши оценки — они помогают нам строить рейтинг объективнее.
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍4🤔1
Приятно когда тебя ценят. А чтобы все сильнее ценили рейтинг LLM Arena, напоминаем, что нам нужны ваши голоса 📸
Please open Telegram to view this post
VIEW IN TELEGRAM
😁123👍3🔥2
⚡️ ЧЕРНАЯ ПЯТНИЦА НА LLM ARENA

— Обновили лидерборд LLM Arena, благодаря вашим голосам. Отдельно отметили модели доступные на VseLLM;
— Обновили рейтинг t2i Arena, опять же благодаря вам;
— Сделали небольшие UI-улучшения и оптимизацию в мобильной версии;
— Обновили лидерборд Ru Arena Hard;
— Улучшили отображение графика анализа соотношения качества и цены.

🔞И все это со скидкой 99% 100% для вас. Рады стараться.

📸Как всегда, ждем ваши самые объективные голоса на Арене: https://llmarena.ru/
Please open Telegram to view this post
VIEW IN TELEGRAM
13😁5🤝2👍1
LLM Arena
Polaris Alpha Добавили модель, которая совсем недавно стала доступна у провайдеров без официальных анонсов. И имя ей — «Polaris Alpha». Объемного количества данных по ней на текущий момент нет, однако сообщество предполагает, что Polaris Alpha может быть…
💬 Добавили GPT 5.1

Заменили модель Polaris Alpha на то, чем она по сути и являлась.

Что говорят сами OpenAI о версии 5.1:

— Улучшено следование инструкциям пользователя;
— Модель сильнее ориентируется на смысловые связи в программировании, лучше анализирует архитектуру проектов, умнее формулирует причины и объяснения решений в коде;
— Возросла скорость реагирования на простые запросы — наблюдается снижение времени до получения ответа почти вдвое по сравнению с GPT 5;
— Ответы стали теплее и менее "машинными" благодаря более точному управлению стилем и тоном. Настроить манеру общения теперь можно буквально за пару инструкций.

Попробовать сравнить GPT 5.1 с предыдущей версией и другими моделями можете уже на Арене: https://llmarena.ru/

📸 Ждем ваших отзывов и традиционно благодарны за ваши оценки — они помогают нам строить рейтинг объективнее.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍115
Gemini 3 Pro уже на арене!

Добавили свежую модель от Google, которая по отзывам многих превосходит Claude в задачах по коду — особенно в логике и архитектуре решений.

• Улучшенное рассуждение в сложных STEM-задачах
• Стабильная работа в агентных сценариях — от вызова инструментов до долгосрочного планирования
• Более надежные автономные действия

Протестировать можно уже на LLM Arena! Напоминаем, нам очень важны ваши голоса на анонимной арене, так мы можем быстрее обновлять рейтинг, добавляя новые модели.

🕘 Скоро Gemini 3 Pro станет доступна через API и на VseLLM — сможете сразу интегрировать её в рабочие процессы и проекты.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥6👌2
This media is not supported in your browser
VIEW IN TELEGRAM
🔫 GenCode Mini Gallery Bench

LLM Arena совместно с Сергеем Курбановым (руководитель направления RnD в компании MWS) рады представить новый бенчмарк.

📈 LLM стремительно эволюционируют и выходят на уровень AGENT-поведения, где модели решают задачи от анализа данных до полноценной разработки. На этом фоне особенно интересно посмотреть на то, как модели в режиме реального времени справляются даже с такими, на первый взгляд, простыми задачами вёрстки.

GenCode Mini Bench не содержит выводов — только чистый эксперимент и результат работы моделей.

Да, это не совсем привычный бенчмарк, но надеемся, что вам понравится его формат. Кроме того, там подключена форма обратной связи, где вы можете прислать собственные промпты, а мы каждые 2 недели будем обновлять его содержимое.

Генерации обновляются каждые 6 часов, поэтому заглядываете периодически, чтобы посмотреть на результаты различных моделей.

❗️ Модели, используемые для генераций доступны по API на VSELLM

Вкладка с бенчмарком доступна на https://llmarena.ru/ или напрямую по ссылке https://clocks.llmarena.ru/.

📸 Ждем вашего мнения и обратной связи.
Please open Telegram to view this post
VIEW IN TELEGRAM
211👍9🔥3🎄2🤮1💩1🤡1
Подборка актуальных материалов по LLM и автоматизации

Основатель LLM Arena, Роман Куцев продолжает развивать тему LLM и автоматизации в блоге на Хабр, в том числе публикуя переводы зарубежных статей по теме, исследования и руководства.

Делимся подборкой полезных материалов за 2025:

👀 LLM в роли «судьи» vs. человеческая оценка: почему вместе — лучше

👀 Как подключить LLM в n8n без иностранной карты и протестировать сервис бесплатно

👀 Домен-специфичные LLM: как сделать ИИ реально полезным для вашего бизнеса

👀 IT-лидеры видят большой бизнес-потенциал в малых моделях ИИ

👀 Развенчиваем мифы об AI-агентах: от фантазий к реальности

📸 Ждем ваших отзывов и традиционно благодарны за ваши оценки на LLMArena.ru — они помогают нам строить рейтинг объективнее.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥3🤝2
🎭OpenRouter всё?

На этой неделе OpenRouter начал отключать клиентов из РФ. Это задело и нашу Арену (мы использовали их API для балансировки и диверсификации проектов), но мы оперативно всё починили и восстановили доступ.

Полагаться на OR становится рискованно. Чтобы вы не теряли доступ к API LLM и других GenAI моделей, предлагаем бесшовный переход в экосистему VseLLM. Бесшовный, потому, что мы используем OpenAI-совместимые библиотеки, что позволяет сделать интеграции за пару минут.

Дарим промокод на первое пополнение: BONUS

➡️ Забрать бонус и начать работу

P.S. Мы продолжим поддерживать Арену, добавлять новые модели, обновлять рейтинг несмотря на любые препятствия. Ваши голоса, как всегда очень важны и помогают формировать на объективный рейтинг моделей.
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍25💩4👎32