Forwarded from GK trips (George Korepanov)
Ну вы уже поняли тенденцию, да?
Я изучил ещё десяток задач, где Opus зачли решение, а GPT-5 — нет. Они почти все сводятся к одной вещи: Opus заранее пишет тесты к своим правкам, а GPT-5 — нет. В результате Opus вносит правки до посинения, пока все тесты не пройдут (иногда упираясь в лимит, настрочив сотни строк кода). GPT-5 же идёт, засучивает рукава, сразу делает фикс и сабмитит ответ. То есть на всех этих задачах банальная инструкция в промпте — «сначала напиши хороший тест, который покрывает разные случаи, убедись, что он запускается и ловит все ошибки из issue; затем вноси правки в код до тех пор, пока твои тесты и все существующие не проходят» — перетасовала бы результаты с ног на голову.
И теперь на десерт: знаете, сколько среди 500 задач таких, на которых результаты Opus и GPT-5 отличаются, и при этом GPT-5 не упёрся в лимит по токенам? 36. Тридцать шесть, Карл! Вся «точность» датасета, которая определяет, какая модель лучше, а какая хуже, оказалась заперта внутри 36 задач — это 7% набора. Все остальные задачи либо настолько простые, что их решают обе модели, либо настолько корявые/специфичные, что их не решает никто.
Какие выводы? Проверять знания — крайне сложная задача. Точно так же, как ЕГЭ не измеряет глубину понимания, как собеседование не гарантирует успешность в работе, как Канеман в израильской армии не смог по психотестам определять пригодность к службе, так и бенчмарки являются сомнительным способом измерять «интеллект» модели. Те, кто хоть раз обучал сложные ML-модели, это знают. Но то, что бенчмарк, на который опираются крупные компании, продавая модели пользователям и инвесторам, окажется настолько мусорным, — такого я не ожидал 🤯. Честно, я не уверен, что встретил в нём хотя бы одну задачу, где реально видно качественное превосходство одной модели над другой.
tl;dr
Не смотрите на SWE-bench-verified. Он ничего не проверяет и не говорит, какая модель лучше, а какая хуже. ✅❌
Я изучил ещё десяток задач, где Opus зачли решение, а GPT-5 — нет. Они почти все сводятся к одной вещи: Opus заранее пишет тесты к своим правкам, а GPT-5 — нет. В результате Opus вносит правки до посинения, пока все тесты не пройдут (иногда упираясь в лимит, настрочив сотни строк кода). GPT-5 же идёт, засучивает рукава, сразу делает фикс и сабмитит ответ. То есть на всех этих задачах банальная инструкция в промпте — «сначала напиши хороший тест, который покрывает разные случаи, убедись, что он запускается и ловит все ошибки из issue; затем вноси правки в код до тех пор, пока твои тесты и все существующие не проходят» — перетасовала бы результаты с ног на голову.
И теперь на десерт: знаете, сколько среди 500 задач таких, на которых результаты Opus и GPT-5 отличаются, и при этом GPT-5 не упёрся в лимит по токенам? 36. Тридцать шесть, Карл! Вся «точность» датасета, которая определяет, какая модель лучше, а какая хуже, оказалась заперта внутри 36 задач — это 7% набора. Все остальные задачи либо настолько простые, что их решают обе модели, либо настолько корявые/специфичные, что их не решает никто.
Какие выводы? Проверять знания — крайне сложная задача. Точно так же, как ЕГЭ не измеряет глубину понимания, как собеседование не гарантирует успешность в работе, как Канеман в израильской армии не смог по психотестам определять пригодность к службе, так и бенчмарки являются сомнительным способом измерять «интеллект» модели. Те, кто хоть раз обучал сложные ML-модели, это знают. Но то, что бенчмарк, на который опираются крупные компании, продавая модели пользователям и инвесторам, окажется настолько мусорным, — такого я не ожидал 🤯. Честно, я не уверен, что встретил в нём хотя бы одну задачу, где реально видно качественное превосходство одной модели над другой.
tl;dr
Не смотрите на SWE-bench-verified. Он ничего не проверяет и не говорит, какая модель лучше, а какая хуже. ✅❌
🔥16👏4
Добавили 2 модели на LLM Arena:
Deepseek V3.1 — модель с поддержкой контекста до 128K токенов и оптимизированным инференсом. Разработчик заявляет, что достигает уровня DeepSeek-R1 при более высокой скорости ответа.
Также доступна T-pro 2.0 — модель на базе Qwen3 32B с более плотной токенизацией для русского языка. Поддерживает гибридный reasoning и может формировать рассуждения перед ответом.
👉 Развернули их для вас через Polza.ai, где доступен единый API к 250+ моделям. Будем рады вашей обратной связи о скорости и качестве ответа моделей.
Deepseek V3.1 — модель с поддержкой контекста до 128K токенов и оптимизированным инференсом. Разработчик заявляет, что достигает уровня DeepSeek-R1 при более высокой скорости ответа.
Также доступна T-pro 2.0 — модель на базе Qwen3 32B с более плотной токенизацией для русского языка. Поддерживает гибридный reasoning и может формировать рассуждения перед ответом.
👉 Развернули их для вас через Polza.ai, где доступен единый API к 250+ моделям. Будем рады вашей обратной связи о скорости и качестве ответа моделей.
1👍9🔥2
❗️Добавили отдельный фильтр для российских моделей на лидерборде — теперь можно наглядно сравнивать их между собой и видеть, какая RU-LLM показывает лучшие результаты.
На данный момент в лидерах — GigaChat 2 Max, который с незначительным отрывом опережает GigaChat 2 Pro.
Для отображения в разделе "Лидерборд" необходимо установить флаг на фильтре "только RU-модели".
На данный момент в лидерах — GigaChat 2 Max, который с незначительным отрывом опережает GigaChat 2 Pro.
Для отображения в разделе "Лидерборд" необходимо установить флаг на фильтре "только RU-модели".
1👍13🔥7❤4
Можно ли воспроизвести рейтинг LLM силами краудсорсинга?
Мы в LLM Arena проверили гипотезу: получится ли воспроизвести рейтинг LLM не силами тысяч реальных пользователей, а через отобранных аннотаторов с крауд-платформ?
Результат превзошел ожидания: за 3 дня удалось получить рейтинг с точностью до 90% к продакшен-данным.
✅ Мы разработали систему фильтрации аннотаторов и промптов, научились отсекать фрод и «мусор», и теперь можем быстро выдавать предрейтинг новых моделей ещё до массового запуска.
⛓ Читайте на Хабре: Воспроизводимый рейтинг: можно ли с помощью краудсорсинга предсказать выбор пользователей LLM? В статье — подробности эксперимента, препятствия и находки, метрики, графики и два открытых датасета для исследований.
👏 Особую благодарность за помощь в проведении эксперимента и консультировании выражаем Александру Кукушкину @alexkuk!
Мы в LLM Arena проверили гипотезу: получится ли воспроизвести рейтинг LLM не силами тысяч реальных пользователей, а через отобранных аннотаторов с крауд-платформ?
Результат превзошел ожидания: за 3 дня удалось получить рейтинг с точностью до 90% к продакшен-данным.
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Воспроизводимый рейтинг: можно ли с помощью краудсорсинга предсказать выбор пользователей LLM?
Всем привет! Сегодня хотим поделиться историей нашего эксперимента, который начался с простого вопроса: а можно ли с помощью краудсорсинга воссоздать рейтинг нейросетей, который мы получаем от тысяч...
1👍9🔥4💯2
На связи команда LLM Arena. Видим как за последнее время активно растет число подписчиков и пользователей платформы, поэтому самое время рассказать, кто мы и чем можем быть полезны.
1. LLM Arena — открытая краудсорсинговая платформа для сравнения и тестирования LLM и text-to-image-моделей. С июля 2024 года мы публикуем объективный рейтинг российских и зарубежных языковых моделей.
Кто стоит за ru-Ареной: Роман Куцев — Founder LLM Arena, Founder TrainingData, выпускник ВМК МГУ, 8 лет в сборе и разметке данных. ⛓️ Канал «Роман с данными»
2. Что можно делать на llmarena.ru
👀 Тестировать свои задачи — анонимно для большей объективности. Отправляйте разные промпты и ставьте оценки. Именно из ваших голосов формируется рейтинг LLM для русскоязычных кейсов. ⛓️ Арена (анонимно)
👀 Сравнивать передовые LLM. У нас доступны российские и зарубежные решения для A/B-тестирования. Отдельные модели развёрнуты нами эксклюзивно и недоступны на других платформах. ⛓️ Арена (сравнение)
👀 Следить за рейтингами и авторскими бенчмарками. Регулярно публикуем рейтинги LLM и t2i-моделей и дополняем их авторскими бенчмарками ⛓️ Таблица лидеров
3. Полезные кейсы и материалы
Arena Explorer — интерактивное исследование тем и сценариев пользовательских запросов + статья
POLLUX — уникальный бенчмарк и демо-сервис, который можно попробовать на llmarena.ru
Text-to-image арена 1.0 — первая в РФ t2i арена с российскими моделями
Кейс LLMArena — можно ли воспроизвести рейтинг LLM силами краудсорсинга? Спойлер: мы — можем.
Исследование про LLM-бенчмарки — о том, как команды походят к выбору моделей под свои бизнес-сценарии.
4. Чем можем быть полезны и как связаться
Для партнёрств: @roman_kucev
Для официальных запросов: info@llmarena.ru
Для идей, предложений и вопросов: комьюнити
Наш мини-апп
Наш Хабр
Наши услуги
1. LLM Arena — открытая краудсорсинговая платформа для сравнения и тестирования LLM и text-to-image-моделей. С июля 2024 года мы публикуем объективный рейтинг российских и зарубежных языковых моделей.
Кто стоит за ru-Ареной: Роман Куцев — Founder LLM Arena, Founder TrainingData, выпускник ВМК МГУ, 8 лет в сборе и разметке данных. ⛓️ Канал «Роман с данными»
2. Что можно делать на llmarena.ru
3. Полезные кейсы и материалы
Arena Explorer — интерактивное исследование тем и сценариев пользовательских запросов + статья
POLLUX — уникальный бенчмарк и демо-сервис, который можно попробовать на llmarena.ru
Text-to-image арена 1.0 — первая в РФ t2i арена с российскими моделями
Кейс LLMArena — можно ли воспроизвести рейтинг LLM силами краудсорсинга? Спойлер: мы — можем.
Исследование про LLM-бенчмарки — о том, как команды походят к выбору моделей под свои бизнес-сценарии.
4. Чем можем быть полезны и как связаться
Для партнёрств: @roman_kucev
Для официальных запросов: info@llmarena.ru
Для идей, предложений и вопросов: комьюнити
Наш мини-апп
Наш Хабр
Наши услуги
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Роман с данными
Все о данных, ML, AI
Founder LLM Arena. Ex-Founder TrainingData.Pro
Окончил ВМК МГУ, 8 лет занимаюсь сбором и разметкой данных
Контакты: @roman_kucev
Founder LLM Arena. Ex-Founder TrainingData.Pro
Окончил ВМК МГУ, 8 лет занимаюсь сбором и разметкой данных
Контакты: @roman_kucev
1❤9👍7🔥3
Наше исследование (21 июля — 10 августа 2025, практики и предприниматели в сфере ИИ) показало реальную картину: команды всё меньше ориентируются на абстрактные бенчмарки и всё чаще принимают решения через собственные тесты.
— 82,2% проводят собственные проверки и используют бенчмарки только как дополнительный сигнал.
— 26,7% принципиально не опираются на рейтинги.
— Лишь около 18% обращаются к агрегаторам по типу llmstats
Главные критерии выбора AI-решений для продуктов: качество + цена + скорость, устойчивость без галлюцинаций и совместимость с инфраструктурой
P.S. Огромная благодарность всем, кто помогал собирать данные для исследования, а также авторам и энтузиастам, помогающим его популязировать. Замечания по исследованию и предложения по будущим рисёрч-проектам можно оставить здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥12👍6👌4
Новый Qwen3-Max и Sentiment control
ℹ️ Продолжая тему объективности рейтингов, о которой мы писали в исследовании, отметим: летом мы доработали методику построения нашего ЛБ. Если раньше применялся только style control (снижение влияния оформления ответов), то теперь добавлен и sentiment control (снижение влияния тона ответа).
Такая связка позволяет уменьшить субъективные предпочтения при голосовании и сместить акцент на содержательную корректность — то, что в итоге определяет лучше ценность модели для практического применения.
🚪 Чтобы рейтинг оставался актуальным, нам необходимы ваши оценки на анонимной арене. В частности, сегодня добавлена новая модель — Qwen3-Max (фактически модель вышла из стадии preview), уже доступная для тестирования.
Такая связка позволяет уменьшить субъективные предпочтения при голосовании и сместить акцент на содержательную корректность — то, что в итоге определяет лучше ценность модели для практического применения.
Qwen3-Max — новая флагманская модель семейства Qwen с архитектурой MoE и масштабом более 1 трлн параметров. В практическом применении модель особенно сильна в программировании, сложных рассуждениях и работе с длинным контекстом (до 1 млн токенов).
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍7❤5🔥3
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥7👍6❤2
Forwarded from Роман с данными
Всем привет! Хочу анонсировать бета-запуск нашего нового проекта VseLLM!🥳
Вместе с командой LLM Arena мы решили собрать информацию про все LLM в одном месте: какие модели доступны у российских провайдеров, сколько стоит использование, скорость и пропускная способность, и другая прикладная информация для интеграции моделей в ваши проекты.
❗️Помимо агрегатора данных о LLM мы делаем единый API-доступ: через один ключ можно работать и с ChatGPT, и с Гигачатом. На текущий момент доступно 20 моделей. Всё это — с оплатой в рублях и закрывающими документами для юрлиц.
Как это устроено:
— У каждой модели есть основная версия с SLA на уровне 99%+ за счет прямых подключений (минимум сбоев, SLA высокого уровня, рекомендовано для задач, где важна максимальная стабильность и высокий отклик).
— Дополнительно для некоторых моделей доступны noSLA версии — более гибкий SLA из альтернативных каналов (~95% доступности), при этом качество работы моделей остаётся на том же уровне при более низкой цене.
Мы открываем бета-тестирование и дарим 500 ₽ по промокоду
Хочешь попробовать? Забирай свой API-ключ в @vsellm_bot.
Чтобы избежать накруток, можем запросить дополнительные данные для модерации перед начислением бонуса
Вместе с командой LLM Arena мы решили собрать информацию про все LLM в одном месте: какие модели доступны у российских провайдеров, сколько стоит использование, скорость и пропускная способность, и другая прикладная информация для интеграции моделей в ваши проекты.
❗️Помимо агрегатора данных о LLM мы делаем единый API-доступ: через один ключ можно работать и с ChatGPT, и с Гигачатом. На текущий момент доступно 20 моделей. Всё это — с оплатой в рублях и закрывающими документами для юрлиц.
Как это устроено:
— У каждой модели есть основная версия с SLA на уровне 99%+ за счет прямых подключений (минимум сбоев, SLA высокого уровня, рекомендовано для задач, где важна максимальная стабильность и высокий отклик).
— Дополнительно для некоторых моделей доступны noSLA версии — более гибкий SLA из альтернативных каналов (~95% доступности), при этом качество работы моделей остаётся на том же уровне при более низкой цене.
Мы открываем бета-тестирование и дарим 500 ₽ по промокоду
SPECIALGIFT на баланс первым пользователям.Хочешь попробовать? Забирай свой API-ключ в @vsellm_bot.
Чтобы избежать накруток, можем запросить дополнительные данные для модерации перед начислением бонуса
vsellm.ru
VseLLM — единый API-доступ к лучшим LLM
VseLLM — российская платформа для доступа к языковым моделям через единый API.
2👍8🔥4👏2
Forwarded from Love. Death. Transformers.
⚪️ White Circle
Всем привет, мы делаем лучшую AI safety платформу, чтобы модельки не делали rm -rf без вашего ведома
Про нас:
- Подняли 💸 $10m 💸, инвесторы — топы OpenAI, Anthropic, Deepmind, Mistral, HuggingFace, etc
- Команда из 10 человек с офисом в самом центре Парижа
- Обрабатываем десятки миллионов API запросов в месяц
-🍴 80-150к USD
Вакансии:
1. FullStack Engineer
Typescript, React, Nextjs, Nodejs, Tailwind, GraphQL, ClickHouse
2. AI Engineer
MoE, multimodality (audio / images), Megatron, distributed training, Triton
3. AI Engineer
Redteaming, agents, rlhf - если у вас нет опыта на mle, но есть опыт swe и построения всякого промптового - позиция для вас
📨 CV → https://forms.gle/XysjrjHgxiRicGsb6
Всем привет, мы делаем лучшую AI safety платформу, чтобы модельки не делали rm -rf без вашего ведома
Про нас:
- Подняли 💸 $10m 💸, инвесторы — топы OpenAI, Anthropic, Deepmind, Mistral, HuggingFace, etc
- Команда из 10 человек с офисом в самом центре Парижа
- Обрабатываем десятки миллионов API запросов в месяц
-
Вакансии:
1. FullStack Engineer
Typescript, React, Nextjs, Nodejs, Tailwind, GraphQL, ClickHouse
2. AI Engineer
MoE, multimodality (audio / images), Megatron, distributed training, Triton
3. AI Engineer
Redteaming, agents, rlhf - если у вас нет опыта на mle, но есть опыт swe и построения всякого промптового - позиция для вас
📨 CV → https://forms.gle/XysjrjHgxiRicGsb6
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍5🔥2
За 20 минут он объясняет, почему классические бенчмарки искажают реальность, и как оценивать LLM так, чтобы это работало для бизнес-целей, а не только на маркетинг.
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Роман с данными
Ура, наконец получил видео с выступления на Conversations!
В докладе за 20 минут пояснил, почему бенчмарки лгут и как правильно оценивать LLM для бизнес-задач. Кстати, мой доклад стал лучшим по версии слушателей в техническом треке 🎉🎉🎉
В этом году Conversations…
В докладе за 20 минут пояснил, почему бенчмарки лгут и как правильно оценивать LLM для бизнес-задач. Кстати, мой доклад стал лучшим по версии слушателей в техническом треке 🎉🎉🎉
В этом году Conversations…
👍10🔥4❤2
Forwarded from Роман с данными
Поделюсь обновлениями проекта VseLLM!
Кроме того, что это удобное единое окно API-доступа к различным передовым моделям (с ценами ниже Openrouter), теперь еще и наши юзеры получают бесплатный доступ к настроенному и готовому n8n-серверу. Достаточно иметь просто ключ с положительным балансом и запросить приглашение прямо в боте.
С нашей платформой и n8n можно быстро собирать собственные AI-пайплайны на стабильной платформе с высокой отказоустойчивостью.
Если вы работаете с LLM или автоматизацией — ошибкой будет не попробовать самому тут — https://t.me/vsellm_bot.
Кроме того, что это удобное единое окно API-доступа к различным передовым моделям (с ценами ниже Openrouter), теперь еще и наши юзеры получают бесплатный доступ к настроенному и готовому n8n-серверу. Достаточно иметь просто ключ с положительным балансом и запросить приглашение прямо в боте.
С нашей платформой и n8n можно быстро собирать собственные AI-пайплайны на стабильной платформе с высокой отказоустойчивостью.
Если вы работаете с LLM или автоматизацией — ошибкой будет не попробовать самому тут — https://t.me/vsellm_bot.
👍6🔥2😁1
Polaris Alpha
✅ Добавили модель, которая совсем недавно стала доступна у провайдеров без официальных анонсов. И имя ей — «Polaris Alpha».
Объемного количества данных по ней на текущий момент нет, однако сообщество предполагает, что Polaris Alpha может быть тестовой версией GPT-5.1 от OpenAI.
Модель с контекстным окном до 256 тыс. токенов. По результатам EQ-Bench производительность модели сопоставима с Claude-3.5-Sonnet.
❗️ Интересно, что сама модель о себе при уточнении деталей отзывается так: «Архитектурно похожа на модели уровня GPT-4, но оптимизирована под более живое и полезное поведение в диалогах».
Попробовать можете уже на Арене: https://llmarena.ru/
📸 Ждем ваших отзывов и традиционно благодарны за ваши оценки — они помогают нам строить рейтинг объективнее.
Объемного количества данных по ней на текущий момент нет, однако сообщество предполагает, что Polaris Alpha может быть тестовой версией GPT-5.1 от OpenAI.
Модель с контекстным окном до 256 тыс. токенов. По результатам EQ-Bench производительность модели сопоставима с Claude-3.5-Sonnet.
Попробовать можете уже на Арене: https://llmarena.ru/
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍4🤔1
Приятно когда тебя ценят. А чтобы все сильнее ценили рейтинг LLM Arena, напоминаем, что нам нужны ваши голоса 📸
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
[30/100] Витя Тарнавский
@llm_arena не реви, ты тоже нужна ❤️
😁12❤3👍3🔥2
— Обновили лидерборд LLM Arena, благодаря вашим голосам. Отдельно отметили модели доступные на VseLLM;
— Обновили рейтинг t2i Arena, опять же благодаря вам;
— Сделали небольшие UI-улучшения и оптимизацию в мобильной версии;
— Обновили лидерборд Ru Arena Hard;
— Улучшили отображение графика анализа соотношения качества и цены.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13😁5🤝2👍1
LLM Arena
Polaris Alpha ✅ Добавили модель, которая совсем недавно стала доступна у провайдеров без официальных анонсов. И имя ей — «Polaris Alpha». Объемного количества данных по ней на текущий момент нет, однако сообщество предполагает, что Polaris Alpha может быть…
Заменили модель Polaris Alpha на то, чем она по сути и являлась.
Что говорят сами OpenAI о версии 5.1:
— Улучшено следование инструкциям пользователя;
— Модель сильнее ориентируется на смысловые связи в программировании, лучше анализирует архитектуру проектов, умнее формулирует причины и объяснения решений в коде;
— Возросла скорость реагирования на простые запросы — наблюдается снижение времени до получения ответа почти вдвое по сравнению с GPT 5;
— Ответы стали теплее и менее "машинными" благодаря более точному управлению стилем и тоном. Настроить манеру общения теперь можно буквально за пару инструкций.
Попробовать сравнить GPT 5.1 с предыдущей версией и другими моделями можете уже на Арене: https://llmarena.ru/
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤5
Добавили свежую модель от Google, которая по отзывам многих превосходит Claude в задачах по коду — особенно в логике и архитектуре решений.
• Улучшенное рассуждение в сложных STEM-задачах
• Стабильная работа в агентных сценариях — от вызова инструментов до долгосрочного планирования
• Более надежные автономные действия
Протестировать можно уже на LLM Arena! Напоминаем, нам очень важны ваши голоса на анонимной арене, так мы можем быстрее обновлять рейтинг, добавляя новые модели.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥6👌2
This media is not supported in your browser
VIEW IN TELEGRAM
LLM Arena совместно с Сергеем Курбановым (руководитель направления RnD в компании MWS) рады представить новый бенчмарк.
GenCode Mini Bench не содержит выводов — только чистый эксперимент и результат работы моделей.
Да, это не совсем привычный бенчмарк, но надеемся, что вам понравится его формат. Кроме того, там подключена форма обратной связи, где вы можете прислать собственные промпты, а мы каждые 2 недели будем обновлять его содержимое.
Генерации обновляются каждые 6 часов, поэтому заглядываете периодически, чтобы посмотреть на результаты различных моделей.
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤11👍9🔥3🎄2🤮1💩1🤡1
Подборка актуальных материалов по LLM и автоматизации
Основатель LLM Arena, Роман Куцев продолжает развивать тему LLM и автоматизации в блоге на Хабр, в том числе публикуя переводы зарубежных статей по теме, исследования и руководства.
Делимся подборкой полезных материалов за 2025:
👀 LLM в роли «судьи» vs. человеческая оценка: почему вместе — лучше
👀 Как подключить LLM в n8n без иностранной карты и протестировать сервис бесплатно
👀 Домен-специфичные LLM: как сделать ИИ реально полезным для вашего бизнеса
👀 IT-лидеры видят большой бизнес-потенциал в малых моделях ИИ
👀 Развенчиваем мифы об AI-агентах: от фантазий к реальности
📸 Ждем ваших отзывов и традиционно благодарны за ваши оценки на LLMArena.ru — они помогают нам строить рейтинг объективнее.
Основатель LLM Arena, Роман Куцев продолжает развивать тему LLM и автоматизации в блоге на Хабр, в том числе публикуя переводы зарубежных статей по теме, исследования и руководства.
Делимся подборкой полезных материалов за 2025:
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
LLM в роли «судьи» vs. человеческая оценка: почему вместе — лучше
В гонке за следующей волной «умных» систем большие языковые модели берут на себя неожиданные роли. Одна из самых интересных — использовать такие модели как «судей» для оценки других моделей. Подход...
👍9🔥3🤝2
На этой неделе OpenRouter начал отключать клиентов из РФ. Это задело и нашу Арену (мы использовали их API для балансировки и диверсификации проектов), но мы оперативно всё починили и восстановили доступ.
Полагаться на OR становится рискованно. Чтобы вы не теряли доступ к API LLM и других GenAI моделей, предлагаем бесшовный переход в экосистему VseLLM. Бесшовный, потому, что мы используем OpenAI-совместимые библиотеки, что позволяет сделать интеграции за пару минут.
BONUSP.S. Мы продолжим поддерживать Арену, добавлять новые модели, обновлять рейтинг несмотря на любые препятствия. Ваши голоса, как всегда очень важны и помогают формировать на объективный рейтинг моделей.
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
VseLLM — API-ключи & биллинг
Оплата и управление API-ключами VseLLM: единый OpenAI-совместимый доступ к 20+ LLM
2👍25💩4👎3❤2