AI & Robotics Lab

📖 Пара интересных статей по актуальным бенчмаркам для ИИ-моделей

Тема горячая - как правильно оценивать и сравнивать все более нарастающий вал новинок в условиях гонки ИИ. Ключевой аспект здесь, как мне кажется, это наличие достоверной экспертизы. За счет правильного промптинга можно повысить "критическое мышление" модели, но, тем не менее, считать ее ответ "экспертным мнением" мы пока(!) не можем. Поэтому так важны тесты / бенчмарки, обобщающие именно реальную экспертизу профессионалов в своей сфере - нечто похожее на систему стандартов типа ИСО или ГОСТ. Сам я пока только подбираюсь к этой теме поближе, по мере погружения, буду публиковать здесь свои находки.

Ставьте 👍, если также считаете эту тематику интересной.

#benchmark

👍1🔥1

22 viewsedited 10:58

AI & Robotics Lab

🥇 Рейтинг топ-моделей

У вас есть задача (написать текст или код, сгенерировать картинку), хочется поручить ее ИИ, но в последнее время появилась новая проблема - а какой ИИ выбрать? Взять первую попавшуюся модель, делать в той, к которой уже привык или закинуть запрос сразу в несколько и сравнить результат? Погуглить? (как-то странно звучит 😉)

Наиболее интересный проект, который мне удалось найти - Chatbot Arena от команды LMArena.

Это открытый проект, предоставляющий платформу для оценки и ранжирования LLM с использованием парных сравнений, где пользователи выбирают лучшие ответы анонимных моделей. Проект поддерживает множество моделей, включая последние разработки OpenAI, Google, Anthropic. Результаты голосов анализируются с использованием статистических моделей и проверяются на согласованность благодаря сравнению с экспертами для поддержания достоверности. Для более подробной информации рекомендую ознакомиться со статьей.

Также, можно самому внести вклад в эту оценку 👍

#benchmark

🆒2🔥1

17 viewsedited 13:34

AI & Robotics Lab

🐌 Исследование по оценке влияния ИИ ассистентов на реальную производительность разработки кода

В новостной ленте наткнулся на исследование, в котором авторы попытались оценить как использование ИИ-ассистента влияет на производительность опытного разработчика.

Мотивировка очень правильная: "... Хотя бенчмарки доказали свою полезность для понимания возможностей ИИ, они, как правило, жертвуют реализмом ради масштаба и эффективности — задачи являются самостоятельными, не требуют предварительного контекста для понимания и используют алгоритмическую оценку, которая не охватывает многие важные аспекты (безопасность кода, например). Это может приводить к переоценке возможностей ИИ. С другой стороны, поскольку тесты проводятся без взаимодействия с человеком, модели могут не выполнить задачи, несмотря на существенный прогресс, из-за небольших узких мест, которые человек исправил бы в ходе реального использования. Это может привести к недооценке их возможностей модели. ..."

Поэтому, чтобы получить реалистичную оценку в "обычных" сценариях разработки, исследователи договорились с 16 опытными разработчиками open-source, которые должны были решить суммарно 246 задач, распределенные случайно на две группы - с использованием ИИ (Cursor Pro with Claude 3.5/3.7 Sonnet) или без. Задачи обозначены как типовые: рафакторинг, исправление багов, добавление функционала. Разработчики трудились за $150/час.

Результат оказался неожиданным: при использовании ИИ задачи решались на 19% дольше, чем без него 😳 При этом по всем прогнозам, ИИ должен был дать буст в скорости до 25%.

Авторы также постарались выделить возможные причины такого замедления:
- ИИ хуже справляется с большими и сложными проектами (что неудивительно 😁),
- ИИ часто не учитывает контекст и не следует общепринятым правилам для конкретного проекта,
- Много времени / внимания уходило на проверку и исправление сгенерированного кода.

Однозначно, исследование очень интересное и доказывает то, что изолированные бенчмарки - это, конечно, хорошо, но использование в реальности - совсем другое дело. При внедрении ИИ нужна экспертиза того как лучше развернуть новые процессы с его участием именно на своей инфраструктуре, с учетом особенностей своей базы кода и знаний.

Размышляя над этим исследованием, я бы добавил, что для опытного эксперта ассистент ИИ в классическом применении (типа расширения для IDE) выглядит как костыль для здорового человека: быстрее и проще все сделать самостоятельно, чем проверять и переделывать. Тут можно только пофантазировать, что для реально больших и сложных проектов могли бы подойти fine-tuned модели, которые заточены под них и "живут" внутри репозитория.

Но это профи, а что касается ребят попроще (к которым я отношу и себя 😁), то здесь буст скорости есть 100%. Но только при правильно выстроенном пайплайне: архитектура, декомпозиция, тестирование все равно остаются за разработчиком. И, надо признаться, результат будет не промышленного стандарта. Но для прототипирования, разработки макетов и других вещей, чтобы поиграться - вполне.

#research #benchmark

metr.org

Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity

We conduct a randomized controlled trial to understand how early-2025 AI tools affect the productivity of experienced open-source developers working on their own repositories. Surprisingly, we find that when developers use AI tools, they take 19% longer than…

⚡1

23 views15:49

AI & Robotics Lab

😵‍💫 Говорите убедительно и вам поверят

Еще один штрих к пониманию работы и поведения LLM - выяснение причин их "галлюцинаций". Интересная работа от OpenAI (и хорошая статья про нее).

Плохая новость:

Точность никогда не достигнет 100%, поскольку независимо от размера модели, возможностей поиска и рассуждений некоторые реальные вопросы изначально не имеют ответа.

или, другими словами:

То, как языковые модели реагируют на запросы - предсказывая по одному слову в предложении на основе вероятностей, естественным образом приводит к ошибкам. Исследователи фактически показывают, что общий уровень ошибок при генерации предложений как минимум вдвое выше, чем уровень ошибок того же ИИ при ответе на простой вопрос типа «да/нет», поскольку ошибки могут накапливаться при многократном прогнозировании.

Да, вероятностная природа моделей неизбежно будет приводить к "выбросам". Правда, как выяснилось, даже материя на квантовом уровне имеет вероятностный характер, но мир, при этом, как-то держится. Поэтому просто важно учитывать, что ИИ может внезапно "учудить". И прорабатывать сценарии на этот случай - что, собственно, проигнорировано в "автопилоте" Тесла, где нет дублирующих систем в виде радара и лидара.

Еще одно важное открытие - особенность обучения.

Анализ причин, по которым галлюцинации сохраняются, несмотря на усилия по посттренингу (например, предоставление обширной обратной связи с человеком по ответам ИИ перед их публикацией). Авторы изучили десять основных бенчмарков ИИ, включая используемые Google, OpenAI, а также ведущие рейтинги моделей ИИ. В результате выяснилось, что девять бенчмарков используют бинарную систему оценок, которая присваивает 0 баллов ИИ, выражающему неуверенность. Это создаёт то, что авторы называют штрафованием за честные ответы. Когда система ИИ отвечает "Я не знаю", она получает ту же оценку, что и при даче совершенно неверной информации. Оптимальная стратегия при такой оценке становится очевидной: всегда угадывать.

Все как в старых добрых тестах - ставь хоть какой-нибудь ответ, авось, угадаешь. Никогда не доверял бенчмаркам, и уже сталкивался с тем, что модель настаивает на неверном ответе и сдвинуть ее с этой позиции не так просто. Поэтому статья однозначно полезная, в копилку идей, какие особенности LLM необходимо учитывать для создания надежных систем на их основе.

#knowledge #хозяйке_на_заметку #llm #benchmark

Openai

Why language models hallucinate

OpenAI’s new research explains why language models hallucinate. The findings show how improved evaluations can enhance AI reliability, honesty, and safety.

⚡1

32 viewsedited 14:25

About

Blog

Apps

Platform