AI & Robotics Lab
18 subscribers
71 photos
26 videos
9 files
100 links
Explore AI code generation, robotics, and ROS with original projects and hands-on guides. Follow along as I share my experience, code samples, and tips for building intelligent systems.
Download Telegram
📖 Пара интересных статей по актуальным бенчмаркам для ИИ-моделей

Тема горячая - как правильно оценивать и сравнивать все более нарастающий вал новинок в условиях гонки ИИ. Ключевой аспект здесь, как мне кажется, это наличие достоверной экспертизы. За счет правильного промптинга можно повысить "критическое мышление" модели, но, тем не менее, считать ее ответ "экспертным мнением" мы пока(!) не можем. Поэтому так важны тесты / бенчмарки, обобщающие именно реальную экспертизу профессионалов в своей сфере - нечто похожее на систему стандартов типа ИСО или ГОСТ. Сам я пока только подбираюсь к этой теме поближе, по мере погружения, буду публиковать здесь всои находки.

Ставьте 👍, если также считаете эту тематику интересной.

#benchmark
👍1🔥1
🥇 Рейтинг топ-моделей

У вас есть задача (написать текст или код, сгенерировать картинку), хочется поручить ее ИИ, но в последнее время появилась новая проблема - а какой ИИ выбрать? Взять первую попавшуюся модель, делать в той, к которой уже привык или закинуть запрос сразу в несколько и сравнить результат? Погуглить? (как-то странно звучит 😉)

Наиболее интересный проект, который мне удалось найти - Chatbot Arena от команды LMArena.

Это открытый проект, предоставляющий платформу для оценки и ранжирования LLM с использованием парных сравнений, где пользователи выбирают лучшие ответы анонимных моделей. Проект поддерживает множество моделей, включая последние разработки OpenAI, Google, Anthropic. Результаты голосов анализируются с использованием статистических моделей и проверяются на согласованность благодаря сравнению с экспертами для поддержания достоверности. Для более подробной информации рекомендую ознакомиться со статьей.

Также, можно самому внести вклад в эту оценку 👍

#benchmark
🆒2🔥1
🐌 Исследование по оценке влияния ИИ ассистентов на реальную производительность разработки кода

В новостной ленте наткнулся на исследование, в котором авторы попытались оценить как использование ИИ-ассистента влияет на производительность опытного разработчика.

Мотивировка очень правильная: "... Хотя бенчмарки доказали свою полезность для понимания возможностей ИИ, они, как правило, жертвуют реализмом ради масштаба и эффективности — задачи являются самостоятельными, не требуют предварительного контекста для понимания и используют алгоритмическую оценку, которая не охватывает многие важные аспекты (безопасность кода, например). Это может приводить к переоценке возможностей ИИ. С другой стороны, поскольку тесты проводятся без взаимодействия с человеком, модели могут не выполнить задачи, несмотря на существенный прогресс, из-за небольших узких мест, которые человек исправил бы в ходе реального использования. Это может привести к недооценке их возможностей модели. ..."

Поэтому, чтобы получить реалистичную оценку в "обычных" сценариях разработки, исследователи договорились с 16 опытными разработчиками open-source, которые должны были решить суммарно 246 задач, распределенные случайно на две группы - с использованием ИИ (Cursor Pro with Claude 3.5/3.7 Sonnet) или без. Задачи обозначены как типовые: рафакторинг, исправление багов, добавление функционала. Разработчики трудились за $150/час.

Результат оказался неожиданным: при использовании ИИ задачи решались на 19% дольше, чем без него 😳 При этом по всем прогнозам, ИИ должен был дать буст в скорости до 25%.

Авторы также постарались выделить возможные причины такого замедления:
- ИИ хуже справляется с большими и сложными проектами (что неудивительно 😁),
- ИИ часто не учитывает контекст и не следует общепринятым правилам для конкретного проекта,
- Много времени / внимания уходило на проверку и исправление сгенерированного кода.

Однозначно, исследование очень интересное и доказывает то, что изолированные бенчмарки - это, конечно, хорошо, но использование в реальности - совсем другое дело. При внедрении ИИ нужна экспертиза того как лучше развернуть новые процессы с его участием именно на своей инфраструктуре, с учетом особенностей своей базы кода и знаний.

Размышляя над этим исследованием, я бы добавил, что для опытного эксперта ассистент ИИ в классическом применении (типа расширения для IDE) выглядит как костыль для здорового человека: быстрее и проще все сделать самостоятельно, чем проверять и переделывать. Тут можно только пофантазировать, что для реально больших и сложных проектов могли бы подойти fine-tuned модели, которые заточены под них и "живут" внутри репозитория.

Но это профи, а что касается ребят попроще (к которым я отношу и себя 😁), то здесь буст скорости есть 100%. Но только при правильно выстроенном пайплайне: архитектура, декомпозиция, тестирование все равно остаются за разработчиком. И, надо признаться, результат будет не промышленного стандарта. Но для прототипирования, разработки макетов и других вещей, чтобы поиграться - вполне.

#research #benchmark
1