AI & Robotics Lab

🐌 Исследование по оценке влияния ИИ ассистентов на реальную производительность разработки кода

В новостной ленте наткнулся на исследование, в котором авторы попытались оценить как использование ИИ-ассистента влияет на производительность опытного разработчика.

Мотивировка очень правильная: "... Хотя бенчмарки доказали свою полезность для понимания возможностей ИИ, они, как правило, жертвуют реализмом ради масштаба и эффективности — задачи являются самостоятельными, не требуют предварительного контекста для понимания и используют алгоритмическую оценку, которая не охватывает многие важные аспекты (безопасность кода, например). Это может приводить к переоценке возможностей ИИ. С другой стороны, поскольку тесты проводятся без взаимодействия с человеком, модели могут не выполнить задачи, несмотря на существенный прогресс, из-за небольших узких мест, которые человек исправил бы в ходе реального использования. Это может привести к недооценке их возможностей модели. ..."

Поэтому, чтобы получить реалистичную оценку в "обычных" сценариях разработки, исследователи договорились с 16 опытными разработчиками open-source, которые должны были решить суммарно 246 задач, распределенные случайно на две группы - с использованием ИИ (Cursor Pro with Claude 3.5/3.7 Sonnet) или без. Задачи обозначены как типовые: рафакторинг, исправление багов, добавление функционала. Разработчики трудились за $150/час.

Результат оказался неожиданным: при использовании ИИ задачи решались на 19% дольше, чем без него 😳 При этом по всем прогнозам, ИИ должен был дать буст в скорости до 25%.

Авторы также постарались выделить возможные причины такого замедления:
- ИИ хуже справляется с большими и сложными проектами (что неудивительно 😁),
- ИИ часто не учитывает контекст и не следует общепринятым правилам для конкретного проекта,
- Много времени / внимания уходило на проверку и исправление сгенерированного кода.

Однозначно, исследование очень интересное и доказывает то, что изолированные бенчмарки - это, конечно, хорошо, но использование в реальности - совсем другое дело. При внедрении ИИ нужна экспертиза того как лучше развернуть новые процессы с его участием именно на своей инфраструктуре, с учетом особенностей своей базы кода и знаний.

Размышляя над этим исследованием, я бы добавил, что для опытного эксперта ассистент ИИ в классическом применении (типа расширения для IDE) выглядит как костыль для здорового человека: быстрее и проще все сделать самостоятельно, чем проверять и переделывать. Тут можно только пофантазировать, что для реально больших и сложных проектов могли бы подойти fine-tuned модели, которые заточены под них и "живут" внутри репозитория.

Но это профи, а что касается ребят попроще (к которым я отношу и себя 😁), то здесь буст скорости есть 100%. Но только при правильно выстроенном пайплайне: архитектура, декомпозиция, тестирование все равно остаются за разработчиком. И, надо признаться, результат будет не промышленного стандарта. Но для прототипирования, разработки макетов и других вещей, чтобы поиграться - вполне.

#research #benchmark

metr.org

Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity

We conduct a randomized controlled trial to understand how early-2025 AI tools affect the productivity of experienced open-source developers working on their own repositories. Surprisingly, we find that when developers use AI tools, they take 19% longer than…

⚡1

19 views15:49