AI и грабли

AI делает опытных разработчиков ~~менее~~ более продуктивными

В прошлой части я "прожаривал" нашумевшую статью, где "эффективность разработчиков ниже на 20% чем без ИИ, пока им кажется, что она на 20% выше".

Прожаривал в основном за:
- Ничтожно маленькую выборку – 16 человек (!)
- Разработчики не использовали ИИ инструменты до эксперимента – им не проводят обучение, но уже замеряют результаты.
- Смотрят на среднее, а не на верхний перцентиль, где самое интересное
- Манипуляции визуализацией данных

А сегодня расскажу про гораздо более серьезное исследование от ребят из Стэнфорда (кстати, русскоязычных). Вот главные тезисы оттуда:

Критика существующих подходов к измерению эффективности

- Нельзя опираться на число коммитов/PR – AI может делать больше маленьких коммитов, сами они могут быть забагованными, а багфиксы – это еще больше коммитов 📈

- Нельзя полагаться на субъективные опросы. Выявили корреляцию всего в 0.17 между ощущаемой и реальной продуктивностью 🥴

- Большая часть измерений делается на задачах, которые делаются с нуля (greenfield). А реальная работа – почти всегда с "унаследованным" кодом и сложными зависимостями (brownfield)

Это серьезная заявочка, интересно, как они сами решили эти проблемы (и что там получилось в результате)

- Взяли код 100,000+ инженеров, 600+ компаний, миллиарды строк кода (!)
- 80% данных — из приватных репозиториев
- Оценивают суть изменений в коде для каждого коммита

Погодите-ка, как это они оценивают изменения в миллиардах строк кода? (на самом деле – самая красивая часть исследования)

- Взяли 15 опытных разрабов (11-25 лет опыта, сеньоры, CTO, VP)

- Прогнали эту экспертную комиссию на 70 коммитах, честно считая внутриклассовую корреляцию (если эксперты сами не могут договориться – это шум)

- Это 70 коммитов отбирали так, чтобы их распределение совпадало со общим

- Определили "объективные" метрики (время, сложность) и обучили модельку на этих 70 коммитах угадывать "оценки" панели экспертов.

- Потом полный анализ миллиардов строк кода – уже автоматически этой моделью.

Интересно, что в отличие от классического сторипоинт-подхода "предсказания" сложности заранее, тут эксперты уже смотрели на выполненную работу и оценивают сложность постфактум

Ну так и что, уже можно увольнять разработчиков?

- "Сырое" улучшение аж на 35-40%

- Но и количество багов и правок тоже растет (скрин 1).

- За вычетом налога на переделку, получается 15-20% чистого выигрыша

- Сильно влияет сложность задач, тип проекта (greenfield/brownfield, скрин 2) и язык (на Haskel/Cobol/Elixir лучше пока без ИИ)

- Сильно падают результаты после 10к строк кода

Чего мне не хватило

- Инфы про то, насколько знакомы разработчики с ИИ инструментами, но ее и не возможно было получить на таком датасете

- Анализа верхнего перцентиля. Если в среднем получается прирост на 15 процентов, то есть ощущение, что топ 5% точно умеет делать x2 и интересно узнать как

———

Но даже так видно, что прирост есть даже в среднем по больнице, не говоря про тех, кто выработал оптимальные подходы. Так что уже можно скидывать этот пост всем критикам AI coding

P.s. Ну и посмотрите на оптимизм на последнем скрине: 10k → 1m (!!!)
Для энтерпрайзов – особенно актуально

Оригинал: видео, статья

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤21🔥6👏3🙏1💯1

3.07K views12:05