Инженер и Менеджер

В неравной битве с проклятой чашкой победу уверенно одерживает GPT 5 Thinking.

Если ваши друзья не видят разницу между GPT 5 и GPT 5 Thinking, то тут она максимально видна.

// Я почему-то думал, что Опус справится лучше, но у опуса вышел казус.

😁28🔥4

1.07K views10:28

Инженер и Менеджер

ИИ-помощники замедляют разработку

Мы в Циан активно внедряем ИИ в разработку и тестирование. Поэтому для меня очень волнительно видеть исследования, которые намекают, что все не так просто.

Заголовок — не кликбейт, если что. Ученые из METR взяли 16 разработчиков, выдали им 246 реальных задач и замерили скорость работы.

Ожидание: разработчики предсказывали рост скорости на 24%
Реальность: разработчики делали задачи на 19% медленнее

Причины такого невеселого результата:
- Накладные расходы на промпты, ожидание и исправление
- Цена проверки: нейронка часто выдает почти правильный код. Но почти правильный код — это все равно что почти перепрыгнуть яму. Почти получилось, но в итоге встречаешься с корневой причиной лично.
- Сдвиг внимания: вместо фокуса на задаче мы фокусируемся на промпте.

Ну так и что, резко вертаем все взад и пишем код руками?

Нет.

Я всегда говорю: мы улучшаем лишь то, что можем измерить. Если мы хотим улучшить скорость работы с ИИ, нам необходимо измерять качество этой работы. И я уже видел попытки измерить — типа количество разработчиков с ИИ, частота вызовов, количество принятых строк... Все немного не то.

Принятые ответы — вот ключевая метрика.

В исследовании, лишь 44% ответов ИИ были приняты без правок. Это мало. Потому что остальные 56% — это правки. Правки чужого кода. А как мы знаем, хуже, чем вносить правки в чужой код, может быть лишь чинить логирование, когда сломалось логирование.

Если занялись внедрением ИИ, сразу начинайте измерять эффективность этого внедрения. Иначе вы можете просто прикольно потратить деньги компании, чтобы замедлить ее работу.

💯15🔥11🤔3👍2

664 views06:55

About

Blog

Apps

Platform