Dreams and Robots

Если вы занимаетесь программированием, вам наверняка знаком сайт https://leetcode.com/, на котором собраны алгоритмические задачи. Вы можете выбрать задачу, решить ее на любом языке программирования и автоматически проверить решение. Задачи с этого сайта часто используются на собеседованиях для проверки кандидатов.

Пять месяцев назад мне пришла идея эксперимента: Я беру сложные задачи, скармливаю их GPT4, без правок копирую результат на сайт и проверяю автотестом. Игра продолжается до первой ошибки. И тогда я срезался на первой же задаче, потому что решение содержало ошибки.

Вчера я вспомнил об этом эксперименте и решил его повторить. Памятуя о прошлом провале я начал с простой задачи. Она решилась мгновенно. Потом перешел на средние и решил 15 штук. Переключился на сложные. Тут я, честно говоря, в какой-то момент начал уставать, так как ошибок всё не было и не было. Меня спасло достижения лимита сообщений в ChatGPT. До этого момента я решил 22 сложные задачи.

В общем, за 43 минуты GPT4 решил 38 задач с LeetCode без единой ошибки.

Не все решения были оптимальными по быстродействию. Примерно половина укладывалась в среднее значение (по сравнению с человеческим кодом), процентов 30 была медленнее, зато оставшиеся были быстрее, чем 90 процентов предложенных решений.

Какой можно сделать вывод?

Ну, во-первых, GPT4 сейчас и GPT4 пять месяцев назад очень сильно отличаются друг от друга. Это бьется с последним интервью Альтмана, в котором он признался, что они больше не хотят революционных прорывов, а планируют медленно разогревать воду в котле с лягушками.

А во-вторых, следующее поколение программистов будет ленивым и неизобретательным, зато задачи будут щёлкаться как семечки.

#gpt4 #programming

🔥25👍10😱6🤡2❤1

13K views07:04

Dreams and Robots

obfuscation_test_claude.py

3 KB

Эксперимент для любителей программирования. Мы знаем, что языковые модели обучаются на красивом, рабочем и оптимизированном коде. А вот могут ли они писать код ужасный? Нечитаемый, неэффективный, но при этом рабочий?

Да, речь про обфускацию, когда код специально делают непонятным, чтобы скрыть его назначение.

Я поставил задачу: написать на Python функцию для проверки на простое число, обложить ее тестами и обфусцировать.

Начал с GPT4o. Тут меня ждало разочарование. GPT очень правдивый, аж до милоты. Его попытки обфускации выливались в переименование функций в "confusingName", добавление комментариев типа "Some irrelevant operation to confuse" и так далее. Спустя десяток запросов он начал худо-бедно делать то, что нужно, но функция перестала проходить тесты, а GPT в ответ на просьбы снова выдавал неправильный код.

Я сдался примерно на двадцатой итерации, перешел в Claude и всё стало гораздо интереснее. Claude сразу же стал писать код, похожий на реальный. Тесты проходились на "ура", но без ошибок не обошлось. Где-то на третьей-четвертой итерации усложнения начались проблемы. Claude смог их исправить, когда я показал, где проваливается тест, но осадочек остался. В конце я попросил добавить запутывающие комментарии, и он справился с этим блестяще.

Прикладываю файл с текстом функции, которая получилась у Claude. Наслаждайтесь!

#llm #gpt #claude #programming

👏17❤3👍3🤣2

4.31K views09:20

Dreams and Robots

Сундар Пичаи, CEO стартапа под названием Google, в своей речи, посвященной подведению итогов третьего квартала 2024 года заявил, что:

Сегодня более четверти всего нового кода в Google генерируется ИИ, а затем проверяется и утверждается инженерами. Это помогает нашим инженерам делать больше и двигаться быстрее.

Ну, Гугл - это Гугл. А что у вас? Я вот заметил, что, конечно, ключевые архитектурные вещи я делаю сам, но всякий бойлерплейт и нудные задачи, на которые иногда лень отвлекаться, проще и быстрее свалить на GPT4o или Claude. А бойлерплейт зачастую как раз занимает больше строк, так что этот процент может быть даже выше. А ещё заметил, что я все реже прямо тщательно проверяю их код. Проверяю, конечно, но не с микроскопом. Потому что в 90 процентов случаев там всё находится в диапазоне от "приемлемо" до "хорошо".

Напишите в комментариях, какой процент у вас. Только честно. Автозавершение строк от Copilot-подобных сервисов не считается. Ну или можете написать, что с таким подходом Google обречён, а человечество отупеет. Такое мнение тоже принимается.

Если что, вот тут вся речь Сундара, рекомендую почитать, это действительно интересно:
https://blog.google/inside-google/message-ceo/alphabet-earnings-q3-2024

#programming

Google

Q3 earnings call: CEO’s remarks

Our Q3 results were led by great performance in Search, Cloud and YouTube.

👍12🔥3👎2😁1

4.47K views10:34

About

Blog

Apps

Platform