Если вы занимаетесь программированием, вам наверняка знаком сайт https://leetcode.com/, на котором собраны алгоритмические задачи. Вы можете выбрать задачу, решить ее на любом языке программирования и автоматически проверить решение. Задачи с этого сайта часто используются на собеседованиях для проверки кандидатов.
Пять месяцев назад мне пришла идея эксперимента: Я беру сложные задачи, скармливаю их GPT4, без правок копирую результат на сайт и проверяю автотестом. Игра продолжается до первой ошибки. И тогда я срезался на первой же задаче, потому что решение содержало ошибки.
Вчера я вспомнил об этом эксперименте и решил его повторить. Памятуя о прошлом провале я начал с простой задачи. Она решилась мгновенно. Потом перешел на средние и решил 15 штук. Переключился на сложные. Тут я, честно говоря, в какой-то момент начал уставать, так как ошибок всё не было и не было. Меня спасло достижения лимита сообщений в ChatGPT. До этого момента я решил 22 сложные задачи.
В общем, за 43 минуты GPT4 решил 38 задач с LeetCode без единой ошибки.
Не все решения были оптимальными по быстродействию. Примерно половина укладывалась в среднее значение (по сравнению с человеческим кодом), процентов 30 была медленнее, зато оставшиеся были быстрее, чем 90 процентов предложенных решений.
Какой можно сделать вывод?
Ну, во-первых, GPT4 сейчас и GPT4 пять месяцев назад очень сильно отличаются друг от друга. Это бьется с последним интервью Альтмана, в котором он признался, что они больше не хотят революционных прорывов, а планируют медленно разогревать воду в котле с лягушками.
А во-вторых, следующее поколение программистов будет ленивым и неизобретательным, зато задачи будут щёлкаться как семечки.
#gpt4 #programming
Пять месяцев назад мне пришла идея эксперимента: Я беру сложные задачи, скармливаю их GPT4, без правок копирую результат на сайт и проверяю автотестом. Игра продолжается до первой ошибки. И тогда я срезался на первой же задаче, потому что решение содержало ошибки.
Вчера я вспомнил об этом эксперименте и решил его повторить. Памятуя о прошлом провале я начал с простой задачи. Она решилась мгновенно. Потом перешел на средние и решил 15 штук. Переключился на сложные. Тут я, честно говоря, в какой-то момент начал уставать, так как ошибок всё не было и не было. Меня спасло достижения лимита сообщений в ChatGPT. До этого момента я решил 22 сложные задачи.
В общем, за 43 минуты GPT4 решил 38 задач с LeetCode без единой ошибки.
Не все решения были оптимальными по быстродействию. Примерно половина укладывалась в среднее значение (по сравнению с человеческим кодом), процентов 30 была медленнее, зато оставшиеся были быстрее, чем 90 процентов предложенных решений.
Какой можно сделать вывод?
Ну, во-первых, GPT4 сейчас и GPT4 пять месяцев назад очень сильно отличаются друг от друга. Это бьется с последним интервью Альтмана, в котором он признался, что они больше не хотят революционных прорывов, а планируют медленно разогревать воду в котле с лягушками.
А во-вторых, следующее поколение программистов будет ленивым и неизобретательным, зато задачи будут щёлкаться как семечки.
#gpt4 #programming
🔥25👍10😱6🤡2❤1
obfuscation_test_claude.py
3 KB
Эксперимент для любителей программирования. Мы знаем, что языковые модели обучаются на красивом, рабочем и оптимизированном коде. А вот могут ли они писать код ужасный? Нечитаемый, неэффективный, но при этом рабочий?
Да, речь про обфускацию, когда код специально делают непонятным, чтобы скрыть его назначение.
Я поставил задачу: написать на Python функцию для проверки на простое число, обложить ее тестами и обфусцировать.
Начал с GPT4o. Тут меня ждало разочарование. GPT очень правдивый, аж до милоты. Его попытки обфускации выливались в переименование функций в "confusingName", добавление комментариев типа "Some irrelevant operation to confuse" и так далее. Спустя десяток запросов он начал худо-бедно делать то, что нужно, но функция перестала проходить тесты, а GPT в ответ на просьбы снова выдавал неправильный код.
Я сдался примерно на двадцатой итерации, перешел в Claude и всё стало гораздо интереснее. Claude сразу же стал писать код, похожий на реальный. Тесты проходились на "ура", но без ошибок не обошлось. Где-то на третьей-четвертой итерации усложнения начались проблемы. Claude смог их исправить, когда я показал, где проваливается тест, но осадочек остался. В конце я попросил добавить запутывающие комментарии, и он справился с этим блестяще.
Прикладываю файл с текстом функции, которая получилась у Claude. Наслаждайтесь!
#llm #gpt #claude #programming
Да, речь про обфускацию, когда код специально делают непонятным, чтобы скрыть его назначение.
Я поставил задачу: написать на Python функцию для проверки на простое число, обложить ее тестами и обфусцировать.
Начал с GPT4o. Тут меня ждало разочарование. GPT очень правдивый, аж до милоты. Его попытки обфускации выливались в переименование функций в "confusingName", добавление комментариев типа "Some irrelevant operation to confuse" и так далее. Спустя десяток запросов он начал худо-бедно делать то, что нужно, но функция перестала проходить тесты, а GPT в ответ на просьбы снова выдавал неправильный код.
Я сдался примерно на двадцатой итерации, перешел в Claude и всё стало гораздо интереснее. Claude сразу же стал писать код, похожий на реальный. Тесты проходились на "ура", но без ошибок не обошлось. Где-то на третьей-четвертой итерации усложнения начались проблемы. Claude смог их исправить, когда я показал, где проваливается тест, но осадочек остался. В конце я попросил добавить запутывающие комментарии, и он справился с этим блестяще.
Прикладываю файл с текстом функции, которая получилась у Claude. Наслаждайтесь!
#llm #gpt #claude #programming
👏17❤3👍3🤣2
Сундар Пичаи, CEO стартапа под названием Google, в своей речи, посвященной подведению итогов третьего квартала 2024 года заявил, что:
Ну, Гугл - это Гугл. А что у вас? Я вот заметил, что, конечно, ключевые архитектурные вещи я делаю сам, но всякий бойлерплейт и нудные задачи, на которые иногда лень отвлекаться, проще и быстрее свалить на GPT4o или Claude. А бойлерплейт зачастую как раз занимает больше строк, так что этот процент может быть даже выше. А ещё заметил, что я все реже прямо тщательно проверяю их код. Проверяю, конечно, но не с микроскопом. Потому что в 90 процентов случаев там всё находится в диапазоне от "приемлемо" до "хорошо".
Напишите в комментариях, какой процент у вас. Только честно. Автозавершение строк от Copilot-подобных сервисов не считается. Ну или можете написать, что с таким подходом Google обречён, а человечество отупеет. Такое мнение тоже принимается.
Если что, вот тут вся речь Сундара, рекомендую почитать, это действительно интересно:
https://blog.google/inside-google/message-ceo/alphabet-earnings-q3-2024
#programming
Сегодня более четверти всего нового кода в Google генерируется ИИ, а затем проверяется и утверждается инженерами. Это помогает нашим инженерам делать больше и двигаться быстрее.
Ну, Гугл - это Гугл. А что у вас? Я вот заметил, что, конечно, ключевые архитектурные вещи я делаю сам, но всякий бойлерплейт и нудные задачи, на которые иногда лень отвлекаться, проще и быстрее свалить на GPT4o или Claude. А бойлерплейт зачастую как раз занимает больше строк, так что этот процент может быть даже выше. А ещё заметил, что я все реже прямо тщательно проверяю их код. Проверяю, конечно, но не с микроскопом. Потому что в 90 процентов случаев там всё находится в диапазоне от "приемлемо" до "хорошо".
Напишите в комментариях, какой процент у вас. Только честно. Автозавершение строк от Copilot-подобных сервисов не считается. Ну или можете написать, что с таким подходом Google обречён, а человечество отупеет. Такое мнение тоже принимается.
Если что, вот тут вся речь Сундара, рекомендую почитать, это действительно интересно:
https://blog.google/inside-google/message-ceo/alphabet-earnings-q3-2024
#programming
Google
Q3 earnings call: CEO’s remarks
Our Q3 results were led by great performance in Search, Cloud and YouTube.
👍12🔥3👎2😁1