Как мы собираем SWE-bench на других языках
Современная разработка ПО — это плавильный котел языков: Java, C#, JS/TS, Go, Kotlin… список можно продолжать. Но когда дело доходит до оценки ИИ-агентов, способных помогать в написании и исправлении кода, мы часто упираемся в ограничения. Популярный бенчмарк SWE-bench, например, долгое время поддерживал только Python.
Чтобы преодолеть разрыв между реальностью разработки и возможностями оценки ИИ, наша команда в Doubletapp взялась за адаптацию SWE-bench для множества языков программирования. Меня зовут Кирилл Увенс, и в этой статье я расскажу, как мы подходим к этой задаче и почему считаем ее важной для всей индустрии.
В статье расскажем:
• Что такое SWE-Bench
• Какие сложности возникают при сборе данных и тестировании
• Наш опыт: какие языки поддерживает SWE-bench
• Ручная перепроверка, или SWE-bench Verified
• Сравниваем SWE-bench с другими бенчмарками для разработки ПО
• Ценообразование SWE-bench: как формируется стоимость одного датапойнта Читать далее
#swe_bench #ии #нейросети #ml #машинное_обучение #искусственный_интеллект #github #open_source | @habr_ai
Современная разработка ПО — это плавильный котел языков: Java, C#, JS/TS, Go, Kotlin… список можно продолжать. Но когда дело доходит до оценки ИИ-агентов, способных помогать в написании и исправлении кода, мы часто упираемся в ограничения. Популярный бенчмарк SWE-bench, например, долгое время поддерживал только Python.
Чтобы преодолеть разрыв между реальностью разработки и возможностями оценки ИИ, наша команда в Doubletapp взялась за адаптацию SWE-bench для множества языков программирования. Меня зовут Кирилл Увенс, и в этой статье я расскажу, как мы подходим к этой задаче и почему считаем ее важной для всей индустрии.
В статье расскажем:
• Что такое SWE-Bench
• Какие сложности возникают при сборе данных и тестировании
• Наш опыт: какие языки поддерживает SWE-bench
• Ручная перепроверка, или SWE-bench Verified
• Сравниваем SWE-bench с другими бенчмарками для разработки ПО
• Ценообразование SWE-bench: как формируется стоимость одного датапойнта Читать далее
#swe_bench #ии #нейросети #ml #машинное_обучение #искусственный_интеллект #github #open_source | @habr_ai
Хабр
Как мы собираем SWE-bench на других языках
Современная разработка ПО — это плавильный котел языков: Java, C#, JS/TS, Go, Kotlin… список можно продолжать. Но когда дело доходит до оценки ИИ-агентов, способных помогать в написании и исправлении...
Как я ушёл с Kotlin (Spring Boot) на Go (Gin) и сделал AI-чат с WebSocket и GPT-4
Меня зовут Артём, я занимаюсь коммерческой разработкой с 2019 года. Последние несколько лет я активно использовал Spring Boot для создания backend-сервисов на Java и Kotlin.
Но в какой-то момент захотелось попробовать что-то новое. Не потому что Spring надоел, а просто чтобы выйти из зоны комфорта и узнать, как чувствует себя проект на другом языке. Я решил: возьму уже начатый pet-проект, перепишу его на Go — и посмотрю, как изменится подход, скорость разработки, ощущения. Читать далее
#go #gpt_4 #websocket #docker #github_actions #pet_project #jwt #kotlin | @habr_ai
Меня зовут Артём, я занимаюсь коммерческой разработкой с 2019 года. Последние несколько лет я активно использовал Spring Boot для создания backend-сервисов на Java и Kotlin.
Но в какой-то момент захотелось попробовать что-то новое. Не потому что Spring надоел, а просто чтобы выйти из зоны комфорта и узнать, как чувствует себя проект на другом языке. Я решил: возьму уже начатый pet-проект, перепишу его на Go — и посмотрю, как изменится подход, скорость разработки, ощущения. Читать далее
#go #gpt_4 #websocket #docker #github_actions #pet_project #jwt #kotlin | @habr_ai
Хабр
Как я ушёл с Kotlin (Spring Boot) на Go (Gin) и сделал AI-чат с WebSocket и GPT-4
Меня зовут Артём, я занимаюсь коммерческой разработкой с 2019 года. Последние несколько лет я активно использовал Spring Boot для создания backend-сервисов на Java и Kotlin. Но в какой-то момент...
[Перевод] Обзор OpenAI Codex на практике
Codex от OpenAI обещает революцию в рабочем процессе разработчика, но реальность пока разочаровывает.
Разбираем, почему этот инструмент пока не обеспечивает заявленные улучшения продуктивности и что ему мешает. Читать далее
#openai #codex #github #ai #разработка #llm #автоматизация #productivity #devtools #cicd | @habr_ai
Codex от OpenAI обещает революцию в рабочем процессе разработчика, но реальность пока разочаровывает.
Разбираем, почему этот инструмент пока не обеспечивает заявленные улучшения продуктивности и что ему мешает. Читать далее
#openai #codex #github #ai #разработка #llm #автоматизация #productivity #devtools #cicd | @habr_ai
Хабр
Обзор OpenAI Codex на практике
Всем привет! Меня зовут Александр, я COO в SaaS-платформе аналитики данных. Последний год активно изучаю внедрение AI-решений в кросс-функциональные процессы. Делюсь полезными материалами, которые...
Claude vs ChatGPT + Codex: Кто лучше решит комплексную задачу? Тестируем 6 моделей
Могут ли схожие по уровню модели выдать в результат в 10 раз лучше?
Сравниваю 3 последние модели Claude vs 3 последние модели ChatGPT на одном наглядном примере
Давайте посмотрим на результат, который каждая из 6 моделей сделала всего лишь из одного промпта
Разница между первым и последним местом вас точно удивит 🤯 Узнать результат соревнований 💫
#claude #chatgpt #github #ai #llm #code | @habr_ai
Могут ли схожие по уровню модели выдать в результат в 10 раз лучше?
Сравниваю 3 последние модели Claude vs 3 последние модели ChatGPT на одном наглядном примере
Давайте посмотрим на результат, который каждая из 6 моделей сделала всего лишь из одного промпта
Разница между первым и последним местом вас точно удивит 🤯 Узнать результат соревнований 💫
#claude #chatgpt #github #ai #llm #code | @habr_ai
Хабр
Claude vs ChatGPT + Codex: Кто лучше решит комплексную задачу? Тестируем 6 моделей
Со времени как вышел Claude 4 прошло пару недель. Весь этот срок я постоянно сравниваю эти модели в разных задачах. И говорят, что Claude 4 отлично справляется с кодом, что мы сейчас и проверим Сравню...
[Перевод] Андрей Карпатый: «ПО снова меняется (и опять радикально)»
Представьте карту всего кода в мире: GitHub, Hugging Face... Но что, если я скажу, что самая захватывающая часть этой карты сейчас даже не код, а промпты? Программное обеспечение снова меняется радикально, и на этот раз естественный язык становится новым языком программирования.
В этой статье, записанной по выступлению Андрея Карпатого на конференции AI Startup School, мы разберём, как радикально меняются парадигмы разработки, почему LLM — это не просто «новое электричество», а сложные экосистемы и как концепция «частичной автономии» определяет будущее приложений. Будущее ПО уже здесь, и оно говорит на вашем языке. Читать далее
#андрей_карпатый #eureka_labs #openai #tesla #github #llm #агенты #автономные_системы | @habr_ai
Представьте карту всего кода в мире: GitHub, Hugging Face... Но что, если я скажу, что самая захватывающая часть этой карты сейчас даже не код, а промпты? Программное обеспечение снова меняется радикально, и на этот раз естественный язык становится новым языком программирования.
В этой статье, записанной по выступлению Андрея Карпатого на конференции AI Startup School, мы разберём, как радикально меняются парадигмы разработки, почему LLM — это не просто «новое электричество», а сложные экосистемы и как концепция «частичной автономии» определяет будущее приложений. Будущее ПО уже здесь, и оно говорит на вашем языке. Читать далее
#андрей_карпатый #eureka_labs #openai #tesla #github #llm #агенты #автономные_системы | @habr_ai
Хабр
Андрей Карпатый: «ПО снова меняется (и опять радикально)»
Представьте карту всего кода в мире: GitHub, Hugging Face... Но что, если я скажу, что самая захватывающая часть этой карты сейчас даже не код, а промпты ? Программное обеспечение...
Python’ом по машинлернингу
Сегодня только ленивый не говорит (пишет, думает) про машинное обучение, нейросети и искусственный интеллект в целом. Всего лишь в прошлом году ML сравнили с подростковым сексом — все хотят, но никто не занимается. Сегодня все озабочены тем, что ИИ нас оставит без работы. Хотя, судя по последним исследованиям Gartner, можно успокоиться, так как к 2020 году благодаря ИИ появится больше рабочих мест, чем ликвидируется. Так что, дорогой друг, учи ML, и будет тебе счастье.
Читать дальше →
#azure #functions #ml #microsoft #python #ai #хакер #xaker #github #vs #vs_code #machine_learning #машинное_обучение #питон | @habr_ai
Сегодня только ленивый не говорит (пишет, думает) про машинное обучение, нейросети и искусственный интеллект в целом. Всего лишь в прошлом году ML сравнили с подростковым сексом — все хотят, но никто не занимается. Сегодня все озабочены тем, что ИИ нас оставит без работы. Хотя, судя по последним исследованиям Gartner, можно успокоиться, так как к 2020 году благодаря ИИ появится больше рабочих мест, чем ликвидируется. Так что, дорогой друг, учи ML, и будет тебе счастье.
Читать дальше →
#azure #functions #ml #microsoft #python #ai #хакер #xaker #github #vs #vs_code #machine_learning #машинное_обучение #питон | @habr_ai
Хабр
Python’ом по машинлернингу
Сегодня только ленивый не говорит (пишет, думает) про машинное обучение, нейросети и искусственный интеллект в целом. Всего лишь в прошлом году ML сравнили с подростковым сексом — все хотят, но никто...
Исследование METR: использование Cursor замедляет опытных разработчиков на 19 %
Считается устоявшейся истиной, что инструменты автодополнения кода и прочая помощь от больших языковых моделей помогают программировать быстрее. Исследование организации METR ставит это фактоид под сомнение и даже демонстрирует обратный эффект.
В рамках анализа труда 16 программистов обнаружилось, что ИИ замедляет человека на 19 %. Это противоречит мнению экспертов индустрии машинного обучения, экономистов и самих участников эксперимента. Важно, что проверка шла не на очередных бенчмарках или предложениях решать алгоритмические задачи на скорость, а в обычной работе людей. Читать далее
#metr #model_evaluation_threat_research #научные_исследования #большие_языковые_модели #бям #сursor #программирование #github #git #автодополнение_кода | @habr_ai
Считается устоявшейся истиной, что инструменты автодополнения кода и прочая помощь от больших языковых моделей помогают программировать быстрее. Исследование организации METR ставит это фактоид под сомнение и даже демонстрирует обратный эффект.
В рамках анализа труда 16 программистов обнаружилось, что ИИ замедляет человека на 19 %. Это противоречит мнению экспертов индустрии машинного обучения, экономистов и самих участников эксперимента. Важно, что проверка шла не на очередных бенчмарках или предложениях решать алгоритмические задачи на скорость, а в обычной работе людей. Читать далее
#metr #model_evaluation_threat_research #научные_исследования #большие_языковые_модели #бям #сursor #программирование #github #git #автодополнение_кода | @habr_ai
Хабр
Исследование METR: использование Cursor замедляет опытных разработчиков на 19 %
Слева направо: ожидаемое ускорение работы программистов согласно предсказаниям экономистов; экспертов сферы машинного обучения; участников исследования METR до начала эксперимента; после эксперимента;...
Вайбкодинг для маркетплейсов
Как удалось с помощью GitHub Copilot автоматизировать отслеживание изменений в базе знаний Ozon. Мой опыт создания собственного сервиса для мониторинга и сравнения обновлений без знаний программирования, с пошаговым описыванием создания архитектуры процесса. Вайбкодить далее
#вайб_кодинг #вайбкодинг #github_pages #cursor #github_copilot #ozon #автоматизация #парсер #краулер | @habr_ai
Как удалось с помощью GitHub Copilot автоматизировать отслеживание изменений в базе знаний Ozon. Мой опыт создания собственного сервиса для мониторинга и сравнения обновлений без знаний программирования, с пошаговым описыванием создания архитектуры процесса. Вайбкодить далее
#вайб_кодинг #вайбкодинг #github_pages #cursor #github_copilot #ozon #автоматизация #парсер #краулер | @habr_ai
Хабр
Вайбкодинг для маркетплейсов
Вайбовая фотка не со мной Зачем статья: Хочу поделиться примером применения AI-агентов на практике, даже если не программируешь, Выделить очевидные ограничения вайбкодинга, Показать как достигнут...
AI-генератор сайтов на ChatGPT и Next.js 15: Создаем SEO-оптимизированные страницы с нуля (аналог v0)
Представьте дизайн-агентство, которое создает не просто красивые макеты, а целые технологические экосистемы. Один раз вложившись в разработку уникальных компонентов и фирменного стиля, дизайнеры получают возможность генерировать профессиональные сайты со скоростью 50+ проектов в час.
На практике это сводится к простому циклу: вы отправляете промпт в ChatGPT, получаете в ответ конфигурационный файл, загружаете его в приложение и одной командой сборки создаёте готовые, стилизованные страницы. Всё это уже настроено в стартовом шаблоне, включая авторизацию и многоязычный AI-чат.
Или используйте полную автоматизацию так же как в v0, но с прицелом под крупные корпоративные интеграции. Читать далее
#next #chatgpt #ai #v0 #open_source #github #ai_generator | @habr_ai
Представьте дизайн-агентство, которое создает не просто красивые макеты, а целые технологические экосистемы. Один раз вложившись в разработку уникальных компонентов и фирменного стиля, дизайнеры получают возможность генерировать профессиональные сайты со скоростью 50+ проектов в час.
На практике это сводится к простому циклу: вы отправляете промпт в ChatGPT, получаете в ответ конфигурационный файл, загружаете его в приложение и одной командой сборки создаёте готовые, стилизованные страницы. Всё это уже настроено в стартовом шаблоне, включая авторизацию и многоязычный AI-чат.
Или используйте полную автоматизацию так же как в v0, но с прицелом под крупные корпоративные интеграции. Читать далее
#next #chatgpt #ai #v0 #open_source #github #ai_generator | @habr_ai
Хабр
AI-генератор сайтов на ChatGPT и Next.js 15: Создаем SEO-оптимизированные страницы с нуля (аналог v0)
Этот туториал — первая часть большого путешествия, в котором мы создадим AI-систему для автоматической генерации веб-страниц на React 19 и Next.js 15. Наша цель — не просто скорость, а архитектурная...
Githab CLI и Github Actions на страже вайб кодинга с мобильными агентами Cursor
В этой статье, я расскажу, про опыт работы с агентами Cursor, github actions и великолепный Github Cli. Статья не претендует на истину и является частным практическим опытом.
Вступление
Лето. Время отпусков. Делать не фиг.
Можно залипать в рилсах или сериальчиках на пляже, но зачем, если можно создать что-то прикольное с мобильниого телефона, с помощью агентов. А конкретно, с помощью https://cursor.com/agents (стоит 20 баксов в месяц https://docs.cursor.com/account/pricing или 3к рублей в год, если немного поискать).
Итак, создаем репозиторий (В моем случае github.com/RobotAvi/MoneyGame) или берем готовый. Даем задачу агенту. Читать далее
#llm #cursor #агент #github #github_actions #github_cli | @habr_ai
В этой статье, я расскажу, про опыт работы с агентами Cursor, github actions и великолепный Github Cli. Статья не претендует на истину и является частным практическим опытом.
Вступление
Лето. Время отпусков. Делать не фиг.
Можно залипать в рилсах или сериальчиках на пляже, но зачем, если можно создать что-то прикольное с мобильниого телефона, с помощью агентов. А конкретно, с помощью https://cursor.com/agents (стоит 20 баксов в месяц https://docs.cursor.com/account/pricing или 3к рублей в год, если немного поискать).
Итак, создаем репозиторий (В моем случае github.com/RobotAvi/MoneyGame) или берем готовый. Даем задачу агенту. Читать далее
#llm #cursor #агент #github #github_actions #github_cli | @habr_ai
Хабр
Githab CLI и Github Actions на страже вайб кодинга с мобильными агентами Cursor
Меня зовут Авенир Воронов и я отвечаю за Лабораторию инноваций в компании "ДАР". В этой статье я расскажу про опыт работы с агентами курсора и великолепный Github Cli, который сэкономил кучу времени....
❤1
[Перевод] Эффективные практики программирования с использованием ИИ чат-бота
В этой статье мы разберём, как использовать агентов в процессе разработки ПО и какие изменения это влечёт в повседневной работе разработчика. Чтобы показать, как может выглядеть подобный новый рабочий процесс на практике, мы создадим простое Angular-приложение, которое ищет статьи в Википедии и выводит результаты в виде списка, используя «режим агента» GitHub Copilot. Назовём его «Search wiki app». Читать далее
#агентный_ии #github_copilot #claude_sonnet #генерация_кода #контроль_качества #angular #архитектура_приложений #пошаговая_разработка #instruction_files | @habr_ai
В этой статье мы разберём, как использовать агентов в процессе разработки ПО и какие изменения это влечёт в повседневной работе разработчика. Чтобы показать, как может выглядеть подобный новый рабочий процесс на практике, мы создадим простое Angular-приложение, которое ищет статьи в Википедии и выводит результаты в виде списка, используя «режим агента» GitHub Copilot. Назовём его «Search wiki app». Читать далее
#агентный_ии #github_copilot #claude_sonnet #генерация_кода #контроль_качества #angular #архитектура_приложений #пошаговая_разработка #instruction_files | @habr_ai
Хабр
Эффективные практики программирования с использованием ИИ чат-бота
Скрытый текст Агенты для программирования на базе ИИ — это не мимолётный тренд, а развивающаяся часть современного процесса разработки. Разработчикам становится всё важнее уметь эффективно...
Как я улучшил свой промпт для генерации кода в OpenAI 4.1 — простой трюк, который РАБОТАЕТ
Несмотря на обилие моделей (а я время от времени использую четыре топовые), всё-таки на стыке моих технологий GPT-4.1 даёт лучший результат по сравнению с другими.
... я каждый раз сохраняю эти компоненты в файл Google Документы. И каждый раз при генерации новой функции или целого компонента я "вскармливаю" текст из этого документа именно в формате текста. В общем, эта штука работает хорошо.
Пожалуйста, объясни как ты понял мою проблему, почему я считаю что это важно, как ты собираешься это решать и что будет правильным решением. Читать далее
#nextjs #openaai #chatgpt #aifa #ai #open_source #github #react_js | @habr_ai
Несмотря на обилие моделей (а я время от времени использую четыре топовые), всё-таки на стыке моих технологий GPT-4.1 даёт лучший результат по сравнению с другими.
... я каждый раз сохраняю эти компоненты в файл Google Документы. И каждый раз при генерации новой функции или целого компонента я "вскармливаю" текст из этого документа именно в формате текста. В общем, эта штука работает хорошо.
Пожалуйста, объясни как ты понял мою проблему, почему я считаю что это важно, как ты собираешься это решать и что будет правильным решением. Читать далее
#nextjs #openaai #chatgpt #aifa #ai #open_source #github #react_js | @habr_ai
Хабр
Как я улучшил свой промпт для генерации кода в OpenAI 4.1 — простой трюк, который РАБОТАЕТ
Это я прижал к стенке ChatGPT и заставил работать как положено, как завещал великий Сэм' Несмотря на обилие моделей (а я время от времени использую четыре топовые), всё-таки на стыке моих технологий...
Как внедрить автоматическое ревью кода с помощью ИИ: опыт Microsoft, Google и ByteDance + практическое руководство
TL;DR
Автоматическое ревью кода с помощью ИИ уже работает в продакшене крупнейших компаний. Microsoft обрабатывает 600 000 пулл-реквестов в месяц, экономя сотни тысяч часов. ByteDance достигла 75% точности с 12 000 активных пользователей еженедельно. Google автоматизировал 7,5% всех комментариев ревьюеров. В статье — детальный разбор архитектур, метрики эффективности и пошаговое руководство по внедрению с расчётом окупаемости. Читать далее
#artificial_intelligence #code_review #devops #machine_learning #github #cicd #software_engineering #software_development #automation | @habr_ai
TL;DR
Автоматическое ревью кода с помощью ИИ уже работает в продакшене крупнейших компаний. Microsoft обрабатывает 600 000 пулл-реквестов в месяц, экономя сотни тысяч часов. ByteDance достигла 75% точности с 12 000 активных пользователей еженедельно. Google автоматизировал 7,5% всех комментариев ревьюеров. В статье — детальный разбор архитектур, метрики эффективности и пошаговое руководство по внедрению с расчётом окупаемости. Читать далее
#artificial_intelligence #code_review #devops #machine_learning #github #cicd #software_engineering #software_development #automation | @habr_ai
Хабр
Как внедрить автоматическое ревью кода с помощью ИИ: опыт Microsoft, Google и ByteDance + практическое руководство
Ревью кода с помощью AI в глазах автора Введение: почему это важно именно сейчас Представьте: ваш коллега тратит час на ревью вашего кода, находит пару опечаток и пропущенную проверку на null. Через...
Новости кибербезопасности за неделю с 1 по 7 сентября 2025
Всё самое интересное из мира кибербезопасности /** с моими комментариями.
На этой неделе новости про не совсем суверенный цифровой суверенитет, Минцифры хочет легализовать DDOS, но не для всех, почему стоит держать web-камеру закрытой и про то, что можно стать учёным, просто делая инструменты для пентеста с использованием ИИ, а также другие только самые важные и интересные новости из мира информационной безопасности. Читать далее
#информационная_безопасность #суверенитет #https #ddos #stealerium #github #android #a2 #cve #chrome | @habr_ai
Всё самое интересное из мира кибербезопасности /** с моими комментариями.
На этой неделе новости про не совсем суверенный цифровой суверенитет, Минцифры хочет легализовать DDOS, но не для всех, почему стоит держать web-камеру закрытой и про то, что можно стать учёным, просто делая инструменты для пентеста с использованием ИИ, а также другие только самые важные и интересные новости из мира информационной безопасности. Читать далее
#информационная_безопасность #суверенитет #https #ddos #stealerium #github #android #a2 #cve #chrome | @habr_ai
Хабр
Новости кибербезопасности за неделю с 1 по 7 сентября 2025
Всё самое интересное из мира кибербезопасности /** с моими комментариями. 1) Цифровой суверенитет - понятие относительное! Масштабное исследование Internet Society выявило зависимость государственных...