Хабр / ML & AI

Как мы собираем SWE-bench на других языках

Современная разработка ПО — это плавильный котел языков: Java, C#, JS/TS, Go, Kotlin… список можно продолжать. Но когда дело доходит до оценки ИИ-агентов, способных помогать в написании и исправлении кода, мы часто упираемся в ограничения. Популярный бенчмарк SWE-bench, например, долгое время поддерживал только Python.

Чтобы преодолеть разрыв между реальностью разработки и возможностями оценки ИИ, наша команда в Doubletapp взялась за адаптацию SWE-bench для множества языков программирования. Меня зовут Кирилл Увенс, и в этой статье я расскажу, как мы подходим к этой задаче и почему считаем ее важной для всей индустрии.

В статье расскажем:

• Что такое SWE-Bench

• Какие сложности возникают при сборе данных и тестировании

• Наш опыт: какие языки поддерживает SWE-bench

• Ручная перепроверка, или SWE-bench Verified

• Сравниваем SWE-bench с другими бенчмарками для разработки ПО

• Ценообразование SWE-bench: как формируется стоимость одного датапойнта Читать далее

#swe_bench #ии #нейросети #ml #машинное_обучение #искусственный_интеллект #github #open_source | @habr_ai

Хабр

Как мы собираем SWE-bench на других языках

Современная разработка ПО — это плавильный котел языков: Java, C#, JS/TS, Go, Kotlin… список можно продолжать. Но когда дело доходит до оценки ИИ-агентов, способных помогать в написании и исправлении...

61 views19:27

Хабр / ML & AI

Как я ушёл с Kotlin (Spring Boot) на Go (Gin) и сделал AI-чат с WebSocket и GPT-4

Меня зовут Артём, я занимаюсь коммерческой разработкой с 2019 года. Последние несколько лет я активно использовал Spring Boot для создания backend-сервисов на Java и Kotlin.

Но в какой-то момент захотелось попробовать что-то новое. Не потому что Spring надоел, а просто чтобы выйти из зоны комфорта и узнать, как чувствует себя проект на другом языке. Я решил: возьму уже начатый pet-проект, перепишу его на Go — и посмотрю, как изменится подход, скорость разработки, ощущения. Читать далее

#go #gpt_4 #websocket #docker #github_actions #pet_project #jwt #kotlin | @habr_ai

Хабр

Как я ушёл с Kotlin (Spring Boot) на Go (Gin) и сделал AI-чат с WebSocket и GPT-4

Меня зовут Артём, я занимаюсь коммерческой разработкой с 2019 года. Последние несколько лет я активно использовал Spring Boot для создания backend-сервисов на Java и Kotlin. Но в какой-то момент...

61 views15:36

Хабр / ML & AI

[Перевод] Обзор OpenAI Codex на практике

Codex от OpenAI обещает революцию в рабочем процессе разработчика, но реальность пока разочаровывает.

Разбираем, почему этот инструмент пока не обеспечивает заявленные улучшения продуктивности и что ему мешает. Читать далее

#openai #codex #github #ai #разработка #llm #автоматизация #productivity #devtools #cicd | @habr_ai

Хабр

Обзор OpenAI Codex на практике

Всем привет! Меня зовут Александр, я COO в SaaS-платформе аналитики данных. Последний год активно изучаю внедрение AI-решений в кросс-функциональные процессы. Делюсь полезными материалами, которые...

71 views07:52

Хабр / ML & AI

Claude vs ChatGPT + Codex: Кто лучше решит комплексную задачу? Тестируем 6 моделей

Могут ли схожие по уровню модели выдать в результат в 10 раз лучше?

Сравниваю 3 последние модели Claude vs 3 последние модели ChatGPT на одном наглядном примере

Давайте посмотрим на результат, который каждая из 6 моделей сделала всего лишь из одного промпта

Разница между первым и последним местом вас точно удивит 🤯 Узнать результат соревнований 💫

#claude #chatgpt #github #ai #llm #code | @habr_ai

Хабр

Claude vs ChatGPT + Codex: Кто лучше решит комплексную задачу? Тестируем 6 моделей

Со времени как вышел Claude 4 прошло пару недель. Весь этот срок я постоянно сравниваю эти модели в разных задачах. И говорят, что Claude 4 отлично справляется с кодом, что мы сейчас и проверим Сравню...

74 views08:00

Хабр / ML & AI

[Перевод] Андрей Карпатый: «ПО снова меняется (и опять радикально)»

Представьте карту всего кода в мире: GitHub, Hugging Face... Но что, если я скажу, что самая захватывающая часть этой карты сейчас даже не код, а промпты? Программное обеспечение снова меняется радикально, и на этот раз естественный язык становится новым языком программирования.

В этой статье, записанной по выступлению Андрея Карпатого на конференции AI Startup School, мы разберём, как радикально меняются парадигмы разработки, почему LLM — это не просто «новое электричество», а сложные экосистемы и как концепция «частичной автономии» определяет будущее приложений. Будущее ПО уже здесь, и оно говорит на вашем языке. Читать далее

#андрей_карпатый #eureka_labs #openai #tesla #github #llm #агенты #автономные_системы | @habr_ai

Хабр

Андрей Карпатый: «ПО снова меняется (и опять радикально)»

Представьте карту всего кода в мире: GitHub, Hugging Face... Но что, если я скажу, что самая захватывающая часть этой карты сейчас даже не код, а промпты ? Программное обеспечение...

62 views16:21

Хабр / ML & AI

Python’ом по машинлернингу

Сегодня только ленивый не говорит (пишет, думает) про машинное обучение, нейросети и искусственный интеллект в целом. Всего лишь в прошлом году ML сравнили с подростковым сексом — все хотят, но никто не занимается. Сегодня все озабочены тем, что ИИ нас оставит без работы. Хотя, судя по последним исследованиям Gartner, можно успокоиться, так как к 2020 году благодаря ИИ появится больше рабочих мест, чем ликвидируется. Так что, дорогой друг, учи ML, и будет тебе счастье.

Читать дальше →

#azure #functions #ml #microsoft #python #ai #хакер #xaker #github #vs #vs_code #machine_learning #машинное_обучение #питон | @habr_ai

Хабр

Python’ом по машинлернингу

Сегодня только ленивый не говорит (пишет, думает) про машинное обучение, нейросети и искусственный интеллект в целом. Всего лишь в прошлом году ML сравнили с подростковым сексом — все хотят, но никто...

24 views08:35

Хабр / ML & AI

Исследование METR: использование Cursor замедляет опытных разработчиков на 19 %

Считается устоявшейся истиной, что инструменты автодополнения кода и прочая помощь от больших языковых моделей помогают программировать быстрее. Исследование организации METR ставит это фактоид под сомнение и даже демонстрирует обратный эффект.

В рамках анализа труда 16 программистов обнаружилось, что ИИ замедляет человека на 19 %. Это противоречит мнению экспертов индустрии машинного обучения, экономистов и самих участников эксперимента. Важно, что проверка шла не на очередных бенчмарках или предложениях решать алгоритмические задачи на скорость, а в обычной работе людей. Читать далее

#metr #model_evaluation_threat_research #научные_исследования #большие_языковые_модели #бям #сursor #программирование #github #git #автодополнение_кода | @habr_ai

Хабр

Исследование METR: использование Cursor замедляет опытных разработчиков на 19 %

Слева направо: ожидаемое ускорение работы программистов согласно предсказаниям экономистов; экспертов сферы машинного обучения; участников исследования METR до начала эксперимента; после эксперимента;...

112 views00:22

Хабр / ML & AI

Вайбкодинг для маркетплейсов

Как удалось с помощью GitHub Copilot автоматизировать отслеживание изменений в базе знаний Ozon. Мой опыт создания собственного сервиса для мониторинга и сравнения обновлений без знаний программирования, с пошаговым описыванием создания архитектуры процесса. Вайбкодить далее

#вайб_кодинг #вайбкодинг #github_pages #cursor #github_copilot #ozon #автоматизация #парсер #краулер | @habr_ai

Хабр

Вайбкодинг для маркетплейсов

Вайбовая фотка не со мной Зачем статья: Хочу поделиться примером применения AI-агентов на практике, даже если не программируешь, Выделить очевидные ограничения вайбкодинга, Показать как достигнут...

76 views20:49

Хабр / ML & AI

AI-генератор сайтов на ChatGPT и Next.js 15: Создаем SEO-оптимизированные страницы с нуля (аналог v0)

Представьте дизайн-агентство, которое создает не просто красивые макеты, а целые технологические экосистемы. Один раз вложившись в разработку уникальных компонентов и фирменного стиля, дизайнеры получают возможность генерировать профессиональные сайты со скоростью 50+ проектов в час.

На практике это сводится к простому циклу: вы отправляете промпт в ChatGPT, получаете в ответ конфигурационный файл, загружаете его в приложение и одной командой сборки создаёте готовые, стилизованные страницы. Всё это уже настроено в стартовом шаблоне, включая авторизацию и многоязычный AI-чат.

Или используйте полную автоматизацию так же как в v0, но с прицелом под крупные корпоративные интеграции. Читать далее

#next #chatgpt #ai #v0 #open_source #github #ai_generator | @habr_ai

Хабр

AI-генератор сайтов на ChatGPT и Next.js 15: Создаем SEO-оптимизированные страницы с нуля (аналог v0)

Этот туториал — первая часть большого путешествия, в котором мы создадим AI-систему для автоматической генерации веб-страниц на React 19 и Next.js 15. Наша цель — не просто скорость, а архитектурная...

57 views15:55

Хабр / ML & AI

Githab CLI и Github Actions на страже вайб кодинга с мобильными агентами Cursor

В этой статье, я расскажу, про опыт работы с агентами Cursor, github actions и великолепный Github Cli. Статья не претендует на истину и является частным практическим опытом.

Вступление

Лето. Время отпусков. Делать не фиг.

Можно залипать в рилсах или сериальчиках на пляже, но зачем, если можно создать что-то прикольное с мобильниого телефона, с помощью агентов. А конкретно, с помощью https://cursor.com/agents (стоит 20 баксов в месяц https://docs.cursor.com/account/pricing или 3к рублей в год, если немного поискать).

Итак, создаем репозиторий (В моем случае github.com/RobotAvi/MoneyGame) или берем готовый. Даем задачу агенту. Читать далее

#llm #cursor #агент #github #github_actions #github_cli | @habr_ai

Хабр

Githab CLI и Github Actions на страже вайб кодинга с мобильными агентами Cursor

Меня зовут Авенир Воронов и я отвечаю за Лабораторию инноваций в компании "ДАР". В этой статье я расскажу про опыт работы с агентами курсора и великолепный Github Cli, который сэкономил кучу времени....

❤1

79 views09:57

Хабр / ML & AI

[Перевод] Эффективные практики программирования с использованием ИИ чат-бота

В этой статье мы разберём, как использовать агентов в процессе разработки ПО и какие изменения это влечёт в повседневной работе разработчика. Чтобы показать, как может выглядеть подобный новый рабочий процесс на практике, мы создадим простое Angular-приложение, которое ищет статьи в Википедии и выводит результаты в виде списка, используя «режим агента» GitHub Copilot. Назовём его «Search wiki app». Читать далее

#агентный_ии #github_copilot #claude_sonnet #генерация_кода #контроль_качества #angular #архитектура_приложений #пошаговая_разработка #instruction_files | @habr_ai

Хабр

Эффективные практики программирования с использованием ИИ чат-бота

Скрытый текст Агенты для программирования на базе ИИ — это не мимолётный тренд, а развивающаяся часть современного процесса разработки. Разработчикам становится всё важнее уметь эффективно...

64 views12:59

Хабр / ML & AI

Как я улучшил свой промпт для генерации кода в OpenAI 4.1 — простой трюк, который РАБОТАЕТ

Несмотря на обилие моделей (а я время от времени использую четыре топовые), всё-таки на стыке моих технологий GPT-4.1 даёт лучший результат по сравнению с другими.

... я каждый раз сохраняю эти компоненты в файл Google Документы. И каждый раз при генерации новой функции или целого компонента я "вскармливаю" текст из этого документа именно в формате текста. В общем, эта штука работает хорошо.

Пожалуйста, объясни как ты понял мою проблему, почему я считаю что это важно, как ты собираешься это решать и что будет правильным решением. Читать далее

#nextjs #openaai #chatgpt #aifa #ai #open_source #github #react_js | @habr_ai

Хабр

Как я улучшил свой промпт для генерации кода в OpenAI 4.1 — простой трюк, который РАБОТАЕТ

Это я прижал к стенке ChatGPT и заставил работать как положено, как завещал великий Сэм' Несмотря на обилие моделей (а я время от времени использую четыре топовые), всё-таки на стыке моих технологий...

83 views15:00

Хабр / ML & AI

Как внедрить автоматическое ревью кода с помощью ИИ: опыт Microsoft, Google и ByteDance + практическое руководство

TL;DR

Автоматическое ревью кода с помощью ИИ уже работает в продакшене крупнейших компаний. Microsoft обрабатывает 600 000 пулл-реквестов в месяц, экономя сотни тысяч часов. ByteDance достигла 75% точности с 12 000 активных пользователей еженедельно. Google автоматизировал 7,5% всех комментариев ревьюеров. В статье — детальный разбор архитектур, метрики эффективности и пошаговое руководство по внедрению с расчётом окупаемости. Читать далее

#artificial_intelligence #code_review #devops #machine_learning #github #cicd #software_engineering #software_development #automation | @habr_ai

Хабр

Как внедрить автоматическое ревью кода с помощью ИИ: опыт Microsoft, Google и ByteDance + практическое руководство

Ревью кода с помощью AI в глазах автора Введение: почему это важно именно сейчас Представьте: ваш коллега тратит час на ревью вашего кода, находит пару опечаток и пропущенную проверку на null. Через...

64 views12:46

Хабр / ML & AI

Новости кибербезопасности за неделю с 1 по 7 сентября 2025

Всё самое интересное из мира кибербезопасности /** с моими комментариями.

На этой неделе новости про не совсем суверенный цифровой суверенитет, Минцифры хочет легализовать DDOS, но не для всех, почему стоит держать web-камеру закрытой и про то, что можно стать учёным, просто делая инструменты для пентеста с использованием ИИ, а также другие только самые важные и интересные новости из мира информационной безопасности. Читать далее

#информационная_безопасность #суверенитет #https #ddos #stealerium #github #android #a2 #cve #chrome | @habr_ai

Хабр

Новости кибербезопасности за неделю с 1 по 7 сентября 2025

Всё самое интересное из мира кибербезопасности /** с моими комментариями. 1) Цифровой суверенитет - понятие относительное! Масштабное исследование Internet Society выявило зависимость государственных...

59 views22:21

About

Blog

Apps

Platform