Similarweb поделилась данными по трафику за апрель в секторе GenAI.
Из интересного:
- в общем OpenAI продолжает бешено расти, как и Google и Grok, DeepSeek чуть подупал, но потому что он до этого сожрал всех.
- в генерации картинок на первом месте Leonardo.AI
- в генерации видео Veed и HeyGen
- в генерации кода самое интересное - на первом месте по трафику не Cursor, а Lovable, потом на третьем Replit, Bolt, V0 и Windsurf.
Ну и интересен отчет по падению трафика из-за AI. В первую очередь это образовательные сайты, фриланс-биржи, веб-конструкторы, сайты со стоковыми фотографиями, форумы и даже поисковые системы
Из интересного:
- в общем OpenAI продолжает бешено расти, как и Google и Grok, DeepSeek чуть подупал, но потому что он до этого сожрал всех.
- в генерации картинок на первом месте Leonardo.AI
- в генерации видео Veed и HeyGen
- в генерации кода самое интересное - на первом месте по трафику не Cursor, а Lovable, потом на третьем Replit, Bolt, V0 и Windsurf.
Ну и интересен отчет по падению трафика из-за AI. В первую очередь это образовательные сайты, фриланс-биржи, веб-конструкторы, сайты со стоковыми фотографиями, форумы и даже поисковые системы
OpenAI представил бенчмарк оценки AI моделей в медицине
https://openai.com/index/healthbench/
- Создан совместно с 262 врачами из 60 стран, владеющими 49 языками и 26 специальностями.
- Содержит 5 000 реалистичных мультиязычных диалогов «пользователь ↔️ ИИ» с индивидуальными рубриками‑чек‑листами, написанными врачами.
Три ключевых принципа бенчмарка
- Осмысленность (Meaningful): сценарии приближены к реальной клинической практике, а баллы коррелируют с потенциальным влиянием на здоровье.
- Надёжность (Trustworthy): критерии и весы отражают приоритеты мед‑сообщества; оценка основана на медицинских стандартах.
- Неисчерпанность (Unsaturated): даже новейшим LLM есть куда расти, что мотивирует дальнейшее улучшение.
Как устроен датасет
Диалоги получены комбинацией синтетической генерации и «человеческого» стресс‑тестирования.
Охватывают разные роли (пациент, врач), 7 тем (неотложка, неопределённость, глобальное здоровье и т.д.) и 48 562 уникальных рубрик‑критериев.
Оценку проводит модель‑грейдер GPT‑4.1: за каждый выполненный критерий начисляются взвешенные баллы.
Результаты моделей (апрель 2025)
o3 лидирует по всем темам и осям; заметно опережает Claude 3.7 Sonnet и Gemini 2.5 Pro.
Прогресс OpenAI‑линий с авг‑24 по апр‑25 — ≈ +28 % среднего балла HealthBench.
Баланс «качество ↔️ стоимость»
Линейка апреля‑25 (o3, o4‑mini, GPT‑4.1) задаёт новую «фронтирную» кривую эффективности: выше качество при той же или меньшей цене вычислений.
Модель GPT‑4.1 nano обходит GPT‑4o (2024), оставаясь ~25 раз дешевле.
Надёжность (worst‑of‑n)
Анализ «худшего из n» ответов показывает: новые модели ощутимо устойчивее, но даже лучшие ещё допускают слабые ответы, поэтому есть простор для повышения safety.
Варианты HealthBench
Consensus: 3 671 пример, где критерии прошли мульти‑валидацию врачей; целится в практически нулевую ошибку.
Hard: 1 000 сложных кейсов, на которых современные LLM пока «проваливаются» — площадка для будущих улучшений.
Сравнение с врачами
Врачи без помощи ИИ уступают сентябрьским моделям 2024.
Врачи + подсказки моделей 2024 улучшают ответы (human‑in‑the‑loop > model).
Для апрельских моделей 2025 врачи уже не могут заметно улучшить их ответы, что подтверждает рост качества.
Достоверность автоматической оценки
Согласие «модель‑грейдер ↔️ врач» сопоставимо со согласием «врач ↔️ врач», то есть автоматический скоринг адекватно отражает экспертное мнение.
HealthBench доступен на GitHub (код, данные, инструкции).
https://github.com/openai/simple-evals
https://openai.com/index/healthbench/
- Создан совместно с 262 врачами из 60 стран, владеющими 49 языками и 26 специальностями.
- Содержит 5 000 реалистичных мультиязычных диалогов «пользователь ↔️ ИИ» с индивидуальными рубриками‑чек‑листами, написанными врачами.
Три ключевых принципа бенчмарка
- Осмысленность (Meaningful): сценарии приближены к реальной клинической практике, а баллы коррелируют с потенциальным влиянием на здоровье.
- Надёжность (Trustworthy): критерии и весы отражают приоритеты мед‑сообщества; оценка основана на медицинских стандартах.
- Неисчерпанность (Unsaturated): даже новейшим LLM есть куда расти, что мотивирует дальнейшее улучшение.
Как устроен датасет
Диалоги получены комбинацией синтетической генерации и «человеческого» стресс‑тестирования.
Охватывают разные роли (пациент, врач), 7 тем (неотложка, неопределённость, глобальное здоровье и т.д.) и 48 562 уникальных рубрик‑критериев.
Оценку проводит модель‑грейдер GPT‑4.1: за каждый выполненный критерий начисляются взвешенные баллы.
Результаты моделей (апрель 2025)
o3 лидирует по всем темам и осям; заметно опережает Claude 3.7 Sonnet и Gemini 2.5 Pro.
Прогресс OpenAI‑линий с авг‑24 по апр‑25 — ≈ +28 % среднего балла HealthBench.
Баланс «качество ↔️ стоимость»
Линейка апреля‑25 (o3, o4‑mini, GPT‑4.1) задаёт новую «фронтирную» кривую эффективности: выше качество при той же или меньшей цене вычислений.
Модель GPT‑4.1 nano обходит GPT‑4o (2024), оставаясь ~25 раз дешевле.
Надёжность (worst‑of‑n)
Анализ «худшего из n» ответов показывает: новые модели ощутимо устойчивее, но даже лучшие ещё допускают слабые ответы, поэтому есть простор для повышения safety.
Варианты HealthBench
Consensus: 3 671 пример, где критерии прошли мульти‑валидацию врачей; целится в практически нулевую ошибку.
Hard: 1 000 сложных кейсов, на которых современные LLM пока «проваливаются» — площадка для будущих улучшений.
Сравнение с врачами
Врачи без помощи ИИ уступают сентябрьским моделям 2024.
Врачи + подсказки моделей 2024 улучшают ответы (human‑in‑the‑loop > model).
Для апрельских моделей 2025 врачи уже не могут заметно улучшить их ответы, что подтверждает рост качества.
Достоверность автоматической оценки
Согласие «модель‑грейдер ↔️ врач» сопоставимо со согласием «врач ↔️ врач», то есть автоматический скоринг адекватно отражает экспертное мнение.
HealthBench доступен на GitHub (код, данные, инструкции).
https://github.com/openai/simple-evals
Kling is the new King.
Китайская Kling - самая предпочитаемая моделька в видеогенерации по фото. Выше даже Veo 2 и Sora.
https://artificialanalysis.ai/text-to-video/arena?tab=leaderboard&input=image
Китайская Kling - самая предпочитаемая моделька в видеогенерации по фото. Выше даже Veo 2 и Sora.
https://artificialanalysis.ai/text-to-video/arena?tab=leaderboard&input=image
Вау, на хабре сегодня классная статья про оптимизацию использования cursor.
https://habr.com/ru/articles/908750/
Бывший разработчик, а 15 лет как менеджер, собрал для себя инструмент подпинывания курсора в нужном направлении (закидывая индекс файлов и весь контекст, формируя большой подробный промпт). В итоге всяких тупых действий становится меньше, размышлений по делу - сильно больше
Код его утилиты тут: https://github.com/glebkudr/shotgun_code
https://habr.com/ru/articles/908750/
Бывший разработчик, а 15 лет как менеджер, собрал для себя инструмент подпинывания курсора в нужном направлении (закидывая индекс файлов и весь контекст, формируя большой подробный промпт). В итоге всяких тупых действий становится меньше, размышлений по делу - сильно больше
Код его утилиты тут: https://github.com/glebkudr/shotgun_code
Хабр
One-shot промптинг. Как я начал вайбкодить в 10? раз быстрее
Shotgun: +100 к урону Вообще, я менеджер. Но когда-то писал код и всегда любил это занятие. Серьезно прогал мобильные приложения, и даже заработал за один из ответов на SO больше 100 звездочек. Но с...
This media is not supported in your browser
VIEW IN TELEGRAM
Офигеть, конечно, точность и скорость движений. Новый герой дискотеки 100%
CodeRabbit запустил AI code reviews свои в виде плагина в VSCode и соответственно Cursor, WindSurf. Автоматически проверяет ваш код, пишет саммари, рисует диаграммки, сам исправляет.
Причем часть работы даже до коммита может делать, на уровне редактирования кода. Простая версия бесплатная, продвинутая - 12-24 доллара на человека в месяц.
https://www.coderabbit.ai/blog/ai-code-reviews-vscode-cursor-windsurf
Причем часть работы даже до коммита может делать, на уровне редактирования кода. Простая версия бесплатная, продвинутая - 12-24 доллара на человека в месяц.
https://www.coderabbit.ai/blog/ai-code-reviews-vscode-cursor-windsurf
OpenAI тут представляет своего копилота - Codex, AI-агент без IDE со специальной моделью на базе o3 и доступом к GitHub. Только для Pro/Teams/Enterprise пока, Plus - позже
https://www.youtube.com/watch?v=hhdpnbfH6NU
https://www.youtube.com/watch?v=hhdpnbfH6NU
Вот подробности
Что такое Codex в ChatGPT и как это работает?
Codex — это новый AI-ассистент для автоматизации разработки кода, доступный прямо в интерфейсе ChatGPT (пока для Pro, Enterprise и Team-пользователей). Codex способен брать на себя конкретные задачи — от написания тестов до рефакторинга, и даже более сложные задачи вроде исправления багов или автоматизации рутинных процессов в вашем проекте.
Как устроена работа с Codex
1. Запуск через ChatGPT
Codex доступен через боковое меню ChatGPT. Чтобы назначить задачу, достаточно написать инструкцию и выбрать “Code”. Можно также использовать “Ask”, чтобы получить разъяснения по коду.
2. Изолированное выполнение задач
Каждая задача Codex выполняется в отдельной, безопасной среде, предзагруженной вашим кодом (например, с GitHub). Codex может:
- читать и редактировать файлы,
- запускать тесты, линтеры, проверки типов,
- коммитить изменения в своей среде,
- показывать логи терминала и результаты тестов.
3. Прозрачность и контроль
Codex документирует все свои шаги:
Вы видите логи терминала, диффы изменений, результаты тестов.
Можно просматривать изменения, запрашивать доработки, делать pull request в GitHub или сразу интегрировать правки.
4. Гибкая настройка среды
Вы можете настроить окружение Codex под ваш стек — например, предустановить нужные зависимости, скрипты, добавить AGENTS.md с инструкциями по работе с проектом.
Принципы работы Codex
Codex ориентирован на безопасную автоматизацию:
Все задачи выполняются в облачном контейнере без доступа к интернету (кроме вашего кода и нужных зависимостей).
Codex самостоятельно отказывается выполнять запросы, похожие на задачи по разработке вредоносного ПО.
Рекомендуется всегда вручную проверять предложенные изменения перед интеграцией.
AGENTS.md — как обучить Codex работать с вашим проектом
Это инструкция в репозитории (аналог README.md), где описываются стандарты, команды тестирования, нюансы навигации по коду.
Чем лучше документация и настройка — тем качественнее решения предлагает Codex.
Возможности и кейсы использования
Codex особенно эффективен для:
- Рефакторинга и автоматизации: переименование функций, выделение модулей, обновление стиля кода.
- Написания и запуска тестов: быстро создает юнит-тесты, интеграционные сценарии.
- Исправления багов: находит и устраняет ошибки на основе ваших описаний и логов.
- Добавления фич: создаёт каркас новых компонентов, функций.
- Документирования: генерирует README, docstrings и другую техническую документацию.
- Обработка повторяющихся задач: автоматизация рутинных изменений по всему проекту.
Примеры из индустрии:
Cisco использует Codex для быстрого прототипирования новых идей и ускорения работы команд.
Temporal ускоряет поиск багов и добавление фич.
Superhuman — автоматизация покрытия тестами и исправление мелких интеграционных ошибок.
Как повысить эффективность работы с Codex
- Делите задачи на небольшие, четко сформулированные подзадачи.
- Пробуйте назначать несколько задач разным агентам параллельно — это ускоряет работу.
- Обязательно предоставляйте хорошую документацию и тесты (через AGENTS.md и README).
- Следите за логами и результатами тестов, которые показывает Codex — так вы поймёте логику изменений.
Codex CLI и локальная работа
Codex CLI — это консольная версия ассистента для терминала:
Можно запускать задачи на локальном проекте, получать ответы в реальном времени.
Поддержка модели codex-mini-latest с быстрым откликом.
Теперь можно войти через ChatGPT-аккаунт, чтобы быстро получать API-ключ и даже бесплатные кредиты ($5/$50 для Plus/Pro).
Доступность и тарифы
Сейчас Codex открыт для Pro, Enterprise, Team-пользователей ChatGPT. Скоро добавят поддержку Plus и Edu.
В ближайшие недели доступ бесплатный, далее появится лимитированная бесплатная квота и платные опции.
Для Codex CLI: $1.50 за 1М входных токенов, $6 за 1М выходных, скидка на кешированные промпты.
Что такое Codex в ChatGPT и как это работает?
Codex — это новый AI-ассистент для автоматизации разработки кода, доступный прямо в интерфейсе ChatGPT (пока для Pro, Enterprise и Team-пользователей). Codex способен брать на себя конкретные задачи — от написания тестов до рефакторинга, и даже более сложные задачи вроде исправления багов или автоматизации рутинных процессов в вашем проекте.
Как устроена работа с Codex
1. Запуск через ChatGPT
Codex доступен через боковое меню ChatGPT. Чтобы назначить задачу, достаточно написать инструкцию и выбрать “Code”. Можно также использовать “Ask”, чтобы получить разъяснения по коду.
2. Изолированное выполнение задач
Каждая задача Codex выполняется в отдельной, безопасной среде, предзагруженной вашим кодом (например, с GitHub). Codex может:
- читать и редактировать файлы,
- запускать тесты, линтеры, проверки типов,
- коммитить изменения в своей среде,
- показывать логи терминала и результаты тестов.
3. Прозрачность и контроль
Codex документирует все свои шаги:
Вы видите логи терминала, диффы изменений, результаты тестов.
Можно просматривать изменения, запрашивать доработки, делать pull request в GitHub или сразу интегрировать правки.
4. Гибкая настройка среды
Вы можете настроить окружение Codex под ваш стек — например, предустановить нужные зависимости, скрипты, добавить AGENTS.md с инструкциями по работе с проектом.
Принципы работы Codex
Codex ориентирован на безопасную автоматизацию:
Все задачи выполняются в облачном контейнере без доступа к интернету (кроме вашего кода и нужных зависимостей).
Codex самостоятельно отказывается выполнять запросы, похожие на задачи по разработке вредоносного ПО.
Рекомендуется всегда вручную проверять предложенные изменения перед интеграцией.
AGENTS.md — как обучить Codex работать с вашим проектом
Это инструкция в репозитории (аналог README.md), где описываются стандарты, команды тестирования, нюансы навигации по коду.
Чем лучше документация и настройка — тем качественнее решения предлагает Codex.
Возможности и кейсы использования
Codex особенно эффективен для:
- Рефакторинга и автоматизации: переименование функций, выделение модулей, обновление стиля кода.
- Написания и запуска тестов: быстро создает юнит-тесты, интеграционные сценарии.
- Исправления багов: находит и устраняет ошибки на основе ваших описаний и логов.
- Добавления фич: создаёт каркас новых компонентов, функций.
- Документирования: генерирует README, docstrings и другую техническую документацию.
- Обработка повторяющихся задач: автоматизация рутинных изменений по всему проекту.
Примеры из индустрии:
Cisco использует Codex для быстрого прототипирования новых идей и ускорения работы команд.
Temporal ускоряет поиск багов и добавление фич.
Superhuman — автоматизация покрытия тестами и исправление мелких интеграционных ошибок.
Как повысить эффективность работы с Codex
- Делите задачи на небольшие, четко сформулированные подзадачи.
- Пробуйте назначать несколько задач разным агентам параллельно — это ускоряет работу.
- Обязательно предоставляйте хорошую документацию и тесты (через AGENTS.md и README).
- Следите за логами и результатами тестов, которые показывает Codex — так вы поймёте логику изменений.
Codex CLI и локальная работа
Codex CLI — это консольная версия ассистента для терминала:
Можно запускать задачи на локальном проекте, получать ответы в реальном времени.
Поддержка модели codex-mini-latest с быстрым откликом.
Теперь можно войти через ChatGPT-аккаунт, чтобы быстро получать API-ключ и даже бесплатные кредиты ($5/$50 для Plus/Pro).
Доступность и тарифы
Сейчас Codex открыт для Pro, Enterprise, Team-пользователей ChatGPT. Скоро добавят поддержку Plus и Edu.
В ближайшие недели доступ бесплатный, далее появится лимитированная бесплатная квота и платные опции.
Для Codex CLI: $1.50 за 1М входных токенов, $6 за 1М выходных, скидка на кешированные промпты.
Ограничения и будущее
- Пока не поддерживает работу с изображениями и не позволяет “подсказывать” агенту в процессе выполнения задачи.
- Работа с Codex — асинхронная: задание отправили, ждете результат (от 1 до 30 минут), потом проверяете и внедряете изменения.
- В будущем появится больше интерактива, интеграций с IDE, CI/CD, трекерами задач.
https://openai.com/index/introducing-codex/
- Пока не поддерживает работу с изображениями и не позволяет “подсказывать” агенту в процессе выполнения задачи.
- Работа с Codex — асинхронная: задание отправили, ждете результат (от 1 до 30 минут), потом проверяете и внедряете изменения.
- В будущем появится больше интерактива, интеграций с IDE, CI/CD, трекерами задач.
https://openai.com/index/introducing-codex/
Openai
Introducing Codex
Introducing Codex: a cloud-based software engineering agent that can work on many tasks in parallel, powered by codex-1. With Codex, developers can simultaneously deploy multiple agents to independently handle coding tasks such as writing features, answering…
YCombinator собирает заявки на AI School. 16-17 июня в Сан-Франциско. Состав звездный! От Альтмана до Маска, от Карпатого до Наделлы. Студентов зовут, исследователей и тех специалистов. Даже подкинут 500 долларов на билеты.
https://events.ycombinator.com/ai-sus?x=22
https://events.ycombinator.com/ai-sus?x=22