AI Product | Igor Akimov

Similarweb поделилась данными по трафику за апрель в секторе GenAI.
Из интересного:
- в общем OpenAI продолжает бешено расти, как и Google и Grok, DeepSeek чуть подупал, но потому что он до этого сожрал всех.
- в генерации картинок на первом месте Leonardo.AI
- в генерации видео Veed и HeyGen
- в генерации кода самое интересное - на первом месте по трафику не Cursor, а Lovable, потом на третьем Replit, Bolt, V0 и Windsurf.
Ну и интересен отчет по падению трафика из-за AI. В первую очередь это образовательные сайты, фриланс-биржи, веб-конструкторы, сайты со стоковыми фотографиями, форумы и даже поисковые системы

4.2K views14:21

OpenAI добавила в Deep Research коннектор корпоративного Sharepoint.

1.2K views05:59

AI Product | Igor Akimov

OpenAI представил бенчмарк оценки AI моделей в медицине
https://openai.com/index/healthbench/

- Создан совместно с 262 врачами из 60 стран, владеющими 49 языками и 26 специальностями.
- Содержит 5 000 реалистичных мультиязычных диалогов «пользователь ↔️ ИИ» с индивидуальными рубриками‑чек‑листами, написанными врачами.

Три ключевых принципа бенчмарка
- Осмысленность (Meaningful): сценарии приближены к реальной клинической практике, а баллы коррелируют с потенциальным влиянием на здоровье.
- Надёжность (Trustworthy): критерии и весы отражают приоритеты мед‑сообщества; оценка основана на медицинских стандартах.
- Неисчерпанность (Unsaturated): даже новейшим LLM есть куда расти, что мотивирует дальнейшее улучшение.

Как устроен датасет
Диалоги получены комбинацией синтетической генерации и «человеческого» стресс‑тестирования.

Охватывают разные роли (пациент, врач), 7 тем (неотложка, неопределённость, глобальное здоровье и т.д.) и 48 562 уникальных рубрик‑критериев.

Оценку проводит модель‑грейдер GPT‑4.1: за каждый выполненный критерий начисляются взвешенные баллы.

Результаты моделей (апрель 2025)
o3 лидирует по всем темам и осям; заметно опережает Claude 3.7 Sonnet и Gemini 2.5 Pro.

Прогресс OpenAI‑линий с авг‑24 по апр‑25 — ≈ +28 % среднего балла HealthBench.

Баланс «качество ↔️ стоимость»
Линейка апреля‑25 (o3, o4‑mini, GPT‑4.1) задаёт новую «фронтирную» кривую эффективности: выше качество при той же или меньшей цене вычислений.

Модель GPT‑4.1 nano обходит GPT‑4o (2024), оставаясь ~25 раз дешевле.

Надёжность (worst‑of‑n)
Анализ «худшего из n» ответов показывает: новые модели ощутимо устойчивее, но даже лучшие ещё допускают слабые ответы, поэтому есть простор для повышения safety.

Варианты HealthBench
Consensus: 3 671 пример, где критерии прошли мульти‑валидацию врачей; целится в практически нулевую ошибку.

Hard: 1 000 сложных кейсов, на которых современные LLM пока «проваливаются» — площадка для будущих улучшений.

Сравнение с врачами
Врачи без помощи ИИ уступают сентябрьским моделям 2024.
Врачи + подсказки моделей 2024 улучшают ответы (human‑in‑the‑loop > model).

Для апрельских моделей 2025 врачи уже не могут заметно улучшить их ответы, что подтверждает рост качества.

Достоверность автоматической оценки
Согласие «модель‑грейдер ↔️ врач» сопоставимо со согласием «врач ↔️ врач», то есть автоматический скоринг адекватно отражает экспертное мнение.

HealthBench доступен на GitHub (код, данные, инструкции).
https://github.com/openai/simple-evals

4.0K views06:10

AI Product | Igor Akimov

Kling is the new King.
Китайская Kling - самая предпочитаемая моделька в видеогенерации по фото. Выше даже Veo 2 и Sora.
https://artificialanalysis.ai/text-to-video/arena?tab=leaderboard&input=image

2.2K views16:11

AI Product | Igor Akimov

Вот например динамическое из Kling 2.0
https://youtu.be/qlKpkqVQ1so?si=WrolQtDUNaZHv_Yq

YouTube

Kling 2.0 Fast Motion Demo #aivideo #aianimation #klingai @Kling_ai

As Kling AI 2.0 released, I tested with some difference style of AI video using Image2Video generation.

1.4K views17:15

AI Product | Igor Akimov

Вау, на хабре сегодня классная статья про оптимизацию использования cursor.
https://habr.com/ru/articles/908750/

Бывший разработчик, а 15 лет как менеджер, собрал для себя инструмент подпинывания курсора в нужном направлении (закидывая индекс файлов и весь контекст, формируя большой подробный промпт). В итоге всяких тупых действий становится меньше, размышлений по делу - сильно больше

Код его утилиты тут: https://github.com/glebkudr/shotgun_code

Хабр

One-shot промптинг. Как я начал вайбкодить в 10? раз быстрее

Shotgun: +100 к урону Вообще, я менеджер. Но когда-то писал код и всегда любил это занятие. Серьезно прогал мобильные приложения, и даже заработал за один из ответов на SO больше 100 звездочек. Но с...

1.8K viewsedited 18:06

AI Product | Igor Akimov

0:42

This media is not supported in your browser

VIEW IN TELEGRAM

Офигеть, конечно, точность и скорость движений. Новый герой дискотеки 100%

1.9K views09:11

AI Product | Igor Akimov

CodeRabbit запустил AI code reviews свои в виде плагина в VSCode и соответственно Cursor, WindSurf. Автоматически проверяет ваш код, пишет саммари, рисует диаграммки, сам исправляет.
Причем часть работы даже до коммита может делать, на уровне редактирования кода. Простая версия бесплатная, продвинутая - 12-24 доллара на человека в месяц.

https://www.coderabbit.ai/blog/ai-code-reviews-vscode-cursor-windsurf

1.9K views06:40

AI Product | Igor Akimov

OpenAI тут представляет своего копилота - Codex, AI-агент без IDE со специальной моделью на базе o3 и доступом к GitHub. Только для Pro/Teams/Enterprise пока, Plus - позже

https://www.youtube.com/watch?v=hhdpnbfH6NU

1.4K viewsedited 15:02

AI Product | Igor Akimov

Вот подробности

Что такое Codex в ChatGPT и как это работает?
Codex — это новый AI-ассистент для автоматизации разработки кода, доступный прямо в интерфейсе ChatGPT (пока для Pro, Enterprise и Team-пользователей). Codex способен брать на себя конкретные задачи — от написания тестов до рефакторинга, и даже более сложные задачи вроде исправления багов или автоматизации рутинных процессов в вашем проекте.

Как устроена работа с Codex
1. Запуск через ChatGPT
Codex доступен через боковое меню ChatGPT. Чтобы назначить задачу, достаточно написать инструкцию и выбрать “Code”. Можно также использовать “Ask”, чтобы получить разъяснения по коду.

2. Изолированное выполнение задач
Каждая задача Codex выполняется в отдельной, безопасной среде, предзагруженной вашим кодом (например, с GitHub). Codex может:
- читать и редактировать файлы,
- запускать тесты, линтеры, проверки типов,
- коммитить изменения в своей среде,
- показывать логи терминала и результаты тестов.

3. Прозрачность и контроль
Codex документирует все свои шаги:

Вы видите логи терминала, диффы изменений, результаты тестов.
Можно просматривать изменения, запрашивать доработки, делать pull request в GitHub или сразу интегрировать правки.

4. Гибкая настройка среды
Вы можете настроить окружение Codex под ваш стек — например, предустановить нужные зависимости, скрипты, добавить AGENTS.md с инструкциями по работе с проектом.

Принципы работы Codex
Codex ориентирован на безопасную автоматизацию:
Все задачи выполняются в облачном контейнере без доступа к интернету (кроме вашего кода и нужных зависимостей).
Codex самостоятельно отказывается выполнять запросы, похожие на задачи по разработке вредоносного ПО.
Рекомендуется всегда вручную проверять предложенные изменения перед интеграцией.

AGENTS.md — как обучить Codex работать с вашим проектом

Это инструкция в репозитории (аналог README.md), где описываются стандарты, команды тестирования, нюансы навигации по коду.

Чем лучше документация и настройка — тем качественнее решения предлагает Codex.

Возможности и кейсы использования
Codex особенно эффективен для:
- Рефакторинга и автоматизации: переименование функций, выделение модулей, обновление стиля кода.
- Написания и запуска тестов: быстро создает юнит-тесты, интеграционные сценарии.
- Исправления багов: находит и устраняет ошибки на основе ваших описаний и логов.
- Добавления фич: создаёт каркас новых компонентов, функций.
- Документирования: генерирует README, docstrings и другую техническую документацию.
- Обработка повторяющихся задач: автоматизация рутинных изменений по всему проекту.

Примеры из индустрии:
Cisco использует Codex для быстрого прототипирования новых идей и ускорения работы команд.
Temporal ускоряет поиск багов и добавление фич.
Superhuman — автоматизация покрытия тестами и исправление мелких интеграционных ошибок.

Как повысить эффективность работы с Codex
- Делите задачи на небольшие, четко сформулированные подзадачи.
- Пробуйте назначать несколько задач разным агентам параллельно — это ускоряет работу.
- Обязательно предоставляйте хорошую документацию и тесты (через AGENTS.md и README).
- Следите за логами и результатами тестов, которые показывает Codex — так вы поймёте логику изменений.

Codex CLI и локальная работа
Codex CLI — это консольная версия ассистента для терминала:
Можно запускать задачи на локальном проекте, получать ответы в реальном времени.
Поддержка модели codex-mini-latest с быстрым откликом.

Теперь можно войти через ChatGPT-аккаунт, чтобы быстро получать API-ключ и даже бесплатные кредиты ($5/$50 для Plus/Pro).

Доступность и тарифы
Сейчас Codex открыт для Pro, Enterprise, Team-пользователей ChatGPT. Скоро добавят поддержку Plus и Edu.

В ближайшие недели доступ бесплатный, далее появится лимитированная бесплатная квота и платные опции.

Для Codex CLI: $1.50 за 1М входных токенов, $6 за 1М выходных, скидка на кешированные промпты.

3.1K views15:13

AI Product | Igor Akimov

Ограничения и будущее
- Пока не поддерживает работу с изображениями и не позволяет “подсказывать” агенту в процессе выполнения задачи.
- Работа с Codex — асинхронная: задание отправили, ждете результат (от 1 до 30 минут), потом проверяете и внедряете изменения.
- В будущем появится больше интерактива, интеграций с IDE, CI/CD, трекерами задач.

https://openai.com/index/introducing-codex/

Openai

Introducing Codex

Introducing Codex: a cloud-based software engineering agent that can work on many tasks in parallel, powered by codex-1. With Codex, developers can simultaneously deploy multiple agents to independently handle coding tasks such as writing features, answering…

1.7K viewsedited 15:13

AI Product | Igor Akimov

YCombinator собирает заявки на AI School. 16-17 июня в Сан-Франциско. Состав звездный! От Альтмана до Маска, от Карпатого до Наделлы. Студентов зовут, исследователей и тех специалистов. Даже подкинут 500 долларов на билеты.

https://events.ycombinator.com/ai-sus?x=22

1.4K views18:26

About

Blog

Apps

Platform