AI Product | Igor Akimov
4.06K subscribers
691 photos
121 videos
46 files
695 links
Download Telegram
И смотрю видео от Байрама про новую роль Product Engineer.
https://youtu.be/Y7q1FuKHXAU

> А вот и видео со встречи в Алматы пару недель назад.

В этом мастер-классе я показываю, как современные LLM-инструменты меняют каждую стадию продуктовой воронки — от идеи «в одно предложение» до полностью работающего прототипа.

Ключевые темы:
1) Почему прототипы важнее питч-деков — и как LLM уменьшает time-to-insight с двух дней до 6 минут.
2). Новая роль продакта: UX-исследование через симуляцию User Board и генерация персон прямо в ChatGPT (коммент мой: да-да, то, что случайно у меня получилось 2 года назад и за что я словил хейт от UX рисерчеров, живее всех живых)
3) Новая роль инженера: low-/no-code-сборка MVP (пример с платформой Lovable) и автогенерация unit-тестов.
4) Пять уровней автономии продуктовой организации — куда мы движемся после «Copilot-этапа».
5) Этические и регуляторные рамки: почему «human-in-the-loop» останется обязательным.

Практические выводы
1) Каждую неделю автоматизируйте хотя бы одну рутинную задачу ИИ-инструментом.
2) Записывайте и транскрибируйте все созвоны: это будущее «training-dataset» для вашего цифрового двойника.
3) Начинайте с микросегмента (пример: канадцы, зимующие в США) и проверяйте спрос через LLM-прототипы до написания кода.
Forwarded from Адель и МЛь
This media is not supported in your browser
VIEW IN TELEGRAM
Deep Research от OpenAI теперь может работать по гитхаб репозиториям.

Даете ссылку на репу, задаете вопрос, и deep research пойдет смотреть весь код и даже PR и вернет репорт с референсами.

Вот пример репорта по Codex.

Интересно, разберется ли он в langchain?..
This media is not supported in your browser
VIEW IN TELEGRAM
Meta (запрещенная в России) тут интересное принесла. Модель для ориентирования в пространстве - Locate 3D.
Типа "вот в этой вот 3д схеме где вообще находится стиральный порошок" и он такой - "хопа, вот там вот". Для роботов всяких будет огонь.
И выложили и модель, и датасет

Демка: https://locate3d.atmeta.com/demo
Текст: https://ai.meta.com/research/publications/locate-3d-real-world-object-localization-via-self-supervised-learning-in-3d/
Код: https://github.com/facebookresearch/locate-3d
Similarweb поделилась данными по трафику за апрель в секторе GenAI.
Из интересного:
- в общем OpenAI продолжает бешено расти, как и Google и Grok, DeepSeek чуть подупал, но потому что он до этого сожрал всех.
- в генерации картинок на первом месте Leonardo.AI
- в генерации видео Veed и HeyGen
- в генерации кода самое интересное - на первом месте по трафику не Cursor, а Lovable, потом на третьем Replit, Bolt, V0 и Windsurf.
Ну и интересен отчет по падению трафика из-за AI. В первую очередь это образовательные сайты, фриланс-биржи, веб-конструкторы, сайты со стоковыми фотографиями, форумы и даже поисковые системы
OpenAI добавила в Deep Research коннектор корпоративного Sharepoint.
OpenAI представил бенчмарк оценки AI моделей в медицине
https://openai.com/index/healthbench/

- Создан совместно с 262 врачами из 60 стран, владеющими 49 языками и 26 специальностями.
- Содержит 5 000 реалистичных мультиязычных диалогов «пользователь ↔️ ИИ» с индивидуальными рубриками‑чек‑листами, написанными врачами.

Три ключевых принципа бенчмарка
- Осмысленность (Meaningful): сценарии приближены к реальной клинической практике, а баллы коррелируют с потенциальным влиянием на здоровье.
- Надёжность (Trustworthy): критерии и весы отражают приоритеты мед‑сообщества; оценка основана на медицинских стандартах.
- Неисчерпанность (Unsaturated): даже новейшим LLM есть куда расти, что мотивирует дальнейшее улучшение.

Как устроен датасет
Диалоги получены комбинацией синтетической генерации и «человеческого» стресс‑тестирования.

Охватывают разные роли (пациент, врач), 7 тем (неотложка, неопределённость, глобальное здоровье и т.д.) и 48 562 уникальных рубрик‑критериев.

Оценку проводит модель‑грейдер GPT‑4.1: за каждый выполненный критерий начисляются взвешенные баллы.

Результаты моделей (апрель 2025)
o3 лидирует по всем темам и осям; заметно опережает Claude 3.7 Sonnet и Gemini 2.5 Pro.

Прогресс OpenAI‑линий с авг‑24 по апр‑25 — ≈ +28 % среднего балла HealthBench.

Баланс «качество ↔️ стоимость»
Линейка апреля‑25 (o3, o4‑mini, GPT‑4.1) задаёт новую «фронтирную» кривую эффективности: выше качество при той же или меньшей цене вычислений.

Модель GPT‑4.1 nano обходит GPT‑4o (2024), оставаясь ~25 раз дешевле.

Надёжность (worst‑of‑n)
Анализ «худшего из n» ответов показывает: новые модели ощутимо устойчивее, но даже лучшие ещё допускают слабые ответы, поэтому есть простор для повышения safety.

Варианты HealthBench
Consensus: 3 671 пример, где критерии прошли мульти‑валидацию врачей; целится в практически нулевую ошибку.

Hard: 1 000 сложных кейсов, на которых современные LLM пока «проваливаются» — площадка для будущих улучшений.

Сравнение с врачами
Врачи без помощи ИИ уступают сентябрьским моделям 2024.
Врачи + подсказки моделей 2024 улучшают ответы (human‑in‑the‑loop > model).

Для апрельских моделей 2025 врачи уже не могут заметно улучшить их ответы, что подтверждает рост качества.

Достоверность автоматической оценки
Согласие «модель‑грейдер ↔️ врач» сопоставимо со согласием «врач ↔️ врач», то есть автоматический скоринг адекватно отражает экспертное мнение.

HealthBench доступен на GitHub (код, данные, инструкции).
https://github.com/openai/simple-evals
Kling is the new King.
Китайская Kling - самая предпочитаемая моделька в видеогенерации по фото. Выше даже Veo 2 и Sora.
https://artificialanalysis.ai/text-to-video/arena?tab=leaderboard&input=image
Вау, на хабре сегодня классная статья про оптимизацию использования cursor.
https://habr.com/ru/articles/908750/

Бывший разработчик, а 15 лет как менеджер, собрал для себя инструмент подпинывания курсора в нужном направлении (закидывая индекс файлов и весь контекст, формируя большой подробный промпт). В итоге всяких тупых действий становится меньше, размышлений по делу - сильно больше

Код его утилиты тут: https://github.com/glebkudr/shotgun_code
This media is not supported in your browser
VIEW IN TELEGRAM
Офигеть, конечно, точность и скорость движений. Новый герой дискотеки 100%
CodeRabbit запустил AI code reviews свои в виде плагина в VSCode и соответственно Cursor, WindSurf. Автоматически проверяет ваш код, пишет саммари, рисует диаграммки, сам исправляет.
Причем часть работы даже до коммита может делать, на уровне редактирования кода. Простая версия бесплатная, продвинутая - 12-24 доллара на человека в месяц.

https://www.coderabbit.ai/blog/ai-code-reviews-vscode-cursor-windsurf
OpenAI тут представляет своего копилота - Codex, AI-агент без IDE со специальной моделью на базе o3 и доступом к GitHub. Только для Pro/Teams/Enterprise пока, Plus - позже

https://www.youtube.com/watch?v=hhdpnbfH6NU
Вот подробности

Что такое Codex в ChatGPT и как это работает?
Codex — это новый AI-ассистент для автоматизации разработки кода, доступный прямо в интерфейсе ChatGPT (пока для Pro, Enterprise и Team-пользователей). Codex способен брать на себя конкретные задачи — от написания тестов до рефакторинга, и даже более сложные задачи вроде исправления багов или автоматизации рутинных процессов в вашем проекте.

Как устроена работа с Codex
1. Запуск через ChatGPT
Codex доступен через боковое меню ChatGPT. Чтобы назначить задачу, достаточно написать инструкцию и выбрать “Code”. Можно также использовать “Ask”, чтобы получить разъяснения по коду.

2. Изолированное выполнение задач
Каждая задача Codex выполняется в отдельной, безопасной среде, предзагруженной вашим кодом (например, с GitHub). Codex может:
- читать и редактировать файлы,
- запускать тесты, линтеры, проверки типов,
- коммитить изменения в своей среде,
- показывать логи терминала и результаты тестов.

3. Прозрачность и контроль
Codex документирует все свои шаги:

Вы видите логи терминала, диффы изменений, результаты тестов.
Можно просматривать изменения, запрашивать доработки, делать pull request в GitHub или сразу интегрировать правки.

4. Гибкая настройка среды
Вы можете настроить окружение Codex под ваш стек — например, предустановить нужные зависимости, скрипты, добавить AGENTS.md с инструкциями по работе с проектом.

Принципы работы Codex
Codex ориентирован на безопасную автоматизацию:
Все задачи выполняются в облачном контейнере без доступа к интернету (кроме вашего кода и нужных зависимостей).
Codex самостоятельно отказывается выполнять запросы, похожие на задачи по разработке вредоносного ПО.
Рекомендуется всегда вручную проверять предложенные изменения перед интеграцией.

AGENTS.md — как обучить Codex работать с вашим проектом

Это инструкция в репозитории (аналог README.md), где описываются стандарты, команды тестирования, нюансы навигации по коду.

Чем лучше документация и настройка — тем качественнее решения предлагает Codex.

Возможности и кейсы использования
Codex особенно эффективен для:
- Рефакторинга и автоматизации: переименование функций, выделение модулей, обновление стиля кода.
- Написания и запуска тестов: быстро создает юнит-тесты, интеграционные сценарии.
- Исправления багов: находит и устраняет ошибки на основе ваших описаний и логов.
- Добавления фич: создаёт каркас новых компонентов, функций.
- Документирования: генерирует README, docstrings и другую техническую документацию.
- Обработка повторяющихся задач: автоматизация рутинных изменений по всему проекту.

Примеры из индустрии:
Cisco использует Codex для быстрого прототипирования новых идей и ускорения работы команд.
Temporal ускоряет поиск багов и добавление фич.
Superhuman — автоматизация покрытия тестами и исправление мелких интеграционных ошибок.

Как повысить эффективность работы с Codex
- Делите задачи на небольшие, четко сформулированные подзадачи.
- Пробуйте назначать несколько задач разным агентам параллельно — это ускоряет работу.
- Обязательно предоставляйте хорошую документацию и тесты (через AGENTS.md и README).
- Следите за логами и результатами тестов, которые показывает Codex — так вы поймёте логику изменений.

Codex CLI и локальная работа
Codex CLI — это консольная версия ассистента для терминала:
Можно запускать задачи на локальном проекте, получать ответы в реальном времени.
Поддержка модели codex-mini-latest с быстрым откликом.

Теперь можно войти через ChatGPT-аккаунт, чтобы быстро получать API-ключ и даже бесплатные кредиты ($5/$50 для Plus/Pro).

Доступность и тарифы
Сейчас Codex открыт для Pro, Enterprise, Team-пользователей ChatGPT. Скоро добавят поддержку Plus и Edu.

В ближайшие недели доступ бесплатный, далее появится лимитированная бесплатная квота и платные опции.

Для Codex CLI: $1.50 за 1М входных токенов, $6 за 1М выходных, скидка на кешированные промпты.