AI Product | Igor Akimov
4.06K subscribers
691 photos
121 videos
46 files
695 links
Download Telegram
Классная статья от Гугла про уже набивших оскомину агентов с примерами разных типов и кодом
https://www.philschmid.de/agentic-pattern

Вы их делали даже когда не знали об этом. Вот основные типы:
Цепочка: последовательный вызов разных промптов, где результат одного подается на вход следующему.

Маршрутизация: использование LLM для классификации входных данных и направления их к наиболее подходящеиу специализированной агенту, LLM или инструменту.

Распараллеливание: одновременное выполнение нескольких независимых подзадач и объединение результатов для повышения скорости или качества.

Рефлексия: Внедрение самокоррекции, при которой агент оценивает свой собственный результат по критериям и итеративно совершенствует его на основе обратной связи.

Использование инструмента (вызов функций): позволяет LLM взаимодействовать с внешним миром через вызов функций или API.

Планирование: центральный оркестратор должен динамически разбить сложную цель на многошаговый план, делегируя выполнение рабочим агентам (часто с использованием инструментов).

Многоагентность: использование нескольких отдельных агентов, каждый из которых имеет определенную роль или опыт, для совместной работы (часто через координатора или по принципу цепи) над общей целью.

Помните! Начинайте с простого, логируйте и измеряйте, чтобы улучшать уже понятные кусочки.
И смотрел ещё, что нового в распознавании речи.
Nvidia зарелизила новый parakeet всего на 0.6B параметров и обошла всех на бенчмарках, а том числе whisper-3 и Scribe.
Жалко, что только английский.
На втором месте, кстати, Phi-4, но тоже русского нет
English, Chinese, German, French, Italian, Japanese, Spanish, Portuguese

Весь рейтинг с ссылками
https://huggingface.co/spaces/hf-audio/open_asr_leaderboard
Вау!
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
HeyGen молодцы, конечно.

Это не клонирование голоса, это скорее style transfer, они называют это Voice Mirroring - копирование эмоций, интонаций, акцентов, "характера" голоса. Можно сказать, что это кавер на голос.
Находится под кнопкой "Try new editor".

@cgevent
Forwarded from Сиолошная
Gemini 2.5 Pro обновилась, по показываемым бенчмаркам самый большой прирост произошёл в веб-программировании (см. вторую картинку).

Google +уважение за то, что не побоялись сравниться с o3 (по многим бенчам проигрывает, см. первую картинку). Очень интересно, что оценка на SimpleQA — бенчмарке на знание очень редких и специфичных фактов — примерно одинаковая. Возможно это говорит о приблизительно равном размере моделей, но это (очень) неточно.

На арене две версии Gemini и одна o3 делят первое место. По моим ощущениям, я почти всегда закидываю запрос и в o3, и в 2.5, обе почти всегда одинаково решают проблемы — но стиль написания Python-кода o3 мне ближе (не засоряет всё комментариями). За прошлую неделю было 2 раза, что o3 не решила, а 2.5 решила, и один раз наоборот. This is a good model sir.

А ещё ждём preview Computer Use-версии (агент, контролирующий компьютер/браузер), который засветился на сайте. Будет ли он выпущен до Google I/O 20-21-го мая или же нам придётся ждать — не ясно.
Вау, OpenAI предлагает "AI для страны" - работать с правительствами стран, чтобы у них развивать AI инфраструктуру, помогать делать AI сервисы для граждан и ещё и местные стартапы развивать
https://openai.com/global-affairs/openai-for-countries/
Google обновили и добавили генерацию картиночек LLM в API и студию. Надо выбирать модель (блин, а покороче не могли назвать) gemini-2.0-flash-preview-image-generation
Стоит 4 цента за картинку, ослабили фильтры, улучшили качество, особенно текстов.

https://developers.googleblog.com/en/generate-images-gemini-2-0-flash-preview/
И смотрю видео от Байрама про новую роль Product Engineer.
https://youtu.be/Y7q1FuKHXAU

> А вот и видео со встречи в Алматы пару недель назад.

В этом мастер-классе я показываю, как современные LLM-инструменты меняют каждую стадию продуктовой воронки — от идеи «в одно предложение» до полностью работающего прототипа.

Ключевые темы:
1) Почему прототипы важнее питч-деков — и как LLM уменьшает time-to-insight с двух дней до 6 минут.
2). Новая роль продакта: UX-исследование через симуляцию User Board и генерация персон прямо в ChatGPT (коммент мой: да-да, то, что случайно у меня получилось 2 года назад и за что я словил хейт от UX рисерчеров, живее всех живых)
3) Новая роль инженера: low-/no-code-сборка MVP (пример с платформой Lovable) и автогенерация unit-тестов.
4) Пять уровней автономии продуктовой организации — куда мы движемся после «Copilot-этапа».
5) Этические и регуляторные рамки: почему «human-in-the-loop» останется обязательным.

Практические выводы
1) Каждую неделю автоматизируйте хотя бы одну рутинную задачу ИИ-инструментом.
2) Записывайте и транскрибируйте все созвоны: это будущее «training-dataset» для вашего цифрового двойника.
3) Начинайте с микросегмента (пример: канадцы, зимующие в США) и проверяйте спрос через LLM-прототипы до написания кода.
Forwarded from Адель и МЛь
This media is not supported in your browser
VIEW IN TELEGRAM
Deep Research от OpenAI теперь может работать по гитхаб репозиториям.

Даете ссылку на репу, задаете вопрос, и deep research пойдет смотреть весь код и даже PR и вернет репорт с референсами.

Вот пример репорта по Codex.

Интересно, разберется ли он в langchain?..
This media is not supported in your browser
VIEW IN TELEGRAM
Meta (запрещенная в России) тут интересное принесла. Модель для ориентирования в пространстве - Locate 3D.
Типа "вот в этой вот 3д схеме где вообще находится стиральный порошок" и он такой - "хопа, вот там вот". Для роботов всяких будет огонь.
И выложили и модель, и датасет

Демка: https://locate3d.atmeta.com/demo
Текст: https://ai.meta.com/research/publications/locate-3d-real-world-object-localization-via-self-supervised-learning-in-3d/
Код: https://github.com/facebookresearch/locate-3d
Similarweb поделилась данными по трафику за апрель в секторе GenAI.
Из интересного:
- в общем OpenAI продолжает бешено расти, как и Google и Grok, DeepSeek чуть подупал, но потому что он до этого сожрал всех.
- в генерации картинок на первом месте Leonardo.AI
- в генерации видео Veed и HeyGen
- в генерации кода самое интересное - на первом месте по трафику не Cursor, а Lovable, потом на третьем Replit, Bolt, V0 и Windsurf.
Ну и интересен отчет по падению трафика из-за AI. В первую очередь это образовательные сайты, фриланс-биржи, веб-конструкторы, сайты со стоковыми фотографиями, форумы и даже поисковые системы
OpenAI добавила в Deep Research коннектор корпоративного Sharepoint.