Книжный куб
11.4K subscribers
2.72K photos
6 videos
3 files
2.02K links
Рекомендации интересных книг, статей и выступлений от Александра Поломодова (@apolomodov), технического директора и эксперта в архитектуре
Download Telegram
Командировка в Питер (Рубрика #Travel)

Сегодня тревел-пост про комадировку в Питер, куда мне нравилось приезжать и раньше. Но в прошлом году у нас открылся новый офис, который подальше от метро, но супер уютный и удобный. Кроме того, в этот приезд нам как часть стратсессии коллеги устроили посещение Эрмитажа, но в закрытом режиме с отдельным гидом и почти пустыми залами и это было бомбически. Я люблю искусство, но я очень не люблю толпы людей, поэтому я редко хожу на большие мероприятия (концерты, популярные музеи и так далее). А тут получилось очень здорово - крутой музей и почти весь наш ... Теперь я и в другие музеи хочу ходить в таком режиме:))

#Travel
🔥41👍1312
Dronescapes (Рубрика #Travel)

У меня в библиотеке есть большое количество красивых книг, которые я люблю иногда лтстать по вечерам, особенно когда устаю от рабочих вопросов днем. Одна из таких книг это "Dronescapes", которая вышла в те времена, когда дроны использовали в основном фотографы и выкладывали их на сайт https://www.dronestagr.am/ (инстаграм для дронов). Я помню, что 10 лет назад, когда я увлекался фото, то очень хотел попробовать квадрокоптеры для фото, но тогда не сложилось, но зато теперь можно, сидя вечером и попивая чай, наслаждаться чужими красивейшими фото:)

#Culture
1👍13🔥74🤩1
[1/2] Google открыл A2UI - протокол, который позволяет агентам “говорить UI”, а не только текстом (Рубрика #AI)

15 декабря 2025 команда A2UI в Google публично выложила проект A2UI (Agent-to-User Interface) - открытый формат + библиотеки рендеринга, чтобы “удалённые” AI‑агенты могли возвращать сложные интерфейсы (формы, карточки, списки, кнопки) как данные, а не как исполняемый код. Этот протокол призван решить проблему текстовых чатов, когда простые пользовательские действия (забронировать столик, заполнить поля, выбрать время) превращаются в долгую переписку “вопрос‑ответ‑уточнение”. A2UI предлагает вместо этого дать агенту возможность сгенерировать контекстную форму/карточку из каталога компонентов и отрисовать её в вашем приложении. Сам протокол доступен на GitHub.

По сути это работает примерно следующим образом - агент генерирует декларативное описание UI в JSON, клиент рендерит это нативными компонентами своего приложения.
Ключевые принципы (сформулированы в README проекта):
- Security‑first
: агент не присылает JS/HTML/код. Он присылает данные, которые проходят валидацию, а UI строится из каталога заранее разрешённых компонентов (Button/Card/TextField/и т.д.). Это снижает риск UI‑инъекций и “случайного RCE через UI”
- LLM‑friendly + инкрементальные апдейты: UI описывается “плоской” структурой (adjacency list) с ID‑ссылками, поэтому агент может стримить интерфейс и патчить отдельные компоненты по ID, не пересылая всё дерево
- Framework‑agnostic: один и тот же A2UI‑пейлоад может быть отрендерен в разных клиентах (web/mobile/desktop) — потому что “как рисовать” решает клиент
- Transport‑agnostic: A2UI - это формат/контракт сообщений, его можно гонять поверх разных “транспортов” (включая A2A и AG‑UI)

На практике (в версии v0.8, stable/public preview) сообщения обычно идут как JSON Lines (JSONL): одна строка = одно сообщение. Есть 4 ключевых типа:
- beginRendering
- surfaceUpdate
- dataModelUpdate
- deleteSurface
Сам стрим может выглядеть примерно так
{"surfaceUpdate": {"surfaceId":"main","components":[ ... ]}}
{"dataModelUpdate": {"surfaceId":"main","contents":[ ... ]}}
{"beginRendering": {"surfaceId":"main","root":"root-component"}}


Но надо отметить, что спека все еще дорабатывается и между v0.8 (stable) и v0.9 (draft) уже есть изменения в деталях и даже названиях envelope‑сообщений

Теперь давайте обсудим, а почему этот протокол нам интересен и чем он лучше альтернатив.
1. Одной из альтернатив является генерация HTML/JS/React‑кода агентом.
Здесь у нас есть проблема с безопасностью и контролем - вам либо нужно исполнять непроверенный код, либо городить тяжёлую песочницу. В A2UI у нас вместо кода данные, а рендеринг идет только из доверенного каталога компонентов.
2. Другой алтернативой являются iframe‑подходы / “UI как ресурс” (например, MCP Apps)

В статье Google прямо сравнивает A2UI с MCP Apps: там UI часто приходит как “opaque payload” (например HTML) и рендерится в sandboxed iframe. Но A2UI выгодно отличается “native‑first” подходом: агент отправляет blueprint нативных компонентов, и UI наследует стиль/дизайн‑систему/доступность хост‑приложения, вместо отдельного “мини‑веба в iframe”.
3. Платформенные end2end экосистемы (например, OpenAI ChatKit)
Плюс таких решений - интеграция в рамках одной платформы. Минус - переносимость и работа в мульти‑агентных сценариях с разными вендорами. A2UI целится в переносимый UI‑контракт для ваших собственных клиентов и enterprise‑mesh сценариев.
4. Просто возьмём AG‑UI и хватит
AG‑UI решает вопросы интеграция агента и UI), а A2UI - описывает сам формат UI‑ответа. Google явно позиционирует A2UI как комплементарный слой: подключили хост через AG‑UI → можете использовать A2UI как формат для UI‑ответов, в том числе от внешних агентов

Продолжение о том, а почему этот проект так интересен в посте-продолжении.

#Engineering #AI #Agents #Software #Architecture #RnD #ML #DistributedSystems
1🔥1664👍2
[2/2] Google открыл A2UI - протокол, который позволяет агентам “говорить UI”, а не только текстом (Рубрика #AI)

В продолжении обсуждения протокола A2UI от Google мы рассмотрим, а почему он может быть интересен создателям genAI приложений для пользователей.

Если смотреть на публичные сигналы, проект реально подхватили:
1. GitHub traction. За полтора месяца проект набрал 10.9k звезд, 810 forks, 66 issues, 80 PR, 332 commits, 31 contributor в основном репозитории
2. Официальные туториалы Google. В документации для Google Workspace появился quickstart “Build a Google Chat app with an Agent2UI agent” (обновлён 2026‑01‑27), с развёртыванием агента через ADK и хостингом в Vertex AI Agent Engine. Это хороший индикатор, что A2UI продвигают как практический способ строить UI‑ответы агентов внутри Workspace/Chat‑сценариев.
3. Экосистема вокруг. Появляются сторонние реализации/порты:
- a2ui-rails - порт в Ruby/Rails
- A2UI-for-Google-Apps-Script - демо/адаптация под Apps Script/Workspace
- Отдельные упоминания и интеграционные запросы в других agent‑framework репозиториях тоже всплывают (feature requests/discussions)

И отдельно: сам проект помечен как Early stage public preview (v0.8), при этом параллельно ведётся v0.9 (draft) - то есть активная фаза “формат шлифуется”.

Отдельно надо подсветить почему это должно быть инженерам
- Нормальный контракт между “мозгом” и UI: агент не “рисует DOM”, а отправляет декларативные апдейты, которые ваш клиент валидирует и рендерит. Это лучше ложится на архитектуру “удалённый агент / недоверенная граница”
- Инкрементальность и патчи: можно стримить UI и менять только нужные куски по ID, вместо “перерисовать всё”
- Переиспользование дизайн‑системы: UI остаётся нативным (ваши компоненты/темизация/а11y), а агент лишь “просит” собрать композицию
- Прагматичная интеграция: есть референсные рендереры (Lit/Angular/Flutter), есть понятный quickstart с демо‑агентом

Для техлидов и engineering менеджеров это может быть интересно по другим причинам
- Скорость поставки фич: вместо того чтобы каждый раз вручную проектировать “формочку под новый workflow”, часть UX можно делегировать агенту, но в рамках жёсткого каталога компонентов и правил
- Управляемый риск: “данные вместо кода” = проще проходить security review, проще ограничивать поверхность атаки, проще объяснять границы доверия между командами/вендорами
- Стандартизация для мульти‑агентных сценариев: когда разные агенты/под‑агенты (внутренние и внешние) должны отдавать UI в единый клиент, формат уровня A2UI снижает интеграционный ад
- Сигналы зрелости: быстрорастущий репозиторий + официальный quickstart в Google Workspace доках + параллельная работа над спецификацией (v0.8 stable / v0.9 draft) — это похоже на проект, который реально хотят “довести до v1”

Если вы сейчас строите agentic‑продукт и упираетесь в “чат вместо продукта”, A2UI выглядит как очень практичный способ превратить ответы агента в управляемые, нативные, безопасные UI‑сессии - и при этом не завязаться на один конкретный фронтенд‑стек.

#Engineering #AI #Agents #Software #Architecture #RnD #ML #DistributedSystems
👍114🔥1
[1/2] Нейросети захватили соцсети: как казахстанский стартап взорвал все AI-тренды и стал единорогом (Рубрика #AI)

Посмотрел интересное интервью Ерзата Дулата, CTO и co-founder Higgsfield AI (первый единорог Казахстана, оценка $1.3B), что он дал Елизавете Осетинской, иностранному агенту. Среди занимательных фактов, после которых интервью смотреть еще интереснее то, что у Ерзата нет высшего образования, когда-то его звали в OpenAI и он не пошел (когда он публиковал алгоритмы и papers на GitHub во второй половине 2010х), а также он созадл один из самых быстрорастущих AI-стартапов в истории (может даже быстрее Lovable, про который я уже рассказывал).

Ниже немного данных и цифр про сам стартап
🚀 Таймлайн Higgsfield AI
- 2023: основание компании, 1.5 года research
- 31 марта 2025: релиз продукта
- Январь 2026: $1.3B valuation, $200M ARR
Метрики роста:
- $0 → $100M ARR за <9 месяцев - обогнали Cursor (достиг $100M ARR за 12 месяцев) и Lovable по скорости)
- $100M → $200M ARR за ~2 месяца
- Рост 50-150% в месяц
- 15M+ пользователей, 4.5M видео/день

А дальше ключевые инсайты, что показались мне интересными в подходе ребят

1️⃣ Скорость - единственный настоящий "moat" в AI и вот почему
- Модели обновляются каждые несколько месяцев → дисрапт рынка
- OpenAI "убивает сотни стартапов" каждым релизом (пример: когда они анонсировали canvas/документы, это вынесло кучу стартапов)
- Классические defensibility (network effects, data moats) слишком медленные для AI - можно глянуть интересный эпизод от Y Combinator про это

Стратегия Higgsfield: собирать "низковисящие фрукты"
Пример: Google выпустила Veo3 - мощную video-генерацию, но модель не даёт точного контроля камерой. Higgsfield взяли Veo3 по API и добавили:
- Точный контроль движения камеры
- Click-to-video интерфейс (шаблоны, как в PowerPoint)
- Camera techniques для профессиональных операторов

Цитата о том, а почему сами провайдеры фронтир моделей это не делают
Гегемон слепой. Google/Meta настолько большие, что не думают о деталях для профессионалов. Мы собираем вот эти low-hanging fruits


В итоге, собирается примерно такой алгоритм действий для создателей GenAI приложений
- Не строй foundation models - оркестрируй их
- Используй API (OpenAI, Anthropic, Google) + добавь "упаковку" для конкретной ниши
- Релизь MVP за недели, не месяцы → собери feedback → iterate

2️⃣ Синтез креативщиков + ML-инженеров = магия
Из интервью видно, что прорыв произошел когда профессиональные операторы начали объяснять ML-инженерам, какой продукт нужен.
Как это работает:
1. Большой отдел креаторов придумывает AI-хуки для TikTok/Instagram (камера налетает на землю, морфинг одежды, превращение в стаю ворон)
2. ML-команда тренирует нейронки под эти хуки
3. Выкатывают → viral в соцсетях → миллионы пользователей
Результат:
- Все AI-тренды в соцсетях за последние 9 месяцев созданы в Higgsfield
- Мадонна, Will Smith, Snoop Dogg, Timbaland, Златан Ибрагимович используют
- TikTok и Meta пытались повторить, но "ни один тренд не создали"

В итоге, собирается примерно такой алгоритм действий для создателей GenAI приложений
- Не просто tech problem, а product/culture problem
- Нанимайте domain experts (операторы, режиссёры, дизайнеры), не только ML-инженеров
- Креативность + Engineering = дифференциация

В продолжении закончу разбор интервью рассказом о том, как ребята обеспечивают такой стремительный рост аудитории своего приложения, а также как они работают с моделями для генерации видео.

#AI #Engineering #Software #Management #Leadership #Startup #LLM #ML #Architecture
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥146❤‍🔥1👍1