Intelligent Systems Architecture
1.32K subscribers
41 photos
8 files
66 links
Про архитектуру и принципы построения систем на основе искусственного интеллекта — от моделей до AI-платформ.

Контент в канале защищён авторским правом.

Геннадий Круглов
@GKruglov
Download Telegram
Хочу глубже раскрыть мысль из предыдущего поста:

https://t.me/IntelligentSystemsArchitecture/379

За формулой «вскармливать эмерджентность и держать её в узде» прячутся три разных вопроса. В каждом мы опираемся на своего классика.

1. Может ли эмерджентность здесь породить новое?

Здесь мы опираемся на работы Ильи Пригожина — нобелевского лауреата, показавшего, как из хаоса в неравновесных системах рождается новый порядок. Механика такая: вдали от равновесия система проходит точки бифуркации, и исход в каждой зависит от микроскопических флуктуаций. В перерегламентированной системе с зажатой инициативой флуктуациям не из чего возникать: бифуркации проходят вхолостую. Отсюда условия адаптивности — открытость, допустимость отклонений, приток информации извне. Без них нечего ни отбирать, ни структурировать.

2. Есть ли механизм отбора?

Здесь мы опираемся на работы Генри Минцберга — теоретика менеджмента, у которого реально работающая стратегия всегда есть сплав намеренного и стихийно сложившегося. Возникающие паттерны кто-то должен замечать и закреплять — иначе они не складываются в практику. Перспективные находки случаются, но растворяются вместе с теми, кто их породил.

3. Какова архитектура контуров обратной связи?

Здесь мы опираемся на работы Донеллы Медоуз, автора «Thinking in Systems». Адаптация без правильной структуры ведёт не к эволюции, а к структурному коллапсу. У Медоуз — иерархия точек приложения усилий: параметры (KPI, бюджеты) слабее правил, правила слабее целей, цели слабее парадигмы. Типичный провал — бесконечный тюнинг параметров там, где давно надо менять правила.

Итог. Три действия — создавать условия, отбирать, структурировать. Адаптивность держится на всех трёх.
А какое, спросите вы, отношение всё это имеет к архитектуре интеллектуальных систем?

Прямое.

Агентные системы от недостатка эмерджентности не страдают. Поставьте агента стратегом — он выдаст пять способов развернуть компанию. Аналитиком — десять интерпретаций отчёта. Исполнителем — три варианта решения задачи. Разнообразия больше, чем система может усвоить.

Ручной отбор решений здесь не работает — человек становится бутылочным горлышком. ИИ пока не обладает человеческим уровнем целостного суждения и ответственности, но значительно быстрее генерирует решения.

Среди лидеров рынка идёт гонка: кто не устранит бутылочные горлышки — отстанет; кто даст ИИ лишнюю свободу — погибнет под лавиной энтропии.

Чтобы выжить и выиграть, архитектура должна задавать критерии отбора и замыкать контуры обратной связи — то есть создавать не саму структуру, а условия, в которых она складывается.

Цель — необходимое разнообразие по Эшби: ровно столько вариативности, чтобы справляться с разнообразием среды. Меньше — не хватит ресурса для адаптации. Больше — агенты начнут плодить сущности быстрее, чем система их интегрирует, что вызовет взрывной рост энтропии.

Тогда архитектура работает как кибернетический гомеостат — динамически гасит избыточную эмерджентность агентов, удерживая систему в зоне структурной стабильности.

Выводы:

— Агентные системы по своей природе производят избыточное разнообразие решений, способных менять структуру организации.
— Архитектура автономной интеллектуальной системы — кибернетический регулятор разнообразия.
— Задача архитектуры — создать гомеостат, который динамически гасит лишнюю эмерджентность именно на уровне последствий для организации.
— Человек остаётся на уровне мета-правил — проектирование самого гомеостата.
Важно - человек должен выступать в роли творца и видеть результат. Направлять ИИ и селектировать результаты. Возделывать почву, сажать семена и выпалывать сорняки.

Иначе потеряется всякая мотивация к деятельности. Человек должен понимать, что он сделал это сам, воплотил свои замыслы.
OpenAI осознали бесперспективность файн-тюнинга моделей

7 Мая OpenAI оповестили разработчиков, что лавочка закрывается. Новые компании уже больше не могут запускать задачи тюнинга. В течение полугода закроют возможность даже для тех, кто уже тюнил. А возможность использования своих тюненых моделей сохранится только до момента выключения базовой модели. Потом - все.

См deprecations page.

В OpenAI говорят, что надо переключаться на RAG-и, нормальные инженерные подходы, оркестрацию и контроль качества. Это и выгоднее для всех, и позволяет быстрее выкатить рабочие решения без наступания на грабли.

Это все логично. Среди кейсов успешных внедрений AI в бизнес задачи я видел только один случай, когда традиционную LLM затюнили и получили желаемый результат, который стоил того (тюны ASR/Wake/Emb/TTS/CV стэка сюда не включаем, да и они тоже уже отмирают). Эти кейсы вместе с паттернами я разбираю в курсе AI Assitants вместе с бесперспективностью тюнинга и векторных подходов.

Тюнинг (и векторные RAGи) умирают не потому, что они не работают (вполне себе работают), а просто потому, это слишком долгий, дорогой и рискованный подход к повышению качества ответов (как для пользователей, так и для вендоров). Есть пути попроще - context engineering, современные frontier модели (включая локальные), контроль качества, tool use.

Если вы до сих пор используете тюнингованные модели в облаке, можно ожидать, что и другие компании последуют примеру OpenAI и свернут лавочку тюнинга, даже если это LORA. А потом это дойдет и до экосистемы локального inference.

И когда это произойдет, можно будет еще раз перечитать мой прогноз в конце 2024 года про тупиковость fine-tuning, ну или крик души про fine-tuning в бизнесе от 2023 года)

Ваш, @llm_under_hood 🤗
Прокомментирую пост выше.

Основные причины, из-за которых файнтюнинг и векторный RAG не дают ожидаемых эффектов, кроются вовсе не в технологиях. Проблема структурная: в культуре и реалиях рынка.

Разберём файнтюнинг

Правда в том, что уровень инженерной культуры на рынке катастрофически низкий. В инженерию никто не хочет, потому что за неё не платят. Воронку у работодателей формируют «маркеры» в резюме.

И какой там сейчас «жирный» маркер? Верно — «файнтюнинг».

Убежден, что во многих ситуациях специалисты заранее понимали, что дообучение модели не принесет нужной отдачи от вложений, но нужен «маркер».

Разберём RAG

Если файнтюнинг — жирный «маркер», то RAG вообще must have.

И тут мы сталкиваемся с бедой пострашнее слабой инженерной культуры — это качество данных. Оно просто ужасающее, особенно в тех вики-подобных свалках, которые именуются «базами знаний» и которые скармливают RAG в ожидании чуда.

В августе прошлого года я писал про RAG poisoning: https://t.me/IntelligentSystemsArchitecture/317

И ситуация не улучшается, так как за качество данных никто не готов платить, его не покупают.

Качество в целом не покупают, так что всё нормально. По Парето что-нибудь наколбасить и получить промоушен — так всё работает.
Вдогонку к предыдущему посту.

Всем, кто не хочет остаться за бортом агентизации, придётся всерьез инвестировать в качество данных. Иначе резонанс от наложения бардака в базах и эмерджентности моделей разнесёт не только бюджеты, но и карьеры.

Одно дело — когда у вас галлюцинирует RAG. Это неприятно, но не смертельно. И совсем другое — когда вы заставляете автономных агентов работать поверх этого хаоса.

RAG на грязных данных — это просто плохой поисковик. Агент на грязных данных — это автономный генератор катастроф.
Вот так мы с Claude Opus 4.7 переводим статьи: он на ходу выдумывает новые тексты и подменяет оригинал.

Наверное, не нужно объяснять, что никакие системные промпты не уберегут вас от того, что модели будут придумывать несуществующие продукты, процентные ставки, продуктовые предложения.
Эволюция потребления и кибернетика корпораций (1/2)

В продолжение темы о низкой инженерной культуре. У меня есть неутешительный, но закономерный прогноз: в обозримом будущем глубокая инженерия востребована не будет. И культура её, соответственно, расти тоже не будет.

Почему так происходит? Мы живем в эпоху победившего консьюмеризма. Само по себе массовое производство существует давно. Качественный сдвиг произошел, когда современный бизнес взял на вооружение большую науку.

За последний век наука поэтапно «хакала» человеческий мозг, а маркетинг, продажи и HR тут же превращали научные достижения в прикладные методы манипуляций:

1. Бихевиоризм: дрессировка через подкрепление
Первоначально человек рассматривался как «черный ящик», поведение которого определяется исключительно внешними воздействиями. Исследования Уотсона и Скиннера доказали, что систематическое положительное подкрепление жестко закрепляет нужную модель поведения. Рынок перевел это в плоскость программ лояльности, систем скидок и геймификации. Бизнес начал буквально «дрессировать» потребителя, вырабатывая у него условный рефлекс: совершил целевое действие — получил поощрение — вернулся снова.

2. Когнитивная психология: эксплуатация багов восприятия
Выяснилось, что наш мозг не способен анализировать весь объем входящей информации и реагирует только на определенные триггеры. Бизнес научился создавать искусственную среду, которая обманывает фокус внимания. Цвета упаковок, мерчандайзинг на полках и структура интерфейсов стали разрабатываться так, чтобы направлять взгляд пользователя мимо логики и реальных характеристик продукта прямиком к эмоциональной покупке.

3. Поведенческая экономика: монетизация иррациональности
Канеман и Тверски экспериментально разрушили миф о рациональном потребителе. Они доказали, что перегруженный выбором мозг стремится сэкономить энергию и в основном опирается на быстрые, интуитивные эвристики («Система 1»), избегая включения медленного аналитического мышления («Система 2»). В ответ бизнес выстроил целую «архитектуру выбора». Искусственный дефицит, эффект якоря (фейковые перечеркнутые цены) и страх упущенной выгоды (FOMO) стали стандартами продаж.

4. Нейробиология: физиологический взлом
Наука спустилась на уровень биохимии. Шульц, Сапольски и Берридж вскрыли механику вознаграждения: дофамин выделяется не в момент получения награды, а от ее непредсказуемого ожидания. Индустрия алгоритмизировала этот биологический баг, перенеся принцип игровых автоматов в каждый экран. Свайпы и пуш-уведомления маршрутизируют стимулы напрямую в лимбическую систему, исключая неокортекс из контура принятия решений. Бизнес научился синтезировать и монетизировать компульсивную тягу.

Более того, внутреннее устройство корпораций теперь работает по тем же законам — и здесь постарался современный HR. Индустрия управления персоналом перенесла эти нейробиологические трюки внутрь компаний.

Корпоративный менеджмент плотно сидит на игле быстрых сигналов: выполнение квартального KPI, запуск очередной фичи «на коленке» и зеленые дашборды дают мгновенный нейрохимический всплеск всей управленческой вертикали. Управляющая система поощряет саму себя за скорость и красивые фантики, жестко закрепляя этот паттерн.

Вкладываться в разработку фундаментальных архитектурных энейблеров? Бороться с хаосом? На таких задачах система не получает мгновенного дофаминового подкрепления.

Если посмотреть на это через призму кибернетики, мы увидим контуры положительной обратной связи, где каждый следующий управленческий цикл лишь ускоряет нарастание системной энтропии.

В результате экономический ландшафт изменился. Стало предельно выгодно работать на видимость. Уверенно болтать и продавать иллюзии — самая маржинальная стратегия.

Главный паттерн индустрии: по принципу Парето накидать решение «из говна и палок» , повесить красивый биллборд, продать и побежать дальше.

И хуже того — сейчас по этому же паттерну строится управление крупными городами и целыми государствами.
Эволюция потребления и кибернетика корпораций (2/2)

В парадигме консьюмеризма инженерия становится банально нерентабельной.

Работа с контекстом — где он технически выступает как сложная среда, состоящая из выверенных данных и точного описания их семантики — требует усилий и времени.

Но бизнес-доминанта диктует иное:

- Качество данных — слишком дорого.
- Архитектурная целостность — слишком долго.
- Любое реальное качество — экономически нецелесообразно.

Поэтому разработчики сегодня больше не занимаются инженерией — они превратились в построителей дофаминовых кнопок. Их главная задача — как можно быстрее собрать и запустить нейрохимический триггер.

Однако это инженерное безвременье не означает, что инженерия исчезнет совсем. Напротив, в сложных средах именно она становится источником сверхприбыли.

И самые крутые ребята здесь — Palantir.

Это эталонный пример того, как настоящая, хардкорная инженерия — та самая, что реально работает со сложнейшими контекстами и семантикой — живет и процветает. У них тоже есть жесткие KPI и корпоративная петля. Но то, что мы видим на выходе, заставляет предполагать высочайшую архитектурную строгость, качество семантики и данных. А это уже позволяет судить о правильно настроенной HR-машине.

Palantir прямо говорит: Онтологии позволяют AI выходить за пределы генерации текста и подключаться к реальным операционным решениям и действиям.

Как отмечает сама компания:

«The Ontology is designed to represent the decisions in an enterprise, not simply the data.»

И далее:

«The Ontology enables human and AI-driven actions to be safely staged as scenarios, governed with the same granular access controls as data and logic primitives, and securely written back to every enterprise substrate — transactional systems, edge devices, custom applications, et al.» (официальный блог Palantir) https://blog.palantir.com/connecting-ai-to-decisions-with-the-palantir-ontology-c73f7b0a1a72

И цифры говорят сами за себя: их штат — всего около 4000 человек. Это смехотворно мало на фоне мультимиллиардной выручки и гигантской валовой маржи. У них с бизнесом всё в полном порядке. И вот там, за закрытыми дверями, с качеством данных и инженерией в принципе всё очень, очень хорошо.

Мультиагентные системы порождают принципиально сложные, эмерджентные среды. Это тот рубеж, за которым консьюмерский подход рассыпается, заставляя нас заново учиться инженерии.

На этой, всё-таки мажорной ноте, сделаю анонс. Следующий трек будет посвящён паттернам нейросимволической интеграции и онтологиям — тому, что лежит у Palantir под капотом.
Выше я не раз постил с пруфами кейсы, которые наглядно показывают: LLM нельзя слепо доверять.

При этом я обещал рассказать, что делать, когда важно задействовать сильные стороны моделей в пром задачах с критическими требованиями.

Первый такой материал принят к публикации пару месяцев назад.

Краткая выжимка:

Для критических задач мы предлагаем использовать замкнутый нейросимволический контур. Контур состоит из двух паттернов, которые работают только вместе:

- Формальное заземление — ограничивает пространство генерации LLM с помощью OWL-онтологии (или метамодели) на входе.
- Символьная валидация — строго проверяет сгенерированный ответ средствами символьного вывода на выходе.

Простыми словами:

Чтобы доверять результатам LLM, нужно делать две вещи одновременно:

На входе. Буквально передать код онтологии в контекстное окно модели (лучше через system message в API — тогда её можно закешировать) или использовать облегчённую метамодель (часто она кодируется в Pydantic). Это заставляет модель рассуждать на заданном в онтологии языке: https://t.me/IntelligentSystemsArchitecture/336. Без этого шага второй шаг будет бесполезен — валидировать будет просто нечего. LLM будет выдавать результаты на своём, случайно сформированном языке.

В дальнейшем разберём, когда OWL предпочтительнее Pydantic и почему в своих экспериментах, включая эксперимент в статье, мы используем именно формализованные в OWL онтологии.

На выходе. Прогнать ответ через любую детерминированную систему: граф знаний, вычислительный алгоритм или формальный ризонер. Только вместе эти два шага гарантируют, что агент не выдаст то, что нарушает заданные ограничения.

Мы доказали эффективность подхода экспериментально на ряде кейсов, в том числе в задаче подбора тактик безопасности для режимов отказов системы экстренного торможения (AEB). Детали и результаты — в полной версии статьи. Кодом эксперимента поделюсь по возможности.

И важное дополнение.
Наработок много, но делиться ими без журнальных публикаций не представляется возможным — они мгновенно копируются без указания имён авторов и их вклада. Поэтому детали здесь будут публиковаться с небольшим лагом, к сожалению.
Иногда меня спрашивают, почему в канале отключены комментарии.

Отвечаю: их здесь не будет никогда.

Все, кому действительно интересно обсудить материал или дать конструктивную обратную связь, пишут мне в личку. Я всегда открыт к продуктивному диалогу.

А открытые комментарии — это чат, куда приходят потроллить, накинуть говна, покрасоваться и помериться эго. Устраивать шоу и тратить время на его модерацию у меня нет ни малейшей возможности.

По этой же причине меня нет ни в одном так называемом дискуссионном или клубном чате. И после публикации первой и единственной статьи не будет и на Хабре, где из более чем десятка комментариев ни один из них никак не помог улучшить статью.
Коммуникации имеют цену. Кто просит высокую цену, выпадает из коммуникации.
Для тех, кто близок к RAG.

Представьте, что архитектура RAG Flow (не конкретного продукта, а буквально самого рабочего потока), выраженная в конфигурации, может обучаться через эксперименты — автоматически (или почти).

И в первую очередь для AutoRag нужно на архитектурном уровне явно разделить RAG Flow и Experiment Flow (который обычно называют Harness).
Уважаемые подписчики, готов мой новый лонгрид, открывающий трилогию.

Делюсь ссылкой здесь, вы увидите этот текст первыми:
https://kruglov.ai/the-cognitive-foundation-of-strategic-thinking

Предвосхищаю вопрос: при чём здесь стратегический менеджмент и почему я об этом пишу?

Так сложилось, что у меня есть вполне практический предпринимательский опыт — 4 стартапа и 2 компании (все в партнёрстве). Готовясь к управлению стартапами и компаниями (как фаундер), я глубоко погружался в соответствующий контекст: от стратегического менеджмента и бизнес-моделирования до Lean-практик.

В этой серии эссе я свёл накопленный базис в систему, чтобы ответить на новый вопрос: какое место AI-агенты могут занять в стратегической работе как участники гибридных команд и что для этого необходимо.

Для тех, кто предпочитает короткие форматы: позже я выложу ключевые тезисы материала на русском в формате X-треда.
Forwarded from Eugene Istomin
Это всё к корням "внедрений".
Есть что почитать про корни такого инженерного мышления? (не INCOSE :)
Гуманитарий знает, что мысль верна, когда она согласована - с другими текстами, с контекстом, с собственной биографией = плотность связей.

Инженер знает, что мысль верна, когда она снижает энтропию в конкретной системе.
Истина не в том, чтобы «понять», а в том, чтобы заставить работать.
если работает - правильно.

Если инженер познаёт через артефакт, то культура меняется не через лекции, а через новые артефакты, которые дают лучшую обратную связь, чем старые.
Forwarded from Eugene Istomin
Говорит VC @ JPM в комментариях к посту Palantir
У нас с онтологиям всё будет в порядке.

Структуры метаданных и метамодели назовут онтологиями. А BI-ный семантический слой — онтологическим слоем.

Ну а лет через 10 вынужденно купим что-нибудь у JPM. Вряд ли у Палантир — он будет бесстыдно и нагло снимать маржу со своих SaaS-сервисов.
Forwarded from Stas Karamushko
«Привет, а какую бы ты модель использовал для локального развёртывания, которая тулзы вызывает и хорошо понимает, что вызывать?»

Короткий ответ: никакую. И вряд ли такие появятся.

Обычно спрашивают про потолок локального железа — самое мощное, что можно развернуть на топовом десктопе: модели на 70–120B в квантовании. С инструментами они справляются нормально. Но вызывать инструменты и определять порядок их вызова, то есть работать автономно, — это разные вещи. Автономия начинается там, где надо удержать длинную цепочку рассуждений: разбить задачу, вести план на десятки шагов вперёд и переигрывать его, когда сам же ошибся несколько шагов назад.

А упирается всё в генеративную гибкость — умение собрать план под задачу, которой не было в обучении, и нащупать обходной путь, когда инструмент вернул не то. Это та сторона моделей, которую принято называть эмерджентностью — ближайший родственник креативности. И растёт она вместе с масштабом обучения — плавно, но связь прямая.

Вот здесь локальный потолок и уступает фронтиру (GPT, Claude, Gemini — сотни миллиардов, а то и триллионы параметров). Дело в том, что нужный масштаб в десктоп пока не уложить. На длинной дистанции это неизбежно проявляется как симптомы: контекст плывёт, ошибки наслаиваются одна на другую, и модель всё больше галлюцинирует.

Поэтому мой подход к таким системам — гибридные архитектуры с жёстким контролем переходов состояний, о которых писал выше.
Свидетельство того, что иногда договориться нельзя.