Системный дизайн будущего: от микросервисов к AI-архитектуре.
Собрал сегодня зал в MTS True Tech с рассказом о том, как меняется парадигма проектирования. Как бизнес-логика становится вероятностной, какие компоненты приходят на смену привычным микросервисам и как должен выглядеть технологический стек AI-компании.
Принес вам основные мысли в четырех слайдах.
Собрал сегодня зал в MTS True Tech с рассказом о том, как меняется парадигма проектирования. Как бизнес-логика становится вероятностной, какие компоненты приходят на смену привычным микросервисам и как должен выглядеть технологический стек AI-компании.
Принес вам основные мысли в четырех слайдах.
🔥22❤3💯2👎1
Forwarded from EasySwift iOS🍏 (Ilia)
Meet the Foundation Models framework
WWDC прошел и, как обычно, показали много нового и интересного (нет, особенно ужасен новый дизайн Liquid Glass). Для меня самое интересное – это новые AI инструменты и возможности и тут на самом деле было много интересного.
Apple показали фрейморк Foundation Models для работы с llm on-device в приложениях. Из основного:
- полностью нативная реализация и интеграция со swift'ом. Сама модель адаптирована под работу на Apple процессорах
- модель: 3B квантизованная до 2х бит модель: создать полноценного чат бота с ней не выйдет, но с задачами суммаризации, генерацией / понимаем текста и другими несложными llm-based задачами она более чем может справится
- есть возможность не промптом, а с помощью макросов управлять и структурировать формат ответа модели. Этот подход назвали "guided generation". Если кратко, то мы описываем энамы и структуры, и говорим, что хотим от модели в таком формате получать ответ и будем его именно так и получать
- появится новый инструмент отладки и тестирования работы с моделью
- самое важное и крутое на мой взгляд: "Tool calling": мы можем "зарегистрировать" функции приложения и сказать модели, что она может к ним обращаться и получать из них информации. Это крутое новшество, которое тянет на отдельный пост, который мы позже принесем
Отдельным пунктом хочу еще выделить, что наконец-то Xcode получит интеграцию с chatgpt и другими llm, в том числе и локально запущенными 🔥
Если хотите глубже погрузиться в архитектуру, узнать больше про пост/пре-трейн и оптимизации моделей, на каких данных и как обучалась, то вам точно нужно зайти сюда. Еще завезли отдельный HIG, посвященный генеративным AI.
#wwdc2025
WWDC прошел и, как обычно, показали много нового и интересного (нет, особенно ужасен новый дизайн Liquid Glass). Для меня самое интересное – это новые AI инструменты и возможности и тут на самом деле было много интересного.
Apple показали фрейморк Foundation Models для работы с llm on-device в приложениях. Из основного:
- полностью нативная реализация и интеграция со swift'ом. Сама модель адаптирована под работу на Apple процессорах
- модель: 3B квантизованная до 2х бит модель: создать полноценного чат бота с ней не выйдет, но с задачами суммаризации, генерацией / понимаем текста и другими несложными llm-based задачами она более чем может справится
- есть возможность не промптом, а с помощью макросов управлять и структурировать формат ответа модели. Этот подход назвали "guided generation". Если кратко, то мы описываем энамы и структуры, и говорим, что хотим от модели в таком формате получать ответ и будем его именно так и получать
- появится новый инструмент отладки и тестирования работы с моделью
- самое важное и крутое на мой взгляд: "Tool calling": мы можем "зарегистрировать" функции приложения и сказать модели, что она может к ним обращаться и получать из них информации. Это крутое новшество, которое тянет на отдельный пост, который мы позже принесем
Отдельным пунктом хочу еще выделить, что наконец-то Xcode получит интеграцию с chatgpt и другими llm, в том числе и локально запущенными 🔥
Если хотите глубже погрузиться в архитектуру, узнать больше про пост/пре-трейн и оптимизации моделей, на каких данных и как обучалась, то вам точно нужно зайти сюда. Еще завезли отдельный HIG, посвященный генеративным AI.
#wwdc2025
👍5❤1🔥1
Тут выяснилось, что я достаточно большой адепт вайб-кодинга. В пятницу на мастер-классе собрал 1200+ человек аудитории. Принёс вам инсайты и лайфхаки.
Давайте сразу поясним за терминологию:
Вайб-кодинг — использование естественного языка для написания ПО.
— На replit.com можно собирать достаточно сложные штуки end-to-end. Прототипировать — best of the best.
— Ассистент Replit-а реализован в виде достаточно классического агента с планированием, сбором контекста с web-IDE и запросом в LLM.
— Агент Replit-а не умеет ходить в интернет, но ему можно подсунуть в каком-то виде базу на старте (например, прикрепить CSV).
— Replit может поднять PG в AWS и проинтегрировать в ваш прототип.
— Мы собирали лендинг инфографики анализа зарплат (перед этим O3 мне собрал из открытых источников таблицу зарплат) и телеграм-бота — скраппера сайтов из личных сообщений (промпты оставлю в комментариях к посту). Первое — отлично собралось, второе — почти ожило.
— Сравнение инструментов для вайб-кодинга — тут.
— Если что-то не собирается с трёх чекпоинтов — лучше перезапустить создание проекта с новым промптом.
— Подписка стоит $25, бесплатно можно создать 3 приложения, чего вполне хватает, чтобы пощупать инструмент.
— Телеграм-бот будет стоить примерно $2 квоты.
Несколько лет назад у нас в команде были споры. Я говорил, что через пару лет все будут писать на джаваскрипте. Прав я был в том, что повышается уровень абстракции программирования. Сейчас странно писать код на ассемблере. Ещё через пару лет будет странно учить синтаксис языка.
Давайте сразу поясним за терминологию:
Вайб-кодинг — использование естественного языка для написания ПО.
— На replit.com можно собирать достаточно сложные штуки end-to-end. Прототипировать — best of the best.
— Ассистент Replit-а реализован в виде достаточно классического агента с планированием, сбором контекста с web-IDE и запросом в LLM.
— Агент Replit-а не умеет ходить в интернет, но ему можно подсунуть в каком-то виде базу на старте (например, прикрепить CSV).
— Replit может поднять PG в AWS и проинтегрировать в ваш прототип.
— Мы собирали лендинг инфографики анализа зарплат (перед этим O3 мне собрал из открытых источников таблицу зарплат) и телеграм-бота — скраппера сайтов из личных сообщений (промпты оставлю в комментариях к посту). Первое — отлично собралось, второе — почти ожило.
— Сравнение инструментов для вайб-кодинга — тут.
— Если что-то не собирается с трёх чекпоинтов — лучше перезапустить создание проекта с новым промптом.
— Подписка стоит $25, бесплатно можно создать 3 приложения, чего вполне хватает, чтобы пощупать инструмент.
— Телеграм-бот будет стоить примерно $2 квоты.
Несколько лет назад у нас в команде были споры. Я говорил, что через пару лет все будут писать на джаваскрипте. Прав я был в том, что повышается уровень абстракции программирования. Сейчас странно писать код на ассемблере. Ещё через пару лет будет странно учить синтаксис языка.
💩6🔥4🤔2👎1
Несколько дней читаю "12‑Factor Agents" — понравился инженерный фреймворк из 12 практических пунктов, адаптированный для создания надёжных, масштабируемых и управляемых AI-агентов.
Система предлагает воспринимать LLM-агентов не как магические фреймворки, а как хорошо инженерно спроектированные сервисы с контролируемым потоком, состоянием и надёжным взаимодействием с пользователем.
Кликабельные пункты:
— How We Got Here: A Brief History of Software
— Factor 1: Natural Language to Tool Calls
— Factor 2: Own your prompts
— Factor 3: Own your context window
— Factor 4: Tools are just structured outputs
— Factor 5: Unify execution state and business state
— Factor 6: Launch/Pause/Resume with simple APIs
— Factor 7: Contact humans with tool calls
— Factor 8: Own your control flow
— Factor 9: Compact Errors into Context Window
— Factor 10: Small, Focused Agents
— Factor 11: Trigger from anywhere, meet users where they are
— Factor 12: Make your agent a stateless reducer
Система предлагает воспринимать LLM-агентов не как магические фреймворки, а как хорошо инженерно спроектированные сервисы с контролируемым потоком, состоянием и надёжным взаимодействием с пользователем.
Кликабельные пункты:
— How We Got Here: A Brief History of Software
— Factor 1: Natural Language to Tool Calls
— Factor 2: Own your prompts
— Factor 3: Own your context window
— Factor 4: Tools are just structured outputs
— Factor 5: Unify execution state and business state
— Factor 6: Launch/Pause/Resume with simple APIs
— Factor 7: Contact humans with tool calls
— Factor 8: Own your control flow
— Factor 9: Compact Errors into Context Window
— Factor 10: Small, Focused Agents
— Factor 11: Trigger from anywhere, meet users where they are
— Factor 12: Make your agent a stateless reducer
GitHub
GitHub - humanlayer/12-factor-agents: What are the principles we can use to build LLM-powered software that is actually good enough…
What are the principles we can use to build LLM-powered software that is actually good enough to put in the hands of production customers? - humanlayer/12-factor-agents
👍8
Forwarded from [29/100] Витя Тарнавский
T-pro 2.0 – с гибридным ризонингом 🥳
Лучшая модель в своём весе среди всех открытых моделей по широкому ряду русскоязычных бенчмарков. В два раза более быстрая и дешевая чем аналоги по качеству.
Модель с рассуждениями, создана для построения сложных систем и решения сложных задач. Модель в открытом доступе, качай да используй.
– Qwen3 32B based
– Гибридный ризонинг
– Уплотненный токенайзер на русском
– Спекулятивный декодер в комплекте
– Apache 2.0 – используй как хочешь
Больше подробностей выложим в тех репорте – с бенчмарками и накопленными знаниями.
Сама модель и основные бенчмарки
Спекулятивный декодер
Новость
Лучшая модель в своём весе среди всех открытых моделей по широкому ряду русскоязычных бенчмарков. В два раза более быстрая и дешевая чем аналоги по качеству.
Модель с рассуждениями, создана для построения сложных систем и решения сложных задач. Модель в открытом доступе, качай да используй.
– Qwen3 32B based
– Гибридный ризонинг
– Уплотненный токенайзер на русском
– Спекулятивный декодер в комплекте
– Apache 2.0 – используй как хочешь
Больше подробностей выложим в тех репорте – с бенчмарками и накопленными знаниями.
Сама модель и основные бенчмарки
Спекулятивный декодер
Новость
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9
Только вернулся из Сириуса. Посчастливилось побыть в жюри конкурса «Большие вызовы». Это когда берут лучших школьников со всей страны, и они за 3 недели делают проекты, которые в индустрии обычно пилят годами. И хотя последнюю ночь нас эвакуировали из отеля из-за атак беспилотников, это не перекрыло впечатлений. Энергия команд была запредельной.
Принёс вам мой субъективный топ проектов:
— Датасет для OCR, созданный на основе генеративных сетей и рендеров из Unreal Engine. Ребята рендерили поезда и генерировали окружение чтобы улучшить качество распознавания составов РЖД.
— Мультиагентная система для решения научных задач в области искусственного интеллекта. Ребята сделали свой мультиагентный Deep Research.
— RL для планирования бурения скважин и оптимизации движения буровых и ремонтных бригад.
— Ну и, конечно, в сердечке — Джуниор-ассистент.
А чем вы занимались в 15 лет?
Принёс вам мой субъективный топ проектов:
— Датасет для OCR, созданный на основе генеративных сетей и рендеров из Unreal Engine. Ребята рендерили поезда и генерировали окружение чтобы улучшить качество распознавания составов РЖД.
— Мультиагентная система для решения научных задач в области искусственного интеллекта. Ребята сделали свой мультиагентный Deep Research.
— RL для планирования бурения скважин и оптимизации движения буровых и ремонтных бригад.
— Ну и, конечно, в сердечке — Джуниор-ассистент.
А чем вы занимались в 15 лет?
🔥14❤2
Как избежать кризиса архитектуры AI.
Avoiding a Future AI Architecture Crisis; What the 2025 Numbers Mean for Enterprise AI Strategy
Отличная статья про будущие риски корпоративных AI-архитектур. Интересно, что её выводы сильно совпадают с нашими — хотя мы пришли к ним своим путём. Принёс вам краткие тезисы, но рекомендую прочитать статью полностью.
Проблемы:
— Крупнейшие AI-компании не являются устойчивыми бизнесами (например, OpenAI — убытки на 50% выручки).
— Цены на AI-сервисы занижены субсидиями. Пример: Doubao от ByteDance — $0.0001 за 1k токенов (на 99.8% дешевле GPT‑4).
— Потенциальный вендор-лок: архитектура, промпты, пайплайны и данные часто «зашиваются» под конкретную модель.
— Энергопотребление — слон в комнате. Один запрос в ChatGPT ≈ 0.34 Вт*ч. Общий суточный расход — ~340 МВт*ч (как у небольшого государства).
Что делать:
— Архитектурная независимость: Проектируйте с учётом независимости от конкретной модели с самого начала. Тестируйте критичные запросы на разных провайдерах.
— Гибридный подход: используйте open-source модели локально для ключевых функций, а внешние API — для некритичных задач. Это позволяет объединить преимущества обоих подходов и одновременно управлять рисками.
— Инфраструктура контроля: встраивайте гейтвеи для мониторинга нагрузки, затрат и энергопотребления. Это станет важным параметром SLO.
Avoiding a Future AI Architecture Crisis; What the 2025 Numbers Mean for Enterprise AI Strategy
Отличная статья про будущие риски корпоративных AI-архитектур. Интересно, что её выводы сильно совпадают с нашими — хотя мы пришли к ним своим путём. Принёс вам краткие тезисы, но рекомендую прочитать статью полностью.
Проблемы:
— Крупнейшие AI-компании не являются устойчивыми бизнесами (например, OpenAI — убытки на 50% выручки).
— Цены на AI-сервисы занижены субсидиями. Пример: Doubao от ByteDance — $0.0001 за 1k токенов (на 99.8% дешевле GPT‑4).
— Потенциальный вендор-лок: архитектура, промпты, пайплайны и данные часто «зашиваются» под конкретную модель.
— Энергопотребление — слон в комнате. Один запрос в ChatGPT ≈ 0.34 Вт*ч. Общий суточный расход — ~340 МВт*ч (как у небольшого государства).
Что делать:
— Архитектурная независимость: Проектируйте с учётом независимости от конкретной модели с самого начала. Тестируйте критичные запросы на разных провайдерах.
— Гибридный подход: используйте open-source модели локально для ключевых функций, а внешние API — для некритичных задач. Это позволяет объединить преимущества обоих подходов и одновременно управлять рисками.
— Инфраструктура контроля: встраивайте гейтвеи для мониторинга нагрузки, затрат и энергопотребления. Это станет важным параметром SLO.
Architecture & Governance Magazine
Avoiding a Future AI Architecture Crisis; What the 2025 Numbers Mean for Enterprise AI Strategy - Architecture & Governance Magazine
The Architecture Risk Assessment
👍9❤1