Архитектура Стартапа - Anton Skogorev Engineering & AI
1.62K subscribers
42 photos
1 video
2 files
98 links
Канал про архитектуру быстрорастущего бизнеса.

Привет, меня зовут Антон @skogorev.
Я - Технический Директор AI Center Tinkoff, ex Yandex Go Senior EM.

В переписках остается много полезных материалов, теперь я собираю их на этом канале.
Download Telegram
Системный дизайн будущего: от микросервисов к AI-архитектуре.

Собрал сегодня зал в MTS True Tech с рассказом о том, как меняется парадигма проектирования. Как бизнес-логика становится вероятностной, какие компоненты приходят на смену привычным микросервисам и как должен выглядеть технологический стек AI-компании.

Принес вам основные мысли в четырех слайдах.
🔥223💯2👎1
Forwarded from EasySwift iOS🍏 (Ilia)
Meet the Foundation Models framework

WWDC прошел и, как обычно, показали много нового и интересного (нет, особенно ужасен новый дизайн Liquid Glass). Для меня самое интересное – это новые AI инструменты и возможности и тут на самом деле было много интересного.

Apple показали фрейморк Foundation Models для работы с llm on-device в приложениях. Из основного:
- полностью нативная реализация и интеграция со swift'ом. Сама модель адаптирована под работу на Apple процессорах
- модель: 3B квантизованная до 2х бит модель: создать полноценного чат бота с ней не выйдет, но с задачами суммаризации, генерацией / понимаем текста и другими несложными llm-based задачами она более чем может справится
- есть возможность не промптом, а с помощью макросов управлять и структурировать формат ответа модели. Этот подход назвали "guided generation". Если кратко, то мы описываем энамы и структуры, и говорим, что хотим от модели в таком формате получать ответ и будем его именно так и получать
- появится новый инструмент отладки и тестирования работы с моделью
- самое важное и крутое на мой взгляд: "Tool calling": мы можем "зарегистрировать" функции приложения и сказать модели, что она может к ним обращаться и получать из них информации. Это крутое новшество, которое тянет на отдельный пост, который мы позже принесем

Отдельным пунктом хочу еще выделить, что наконец-то Xcode получит интеграцию с chatgpt и другими llm, в том числе и локально запущенными 🔥

Если хотите глубже погрузиться в архитектуру, узнать больше про пост/пре-трейн и оптимизации моделей, на каких данных и как обучалась, то вам точно нужно зайти сюда. Еще завезли отдельный HIG, посвященный генеративным AI.

#wwdc2025
👍51🔥1
Тут выяснилось, что я достаточно большой адепт вайб-кодинга. В пятницу на мастер-классе собрал 1200+ человек аудитории. Принёс вам инсайты и лайфхаки.

Давайте сразу поясним за терминологию:
Вайб-кодинг — использование естественного языка для написания ПО.

— На replit.com можно собирать достаточно сложные штуки end-to-end. Прототипировать — best of the best.
— Ассистент Replit-а реализован в виде достаточно классического агента с планированием, сбором контекста с web-IDE и запросом в LLM.
— Агент Replit-а не умеет ходить в интернет, но ему можно подсунуть в каком-то виде базу на старте (например, прикрепить CSV).
— Replit может поднять PG в AWS и проинтегрировать в ваш прототип.
— Мы собирали лендинг инфографики анализа зарплат (перед этим O3 мне собрал из открытых источников таблицу зарплат) и телеграм-бота — скраппера сайтов из личных сообщений (промпты оставлю в комментариях к посту). Первое — отлично собралось, второе — почти ожило.
— Сравнение инструментов для вайб-кодинга — тут.
— Если что-то не собирается с трёх чекпоинтов — лучше перезапустить создание проекта с новым промптом.
— Подписка стоит $25, бесплатно можно создать 3 приложения, чего вполне хватает, чтобы пощупать инструмент.
— Телеграм-бот будет стоить примерно $2 квоты.

Несколько лет назад у нас в команде были споры. Я говорил, что через пару лет все будут писать на джаваскрипте. Прав я был в том, что повышается уровень абстракции программирования. Сейчас странно писать код на ассемблере. Ещё через пару лет будет странно учить синтаксис языка.
💩6🔥4🤔2👎1
Несколько дней читаю "12‑Factor Agents" — понравился инженерный фреймворк из 12 практических пунктов, адаптированный для создания надёжных, масштабируемых и управляемых AI-агентов.

Система предлагает воспринимать LLM-агентов не как магические фреймворки, а как хорошо инженерно спроектированные сервисы с контролируемым потоком, состоянием и надёжным взаимодействием с пользователем.

Кликабельные пункты:
How We Got Here: A Brief History of Software
Factor 1: Natural Language to Tool Calls
Factor 2: Own your prompts
Factor 3: Own your context window
Factor 4: Tools are just structured outputs
Factor 5: Unify execution state and business state
Factor 6: Launch/Pause/Resume with simple APIs
Factor 7: Contact humans with tool calls
Factor 8: Own your control flow
Factor 9: Compact Errors into Context Window
Factor 10: Small, Focused Agents
Factor 11: Trigger from anywhere, meet users where they are
Factor 12: Make your agent a stateless reducer
👍8
T-pro 2.0 – с гибридным ризонингом 🥳

Лучшая модель в своём весе среди всех открытых моделей по широкому ряду русскоязычных бенчмарков. В два раза более быстрая и дешевая чем аналоги по качеству.

Модель с рассуждениями, создана для построения сложных систем и решения сложных задач. Модель в открытом доступе, качай да используй.

– Qwen3 32B based
– Гибридный ризонинг
– Уплотненный токенайзер на русском
– Спекулятивный декодер в комплекте
– Apache 2.0 – используй как хочешь

Больше подробностей выложим в тех репорте – с бенчмарками и накопленными знаниями.

Сама модель и основные бенчмарки
Спекулятивный декодер
Новость
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9
Только вернулся из Сириуса. Посчастливилось побыть в жюри конкурса «Большие вызовы». Это когда берут лучших школьников со всей страны, и они за 3 недели делают проекты, которые в индустрии обычно пилят годами. И хотя последнюю ночь нас эвакуировали из отеля из-за атак беспилотников, это не перекрыло впечатлений. Энергия команд была запредельной.

Принёс вам мой субъективный топ проектов:

— Датасет для OCR, созданный на основе генеративных сетей и рендеров из Unreal Engine. Ребята рендерили поезда и генерировали окружение чтобы улучшить качество распознавания составов РЖД.
— Мультиагентная система для решения научных задач в области искусственного интеллекта. Ребята сделали свой мультиагентный Deep Research.
— RL для планирования бурения скважин и оптимизации движения буровых и ремонтных бригад.
— Ну и, конечно, в сердечке — Джуниор-ассистент.

А чем вы занимались в 15 лет?
🔥142
Как избежать кризиса архитектуры AI.
Avoiding a Future AI Architecture Crisis; What the 2025 Numbers Mean for Enterprise AI Strategy

Отличная статья про будущие риски корпоративных AI-архитектур. Интересно, что её выводы сильно совпадают с нашими — хотя мы пришли к ним своим путём. Принёс вам краткие тезисы, но рекомендую прочитать статью полностью.

Проблемы:
— Крупнейшие AI-компании не являются устойчивыми бизнесами (например, OpenAI — убытки на 50% выручки).
— Цены на AI-сервисы занижены субсидиями. Пример: Doubao от ByteDance — $0.0001 за 1k токенов (на 99.8% дешевле GPT‑4).
— Потенциальный вендор-лок: архитектура, промпты, пайплайны и данные часто «зашиваются» под конкретную модель.
— Энергопотребление — слон в комнате. Один запрос в ChatGPT ≈ 0.34 Вт*ч. Общий суточный расход — ~340 МВт*ч (как у небольшого государства).

Что делать:
Архитектурная независимость: Проектируйте с учётом независимости от конкретной модели с самого начала. Тестируйте критичные запросы на разных провайдерах.
Гибридный подход: используйте open-source модели локально для ключевых функций, а внешние API — для некритичных задач. Это позволяет объединить преимущества обоих подходов и одновременно управлять рисками.
Инфраструктура контроля: встраивайте гейтвеи для мониторинга нагрузки, затрат и энергопотребления. Это станет важным параметром SLO.
👍91