Practico AI | Внедрение ИИ для бизнеса

Forwarded from SkAI-fi

TL;DR: семь лет Apple Neural Engine стоял в холостую, развлекаясь эмодзи-портретами. Сегодня всё меняется: на устройствах запускаются настоящие языковые модели, и облако отступает на второй план. Следующий бум — офлайн-приложения с LLM, которые стартуют мгновенно и не требуют запросов в сеть, оплачивая лишь заряд батареи.

Каждую осень мы читали про новый чип Apple: «Neural Engine +X TOPS». Семь лет – от A11 Bionic 2017 (вспомните Face ID) до M4. Я думал, что эти нейронные ядра нужны для AR‑фишек вроде Vision Pro. Если вы хоть раз работали с ARKit, знаете: технологии вроде SLAM или реконструкции сцены классные, но почти не используются в массовых приложениях — разве что в играх и редких B2B‑проектах.

WWDC 2025 всё изменил. Apple открыла доступ к своим тензорным блокам: в Foundation Models Framework появился on-device вызов LLM (модель на ~3–4 млрд параметров, точные цифры не раскрывают). Всего три строки кода на Swift — и вы можете генерировать текст прямо в приложении:

let model = FoundationModel.named(.appleIntelligence)
try await model.generate(text: prompt) { chunk in … }

Никаких ограничений на количество токенов и счётчиков запросов. Телефон не заметит, сколько токенов вы сожгли, но батарейка — заметит. Apple обещает: Neural Engine даёт ~14 токенов/мс при потреблении 3 Вт. Для сравнения: облачный вызов GPT-4o тратит ~50 мс/токен плюс задержку сети.

Почему это важно
- Моментальный отклик. В банкомате антифрод должен вернуть ответ за 150 мс, иначе транзакция отменится. Облако не успеет, NPU справится.
- Приватность. Всё вычисление остаётся на устройстве: ни слова не улетит в облако, и ничего не сохранится дольше сеанса. Европейским регуляторам за такое точно скажут спасибо.
- Ноль долларов за запросы. Разработчики получают «GPU-бюджет $0»: вычисления идут на чипе телефона без оплаты облаку. Шутят, что скоро ROI будут считать не в стоимости тысяч токенов, а в стоимости ватт-часа.

Ограничения
- Поддерживаемые устройства. Apple Intelligence работает только на iPhone 15/16 Pro, iPad Pro на M‑серии и Mac на M1/M2. То есть пока лишь порядка 25% iOS‑устройств — придётся делать резервный вариант для остальных.
- Длина контекста. Около 4 тыс. токенов — хватит для короткого пересказа или локального справочника, но не для длительного диалога. iCloud-версия «Private Compute» обещает до 128k токенов, но цены пока не объявлены.
- Мультимодальность в бете. Обработка картинок и аудио пока скрыта под NDA; ждём релиза зимой.

Контейнеры «по-эппловски»
Параллельно Apple добавила контейнеры через концепцию «микро-VM»: каждый OCI‑образ запускается в своей виртуальной среде с чистым сетевым стеком (и встроенной Rosetta для x86). Минус — больше жрёт RAM, чем Docker; плюс — можно прямо внутри контейнера использовать Neural Engine для inference. Вкупе с сервисами на Swift это шаг к «WSL2 для Mac».

Что будет дальше
- AR + LLM. Vision Pro обновился до visionOS 26 и теперь может дергать локальные LLM. Представьте: вы смотрите на конвейер, камера кидает 400 fps стереопоток в Neural Engine, он на лету находит дефект и отправляет сигнал системе управления. Реакция — в сотни мс, то, чего так не хватало AR.
- Новая гонка NPU. Qualcomm уже обещает 60 TOPS в X Elite. Но у Apple козырь — сотни миллионов устройств с Neural Engine уже в карманах.
- Вторая жизнь AR-SDK. CoreML и RealityKit наконец находят своё применение: то, для чего их задумывали в 2017 году.
Очевидно: будущее — за локальными LLM. К 2030 любой массовой ОС начнёт день не с ярлыков и панелей, а со встроенного ассистента-модели, который понимает контекст пользователя глубже любого GUI.

276 views14:09