Внедряем AI в операционное управление: кейс OKRsana
OKRsana — AI-помощник руководителя, который берет на себя операционную часть стратегических процессов и делает работу с целями прозрачнее и быстрее.
Инструмент использует LLM и данные компании через RAG, чтобы учитывать реальные процессы, культуру и историю решений. Он помогает согласовывать планы между подразделениями, выявлять риски, ускорять принятие решений и облегчать онбординг руководителей.
OKRsana выросла из практики работы со стратегией в крупных компаниях: от интеграций с текущими системами целей — до собственного приложения, которое сейчас проходит бета-тест.
Что получает бизнес:
— меньше рутинных операций и несогласованностей
— более точная картина происходящего благодаря актуальным данным
— снижение рисков за счет прозрачности процессов
Точность ответов OKRsana растёт за счёт интеграции с системами заказчика и настройки сценариев под особенности управления. Внедрение и поддержка переданы в KTS — мы адаптируем решение под задачи каждого клиента.
Если хотите глубже понять, как управлять целями в условиях неопределенности и использовать OKR в масштабе, присоединяйтесь к конференции OKR Russia. Она пройдет 10 декабря в Москве. Мы выступаем партнером конференции и будем рады обсудить практические кейсы внедрения.
OKRsana — AI-помощник руководителя, который берет на себя операционную часть стратегических процессов и делает работу с целями прозрачнее и быстрее.
Инструмент использует LLM и данные компании через RAG, чтобы учитывать реальные процессы, культуру и историю решений. Он помогает согласовывать планы между подразделениями, выявлять риски, ускорять принятие решений и облегчать онбординг руководителей.
OKRsana выросла из практики работы со стратегией в крупных компаниях: от интеграций с текущими системами целей — до собственного приложения, которое сейчас проходит бета-тест.
Что получает бизнес:
— меньше рутинных операций и несогласованностей
— более точная картина происходящего благодаря актуальным данным
— снижение рисков за счет прозрачности процессов
Точность ответов OKRsana растёт за счёт интеграции с системами заказчика и настройки сценариев под особенности управления. Внедрение и поддержка переданы в KTS — мы адаптируем решение под задачи каждого клиента.
Если хотите глубже понять, как управлять целями в условиях неопределенности и использовать OKR в масштабе, присоединяйтесь к конференции OKR Russia. Она пройдет 10 декабря в Москве. Мы выступаем партнером конференции и будем рады обсудить практические кейсы внедрения.
👍8❤5🔥3👏1
Как Anthropic учит AI-агентов «не забывать»?
AI-агенты часто проваливают сложные задачи, требующие многих шагов. Причина — ограниченное окно контекста LLM. Как только задача выходит за его пределы, агент «забывает» предыдущие действия и теряет прогресс.
Инженеры Anthropic предложили решение (подробнее читайте в статье Effective harnesses for long-running agents): использовать специальный каркас (harness) для агента, который позволяет работать итеративно, а не пытаться удержать всё в памяти. Каркас превращает процесс в управляемый pipeline.
Вот как это работает:
• Инициализация: Сначала специальный агент-инициализатор создаёт подробный список фич, отмечая все как «невыполненные». Он также создаёт файл для логов claude-progress.txt и делает первый коммит в git.
• Инкрементальная работа: Следующие агенты работают над одной фичей за раз. После каждого изменения они делают коммит с описанием и записывают итоги в лог-файл.
• Сохранение состояния: Git и лог-файл служат внешней памятью. Когда новый агент «приходит на смену», он читает историю коммитов и логи, чтобы понять текущее состояние проекта, и продолжает работу с того же места.
Агент может отложить задачу и вернуться к ней позже, не теряя прогресса и не тратя токены на восстановление контекста.
Такой подход можно применять не только в кодовых агентах , но и в любых которые вы реализуете.
Чтобы агент не забыл шаги , можно давать ему готовый план (или генерировать моделью), далее отправлять выполнять шаги.
Это значительно увеличивает качество и предсказуемость результата.
#александр_опрышко
AI-агенты часто проваливают сложные задачи, требующие многих шагов. Причина — ограниченное окно контекста LLM. Как только задача выходит за его пределы, агент «забывает» предыдущие действия и теряет прогресс.
Инженеры Anthropic предложили решение (подробнее читайте в статье Effective harnesses for long-running agents): использовать специальный каркас (harness) для агента, который позволяет работать итеративно, а не пытаться удержать всё в памяти. Каркас превращает процесс в управляемый pipeline.
Вот как это работает:
• Инициализация: Сначала специальный агент-инициализатор создаёт подробный список фич, отмечая все как «невыполненные». Он также создаёт файл для логов claude-progress.txt и делает первый коммит в git.
• Инкрементальная работа: Следующие агенты работают над одной фичей за раз. После каждого изменения они делают коммит с описанием и записывают итоги в лог-файл.
• Сохранение состояния: Git и лог-файл служат внешней памятью. Когда новый агент «приходит на смену», он читает историю коммитов и логи, чтобы понять текущее состояние проекта, и продолжает работу с того же места.
Агент может отложить задачу и вернуться к ней позже, не теряя прогресса и не тратя токены на восстановление контекста.
Такой подход можно применять не только в кодовых агентах , но и в любых которые вы реализуете.
Чтобы агент не забыл шаги , можно давать ему готовый план (или генерировать моделью), далее отправлять выполнять шаги.
Это значительно увеличивает качество и предсказуемость результата.
#александр_опрышко
👍6❤2
Codex как новый член команды: смена парадигмы от OpenAI
Руководство OpenAI меняет позиционирование Codex: теперь это партнёр по кодингу и ускоритель команды, а не умный автокомплит или замена разработчикам. Что это меняет в рабочем процессе?
▫️ От синхронности к асинхронности. Вместо парного программирования в реальном времени, разработчик переходит в режим делегирования. Можно поставить задачу (например, рефакторинг модуля), а модель будет работать автономно в своём окружении.
▫️ Best of N. Codex генерирует несколько вариантов решения задачи. Разработчик не пишет код с нуля, а выступает в роли Tech Lead: ревьюит предложенные варианты, выбирает лучший и мерджит его.
▫️ Фокус на коллаборации. Это не попытка убрать человека из цикла, а создание пары «Человек + AI». Человек управляет интентом и принимает финальные решения, AI берет на себя реализацию, прогон тестов и исправление ошибок.
Технически это подкрепляется переходом на модель codex-1 (на базе o3), которая заточена на итеративное выполнение задач: написание плана → написание кода → запуск тестов → фикс багов → создание PR. OpenAI пытается превратить разработку из набора микро-действий в IDE в управление высокоуровневыми задачами.
Руководство OpenAI меняет позиционирование Codex: теперь это партнёр по кодингу и ускоритель команды, а не умный автокомплит или замена разработчикам. Что это меняет в рабочем процессе?
▫️ От синхронности к асинхронности. Вместо парного программирования в реальном времени, разработчик переходит в режим делегирования. Можно поставить задачу (например, рефакторинг модуля), а модель будет работать автономно в своём окружении.
▫️ Best of N. Codex генерирует несколько вариантов решения задачи. Разработчик не пишет код с нуля, а выступает в роли Tech Lead: ревьюит предложенные варианты, выбирает лучший и мерджит его.
▫️ Фокус на коллаборации. Это не попытка убрать человека из цикла, а создание пары «Человек + AI». Человек управляет интентом и принимает финальные решения, AI берет на себя реализацию, прогон тестов и исправление ошибок.
Технически это подкрепляется переходом на модель codex-1 (на базе o3), которая заточена на итеративное выполнение задач: написание плана → написание кода → запуск тестов → фикс багов → создание PR. OpenAI пытается превратить разработку из набора микро-действий в IDE в управление высокоуровневыми задачами.
Openai
OpenAI Codex
Codex is OpenAI’s series of AI coding tools that help developers move faster by delegating tasks to powerful cloud and local coding agents.
🔥8
Продолжаем знакомить вас с теми, кто стоит за продуктом и идеями, которые появляются в этом канале.
Сегодня расскажем про Игоря Латкина, сооснователя и управляющего партнёра KTS.
Игорь пришёл в разработку рано: ещё в школе писал расширения для MCEdit на Python и делал игры на C++. Затем в МГТУ им. Н.Э. Баумана и на стажировке в Mail.ru погрузился в асинхронное программирование — экспериментировал с C, C++, Python, Perl, Lua, Go, JavaScript.
С ростом запросов бизнеса к ML-решениям Игорь сосредоточился на машинном обучении:
• участвовал в Kaggle-соревнованиях
• формировал AI-юнит в KTS
• решал прикладные ML-задачи клиентов
• преподавал курс по нейронным сетям и машинному обучению в МГТУ им. Н.Э. Баумана
• запускал платформу ML-соревнований TrainMyData и проводил крупные чемпионаты, включая кейс для Pik Digital Day совместно со Spinon.
Сегодня в KTS Игорь отвечает за архитектуру сложных распределённых систем, экспериментальные механики, развитие инфраструктуры и DevOps-подходов. Он руководит командами разработки и совместно с Александром Опрышко занимается пресейлом и solution-архитектурой AI-проектов.
#игорь_латкин
Сегодня расскажем про Игоря Латкина, сооснователя и управляющего партнёра KTS.
Игорь пришёл в разработку рано: ещё в школе писал расширения для MCEdit на Python и делал игры на C++. Затем в МГТУ им. Н.Э. Баумана и на стажировке в Mail.ru погрузился в асинхронное программирование — экспериментировал с C, C++, Python, Perl, Lua, Go, JavaScript.
«Мне всегда было интересно пробовать всё на свете — успел и бэкенд, разумеется, пописать, и фронтенд, и мобильные приложения под Android и даже под Windows Phone, много времени посвятил DevOps в KTS — удалось выстроить в компании новую инфраструктуру на основе Kubernetes, когда он только набирал популярность, и, конечно же, ML.»
С ростом запросов бизнеса к ML-решениям Игорь сосредоточился на машинном обучении:
• участвовал в Kaggle-соревнованиях
• формировал AI-юнит в KTS
• решал прикладные ML-задачи клиентов
• преподавал курс по нейронным сетям и машинному обучению в МГТУ им. Н.Э. Баумана
• запускал платформу ML-соревнований TrainMyData и проводил крупные чемпионаты, включая кейс для Pik Digital Day совместно со Spinon.
Сегодня в KTS Игорь отвечает за архитектуру сложных распределённых систем, экспериментальные механики, развитие инфраструктуры и DevOps-подходов. Он руководит командами разработки и совместно с Александром Опрышко занимается пресейлом и solution-архитектурой AI-проектов.
#игорь_латкин
🔥18👏4❤1
Можно ли автоматически оценить качество RAG?
Обычная ситуация: есть набор файлов в корпоративном хранилище. Поверх него подключили RAG.
Как понять, что RAG нормально работает: система действительно находит нужный контекст и не галлюцинирует в ответах?
Самый очевидный способ проверки — отдать RAG экспертам, попросить придумать вопросы, оценить ответы и дать комментарии. На практике это долго, дорого и плохо масштабируется.
В индустрии чаще используют синтетическую оценку качества: делаем оценочный датасет + на нем измеряем метрики качества, а экспертов привлекаем как “smoke test”.
1. Берем файлы и просим большую модель сгенерировать вопрос на каждый слайд / страницу и просим сразу дать ответ на этот вопрос . Шаблон промпта оставил в комментариях. В итоге получим набор из вопросов, ответов и контекста.
2. Дальше этот датасет очищаем. Грузим Q/A в Langfuse в режим human annotation. Затем даем экспертам или изучаем сами на адекватность вопросов и ответов. Затем создаем dataset из очищенных данных. В итоге получаем быстрособранный объективный , покрывающий бОльшую часть кейсов датасет, на котором можно оценить реальное качество.
3. Оцениваем качество. Будем использовать подход LLM as a judge. Для быстрого результата можно отойти от 2х этапной оценки (оценка ретрива и оценка генерации), так как нам нужно понять отвечает ли на вопрос rag или нет, а не отлаживать систему. Оценка будет состоять из одного вызова LLM, промпт будет выглядеть примерно так:
Запускаем оценку на части датасета и смотрим адекватность оценки нашего судьи, по необходимости корректируем судью.
В итоге мы получили размеренные вопросы, правильные ответы к ним и механизм автоматической проверки ответов. Запускаем оценку на нужном датасете и получаем набор правильных и неправильных ответов. Оценкой будет количество правильных ответов / на суммарное количество элементов в датасете. Так можно запустить оценку на нескольких RAG-системах и объективно выбрать лучшую для конкретной задачи.
#александр_опрышко
Обычная ситуация: есть набор файлов в корпоративном хранилище. Поверх него подключили RAG.
Как понять, что RAG нормально работает: система действительно находит нужный контекст и не галлюцинирует в ответах?
Самый очевидный способ проверки — отдать RAG экспертам, попросить придумать вопросы, оценить ответы и дать комментарии. На практике это долго, дорого и плохо масштабируется.
В индустрии чаще используют синтетическую оценку качества: делаем оценочный датасет + на нем измеряем метрики качества, а экспертов привлекаем как “smoke test”.
1. Берем файлы и просим большую модель сгенерировать вопрос на каждый слайд / страницу и просим сразу дать ответ на этот вопрос . Шаблон промпта оставил в комментариях. В итоге получим набор из вопросов, ответов и контекста.
2. Дальше этот датасет очищаем. Грузим Q/A в Langfuse в режим human annotation. Затем даем экспертам или изучаем сами на адекватность вопросов и ответов. Затем создаем dataset из очищенных данных. В итоге получаем быстрособранный объективный , покрывающий бОльшую часть кейсов датасет, на котором можно оценить реальное качество.
3. Оцениваем качество. Будем использовать подход LLM as a judge. Для быстрого результата можно отойти от 2х этапной оценки (оценка ретрива и оценка генерации), так как нам нужно понять отвечает ли на вопрос rag или нет, а не отлаживать систему. Оценка будет состоять из одного вызова LLM, промпт будет выглядеть примерно так:
Сравни ground truth ответ и ответ сгенерированный RAG-системой. Требования для сравнения: (нужно указать как сравнивать и требования по стилю ответа). В результате нужно выдать два поля: result, reason. Если ответ верный и соответствует требованиям, то result true, reason none . Иначе result false, reason - “некоторая строка, которая описывает причину отказа».
Запускаем оценку на части датасета и смотрим адекватность оценки нашего судьи, по необходимости корректируем судью.
В итоге мы получили размеренные вопросы, правильные ответы к ним и механизм автоматической проверки ответов. Запускаем оценку на нужном датасете и получаем набор правильных и неправильных ответов. Оценкой будет количество правильных ответов / на суммарное количество элементов в датасете. Так можно запустить оценку на нескольких RAG-системах и объективно выбрать лучшую для конкретной задачи.
#александр_опрышко
👍6
Как персонализировать AI-прогнозы под себя?
Пока все доедают салаты, предлагаем изучить статьи с AI-прогнозами на 2026.
Крупные компании и исследовательские центры опубликовали много обзоров, но написали их сразу для всех. В результате сложно понять, что из этого полезно именно для вашей роли и бизнеса.
Рабочий вариант: загрузить материалы в NotebookLM и попросить выжимку с учетом контекста своей роли.
Какие источники подойдут?
▫️ Microsoft — 7 trends to watch in 2026
▫️ IBM — The trends that will shape AI and tech in 2026
▫️ Stanford HAI — Stanford AI Experts Predict What Will Happen in 2026
Какой промт использовать?
По итогу PM и ML-инженер получат разные советы из одних и тех же источников. Подход полезен, если нужно быстро перевести общие AI-тренды в конкретные решения под свою роль.
#александр_опрышко
Пока все доедают салаты, предлагаем изучить статьи с AI-прогнозами на 2026.
Крупные компании и исследовательские центры опубликовали много обзоров, но написали их сразу для всех. В результате сложно понять, что из этого полезно именно для вашей роли и бизнеса.
Рабочий вариант: загрузить материалы в NotebookLM и попросить выжимку с учетом контекста своей роли.
Какие источники подойдут?
▫️ Microsoft — 7 trends to watch in 2026
▫️ IBM — The trends that will shape AI and tech in 2026
▫️ Stanford HAI — Stanford AI Experts Predict What Will Happen in 2026
Какой промт использовать?
Я работаю [должность] в [компания] в сфере [индустрия].
Моя главная цель на 2026 — [цель].
На основе этих прогнозов, на чём мне сфокусироваться?
По итогу PM и ML-инженер получат разные советы из одних и тех же источников. Подход полезен, если нужно быстро перевести общие AI-тренды в конкретные решения под свою роль.
#александр_опрышко
🔥7❤2
Ключевые события в LLM в 2025 году версия Simon Willison
Simon Willison — создатель Django и Datasette, один из самых авторитетных независимых исследователей языковых моделей. Уже третий год подряд он публикует подробный обзор индустрии. В версии за 2025 год набралось 26 разделов с ключевыми моментами.
Александр Опрышко, управляющий партнер KTS, выделил главное.
1. Claude Code — $1 млрд за полгода
Самое заметное событие года. В феврале Anthropic тихо выкатил Claude Code. За полгода CLI-инструмент вышел на годовой оборот в $1 млрд. Это не просто инструмент для разработки, а универсальный агент для автоматизации любых задач через терминал.
2. DeepSeek шокировал индустрию
В конце 2024 года китайская лаборатория DeepSeek выложила модель уровня ведущих решений рынка, потратив около $5,5 млн вместо сотен миллионов. В январе появилась R1 — модель с развитым рассуждением, сопоставимая с o1.
3. Модели с рассуждением стали базовым стандартом
Все крупные лаборатории выпустили модели с поддержкой рассуждений. Ключевой сдвиг — связка рассуждений и инструментов, которая позволила моделям планировать и выполнять многошаговые задачи. RLVR стал обязательным этапом обучения.
4. MCPвзорвался получил массовое принятие
Anthropic представила Model Context Protocol в ноябре 2024 года. Уже в мае 2025 OpenAI, Anthropic и Mistral добавили поддержку API всего за восемь дней. Это совпало с моментом, когда модели начали стабильно работать с внешними инструментами.
5. Vibe Coding: 110 инструментов за год
Термин, который предложил Андрей Карпатый: разработка, где фокус смещён с кода на результат. Willison запустил коллекцию небольших инструментов на HTML и JavaScript, созданных с помощью LLM. За год — 110 проектов, каждый с подробно зафиксированной историей запросов к модели.
6. Открытые модели вышли на новый уровень
Если 2024 год был годом Llama, то в 2025 конкуренция резко усилилась. DeepSeek, Qwen и Gemma 3 стали серьезными альтернативами. При этом Llama 4 разочаровала: модели на 109B и 400B параметров оказались слишком тяжёлыми для пользовательского оборудования. Зато появились компактные и эффективные vision модели вроде Qwen2.5 VL 3B, которые работают на обычном железе.
Полный обзор читайте на Simon Willison.
Simon Willison — создатель Django и Datasette, один из самых авторитетных независимых исследователей языковых моделей. Уже третий год подряд он публикует подробный обзор индустрии. В версии за 2025 год набралось 26 разделов с ключевыми моментами.
Александр Опрышко, управляющий партнер KTS, выделил главное.
1. Claude Code — $1 млрд за полгода
Самое заметное событие года. В феврале Anthropic тихо выкатил Claude Code. За полгода CLI-инструмент вышел на годовой оборот в $1 млрд. Это не просто инструмент для разработки, а универсальный агент для автоматизации любых задач через терминал.
2. DeepSeek шокировал индустрию
В конце 2024 года китайская лаборатория DeepSeek выложила модель уровня ведущих решений рынка, потратив около $5,5 млн вместо сотен миллионов. В январе появилась R1 — модель с развитым рассуждением, сопоставимая с o1.
3. Модели с рассуждением стали базовым стандартом
Все крупные лаборатории выпустили модели с поддержкой рассуждений. Ключевой сдвиг — связка рассуждений и инструментов, которая позволила моделям планировать и выполнять многошаговые задачи. RLVR стал обязательным этапом обучения.
4. MCP
Anthropic представила Model Context Protocol в ноябре 2024 года. Уже в мае 2025 OpenAI, Anthropic и Mistral добавили поддержку API всего за восемь дней. Это совпало с моментом, когда модели начали стабильно работать с внешними инструментами.
5. Vibe Coding: 110 инструментов за год
Термин, который предложил Андрей Карпатый: разработка, где фокус смещён с кода на результат. Willison запустил коллекцию небольших инструментов на HTML и JavaScript, созданных с помощью LLM. За год — 110 проектов, каждый с подробно зафиксированной историей запросов к модели.
6. Открытые модели вышли на новый уровень
Если 2024 год был годом Llama, то в 2025 конкуренция резко усилилась. DeepSeek, Qwen и Gemma 3 стали серьезными альтернативами. При этом Llama 4 разочаровала: модели на 109B и 400B параметров оказались слишком тяжёлыми для пользовательского оборудования. Зато появились компактные и эффективные vision модели вроде Qwen2.5 VL 3B, которые работают на обычном железе.
Полный обзор читайте на Simon Willison.
❤6👍2
Интерфейсы ИИ: от чата к среде
В декабре Google запустил Disco — экспериментальный браузер, в котором Gemini 3 анализирует открытые вкладки и собирает мини-приложения под текущую задачу. Пользователь не формулирует запрос явно. Модель сама извлекает контекст и предлагает решение.
Этот пример иллюстрирует общий тренд развития AI-интерфейса. Глобально его можно описать в три этапа:
▫️Синхронный чат с моделью. Основной паттерн взаимодействия: один запрос — один ответ. Этот период AI-интерфейсы прошли в 2023-2024 годах.
▫️Генерация артефактов прямо в интерфейсе: код с предпросмотром, документы, таблицы, визуализации. Примеры — Claude Artifacts, ChatGPT Canvas. Этап артефактов мы наблюдали в 2025 году.
▫️Интерфейс становится рабочей средой для агентов. Вместо формулирования запросов пользователь делегирует задачи. Агент сам планирует действия и использует инструменты. Эра, в которую AI выступает в 2026 году.
Для развития интерфейса созревает инфраструктура:
MCP — стандартный протокол подключения инструментов к LLM.
A2A — протокол взаимодействия агентов: обнаружение, делегирование и координация.
Меняется и паттерн проектирования. Вместо ручного проектирования интерфейса пользователь задает ограничения и правила внутри системы, которая генерирует его самостоятельно.
#александр_опрышко
В декабре Google запустил Disco — экспериментальный браузер, в котором Gemini 3 анализирует открытые вкладки и собирает мини-приложения под текущую задачу. Пользователь не формулирует запрос явно. Модель сама извлекает контекст и предлагает решение.
Этот пример иллюстрирует общий тренд развития AI-интерфейса. Глобально его можно описать в три этапа:
▫️Синхронный чат с моделью. Основной паттерн взаимодействия: один запрос — один ответ. Этот период AI-интерфейсы прошли в 2023-2024 годах.
▫️Генерация артефактов прямо в интерфейсе: код с предпросмотром, документы, таблицы, визуализации. Примеры — Claude Artifacts, ChatGPT Canvas. Этап артефактов мы наблюдали в 2025 году.
▫️Интерфейс становится рабочей средой для агентов. Вместо формулирования запросов пользователь делегирует задачи. Агент сам планирует действия и использует инструменты. Эра, в которую AI выступает в 2026 году.
Для развития интерфейса созревает инфраструктура:
MCP — стандартный протокол подключения инструментов к LLM.
A2A — протокол взаимодействия агентов: обнаружение, делегирование и координация.
Меняется и паттерн проектирования. Вместо ручного проектирования интерфейса пользователь задает ограничения и правила внутри системы, которая генерирует его самостоятельно.
#александр_опрышко
👍9