Оптимизация контекста в Claude Code (и не только)
При активном использовании клод кода начал часто втыкаться в лимиты сессии: 5ти часовые и недельные. Особенно остро это чувствуется на pro подписке, которой я пользуюсь. С Max x5 и Max x20 должно быть полегче, но не все готовы платить 100-200 долларов в месяц. Можно переключится на апи аккаунт и платить по мере использования. Я еще не пробовал, но думаю, там тоже набежит приличный счет. Надо будет потестить. Можно, кстати, комбинировать и переключаться с pro подписки на апи, пока лимиты не восстановятся.
Вообще, если нонстопом пользоваться клодом, то можно и Max оплатить, вложения окупятся. Но в любом случае, мы платим за какой-то объем обработанного контекста. Поэтому надо оптимизировать затраты.
Эта тема не на один пост, позже планирую записать подробное видео. Но давайте хотя бы в общих чертах разберемся, как можно сократить использования контекста, чтобы меньше платить и реже втыкаться в лимиты.
Что мы можем сделать?
Все сводится к том, что нам нужно снизить объем отправляемых данных нейронке.
Из очевидного:
- Писать четкие промпты и доки, без лишней информации
- В процессе одного чата регулярно выполнять команду
- Разбивать большие задачи на более мелкие и после выполнения каждой чистить контекст или открывать новый чат
Почему это важно? Допустим, вы сделали какую-то задачу и забили 50к токенов. Начинаете делать следующую в том же окне, и эти 50к токенов отправляются при каждом следующем запросе! Вот и считайте.
Поинтереснее:
- Отключать mcp, когда они не нужны. В новой версии клод кода (у меня v2.0.15) это можно сделать в меню команды
- Использовать больше субагентов. Это актуально для лимита контекста одного чата. Субагенты запускаются в отдельном контекстном окне, а значит не забивают контекст текущего чата. Конечно на 5ти часовые и недельные лимиты это не повлияет, но так мы можем дольше не чистить контекст чата
Гепотезы:
Это надо еще проверять, но все же..
- Инициализировать клод код командой
- Использовать Sequential Thinking MCP. Возможно, он возьмет на себя часть работы по размышлению и будет отдавать клод коду уже суммаризированую выжимку, сократив при этом нагрузку на контекст в клоде
Подробнее разберем все в видео, для которого я потихоньку собираю материал. Там еще плагины в клоде появились.. в общем есть, что разобрать.)
Если у вас есть, что добавить, поделитесь плиз в комментах или в чате канала @VibecodersChat, думаю, всем будет полезно.
@ValidatedVibe
При активном использовании клод кода начал часто втыкаться в лимиты сессии: 5ти часовые и недельные. Особенно остро это чувствуется на pro подписке, которой я пользуюсь. С Max x5 и Max x20 должно быть полегче, но не все готовы платить 100-200 долларов в месяц. Можно переключится на апи аккаунт и платить по мере использования. Я еще не пробовал, но думаю, там тоже набежит приличный счет. Надо будет потестить. Можно, кстати, комбинировать и переключаться с pro подписки на апи, пока лимиты не восстановятся.
Вообще, если нонстопом пользоваться клодом, то можно и Max оплатить, вложения окупятся. Но в любом случае, мы платим за какой-то объем обработанного контекста. Поэтому надо оптимизировать затраты.
Эта тема не на один пост, позже планирую записать подробное видео. Но давайте хотя бы в общих чертах разберемся, как можно сократить использования контекста, чтобы меньше платить и реже втыкаться в лимиты.
Что мы можем сделать?
Все сводится к том, что нам нужно снизить объем отправляемых данных нейронке.
Из очевидного:
- Писать четкие промпты и доки, без лишней информации
- В процессе одного чата регулярно выполнять команду
/compact для уменьшения используемого контекста- Разбивать большие задачи на более мелкие и после выполнения каждой чистить контекст или открывать новый чат
Почему это важно? Допустим, вы сделали какую-то задачу и забили 50к токенов. Начинаете делать следующую в том же окне, и эти 50к токенов отправляются при каждом следующем запросе! Вот и считайте.
Поинтереснее:
- Отключать mcp, когда они не нужны. В новой версии клод кода (у меня v2.0.15) это можно сделать в меню команды
/mcp , в настройках конкретного mcp. Вот это прям стоит делать! Например, у меня стоит глобально 3 mcp, и они занимают 20.7k токенов в новом чате! Во первых, это 10% от доступного контекстного окна. А во вторых, эти 20к токенов отправляются при каждом запросе, даже если mcp не используются- Использовать больше субагентов. Это актуально для лимита контекста одного чата. Субагенты запускаются в отдельном контекстном окне, а значит не забивают контекст текущего чата. Конечно на 5ти часовые и недельные лимиты это не повлияет, но так мы можем дольше не чистить контекст чата
Гепотезы:
Это надо еще проверять, но все же..
- Инициализировать клод код командой
/init и редактировать файл .CLAUDE.md в корне проекта. Если прописать туда основные пути, то клоду будет проще искать папки и файлы и он будет меньше тратить токенов на поиск- Использовать Sequential Thinking MCP. Возможно, он возьмет на себя часть работы по размышлению и будет отдавать клод коду уже суммаризированую выжимку, сократив при этом нагрузку на контекст в клоде
Подробнее разберем все в видео, для которого я потихоньку собираю материал. Там еще плагины в клоде появились.. в общем есть, что разобрать.)
Если у вас есть, что добавить, поделитесь плиз в комментах или в чате канала @VibecodersChat, думаю, всем будет полезно.
@ValidatedVibe
⚡11👨💻3
Пишем ТЗ для ИИ агентов – Воркшоп по документации
Начал серию видео по новому проекту, в которой будем с нуля вайбкодить SaaS. Этот сервис попроще, чем ValidatedVibe, его мы закончим быстрее и можно будет наглядно показать запуск проекта с нуля.
В этом видео показал то, что не вошло в видео про ValidatedVibe:
- Создание markdown доков с техническими требованиями
- Подробное описывае функционала сервиса для нейронки
- Создаем ASCII схемы страниц сервиса
Работаем в cursor + claude code
https://youtu.be/tOgS_TBMmgU
Начал серию видео по новому проекту, в которой будем с нуля вайбкодить SaaS. Этот сервис попроще, чем ValidatedVibe, его мы закончим быстрее и можно будет наглядно показать запуск проекта с нуля.
В этом видео показал то, что не вошло в видео про ValidatedVibe:
- Создание markdown доков с техническими требованиями
- Подробное описывае функционала сервиса для нейронки
- Создаем ASCII схемы страниц сервиса
Работаем в cursor + claude code
https://youtu.be/tOgS_TBMmgU
YouTube
Воркшоп по вайбкодингу SaaS – ТЗ для ИИ агентов
Разбираемся, как подготовить подробную подробную документацию для нейронки, чтобы ИИ агент быстро и качественно создал проект по нашему ТЗ.
Годный вайбкодинг в тг - https://t.me/ValidatedVibe
Вайбкодерский чат - https://t.me/VibecodersChat
Оптимизация контекста…
Годный вайбкодинг в тг - https://t.me/ValidatedVibe
Вайбкодерский чат - https://t.me/VibecodersChat
Оптимизация контекста…
⚡8👨💻2
Плагины в Claude Code
Записал разбор новой фичи.
С помощью плагинов можно объединять Custom Commands, SubAgents, MCP, Skills и Хуки в устанавливаемые пакеты.
Можно использовать плагины под каждое направление: интерфейс, бек, ресерч... И группой включать/отключать для каждой задачи.
Также плагинами легко можно делиться с другими разработчиками. Можно создать свой маркетплейс плагинов в гит репозитории, в видео это тоже есть
Ссылки из видео:
- Маркетплейс от Antropics - github.com/anthro..
- Красивый маркетплейс - aitmpl.com
- Маркетплейс 2 - github.com/wshobson/agents
- Мой маркетплейс из видео - github.com/Alexe..
- context7 mcp - context7.com
https://youtu.be/rtb-DTPFX58
Записал разбор новой фичи.
С помощью плагинов можно объединять Custom Commands, SubAgents, MCP, Skills и Хуки в устанавливаемые пакеты.
Можно использовать плагины под каждое направление: интерфейс, бек, ресерч... И группой включать/отключать для каждой задачи.
Также плагинами легко можно делиться с другими разработчиками. Можно создать свой маркетплейс плагинов в гит репозитории, в видео это тоже есть
Ссылки из видео:
- Маркетплейс от Antropics - github.com/anthro..
- Красивый маркетплейс - aitmpl.com
- Маркетплейс 2 - github.com/wshobson/agents
- Мой маркетплейс из видео - github.com/Alexe..
- context7 mcp - context7.com
https://youtu.be/rtb-DTPFX58
YouTube
Claude Code Plugins: Маркетплейсы, Установка, Создание Плагинов
В этом видео разбираем что такое плагины и маркетплейсы в Claude Code, зачем они нужны и как ими пользоваться.
Плагины - это новая функция в Сlaude Сode, которая позволяет объединять custom commands, subagents, MCP сервера и hooks в единые устанавливаемые…
Плагины - это новая функция в Сlaude Сode, которая позволяет объединять custom commands, subagents, MCP сервера и hooks в единые устанавливаемые…
1⚡9👨💻4
Как экономить на аккаунтах Cursor
И оплачивать из России
В настройках курсор аккаунта можно включать On-Demand Usage. После того, как лимиты тарифа закончаться, курсор будет списывать $ с баланса за использование. Курсор может списать где-то 20$ до того, как попросит что-то оплатить. Так сказать авансом.
Лайфхак заключается в следующем:
- Покупаем pro аккаунт
- Ставим возможность списания On-Demand Usage
- Испольуем все лимиты тарифа
- Используем 20$ On-Demand Usage
- Покупаем новый аккаунт, повторяем все сначала)
Аккаунты можно купить на ggsel и plati market. Там, кстати, куча способов оплаты: российские карты, крипта, карты usd/eur
Вот продавцы, которыми я неоднократно пользовался:
- https://ggsel.net/catalog/product/4758819
- https://ggsel.net/catalog/product/5027984
- https://plati.market/itm/cursor-ai-pro-business-ultra-podpiski-bystro/4758785
Новые аккаунты стоят ~2400р, это где-то 30$.
Используем курсор на 40$ => экономия 10$
@ValidatedVibe
И оплачивать из России
В настройках курсор аккаунта можно включать On-Demand Usage. После того, как лимиты тарифа закончаться, курсор будет списывать $ с баланса за использование. Курсор может списать где-то 20$ до того, как попросит что-то оплатить. Так сказать авансом.
Лайфхак заключается в следующем:
- Покупаем pro аккаунт
- Ставим возможность списания On-Demand Usage
- Испольуем все лимиты тарифа
- Используем 20$ On-Demand Usage
- Покупаем новый аккаунт, повторяем все сначала)
Аккаунты можно купить на ggsel и plati market. Там, кстати, куча способов оплаты: российские карты, крипта, карты usd/eur
Вот продавцы, которыми я неоднократно пользовался:
- https://ggsel.net/catalog/product/4758819
- https://ggsel.net/catalog/product/5027984
- https://plati.market/itm/cursor-ai-pro-business-ultra-podpiski-bystro/4758785
Новые аккаунты стоят ~2400р, это где-то 30$.
Используем курсор на 40$ => экономия 10$
@ValidatedVibe
⚡2👨💻2
Запускаем Python Django и NextJS
Продолжаем вайбкодим сервис для генерации дизайн стайлгайдов для ИИ агентов.
В этом видео переходим от документации к коду:
1. Генерируем Roadmap
2. Создаём структуру Python Django backend
3. Настраиваем Next.js frontend
4. Тестим регистрацию на беке
Работаем в Cursor + Claude Code
https://youtu.be/1eaZghVreMw
Продолжаем вайбкодим сервис для генерации дизайн стайлгайдов для ИИ агентов.
В этом видео переходим от документации к коду:
1. Генерируем Roadmap
2. Создаём структуру Python Django backend
3. Настраиваем Next.js frontend
4. Тестим регистрацию на беке
Работаем в Cursor + Claude Code
https://youtu.be/1eaZghVreMw
YouTube
Вайбкодинг SaaS – Запуск Python Django и NextJS с ИИ
В этом видео переходим от документации к реальному коду: генерируем Roadmap с помощью Claude Sonnet 4.5, создаём структуру Python Django backend с моделями БД и API endpoints, настраиваем Next.js frontend и запускаем первую аутентификацию. Показываю весь…
⚡6
Оптимизация контекста в Claude Code
(и не только)
Было много вопросов по этой теме. Проблема лимитов актуальна, особенно на pro подписках.
Cразу cкажу, что волшебной таблетки не нашел, работать на pro тарифе 24/7 не получается.
Но можно реже упираться в лимиты и меньше платить за API аккаунт.
В первую очередь надо понимать базу:
Как считаются лимиты, за что мы платим при использовании LLM. Я рассказал об этом в видео и собрал 13 советов, как снизить расходы использования.
Часть советов экспериментальные.
Некоторые из них мы обсуждали в чате. Решил их тоже включить в видео и поделиться своим опытом.
Ссылки из видео:
- MCP to Skills converter
- playwright-skill
- Маркетплейс aitmpl
- deepcontext-mcp
- Ollama официальный сайт
- Ollama mcp
Приятного просмотра!
https://youtu.be/IQyaJZw6wJ0
(и не только)
Было много вопросов по этой теме. Проблема лимитов актуальна, особенно на pro подписках.
Cразу cкажу, что волшебной таблетки не нашел, работать на pro тарифе 24/7 не получается.
Но можно реже упираться в лимиты и меньше платить за API аккаунт.
В первую очередь надо понимать базу:
Как считаются лимиты, за что мы платим при использовании LLM. Я рассказал об этом в видео и собрал 13 советов, как снизить расходы использования.
Часть советов экспериментальные.
Некоторые из них мы обсуждали в чате. Решил их тоже включить в видео и поделиться своим опытом.
Ссылки из видео:
- MCP to Skills converter
- playwright-skill
- Маркетплейс aitmpl
- deepcontext-mcp
- Ollama официальный сайт
- Ollama mcp
Приятного просмотра!
https://youtu.be/IQyaJZw6wJ0
YouTube
Оптимизация контекста в Claude Code: 13 способов снизить расходы и не упираться в лимиты
Погружаемся в Context Engineering. Разбираемся, как сократить расходы токенов, не упираться в лимиты и платить меньше за API. В этом видео я собрал 13 способов оптимизации контекста, которые помогут реже упираться в лимиты использования Claude Code и других…
Делаем UI и Авторизацию в Cursor AI
Продолжаем вайбкодить сервис для генерации дизайн стайлгайдов для ИИ агентов.
В этой части создаем интерфейсы:
- Авторизации
- Формы создания проекта
- Страницы проекта (стайл гайда)
https://youtu.be/8aPRXPi11uE
Продолжаем вайбкодить сервис для генерации дизайн стайлгайдов для ИИ агентов.
В этой части создаем интерфейсы:
- Авторизации
- Формы создания проекта
- Страницы проекта (стайл гайда)
https://youtu.be/8aPRXPi11uE
YouTube
Вайбкодим SaaS #3: Cursor AI билдит UI и Авторизацию на Next.js + Django за 45 минут
Продолжаем вайбкодить SaaS-сервис для генерации дизайн-систем в Cursor AI. В третьей части мы создаём фронтенд на Next.js, интегрируем его с Python Django Framework бэкендом. Настраиваем авторизацию, создаем форму создания проекта и страницу проекта. В этом…
Git для вайбкодеров
Если вы все еще не используете git в своих проектах, то это срочно нужно менять!
С его помощью можно не бояться, что нейронка удалит нужный код. Гит помогает гибко контролировать версии проекта и вы можете внедрять новые фичи не боясь, что сломается существующий функционал.
На самом деле git для опытных разработчиков это основа основ, его используют все. Но в вайбкодерском мире все по-другому и не все даже знают стек используемых технологий.. Так что решил записать это видео, как ликбез по работае с гитом в контексте вайбкодинга.
В создании видео я вошел в ритм 1 видео в неделю, с чередованием подготовленных гайдов и лайвкодинга. С ютубом меня этот ритм устраивает. Сейчас у меня цель дополнительно еще по текстовому посту в неделю писать.
Буду рад, если напишете пожелания по новым гайдам и темам, которые хотели бы разобрать)
https://youtu.be/pVR3RG7D0Fo
Если вы все еще не используете git в своих проектах, то это срочно нужно менять!
С его помощью можно не бояться, что нейронка удалит нужный код. Гит помогает гибко контролировать версии проекта и вы можете внедрять новые фичи не боясь, что сломается существующий функционал.
На самом деле git для опытных разработчиков это основа основ, его используют все. Но в вайбкодерском мире все по-другому и не все даже знают стек используемых технологий.. Так что решил записать это видео, как ликбез по работае с гитом в контексте вайбкодинга.
В создании видео я вошел в ритм 1 видео в неделю, с чередованием подготовленных гайдов и лайвкодинга. С ютубом меня этот ритм устраивает. Сейчас у меня цель дополнительно еще по текстовому посту в неделю писать.
Буду рад, если напишете пожелания по новым гайдам и темам, которые хотели бы разобрать)
https://youtu.be/pVR3RG7D0Fo
YouTube
Git для вайбкодинга – защити проект от AI-косяков
Git — это мастхев для вайбкодеров! С его помощью можно не бояться, что нейронка удалит нужный код. Гит помогает гибко контролировать версии проекта и вы можете вмнедрять новые фичи не боясь, что сломается существующий функционал.
В этом видео я показываю:…
В этом видео я показываю:…
Antigravity — новая IDE от Google
Гугл запилили свою agent-first платформу для разработки. И сейчас все модели бесплатны, включая Sonnet 4.5! Можно скачать как минимум ради халявы 😁
Что это вообще такое?
Гугл позиционируют Antigravity не просто как еще одну IDE с автокомплитом, а полноценную агентную платформу. В который ты архитектор, а ИИ агенты делают всю рутину за тебя.
Агенты получают прямой доступ к редактору, терминалу и браузеру. То есть они могут сами писать код, запускать команды, тестировать в браузере и верифицировать свою работу.
Вообще удобно, не надо никаких mcp устанавливать, только расширение в хром и то antigravity сам предложит это сделать при первом открытии браузера. И вот нейронка уже гуляет по нужным страницам, кликает, смотрит отображения. Это кайф.
С консолью тоже никаких проблем, но их и так не было в других инструментах.
Как оно работает?
Есть два режима работы:
- Editor View — привычный интерфейс IDE с агентами в сайдбаре
- Manager Surface — агент-first интерфейс, где ты управляешь несколькими агентами параллельно в разных воркспейсах. Похоже на то, что сделали в cursor 2 недавно.
Агенты создают Artifacts — артефакты своей работы: таск-листы, планы реализации, скриншоты, записи работы в браузере. То есть это не просто логи действий, а понятные для человека результаты, которые легко верифицировать.
Про модели
Платформа работает на Gemini 3 Pro, но можно юзать и другие модели:
- Claude Sonnet 4.5
- OpenAI GPT-OSS
И все это бесплатно в public preview! С щедрыми лимитами на Gemini 3 Pro. Лимиты обновляются каждые 5 часов.
Планы гугла
Гугл позиционирует Antigravity как "home base for software development in the era of agents". Их цель — сделать так, чтобы любой человек с идеей мог ее реализовать.
Они вложили $2.4 млрд в найм сотрудников из Windsurf и лицензию на использование технологий, так что амбиции серьезные.
Платформа построена на четырех принципах: trust (доверие), autonomy (автономность), feedback (обратная связь) и self-improvement (самообучение). Типа это не просто "ИИ который кодит", а система где ты можешь доверять результатам (видишь что происходит), агенты работают самостоятельно, ты можешь корректировать на лету, и они учатся на своем опыте.
Что по бенчмаркам?
Gemini 3 Pro показывает:
- 1487 Elo на WebDev Arena (топ лидерборда)
- 76.2% на SWE-bench Verified
- 54.2% на Terminal-Bench 2.0
Стоит ли пробовать?
Ну естественно! Когда дают бесплатный Sonnet 4.5, все сомнения отпадают) Плюс можно потестить новый Gemini 3 и сравнить с Claude Code и Cursor.
Доступно на macOS, Windows и Linux.
Так что тестим.
@ValidatedVibe
Гугл запилили свою agent-first платформу для разработки. И сейчас все модели бесплатны, включая Sonnet 4.5! Можно скачать как минимум ради халявы 😁
Что это вообще такое?
Гугл позиционируют Antigravity не просто как еще одну IDE с автокомплитом, а полноценную агентную платформу. В который ты архитектор, а ИИ агенты делают всю рутину за тебя.
Агенты получают прямой доступ к редактору, терминалу и браузеру. То есть они могут сами писать код, запускать команды, тестировать в браузере и верифицировать свою работу.
Вообще удобно, не надо никаких mcp устанавливать, только расширение в хром и то antigravity сам предложит это сделать при первом открытии браузера. И вот нейронка уже гуляет по нужным страницам, кликает, смотрит отображения. Это кайф.
С консолью тоже никаких проблем, но их и так не было в других инструментах.
Как оно работает?
Есть два режима работы:
- Editor View — привычный интерфейс IDE с агентами в сайдбаре
- Manager Surface — агент-first интерфейс, где ты управляешь несколькими агентами параллельно в разных воркспейсах. Похоже на то, что сделали в cursor 2 недавно.
Агенты создают Artifacts — артефакты своей работы: таск-листы, планы реализации, скриншоты, записи работы в браузере. То есть это не просто логи действий, а понятные для человека результаты, которые легко верифицировать.
Про модели
Платформа работает на Gemini 3 Pro, но можно юзать и другие модели:
- Claude Sonnet 4.5
- OpenAI GPT-OSS
И все это бесплатно в public preview! С щедрыми лимитами на Gemini 3 Pro. Лимиты обновляются каждые 5 часов.
Планы гугла
Гугл позиционирует Antigravity как "home base for software development in the era of agents". Их цель — сделать так, чтобы любой человек с идеей мог ее реализовать.
Они вложили $2.4 млрд в найм сотрудников из Windsurf и лицензию на использование технологий, так что амбиции серьезные.
Платформа построена на четырех принципах: trust (доверие), autonomy (автономность), feedback (обратная связь) и self-improvement (самообучение). Типа это не просто "ИИ который кодит", а система где ты можешь доверять результатам (видишь что происходит), агенты работают самостоятельно, ты можешь корректировать на лету, и они учатся на своем опыте.
Что по бенчмаркам?
Gemini 3 Pro показывает:
- 1487 Elo на WebDev Arena (топ лидерборда)
- 76.2% на SWE-bench Verified
- 54.2% на Terminal-Bench 2.0
Стоит ли пробовать?
Ну естественно! Когда дают бесплатный Sonnet 4.5, все сомнения отпадают) Плюс можно потестить новый Gemini 3 и сравнить с Claude Code и Cursor.
Доступно на macOS, Windows и Linux.
Так что тестим.
@ValidatedVibe
Верстка UI в curosr AI
Продолжаем вайбкодить SaaS для генерации дизайн стайлгайдов. В этой части дорабатываем UI страницы проекта, настраиваем Cursor Rules для лучшей работы с документацией, делаем сайдбар, форму и превьюшки изображений.
Вообще, это просто рядовой видос. Изначально я хотел записать полностью процесс от 0 до релиза.. Но сейчас думаю, что некоторые процессы можно пропустить. То есть как работать с UI по документации уже как бы и так понятно, примеров было много в других видосах. Так что рутину в будущем буду пропускать, чтобы меньше воды было в видео. Записывать буду какие-то интересные моменты разработки, а "покраску кнопок" буду пропускать.
Но если вы хотите отдохнуть и посмотреть что-то за едой или кружечкой чая, то это видео вполне подойдет)
https://youtu.be/2WBZQ_Dzoj8
Продолжаем вайбкодить SaaS для генерации дизайн стайлгайдов. В этой части дорабатываем UI страницы проекта, настраиваем Cursor Rules для лучшей работы с документацией, делаем сайдбар, форму и превьюшки изображений.
Вообще, это просто рядовой видос. Изначально я хотел записать полностью процесс от 0 до релиза.. Но сейчас думаю, что некоторые процессы можно пропустить. То есть как работать с UI по документации уже как бы и так понятно, примеров было много в других видосах. Так что рутину в будущем буду пропускать, чтобы меньше воды было в видео. Записывать буду какие-то интересные моменты разработки, а "покраску кнопок" буду пропускать.
Но если вы хотите отдохнуть и посмотреть что-то за едой или кружечкой чая, то это видео вполне подойдет)
https://youtu.be/2WBZQ_Dzoj8
YouTube
Вайбкодинг SaaS #4: Верстка страницы проекта, сайдбар
Продолжаем создавать SaaS для генерации дизайн стайлгайдов! В этой части дорабатываем UI страницы проекта с помощью Cursor AI. Настраиваем Cursor Rules для лучшей работы с документацией, улучшаем сайдбары, формы и превьюшки изображений.
Предыдущая часть…
Предыдущая часть…
Как работают бенчмарки для AI моделей и зачем их столько
Каждый раз когда выходит новая модель, везде мелькают цифры: MMLU 87%, HumanEval 92%, SWE-bench 71.7%. Но что это все значит и почему нельзя просто сказать "эта модель лучше"?
Что такое бенчмарк
Бенчмарк — это типа ЕГЭ для AI моделей. Набор задач с правильными ответами, где модель получает процент за то, сколько заданий решила верно. Только вместо одного теста их десятки, и каждый проверяет свою способность.
Основные типы бенчмарков
MMLU — это монстр из 15 000+ вопросов по 57 предметам: от математики до права. Проверяет общие знания модели. Раньше считался золотым стандартом, но сейчас топовые модели решают его на 85-90%, поэтому появились более сложные варианты.
HumanEval — 164 задачи по программированию с юнит-тестами. Модель должна написать код, который реально работает, а не просто выглядит правдоподобно. Claude Sonnet 4.5 и ChatGPT 5.1 тут показывает 95%+, что дикая цифра.
SWE-bench — вообще хардкор. 2294 реальных задачи с GitHub: баги, фичи, рефакторинг. Модель получает issue и должна запилить рабочий патч. В 2023 модели решали 4.4% задач, сейчас лучшие — 71.7%. Это уже серьезно.
Chatbot Arena — здесь все иначе. Живые люди сравнивают ответы двух анонимных моделей и голосуют за лучший. Уже собрано 5+ миллионов голосов. Используется система рейтингов как в шахматах (Elo). Самый близкий к реальности бенчмарк, но есть нюанс: люди часто голосуют за более длинные ответы с эмодзи, хотя они могут быть хуже по сути.
Почему их так много
Потому что одним тестом не измерить все способности модели:
- MMLU — общие знания
- GSM8K — математика школьного уровня
- MATH — сложная математика
- HumanEval — кодинг
- GPQA — вопросы уровня PhD
- MMMU — мультимодальные задачи
Это как мерить разработчика: знание алгоритмов, опыт работы с фреймворками, софт скиллы — нужно смотреть на все.
Проблема насыщения
В 2023 исследователи запилили новые сложные бенчмарки типа MMMU и GPQA. Спустя год модели улучшились на них на 18.8 и 48.9 процентных пунктов соответственно. Бенчмарки устаревают быстрее, чем их успевают нормально использовать.
Поэтому появились экстремально сложные тесты:
- FrontierMath — AI решает только 2% задач
- Humanity's Last Exam — топовые модели набирают меньше 10%
Реальность vs бенчмарки
Самая главная проблема: бенчмарки не отражают реальное использование. Анализ 4+ миллионов промптов показал, что люди используют AI для:
- Технической помощи (65%)
- Ревью работы (59%)
- Генерации контента (25%)
- Поиска информации (17%)
А бенчмарки проверяют абстрактные задачи типа олимпиадных задач по математике.
Что из этого следует
Не стоит зацикливаться на одной цифре. Если модель выигрывает на HumanEval, это не значит что она лучше для написания документации или дебага сложной архитектуры.
По моим ощущениям Claude Sonnet 4.5 лучше всего схватывает контекст и редко тупит, хотя на некоторых бенчмарках может быть не первым. Это мой фаворит, использую ее почти всегда)
> Лучший способ выбрать модель — протестить ее на своих реальных задачах
@ValidatedVibe
Каждый раз когда выходит новая модель, везде мелькают цифры: MMLU 87%, HumanEval 92%, SWE-bench 71.7%. Но что это все значит и почему нельзя просто сказать "эта модель лучше"?
Что такое бенчмарк
Бенчмарк — это типа ЕГЭ для AI моделей. Набор задач с правильными ответами, где модель получает процент за то, сколько заданий решила верно. Только вместо одного теста их десятки, и каждый проверяет свою способность.
Основные типы бенчмарков
MMLU — это монстр из 15 000+ вопросов по 57 предметам: от математики до права. Проверяет общие знания модели. Раньше считался золотым стандартом, но сейчас топовые модели решают его на 85-90%, поэтому появились более сложные варианты.
HumanEval — 164 задачи по программированию с юнит-тестами. Модель должна написать код, который реально работает, а не просто выглядит правдоподобно. Claude Sonnet 4.5 и ChatGPT 5.1 тут показывает 95%+, что дикая цифра.
SWE-bench — вообще хардкор. 2294 реальных задачи с GitHub: баги, фичи, рефакторинг. Модель получает issue и должна запилить рабочий патч. В 2023 модели решали 4.4% задач, сейчас лучшие — 71.7%. Это уже серьезно.
Chatbot Arena — здесь все иначе. Живые люди сравнивают ответы двух анонимных моделей и голосуют за лучший. Уже собрано 5+ миллионов голосов. Используется система рейтингов как в шахматах (Elo). Самый близкий к реальности бенчмарк, но есть нюанс: люди часто голосуют за более длинные ответы с эмодзи, хотя они могут быть хуже по сути.
Почему их так много
Потому что одним тестом не измерить все способности модели:
- MMLU — общие знания
- GSM8K — математика школьного уровня
- MATH — сложная математика
- HumanEval — кодинг
- GPQA — вопросы уровня PhD
- MMMU — мультимодальные задачи
Это как мерить разработчика: знание алгоритмов, опыт работы с фреймворками, софт скиллы — нужно смотреть на все.
Проблема насыщения
В 2023 исследователи запилили новые сложные бенчмарки типа MMMU и GPQA. Спустя год модели улучшились на них на 18.8 и 48.9 процентных пунктов соответственно. Бенчмарки устаревают быстрее, чем их успевают нормально использовать.
Поэтому появились экстремально сложные тесты:
- FrontierMath — AI решает только 2% задач
- Humanity's Last Exam — топовые модели набирают меньше 10%
Реальность vs бенчмарки
Самая главная проблема: бенчмарки не отражают реальное использование. Анализ 4+ миллионов промптов показал, что люди используют AI для:
- Технической помощи (65%)
- Ревью работы (59%)
- Генерации контента (25%)
- Поиска информации (17%)
А бенчмарки проверяют абстрактные задачи типа олимпиадных задач по математике.
Что из этого следует
Не стоит зацикливаться на одной цифре. Если модель выигрывает на HumanEval, это не значит что она лучше для написания документации или дебага сложной архитектуры.
По моим ощущениям Claude Sonnet 4.5 лучше всего схватывает контекст и редко тупит, хотя на некоторых бенчмарках может быть не первым. Это мой фаворит, использую ее почти всегда)
> Лучший способ выбрать модель — протестить ее на своих реальных задачах
@ValidatedVibe
👨💻4 3
Оплата нейронок из РФ
Периодически возникают вопросы про оплату подписок из России. Записал короткое видео, в котором показал, как можно оплатить подписки из РФ.
Я это делаю через 2 сервиса - plati market и ggsel. Это по маркетплейсы цифровых товаров, в которых можно купить аккаунты и оплатить подписки. Из способов оплаты есть российские карты, крипта, webmoney и еще много других.
Вот ссылки на продавцов и товары, которыми я пользовался:
Claude:
- https://gglead.org/go8348
- https://gglead.org/go8305
- https://plati.market/itm/claude-pro-max-5x-20x-claude-4-5-fast-full-warranty/5284146
- https://plati.market/itm/claude-ai-pro-max-code-anthropic-fast/4023986
Cursor:
- https://gglead.org/go8302
- https://gglead.org/go8301
- https://plati.market/itm/cursor-ai-pro-business-ultra-podpiski-bystro/4758785
Chat GPT:
- https://gglead.org/go8304
- https://plati.market/itm/24-7-chat-gpt-5-1-o3-o1-4o-5-plus-pro-no-login-fast/4339002
- https://plati.market/itm/24-7-chat-gpt-5-plus-pro-no-login-renewal/4339392
Claude API
- https://gglead.org/go8664
- https://plati.market/itm/claude-ai-api-quick-balance-refill-api-anthropic/4230219
Chat GPT API:
- https://plati.market/itm/chat-gpt-4-quick-replenishment-of-the-api-balance/4009421
Gmail:
- https://gglead.org/go8489
Видео с демонстрацией процесса оплаты:
- https://youtu.be/FcFvj92OK48
Периодически возникают вопросы про оплату подписок из России. Записал короткое видео, в котором показал, как можно оплатить подписки из РФ.
Я это делаю через 2 сервиса - plati market и ggsel. Это по маркетплейсы цифровых товаров, в которых можно купить аккаунты и оплатить подписки. Из способов оплаты есть российские карты, крипта, webmoney и еще много других.
Вот ссылки на продавцов и товары, которыми я пользовался:
Claude:
- https://gglead.org/go8348
- https://gglead.org/go8305
- https://plati.market/itm/claude-pro-max-5x-20x-claude-4-5-fast-full-warranty/5284146
- https://plati.market/itm/claude-ai-pro-max-code-anthropic-fast/4023986
Cursor:
- https://gglead.org/go8302
- https://gglead.org/go8301
- https://plati.market/itm/cursor-ai-pro-business-ultra-podpiski-bystro/4758785
Chat GPT:
- https://gglead.org/go8304
- https://plati.market/itm/24-7-chat-gpt-5-1-o3-o1-4o-5-plus-pro-no-login-fast/4339002
- https://plati.market/itm/24-7-chat-gpt-5-plus-pro-no-login-renewal/4339392
Claude API
- https://gglead.org/go8664
- https://plati.market/itm/claude-ai-api-quick-balance-refill-api-anthropic/4230219
Chat GPT API:
- https://plati.market/itm/chat-gpt-4-quick-replenishment-of-the-api-balance/4009421
Gmail:
- https://gglead.org/go8489
Видео с демонстрацией процесса оплаты:
- https://youtu.be/FcFvj92OK48
YouTube
Оплата подписок из РФ: Cursor, Claude, Chat GPT, Codex и другие
Показываю как оплатить подписки нейросетей из России. Все мы знаем, что оплата подписок зарубежных сервисов недоступна Российскими картами, а пользоваться ИИ хочется. Выход есть! В этом видео я покажу два маркетплейса цифровых товаров, в которых можно купить…
На днях мне попалась эта картинка, я с нее угарнул)
Но вообще она неплохо отражает подход, который мне нравится. Пофиг, что у тебя проект из кучи велосипедов, главное, что едет)
Несмотря на то, что я изначально из мира трушной разработки без нейронок, где за дублирование кода меня закидают всем, чем только можно... Мне всегда нравилась практичность.
Нейронки сейчас дают возможность завайбкодить проект людям, которые вообще не из IT. Предпринематели могут протестить нишу без больших вложений на разработку, специалисты из разных сфер вайбкодят проекты для своих нужд. А разработчики ускоряют процесс своей работы и делигируют рутину нейронкам.
На мой взгляд это круто)
Конечно, тут есть нюансы. Нейронка не возьмет на себя ответственность. И за безопасность отвечают люди. Вайбкодить программы для медицинских апаратов и запуска ракет в космос, без хорошего понимания разработки и предметной области, конечно, не стоит... Но это наверно и так понятно. Нейронки это инструмент. Молотком можно отбить палец, но и забить гвоздь тоже можно. Про бензопилу я вообще молчу) Так что руководствуемся здравым смыслом и используем инсрументы по назначению.
@ValidatedVibe
Но вообще она неплохо отражает подход, который мне нравится. Пофиг, что у тебя проект из кучи велосипедов, главное, что едет)
Несмотря на то, что я изначально из мира трушной разработки без нейронок, где за дублирование кода меня закидают всем, чем только можно... Мне всегда нравилась практичность.
Нейронки сейчас дают возможность завайбкодить проект людям, которые вообще не из IT. Предпринематели могут протестить нишу без больших вложений на разработку, специалисты из разных сфер вайбкодят проекты для своих нужд. А разработчики ускоряют процесс своей работы и делигируют рутину нейронкам.
На мой взгляд это круто)
Конечно, тут есть нюансы. Нейронка не возьмет на себя ответственность. И за безопасность отвечают люди. Вайбкодить программы для медицинских апаратов и запуска ракет в космос, без хорошего понимания разработки и предметной области, конечно, не стоит... Но это наверно и так понятно. Нейронки это инструмент. Молотком можно отбить палец, но и забить гвоздь тоже можно. Про бензопилу я вообще молчу) Так что руководствуемся здравым смыслом и используем инсрументы по назначению.
@ValidatedVibe
Подключаем Claude API к проекту
Продолжаем вайбкодить сервис для генерации дизайн стайлгайдов. В этом видео подключаем Claude API в проект с помощью anthropic SDK. Теперь стайлгайды генерируются на основе референсов через claude.
Приятного просмотра:
https://youtu.be/DvF6JzWeLWw
Продолжаем вайбкодить сервис для генерации дизайн стайлгайдов. В этом видео подключаем Claude API в проект с помощью anthropic SDK. Теперь стайлгайды генерируются на основе референсов через claude.
Приятного просмотра:
https://youtu.be/DvF6JzWeLWw
YouTube
Вайбкодинг SaaS #5: Интеграция Claude API за 42 минуты – от моков к реальной генерации
Продолжаем вайбкодить SaaS. В этом видео подключаем Claude API в проект для генерации стайлгайдов. До этого у нас были моковые данные, а теперь они генерируются на основе референсов.
За 42 минуты мы с Claude Code интегрируем Anthropic SDK, настраиваем API…
За 42 минуты мы с Claude Code интегрируем Anthropic SDK, настраиваем API…
Меня взломали!
Точнее мой облачный сервер. Есть предположения, как именно это это сделали, но точно я не знаю. В итоге пришлось капитулировать и создавать новый.
Вообще, тема безопасности крайне важна. И в аргументах против вайбкодинга часто упоминается безопасность, что вполне обосновано. Скажу честно, на этом сервере я не уделял этому должного внимания. Пароля 123 у меня, конечно, не было, но все же.
Ничего сверх важного у меня на сервере не крутилось, так что ситуяция мне кажется скорее занимательной и я не переживаю. Для меня это звоночек, что нужно разобраться поглубже в теме и относится к настройке сервера более ответственно.
Что еще могу сказать.. Ну во первых - делайте бекапы. Это меньшее, что вы можете сделать, но это вас спасет. Если код есть в гите, то базы данных и загруженные файлы без бекапов не восстановить.
А во вторых, считаю теперь своим долгом разобраться в теме и рассказать хотя бы какую-то базу, чтобы уберечь вас от подобных ситуаций.
Кстати, как у вас обстоят дела с публикацией (деплоем) своих сервсисов и приложений? Ну в плане как вы это делаете
Точнее мой облачный сервер. Есть предположения, как именно это это сделали, но точно я не знаю. В итоге пришлось капитулировать и создавать новый.
Вообще, тема безопасности крайне важна. И в аргументах против вайбкодинга часто упоминается безопасность, что вполне обосновано. Скажу честно, на этом сервере я не уделял этому должного внимания. Пароля 123 у меня, конечно, не было, но все же.
Ничего сверх важного у меня на сервере не крутилось, так что ситуяция мне кажется скорее занимательной и я не переживаю. Для меня это звоночек, что нужно разобраться поглубже в теме и относится к настройке сервера более ответственно.
Что еще могу сказать.. Ну во первых - делайте бекапы. Это меньшее, что вы можете сделать, но это вас спасет. Если код есть в гите, то базы данных и загруженные файлы без бекапов не восстановить.
А во вторых, считаю теперь своим долгом разобраться в теме и рассказать хотя бы какую-то базу, чтобы уберечь вас от подобных ситуаций.
Кстати, как у вас обстоят дела с публикацией (деплоем) своих сервсисов и приложений? Ну в плане как вы это делаете
👨💻14 4
ИИ-анализ веб-страниц с Playwright
Продолжаем вайбкодить сервис для генерации дизайн стайлгайдов. В этом видео настраиваем playwright для анализа веб страниц по url.
Изначально планировал использовать MCP Playwright сервер, но в процессе понял, что проще подключить библиотеку Playwright в python. Логика получилась аналогичная, как и со скриншотами, только теперь мы делаем скриншоты всей страницы автоматически по url.
Приятного просмотра:
https://youtu.be/5b5heZXeTW8
Продолжаем вайбкодить сервис для генерации дизайн стайлгайдов. В этом видео настраиваем playwright для анализа веб страниц по url.
Изначально планировал использовать MCP Playwright сервер, но в процессе понял, что проще подключить библиотеку Playwright в python. Логика получилась аналогичная, как и со скриншотами, только теперь мы делаем скриншоты всей страницы автоматически по url.
Приятного просмотра:
https://youtu.be/5b5heZXeTW8
YouTube
Вайбкодинг SaaS #6 - ИИ-анализ веб-страниц с Playwright за 37 минут
Продолжаем вайбкодить SaaS для генерации стайлгайдов. В этом видео добавляем анал сайтов по url с помощью playwright. Изначально планировал использовать MCP Playwright сервер, но в процессе понял, что проще и эффективнее подключить библиотеку Playwright в…