Потестил Sonnet 4.5
Заодно попробовал Claude Code 2 и запилил json formatter за час: jsonformat.3aweb.org
Как оно?
- По ощущениям действительно стал быстрее
- За все время была одна небольшая ошибка после инициализации, но он быстро ее исправил
- 30 часов автономной работы еще не проверял, но в процессе ничего не вылетало)
- Мне показалось, что Sonnet 4.5 лучше работает с архитектурой и визуалом
По архитектуре он сам разбил компоненты на файлы и папки, да и вообще написал нормальный код. С учетом, что у меня не было заготовленно никаких правил в проекте и мастер промптов, это круто. Да и сам промпт на создание проекта с нуля был максимально простой.
В режиме планирования я попросил его сделать современный дизайн, спросил какой стиль лучше подойдет. Никаких референсов. То, что получилось, я по стилистике никак не правил, а получилось вполне неплохо. Раньше у меня даже с референсами результат не всегда был хорошим.
В общем годнота!
@ValidatedVibe
Заодно попробовал Claude Code 2 и запилил json formatter за час: jsonformat.3aweb.org
Как оно?
- По ощущениям действительно стал быстрее
- За все время была одна небольшая ошибка после инициализации, но он быстро ее исправил
- 30 часов автономной работы еще не проверял, но в процессе ничего не вылетало)
- Мне показалось, что Sonnet 4.5 лучше работает с архитектурой и визуалом
По архитектуре он сам разбил компоненты на файлы и папки, да и вообще написал нормальный код. С учетом, что у меня не было заготовленно никаких правил в проекте и мастер промптов, это круто. Да и сам промпт на создание проекта с нуля был максимально простой.
В режиме планирования я попросил его сделать современный дизайн, спросил какой стиль лучше подойдет. Никаких референсов. То, что получилось, я по стилистике никак не правил, а получилось вполне неплохо. Раньше у меня даже с референсами результат не всегда был хорошим.
В общем годнота!
@ValidatedVibe
1⚡7👨💻3
Claude Code 2: Полный гайд с нуля
Записал подробный урок по использованию Claude Code.
Начинаем с установки и заканчиваем созданием SaaS проекта.
Кроме базовой базы разбираем настройку:
- Sub-Агентов,
- MCP серверов,
- И кастомых команд
В этом видео подключаем Context7 и Playwright mcp, создаем Sub-Агентов и кастомные команды. Все это используем и закрепляем на практике в этом же видео!
Содержание получилось плотным! Рекомендую к просмотру: youtu.be/rwnlQqCJvYM
@ValidatedVibe
Записал подробный урок по использованию Claude Code.
Начинаем с установки и заканчиваем созданием SaaS проекта.
Кроме базовой базы разбираем настройку:
- Sub-Агентов,
- MCP серверов,
- И кастомых команд
В этом видео подключаем Context7 и Playwright mcp, создаем Sub-Агентов и кастомные команды. Все это используем и закрепляем на практике в этом же видео!
Содержание получилось плотным! Рекомендую к просмотру: youtu.be/rwnlQqCJvYM
@ValidatedVibe
YouTube
Полный гайд Claude Code: С Нуля до SaaS | MCP, Sub-Агенты, Custom Commands
Все, что нужно знать о Claude Code, чтобы использовать на максималках! Полный урок от установки до создания проекта. В этом видео мы работаем в Claude Code 2 версии.
Сервис залить еще не успел, напишу в тг канал как сделаю:
Годный Вайбкодинг в ТГ - http…
Сервис залить еще не успел, напишу в тг канал как сделаю:
Годный Вайбкодинг в ТГ - http…
10⚡11👨💻4
В Cursor появился Plan Mode
В этом режиме курсор сначала задает вопросы по задаче и составляет план действий. После того как мы аппрувим план, курсор начинает его выполнять.
В общем аналогичный режим, как в Claude Code. Работает на всех моделях, не только с клодом.
Немного потестил, в режиме планирования у меня не работают mcp. При переключении в режим агента все ок. А так для больших задач удобно.
Чтобы спланировать задачу с использованием mcp, можно в режиме агента, написать "давай спланируем ... ", по сути будет +- тоже самое. Можно сделать план в файле, сказав об этом в чате нейронке.
https://cursor.com/blog/plan-mode
В этом режиме курсор сначала задает вопросы по задаче и составляет план действий. После того как мы аппрувим план, курсор начинает его выполнять.
В общем аналогичный режим, как в Claude Code. Работает на всех моделях, не только с клодом.
Немного потестил, в режиме планирования у меня не работают mcp. При переключении в режим агента все ок. А так для больших задач удобно.
Чтобы спланировать задачу с использованием mcp, можно в режиме агента, написать "давай спланируем ... ", по сути будет +- тоже самое. Можно сделать план в файле, сказав об этом в чате нейронке.
https://cursor.com/blog/plan-mode
Cursor
Introducing Plan Mode · Cursor
Cursor can now create plans, research your codebase, and run agents for significantly longer.
👨💻7⚡4
Что вас больше интересует?
Нас тут уже 150 человек собралось, это прям вау! Хочу понять ваши интересы, чтобы давать больше пользы. Еще я включил комменты, вроде как они должны появится у новых постов. Можно в них написать свой вариант
Нас тут уже 150 человек собралось, это прям вау! Хочу понять ваши интересы, чтобы давать больше пользы. Еще я включил комменты, вроде как они должны появится у новых постов. Можно в них написать свой вариант
Anonymous Poll
54%
Разборы и уроки по AI инструментам
67%
Процесс вайбкодинга реальных проектов
44%
Подборки ресурсов для вайбкодинга (типа готовых промптов, агентов)
15%
Инфа про обновления, новости
⚡3
Оптимизация контекста в Claude Code (и не только)
При активном использовании клод кода начал часто втыкаться в лимиты сессии: 5ти часовые и недельные. Особенно остро это чувствуется на pro подписке, которой я пользуюсь. С Max x5 и Max x20 должно быть полегче, но не все готовы платить 100-200 долларов в месяц. Можно переключится на апи аккаунт и платить по мере использования. Я еще не пробовал, но думаю, там тоже набежит приличный счет. Надо будет потестить. Можно, кстати, комбинировать и переключаться с pro подписки на апи, пока лимиты не восстановятся.
Вообще, если нонстопом пользоваться клодом, то можно и Max оплатить, вложения окупятся. Но в любом случае, мы платим за какой-то объем обработанного контекста. Поэтому надо оптимизировать затраты.
Эта тема не на один пост, позже планирую записать подробное видео. Но давайте хотя бы в общих чертах разберемся, как можно сократить использования контекста, чтобы меньше платить и реже втыкаться в лимиты.
Что мы можем сделать?
Все сводится к том, что нам нужно снизить объем отправляемых данных нейронке.
Из очевидного:
- Писать четкие промпты и доки, без лишней информации
- В процессе одного чата регулярно выполнять команду
- Разбивать большие задачи на более мелкие и после выполнения каждой чистить контекст или открывать новый чат
Почему это важно? Допустим, вы сделали какую-то задачу и забили 50к токенов. Начинаете делать следующую в том же окне, и эти 50к токенов отправляются при каждом следующем запросе! Вот и считайте.
Поинтереснее:
- Отключать mcp, когда они не нужны. В новой версии клод кода (у меня v2.0.15) это можно сделать в меню команды
- Использовать больше субагентов. Это актуально для лимита контекста одного чата. Субагенты запускаются в отдельном контекстном окне, а значит не забивают контекст текущего чата. Конечно на 5ти часовые и недельные лимиты это не повлияет, но так мы можем дольше не чистить контекст чата
Гепотезы:
Это надо еще проверять, но все же..
- Инициализировать клод код командой
- Использовать Sequential Thinking MCP. Возможно, он возьмет на себя часть работы по размышлению и будет отдавать клод коду уже суммаризированую выжимку, сократив при этом нагрузку на контекст в клоде
Подробнее разберем все в видео, для которого я потихоньку собираю материал. Там еще плагины в клоде появились.. в общем есть, что разобрать.)
Если у вас есть, что добавить, поделитесь плиз в комментах или в чате канала @VibecodersChat, думаю, всем будет полезно.
@ValidatedVibe
При активном использовании клод кода начал часто втыкаться в лимиты сессии: 5ти часовые и недельные. Особенно остро это чувствуется на pro подписке, которой я пользуюсь. С Max x5 и Max x20 должно быть полегче, но не все готовы платить 100-200 долларов в месяц. Можно переключится на апи аккаунт и платить по мере использования. Я еще не пробовал, но думаю, там тоже набежит приличный счет. Надо будет потестить. Можно, кстати, комбинировать и переключаться с pro подписки на апи, пока лимиты не восстановятся.
Вообще, если нонстопом пользоваться клодом, то можно и Max оплатить, вложения окупятся. Но в любом случае, мы платим за какой-то объем обработанного контекста. Поэтому надо оптимизировать затраты.
Эта тема не на один пост, позже планирую записать подробное видео. Но давайте хотя бы в общих чертах разберемся, как можно сократить использования контекста, чтобы меньше платить и реже втыкаться в лимиты.
Что мы можем сделать?
Все сводится к том, что нам нужно снизить объем отправляемых данных нейронке.
Из очевидного:
- Писать четкие промпты и доки, без лишней информации
- В процессе одного чата регулярно выполнять команду
/compact для уменьшения используемого контекста- Разбивать большие задачи на более мелкие и после выполнения каждой чистить контекст или открывать новый чат
Почему это важно? Допустим, вы сделали какую-то задачу и забили 50к токенов. Начинаете делать следующую в том же окне, и эти 50к токенов отправляются при каждом следующем запросе! Вот и считайте.
Поинтереснее:
- Отключать mcp, когда они не нужны. В новой версии клод кода (у меня v2.0.15) это можно сделать в меню команды
/mcp , в настройках конкретного mcp. Вот это прям стоит делать! Например, у меня стоит глобально 3 mcp, и они занимают 20.7k токенов в новом чате! Во первых, это 10% от доступного контекстного окна. А во вторых, эти 20к токенов отправляются при каждом запросе, даже если mcp не используются- Использовать больше субагентов. Это актуально для лимита контекста одного чата. Субагенты запускаются в отдельном контекстном окне, а значит не забивают контекст текущего чата. Конечно на 5ти часовые и недельные лимиты это не повлияет, но так мы можем дольше не чистить контекст чата
Гепотезы:
Это надо еще проверять, но все же..
- Инициализировать клод код командой
/init и редактировать файл .CLAUDE.md в корне проекта. Если прописать туда основные пути, то клоду будет проще искать папки и файлы и он будет меньше тратить токенов на поиск- Использовать Sequential Thinking MCP. Возможно, он возьмет на себя часть работы по размышлению и будет отдавать клод коду уже суммаризированую выжимку, сократив при этом нагрузку на контекст в клоде
Подробнее разберем все в видео, для которого я потихоньку собираю материал. Там еще плагины в клоде появились.. в общем есть, что разобрать.)
Если у вас есть, что добавить, поделитесь плиз в комментах или в чате канала @VibecodersChat, думаю, всем будет полезно.
@ValidatedVibe
⚡11👨💻3
Пишем ТЗ для ИИ агентов – Воркшоп по документации
Начал серию видео по новому проекту, в которой будем с нуля вайбкодить SaaS. Этот сервис попроще, чем ValidatedVibe, его мы закончим быстрее и можно будет наглядно показать запуск проекта с нуля.
В этом видео показал то, что не вошло в видео про ValidatedVibe:
- Создание markdown доков с техническими требованиями
- Подробное описывае функционала сервиса для нейронки
- Создаем ASCII схемы страниц сервиса
Работаем в cursor + claude code
https://youtu.be/tOgS_TBMmgU
Начал серию видео по новому проекту, в которой будем с нуля вайбкодить SaaS. Этот сервис попроще, чем ValidatedVibe, его мы закончим быстрее и можно будет наглядно показать запуск проекта с нуля.
В этом видео показал то, что не вошло в видео про ValidatedVibe:
- Создание markdown доков с техническими требованиями
- Подробное описывае функционала сервиса для нейронки
- Создаем ASCII схемы страниц сервиса
Работаем в cursor + claude code
https://youtu.be/tOgS_TBMmgU
YouTube
Воркшоп по вайбкодингу SaaS – ТЗ для ИИ агентов
Разбираемся, как подготовить подробную подробную документацию для нейронки, чтобы ИИ агент быстро и качественно создал проект по нашему ТЗ.
Годный вайбкодинг в тг - https://t.me/ValidatedVibe
Вайбкодерский чат - https://t.me/VibecodersChat
Оптимизация контекста…
Годный вайбкодинг в тг - https://t.me/ValidatedVibe
Вайбкодерский чат - https://t.me/VibecodersChat
Оптимизация контекста…
⚡8👨💻2
Плагины в Claude Code
Записал разбор новой фичи.
С помощью плагинов можно объединять Custom Commands, SubAgents, MCP, Skills и Хуки в устанавливаемые пакеты.
Можно использовать плагины под каждое направление: интерфейс, бек, ресерч... И группой включать/отключать для каждой задачи.
Также плагинами легко можно делиться с другими разработчиками. Можно создать свой маркетплейс плагинов в гит репозитории, в видео это тоже есть
Ссылки из видео:
- Маркетплейс от Antropics - github.com/anthro..
- Красивый маркетплейс - aitmpl.com
- Маркетплейс 2 - github.com/wshobson/agents
- Мой маркетплейс из видео - github.com/Alexe..
- context7 mcp - context7.com
https://youtu.be/rtb-DTPFX58
Записал разбор новой фичи.
С помощью плагинов можно объединять Custom Commands, SubAgents, MCP, Skills и Хуки в устанавливаемые пакеты.
Можно использовать плагины под каждое направление: интерфейс, бек, ресерч... И группой включать/отключать для каждой задачи.
Также плагинами легко можно делиться с другими разработчиками. Можно создать свой маркетплейс плагинов в гит репозитории, в видео это тоже есть
Ссылки из видео:
- Маркетплейс от Antropics - github.com/anthro..
- Красивый маркетплейс - aitmpl.com
- Маркетплейс 2 - github.com/wshobson/agents
- Мой маркетплейс из видео - github.com/Alexe..
- context7 mcp - context7.com
https://youtu.be/rtb-DTPFX58
YouTube
Claude Code Plugins: Маркетплейсы, Установка, Создание Плагинов
В этом видео разбираем что такое плагины и маркетплейсы в Claude Code, зачем они нужны и как ими пользоваться.
Плагины - это новая функция в Сlaude Сode, которая позволяет объединять custom commands, subagents, MCP сервера и hooks в единые устанавливаемые…
Плагины - это новая функция в Сlaude Сode, которая позволяет объединять custom commands, subagents, MCP сервера и hooks в единые устанавливаемые…
1⚡9👨💻4
Как экономить на аккаунтах Cursor
И оплачивать из России
В настройках курсор аккаунта можно включать On-Demand Usage. После того, как лимиты тарифа закончаться, курсор будет списывать $ с баланса за использование. Курсор может списать где-то 20$ до того, как попросит что-то оплатить. Так сказать авансом.
Лайфхак заключается в следующем:
- Покупаем pro аккаунт
- Ставим возможность списания On-Demand Usage
- Испольуем все лимиты тарифа
- Используем 20$ On-Demand Usage
- Покупаем новый аккаунт, повторяем все сначала)
Аккаунты можно купить на ggsel и plati market. Там, кстати, куча способов оплаты: российские карты, крипта, карты usd/eur
Вот продавцы, которыми я неоднократно пользовался:
- https://ggsel.net/catalog/product/4758819
- https://ggsel.net/catalog/product/5027984
- https://plati.market/itm/cursor-ai-pro-business-ultra-podpiski-bystro/4758785
Новые аккаунты стоят ~2400р, это где-то 30$.
Используем курсор на 40$ => экономия 10$
@ValidatedVibe
И оплачивать из России
В настройках курсор аккаунта можно включать On-Demand Usage. После того, как лимиты тарифа закончаться, курсор будет списывать $ с баланса за использование. Курсор может списать где-то 20$ до того, как попросит что-то оплатить. Так сказать авансом.
Лайфхак заключается в следующем:
- Покупаем pro аккаунт
- Ставим возможность списания On-Demand Usage
- Испольуем все лимиты тарифа
- Используем 20$ On-Demand Usage
- Покупаем новый аккаунт, повторяем все сначала)
Аккаунты можно купить на ggsel и plati market. Там, кстати, куча способов оплаты: российские карты, крипта, карты usd/eur
Вот продавцы, которыми я неоднократно пользовался:
- https://ggsel.net/catalog/product/4758819
- https://ggsel.net/catalog/product/5027984
- https://plati.market/itm/cursor-ai-pro-business-ultra-podpiski-bystro/4758785
Новые аккаунты стоят ~2400р, это где-то 30$.
Используем курсор на 40$ => экономия 10$
@ValidatedVibe
⚡2👨💻2
Запускаем Python Django и NextJS
Продолжаем вайбкодим сервис для генерации дизайн стайлгайдов для ИИ агентов.
В этом видео переходим от документации к коду:
1. Генерируем Roadmap
2. Создаём структуру Python Django backend
3. Настраиваем Next.js frontend
4. Тестим регистрацию на беке
Работаем в Cursor + Claude Code
https://youtu.be/1eaZghVreMw
Продолжаем вайбкодим сервис для генерации дизайн стайлгайдов для ИИ агентов.
В этом видео переходим от документации к коду:
1. Генерируем Roadmap
2. Создаём структуру Python Django backend
3. Настраиваем Next.js frontend
4. Тестим регистрацию на беке
Работаем в Cursor + Claude Code
https://youtu.be/1eaZghVreMw
YouTube
Вайбкодинг SaaS – Запуск Python Django и NextJS с ИИ
В этом видео переходим от документации к реальному коду: генерируем Roadmap с помощью Claude Sonnet 4.5, создаём структуру Python Django backend с моделями БД и API endpoints, настраиваем Next.js frontend и запускаем первую аутентификацию. Показываю весь…
⚡6
Оптимизация контекста в Claude Code
(и не только)
Было много вопросов по этой теме. Проблема лимитов актуальна, особенно на pro подписках.
Cразу cкажу, что волшебной таблетки не нашел, работать на pro тарифе 24/7 не получается.
Но можно реже упираться в лимиты и меньше платить за API аккаунт.
В первую очередь надо понимать базу:
Как считаются лимиты, за что мы платим при использовании LLM. Я рассказал об этом в видео и собрал 13 советов, как снизить расходы использования.
Часть советов экспериментальные.
Некоторые из них мы обсуждали в чате. Решил их тоже включить в видео и поделиться своим опытом.
Ссылки из видео:
- MCP to Skills converter
- playwright-skill
- Маркетплейс aitmpl
- deepcontext-mcp
- Ollama официальный сайт
- Ollama mcp
Приятного просмотра!
https://youtu.be/IQyaJZw6wJ0
(и не только)
Было много вопросов по этой теме. Проблема лимитов актуальна, особенно на pro подписках.
Cразу cкажу, что волшебной таблетки не нашел, работать на pro тарифе 24/7 не получается.
Но можно реже упираться в лимиты и меньше платить за API аккаунт.
В первую очередь надо понимать базу:
Как считаются лимиты, за что мы платим при использовании LLM. Я рассказал об этом в видео и собрал 13 советов, как снизить расходы использования.
Часть советов экспериментальные.
Некоторые из них мы обсуждали в чате. Решил их тоже включить в видео и поделиться своим опытом.
Ссылки из видео:
- MCP to Skills converter
- playwright-skill
- Маркетплейс aitmpl
- deepcontext-mcp
- Ollama официальный сайт
- Ollama mcp
Приятного просмотра!
https://youtu.be/IQyaJZw6wJ0
YouTube
Оптимизация контекста в Claude Code: 13 способов снизить расходы и не упираться в лимиты
Погружаемся в Context Engineering. Разбираемся, как сократить расходы токенов, не упираться в лимиты и платить меньше за API. В этом видео я собрал 13 способов оптимизации контекста, которые помогут реже упираться в лимиты использования Claude Code и других…
Делаем UI и Авторизацию в Cursor AI
Продолжаем вайбкодить сервис для генерации дизайн стайлгайдов для ИИ агентов.
В этой части создаем интерфейсы:
- Авторизации
- Формы создания проекта
- Страницы проекта (стайл гайда)
https://youtu.be/8aPRXPi11uE
Продолжаем вайбкодить сервис для генерации дизайн стайлгайдов для ИИ агентов.
В этой части создаем интерфейсы:
- Авторизации
- Формы создания проекта
- Страницы проекта (стайл гайда)
https://youtu.be/8aPRXPi11uE
YouTube
Вайбкодим SaaS #3: Cursor AI билдит UI и Авторизацию на Next.js + Django за 45 минут
Продолжаем вайбкодить SaaS-сервис для генерации дизайн-систем в Cursor AI. В третьей части мы создаём фронтенд на Next.js, интегрируем его с Python Django Framework бэкендом. Настраиваем авторизацию, создаем форму создания проекта и страницу проекта. В этом…
Git для вайбкодеров
Если вы все еще не используете git в своих проектах, то это срочно нужно менять!
С его помощью можно не бояться, что нейронка удалит нужный код. Гит помогает гибко контролировать версии проекта и вы можете внедрять новые фичи не боясь, что сломается существующий функционал.
На самом деле git для опытных разработчиков это основа основ, его используют все. Но в вайбкодерском мире все по-другому и не все даже знают стек используемых технологий.. Так что решил записать это видео, как ликбез по работае с гитом в контексте вайбкодинга.
В создании видео я вошел в ритм 1 видео в неделю, с чередованием подготовленных гайдов и лайвкодинга. С ютубом меня этот ритм устраивает. Сейчас у меня цель дополнительно еще по текстовому посту в неделю писать.
Буду рад, если напишете пожелания по новым гайдам и темам, которые хотели бы разобрать)
https://youtu.be/pVR3RG7D0Fo
Если вы все еще не используете git в своих проектах, то это срочно нужно менять!
С его помощью можно не бояться, что нейронка удалит нужный код. Гит помогает гибко контролировать версии проекта и вы можете внедрять новые фичи не боясь, что сломается существующий функционал.
На самом деле git для опытных разработчиков это основа основ, его используют все. Но в вайбкодерском мире все по-другому и не все даже знают стек используемых технологий.. Так что решил записать это видео, как ликбез по работае с гитом в контексте вайбкодинга.
В создании видео я вошел в ритм 1 видео в неделю, с чередованием подготовленных гайдов и лайвкодинга. С ютубом меня этот ритм устраивает. Сейчас у меня цель дополнительно еще по текстовому посту в неделю писать.
Буду рад, если напишете пожелания по новым гайдам и темам, которые хотели бы разобрать)
https://youtu.be/pVR3RG7D0Fo
YouTube
Git для вайбкодинга – защити проект от AI-косяков
Git — это мастхев для вайбкодеров! С его помощью можно не бояться, что нейронка удалит нужный код. Гит помогает гибко контролировать версии проекта и вы можете вмнедрять новые фичи не боясь, что сломается существующий функционал.
В этом видео я показываю:…
В этом видео я показываю:…
Antigravity — новая IDE от Google
Гугл запилили свою agent-first платформу для разработки. И сейчас все модели бесплатны, включая Sonnet 4.5! Можно скачать как минимум ради халявы 😁
Что это вообще такое?
Гугл позиционируют Antigravity не просто как еще одну IDE с автокомплитом, а полноценную агентную платформу. В который ты архитектор, а ИИ агенты делают всю рутину за тебя.
Агенты получают прямой доступ к редактору, терминалу и браузеру. То есть они могут сами писать код, запускать команды, тестировать в браузере и верифицировать свою работу.
Вообще удобно, не надо никаких mcp устанавливать, только расширение в хром и то antigravity сам предложит это сделать при первом открытии браузера. И вот нейронка уже гуляет по нужным страницам, кликает, смотрит отображения. Это кайф.
С консолью тоже никаких проблем, но их и так не было в других инструментах.
Как оно работает?
Есть два режима работы:
- Editor View — привычный интерфейс IDE с агентами в сайдбаре
- Manager Surface — агент-first интерфейс, где ты управляешь несколькими агентами параллельно в разных воркспейсах. Похоже на то, что сделали в cursor 2 недавно.
Агенты создают Artifacts — артефакты своей работы: таск-листы, планы реализации, скриншоты, записи работы в браузере. То есть это не просто логи действий, а понятные для человека результаты, которые легко верифицировать.
Про модели
Платформа работает на Gemini 3 Pro, но можно юзать и другие модели:
- Claude Sonnet 4.5
- OpenAI GPT-OSS
И все это бесплатно в public preview! С щедрыми лимитами на Gemini 3 Pro. Лимиты обновляются каждые 5 часов.
Планы гугла
Гугл позиционирует Antigravity как "home base for software development in the era of agents". Их цель — сделать так, чтобы любой человек с идеей мог ее реализовать.
Они вложили $2.4 млрд в найм сотрудников из Windsurf и лицензию на использование технологий, так что амбиции серьезные.
Платформа построена на четырех принципах: trust (доверие), autonomy (автономность), feedback (обратная связь) и self-improvement (самообучение). Типа это не просто "ИИ который кодит", а система где ты можешь доверять результатам (видишь что происходит), агенты работают самостоятельно, ты можешь корректировать на лету, и они учатся на своем опыте.
Что по бенчмаркам?
Gemini 3 Pro показывает:
- 1487 Elo на WebDev Arena (топ лидерборда)
- 76.2% на SWE-bench Verified
- 54.2% на Terminal-Bench 2.0
Стоит ли пробовать?
Ну естественно! Когда дают бесплатный Sonnet 4.5, все сомнения отпадают) Плюс можно потестить новый Gemini 3 и сравнить с Claude Code и Cursor.
Доступно на macOS, Windows и Linux.
Так что тестим.
@ValidatedVibe
Гугл запилили свою agent-first платформу для разработки. И сейчас все модели бесплатны, включая Sonnet 4.5! Можно скачать как минимум ради халявы 😁
Что это вообще такое?
Гугл позиционируют Antigravity не просто как еще одну IDE с автокомплитом, а полноценную агентную платформу. В который ты архитектор, а ИИ агенты делают всю рутину за тебя.
Агенты получают прямой доступ к редактору, терминалу и браузеру. То есть они могут сами писать код, запускать команды, тестировать в браузере и верифицировать свою работу.
Вообще удобно, не надо никаких mcp устанавливать, только расширение в хром и то antigravity сам предложит это сделать при первом открытии браузера. И вот нейронка уже гуляет по нужным страницам, кликает, смотрит отображения. Это кайф.
С консолью тоже никаких проблем, но их и так не было в других инструментах.
Как оно работает?
Есть два режима работы:
- Editor View — привычный интерфейс IDE с агентами в сайдбаре
- Manager Surface — агент-first интерфейс, где ты управляешь несколькими агентами параллельно в разных воркспейсах. Похоже на то, что сделали в cursor 2 недавно.
Агенты создают Artifacts — артефакты своей работы: таск-листы, планы реализации, скриншоты, записи работы в браузере. То есть это не просто логи действий, а понятные для человека результаты, которые легко верифицировать.
Про модели
Платформа работает на Gemini 3 Pro, но можно юзать и другие модели:
- Claude Sonnet 4.5
- OpenAI GPT-OSS
И все это бесплатно в public preview! С щедрыми лимитами на Gemini 3 Pro. Лимиты обновляются каждые 5 часов.
Планы гугла
Гугл позиционирует Antigravity как "home base for software development in the era of agents". Их цель — сделать так, чтобы любой человек с идеей мог ее реализовать.
Они вложили $2.4 млрд в найм сотрудников из Windsurf и лицензию на использование технологий, так что амбиции серьезные.
Платформа построена на четырех принципах: trust (доверие), autonomy (автономность), feedback (обратная связь) и self-improvement (самообучение). Типа это не просто "ИИ который кодит", а система где ты можешь доверять результатам (видишь что происходит), агенты работают самостоятельно, ты можешь корректировать на лету, и они учатся на своем опыте.
Что по бенчмаркам?
Gemini 3 Pro показывает:
- 1487 Elo на WebDev Arena (топ лидерборда)
- 76.2% на SWE-bench Verified
- 54.2% на Terminal-Bench 2.0
Стоит ли пробовать?
Ну естественно! Когда дают бесплатный Sonnet 4.5, все сомнения отпадают) Плюс можно потестить новый Gemini 3 и сравнить с Claude Code и Cursor.
Доступно на macOS, Windows и Linux.
Так что тестим.
@ValidatedVibe
Верстка UI в curosr AI
Продолжаем вайбкодить SaaS для генерации дизайн стайлгайдов. В этой части дорабатываем UI страницы проекта, настраиваем Cursor Rules для лучшей работы с документацией, делаем сайдбар, форму и превьюшки изображений.
Вообще, это просто рядовой видос. Изначально я хотел записать полностью процесс от 0 до релиза.. Но сейчас думаю, что некоторые процессы можно пропустить. То есть как работать с UI по документации уже как бы и так понятно, примеров было много в других видосах. Так что рутину в будущем буду пропускать, чтобы меньше воды было в видео. Записывать буду какие-то интересные моменты разработки, а "покраску кнопок" буду пропускать.
Но если вы хотите отдохнуть и посмотреть что-то за едой или кружечкой чая, то это видео вполне подойдет)
https://youtu.be/2WBZQ_Dzoj8
Продолжаем вайбкодить SaaS для генерации дизайн стайлгайдов. В этой части дорабатываем UI страницы проекта, настраиваем Cursor Rules для лучшей работы с документацией, делаем сайдбар, форму и превьюшки изображений.
Вообще, это просто рядовой видос. Изначально я хотел записать полностью процесс от 0 до релиза.. Но сейчас думаю, что некоторые процессы можно пропустить. То есть как работать с UI по документации уже как бы и так понятно, примеров было много в других видосах. Так что рутину в будущем буду пропускать, чтобы меньше воды было в видео. Записывать буду какие-то интересные моменты разработки, а "покраску кнопок" буду пропускать.
Но если вы хотите отдохнуть и посмотреть что-то за едой или кружечкой чая, то это видео вполне подойдет)
https://youtu.be/2WBZQ_Dzoj8
YouTube
Вайбкодинг SaaS #4: Верстка страницы проекта, сайдбар
Продолжаем создавать SaaS для генерации дизайн стайлгайдов! В этой части дорабатываем UI страницы проекта с помощью Cursor AI. Настраиваем Cursor Rules для лучшей работы с документацией, улучшаем сайдбары, формы и превьюшки изображений.
Предыдущая часть…
Предыдущая часть…
Как работают бенчмарки для AI моделей и зачем их столько
Каждый раз когда выходит новая модель, везде мелькают цифры: MMLU 87%, HumanEval 92%, SWE-bench 71.7%. Но что это все значит и почему нельзя просто сказать "эта модель лучше"?
Что такое бенчмарк
Бенчмарк — это типа ЕГЭ для AI моделей. Набор задач с правильными ответами, где модель получает процент за то, сколько заданий решила верно. Только вместо одного теста их десятки, и каждый проверяет свою способность.
Основные типы бенчмарков
MMLU — это монстр из 15 000+ вопросов по 57 предметам: от математики до права. Проверяет общие знания модели. Раньше считался золотым стандартом, но сейчас топовые модели решают его на 85-90%, поэтому появились более сложные варианты.
HumanEval — 164 задачи по программированию с юнит-тестами. Модель должна написать код, который реально работает, а не просто выглядит правдоподобно. Claude Sonnet 4.5 и ChatGPT 5.1 тут показывает 95%+, что дикая цифра.
SWE-bench — вообще хардкор. 2294 реальных задачи с GitHub: баги, фичи, рефакторинг. Модель получает issue и должна запилить рабочий патч. В 2023 модели решали 4.4% задач, сейчас лучшие — 71.7%. Это уже серьезно.
Chatbot Arena — здесь все иначе. Живые люди сравнивают ответы двух анонимных моделей и голосуют за лучший. Уже собрано 5+ миллионов голосов. Используется система рейтингов как в шахматах (Elo). Самый близкий к реальности бенчмарк, но есть нюанс: люди часто голосуют за более длинные ответы с эмодзи, хотя они могут быть хуже по сути.
Почему их так много
Потому что одним тестом не измерить все способности модели:
- MMLU — общие знания
- GSM8K — математика школьного уровня
- MATH — сложная математика
- HumanEval — кодинг
- GPQA — вопросы уровня PhD
- MMMU — мультимодальные задачи
Это как мерить разработчика: знание алгоритмов, опыт работы с фреймворками, софт скиллы — нужно смотреть на все.
Проблема насыщения
В 2023 исследователи запилили новые сложные бенчмарки типа MMMU и GPQA. Спустя год модели улучшились на них на 18.8 и 48.9 процентных пунктов соответственно. Бенчмарки устаревают быстрее, чем их успевают нормально использовать.
Поэтому появились экстремально сложные тесты:
- FrontierMath — AI решает только 2% задач
- Humanity's Last Exam — топовые модели набирают меньше 10%
Реальность vs бенчмарки
Самая главная проблема: бенчмарки не отражают реальное использование. Анализ 4+ миллионов промптов показал, что люди используют AI для:
- Технической помощи (65%)
- Ревью работы (59%)
- Генерации контента (25%)
- Поиска информации (17%)
А бенчмарки проверяют абстрактные задачи типа олимпиадных задач по математике.
Что из этого следует
Не стоит зацикливаться на одной цифре. Если модель выигрывает на HumanEval, это не значит что она лучше для написания документации или дебага сложной архитектуры.
По моим ощущениям Claude Sonnet 4.5 лучше всего схватывает контекст и редко тупит, хотя на некоторых бенчмарках может быть не первым. Это мой фаворит, использую ее почти всегда)
> Лучший способ выбрать модель — протестить ее на своих реальных задачах
@ValidatedVibe
Каждый раз когда выходит новая модель, везде мелькают цифры: MMLU 87%, HumanEval 92%, SWE-bench 71.7%. Но что это все значит и почему нельзя просто сказать "эта модель лучше"?
Что такое бенчмарк
Бенчмарк — это типа ЕГЭ для AI моделей. Набор задач с правильными ответами, где модель получает процент за то, сколько заданий решила верно. Только вместо одного теста их десятки, и каждый проверяет свою способность.
Основные типы бенчмарков
MMLU — это монстр из 15 000+ вопросов по 57 предметам: от математики до права. Проверяет общие знания модели. Раньше считался золотым стандартом, но сейчас топовые модели решают его на 85-90%, поэтому появились более сложные варианты.
HumanEval — 164 задачи по программированию с юнит-тестами. Модель должна написать код, который реально работает, а не просто выглядит правдоподобно. Claude Sonnet 4.5 и ChatGPT 5.1 тут показывает 95%+, что дикая цифра.
SWE-bench — вообще хардкор. 2294 реальных задачи с GitHub: баги, фичи, рефакторинг. Модель получает issue и должна запилить рабочий патч. В 2023 модели решали 4.4% задач, сейчас лучшие — 71.7%. Это уже серьезно.
Chatbot Arena — здесь все иначе. Живые люди сравнивают ответы двух анонимных моделей и голосуют за лучший. Уже собрано 5+ миллионов голосов. Используется система рейтингов как в шахматах (Elo). Самый близкий к реальности бенчмарк, но есть нюанс: люди часто голосуют за более длинные ответы с эмодзи, хотя они могут быть хуже по сути.
Почему их так много
Потому что одним тестом не измерить все способности модели:
- MMLU — общие знания
- GSM8K — математика школьного уровня
- MATH — сложная математика
- HumanEval — кодинг
- GPQA — вопросы уровня PhD
- MMMU — мультимодальные задачи
Это как мерить разработчика: знание алгоритмов, опыт работы с фреймворками, софт скиллы — нужно смотреть на все.
Проблема насыщения
В 2023 исследователи запилили новые сложные бенчмарки типа MMMU и GPQA. Спустя год модели улучшились на них на 18.8 и 48.9 процентных пунктов соответственно. Бенчмарки устаревают быстрее, чем их успевают нормально использовать.
Поэтому появились экстремально сложные тесты:
- FrontierMath — AI решает только 2% задач
- Humanity's Last Exam — топовые модели набирают меньше 10%
Реальность vs бенчмарки
Самая главная проблема: бенчмарки не отражают реальное использование. Анализ 4+ миллионов промптов показал, что люди используют AI для:
- Технической помощи (65%)
- Ревью работы (59%)
- Генерации контента (25%)
- Поиска информации (17%)
А бенчмарки проверяют абстрактные задачи типа олимпиадных задач по математике.
Что из этого следует
Не стоит зацикливаться на одной цифре. Если модель выигрывает на HumanEval, это не значит что она лучше для написания документации или дебага сложной архитектуры.
По моим ощущениям Claude Sonnet 4.5 лучше всего схватывает контекст и редко тупит, хотя на некоторых бенчмарках может быть не первым. Это мой фаворит, использую ее почти всегда)
> Лучший способ выбрать модель — протестить ее на своих реальных задачах
@ValidatedVibe
👨💻4 3
Оплата нейронок из РФ
Периодически возникают вопросы про оплату подписок из России. Записал короткое видео, в котором показал, как можно оплатить подписки из РФ.
Я это делаю через 2 сервиса - plati market и ggsel. Это по маркетплейсы цифровых товаров, в которых можно купить аккаунты и оплатить подписки. Из способов оплаты есть российские карты, крипта, webmoney и еще много других.
Вот ссылки на продавцов и товары, которыми я пользовался:
Claude:
- https://gglead.org/go8348
- https://gglead.org/go8305
- https://plati.market/itm/claude-pro-max-5x-20x-claude-4-5-fast-full-warranty/5284146
- https://plati.market/itm/claude-ai-pro-max-code-anthropic-fast/4023986
Cursor:
- https://gglead.org/go8302
- https://gglead.org/go8301
- https://plati.market/itm/cursor-ai-pro-business-ultra-podpiski-bystro/4758785
Chat GPT:
- https://gglead.org/go8304
- https://plati.market/itm/24-7-chat-gpt-5-1-o3-o1-4o-5-plus-pro-no-login-fast/4339002
- https://plati.market/itm/24-7-chat-gpt-5-plus-pro-no-login-renewal/4339392
Claude API
- https://gglead.org/go8664
- https://plati.market/itm/claude-ai-api-quick-balance-refill-api-anthropic/4230219
Chat GPT API:
- https://plati.market/itm/chat-gpt-4-quick-replenishment-of-the-api-balance/4009421
Gmail:
- https://gglead.org/go8489
Видео с демонстрацией процесса оплаты:
- https://youtu.be/FcFvj92OK48
Периодически возникают вопросы про оплату подписок из России. Записал короткое видео, в котором показал, как можно оплатить подписки из РФ.
Я это делаю через 2 сервиса - plati market и ggsel. Это по маркетплейсы цифровых товаров, в которых можно купить аккаунты и оплатить подписки. Из способов оплаты есть российские карты, крипта, webmoney и еще много других.
Вот ссылки на продавцов и товары, которыми я пользовался:
Claude:
- https://gglead.org/go8348
- https://gglead.org/go8305
- https://plati.market/itm/claude-pro-max-5x-20x-claude-4-5-fast-full-warranty/5284146
- https://plati.market/itm/claude-ai-pro-max-code-anthropic-fast/4023986
Cursor:
- https://gglead.org/go8302
- https://gglead.org/go8301
- https://plati.market/itm/cursor-ai-pro-business-ultra-podpiski-bystro/4758785
Chat GPT:
- https://gglead.org/go8304
- https://plati.market/itm/24-7-chat-gpt-5-1-o3-o1-4o-5-plus-pro-no-login-fast/4339002
- https://plati.market/itm/24-7-chat-gpt-5-plus-pro-no-login-renewal/4339392
Claude API
- https://gglead.org/go8664
- https://plati.market/itm/claude-ai-api-quick-balance-refill-api-anthropic/4230219
Chat GPT API:
- https://plati.market/itm/chat-gpt-4-quick-replenishment-of-the-api-balance/4009421
Gmail:
- https://gglead.org/go8489
Видео с демонстрацией процесса оплаты:
- https://youtu.be/FcFvj92OK48
YouTube
Оплата подписок из РФ: Cursor, Claude, Chat GPT, Codex и другие
Показываю как оплатить подписки нейросетей из России. Все мы знаем, что оплата подписок зарубежных сервисов недоступна Российскими картами, а пользоваться ИИ хочется. Выход есть! В этом видео я покажу два маркетплейса цифровых товаров, в которых можно купить…
