Годный вайбкодинг
1.94K subscribers
12 photos
40 links
Вайбкодим годные проекты
Чат - @VibecodersChat

По всем вопросам - @AlexeyTripleA
Download Telegram
Claude Sonnet 4.5: Модель, которая кодит за тебя 30 часов подряд

Anthropic выкатили новую модель - Claude Sonnet 4.5. Это первая модель, которая может работать 30+ часов без перерыва. Просто вдумайтесь - ты ставишь задачу вечером, а утром просыпаешься и у тебя готовый проект.

Цифры, которые впечатляют:
- 77.2% на SWE-bench Verified (лучший результат среди всех моделей)
- Частота ошибок в коде упала практически до 0%
- В 2-5 раз быстрее предыдущих версий
- Та же цена что у Sonnet 4: $3 за миллион входных токенов

Как это работает:
Claude Code - это терминальная программа для автономной разработки. Ставишь задачу в терминале, модель работает автономно 30+ часов. Есть чекпоинты - если что-то пошло не так, откатываешься назад. Модель сама читает кодовую базу, планирует архитектуру, пишет код, тестирует, фиксит баги и делает коммиты. Пока ты спишь или занимаешься другими делами.

Что это значит для вайбкодеров:
Раньше запилить SaaS с нуля за выходные звучало как фантастика. Похоже, теперь это реальность. Claude Code может работать всю ночь, пока ты спишь, и к утру у тебя готовая фича или даже целый сервис.

Почему это меняет правила игры:
Раньше – нужна команда, месяцы разработки, инвестиции.
Сейчас – ты, Claude Code, 30 часов работы модели.

Один человек может создать софт, который заменяет работу нескольких специалистов. И продавать его не за $99/месяц, а за $1000+, потому что заменяет человеческий труд.

Ну что, будем тестить!

@ValidatedVibe
39👨‍💻2
Потестил Sonnet 4.5

Заодно попробовал Claude Code 2 и запилил json formatter за час: jsonformat.3aweb.org

Как оно?
- По ощущениям действительно стал быстрее
- За все время была одна небольшая ошибка после инициализации, но он быстро ее исправил
- 30 часов автономной работы еще не проверял, но в процессе ничего не вылетало)
- Мне показалось, что Sonnet 4.5 лучше работает с архитектурой и визуалом

По архитектуре он сам разбил компоненты на файлы и папки, да и вообще написал нормальный код. С учетом, что у меня не было заготовленно никаких правил в проекте и мастер промптов, это круто. Да и сам промпт на создание проекта с нуля был максимально простой.

В режиме планирования я попросил его сделать современный дизайн, спросил какой стиль лучше подойдет. Никаких референсов. То, что получилось, я по стилистике никак не правил, а получилось вполне неплохо. Раньше у меня даже с референсами результат не всегда был хорошим.

В общем годнота!

@ValidatedVibe
17👨‍💻3
Claude Code 2: Полный гайд с нуля

Записал подробный урок по использованию Claude Code.
Начинаем с установки и заканчиваем созданием SaaS проекта.

Кроме базовой базы разбираем настройку:
- Sub-Агентов,
- MCP серверов,
- И кастомых команд

В этом видео подключаем Context7 и Playwright mcp, создаем Sub-Агентов и кастомные команды. Все это используем и закрепляем на практике в этом же видео!

Содержание получилось плотным! Рекомендую к просмотру: youtu.be/rwnlQqCJvYM

@ValidatedVibe
1011👨‍💻4
В Cursor появился Plan Mode

В этом режиме курсор сначала задает вопросы по задаче и составляет план действий. После того как мы аппрувим план, курсор начинает его выполнять.

В общем аналогичный режим, как в Claude Code. Работает на всех моделях, не только с клодом.

Немного потестил, в режиме планирования у меня не работают mcp. При переключении в режим агента все ок. А так для больших задач удобно.

Чтобы спланировать задачу с использованием mcp, можно в режиме агента, написать "давай спланируем ... ", по сути будет +- тоже самое. Можно сделать план в файле, сказав об этом в чате нейронке.

https://cursor.com/blog/plan-mode
👨‍💻74
Что вас больше интересует?

Нас тут уже 150 человек собралось, это прям вау! Хочу понять ваши интересы, чтобы давать больше пользы. Еще я включил комменты, вроде как они должны появится у новых постов. Можно в них написать свой вариант
Anonymous Poll
54%
Разборы и уроки по AI инструментам
67%
Процесс вайбкодинга реальных проектов
44%
Подборки ресурсов для вайбкодинга (типа готовых промптов, агентов)
15%
Инфа про обновления, новости
3
Оптимизация контекста в Claude Code (и не только)

При активном использовании клод кода начал часто втыкаться в лимиты сессии: 5ти часовые и недельные. Особенно остро это чувствуется на pro подписке, которой я пользуюсь. С Max x5 и Max x20 должно быть полегче, но не все готовы платить 100-200 долларов в месяц. Можно переключится на апи аккаунт и платить по мере использования. Я еще не пробовал, но думаю, там тоже набежит приличный счет. Надо будет потестить. Можно, кстати, комбинировать и переключаться с pro подписки на апи, пока лимиты не восстановятся.

Вообще, если нонстопом пользоваться клодом, то можно и Max оплатить, вложения окупятся. Но в любом случае, мы платим за какой-то объем обработанного контекста. Поэтому надо оптимизировать затраты.

Эта тема не на один пост, позже планирую записать подробное видео. Но давайте хотя бы в общих чертах разберемся, как можно сократить использования контекста, чтобы меньше платить и реже втыкаться в лимиты.

Что мы можем сделать?

Все сводится к том, что нам нужно снизить объем отправляемых данных нейронке.

Из очевидного:

- Писать четкие промпты и доки, без лишней информации

- В процессе одного чата регулярно выполнять команду /compact для уменьшения используемого контекста

- Разбивать большие задачи на более мелкие и после выполнения каждой чистить контекст или открывать новый чат

Почему это важно? Допустим, вы сделали какую-то задачу и забили 50к токенов. Начинаете делать следующую в том же окне, и эти 50к токенов отправляются при каждом следующем запросе! Вот и считайте.

Поинтереснее:

- Отключать mcp, когда они не нужны. В новой версии клод кода (у меня v2.0.15) это можно сделать в меню команды /mcp , в настройках конкретного mcp. Вот это прям стоит делать! Например, у меня стоит глобально 3 mcp, и они занимают 20.7k токенов в новом чате! Во первых, это 10% от доступного контекстного окна. А во вторых, эти 20к токенов отправляются при каждом запросе, даже если mcp не используются

- Использовать больше субагентов. Это актуально для лимита контекста одного чата. Субагенты запускаются в отдельном контекстном окне, а значит не забивают контекст текущего чата. Конечно на 5ти часовые и недельные лимиты это не повлияет, но так мы можем дольше не чистить контекст чата

Гепотезы:
Это надо еще проверять, но все же..

- Инициализировать клод код командой /init и редактировать файл .CLAUDE.md в корне проекта. Если прописать туда основные пути, то клоду будет проще искать папки и файлы и он будет меньше тратить токенов на поиск

- Использовать Sequential Thinking MCP. Возможно, он возьмет на себя часть работы по размышлению и будет отдавать клод коду уже суммаризированую выжимку, сократив при этом нагрузку на контекст в клоде

Подробнее разберем все в видео, для которого я потихоньку собираю материал. Там еще плагины в клоде появились.. в общем есть, что разобрать.)

Если у вас есть, что добавить, поделитесь плиз в комментах или в чате канала @VibecodersChat, думаю, всем будет полезно.

@ValidatedVibe
11👨‍💻3
Пишем ТЗ для ИИ агентов – Воркшоп по документации

Начал серию видео по новому проекту, в которой будем с нуля вайбкодить SaaS. Этот сервис попроще, чем ValidatedVibe, его мы закончим быстрее и можно будет наглядно показать запуск проекта с нуля.

В этом видео показал то, что не вошло в видео про ValidatedVibe:

- Создание markdown доков с техническими требованиями
- Подробное описывае функционала сервиса для нейронки
- Создаем ASCII схемы страниц сервиса

Работаем в cursor + claude code

https://youtu.be/tOgS_TBMmgU
8👨‍💻2
Please open Telegram to view this post
VIEW IN TELEGRAM
Плагины в Claude Code

Записал разбор новой фичи.

С помощью плагинов можно объединять Custom Commands, SubAgents, MCP, Skills и Хуки в устанавливаемые пакеты.

Можно использовать плагины под каждое направление: интерфейс, бек, ресерч... И группой включать/отключать для каждой задачи.

Также плагинами легко можно делиться с другими разработчиками. Можно создать свой маркетплейс плагинов в гит репозитории, в видео это тоже есть

Ссылки из видео:
- Маркетплейс от Antropics - github.com/anthro..
- Красивый маркетплейс - aitmpl.com
- Маркетплейс 2 - github.com/wshobson/agents
- Мой маркетплейс из видео - github.com/Alexe..
- context7 mcp - context7.com

https://youtu.be/rtb-DTPFX58
19👨‍💻4
Как экономить на аккаунтах Cursor

И оплачивать из России

В настройках курсор аккаунта можно включать On-Demand Usage. После того, как лимиты тарифа закончаться, курсор будет списывать $ с баланса за использование. Курсор может списать где-то 20$ до того, как попросит что-то оплатить. Так сказать авансом.

Лайфхак заключается в следующем:
- Покупаем pro аккаунт
- Ставим возможность списания On-Demand Usage
- Испольуем все лимиты тарифа
- Используем 20$ On-Demand Usage
- Покупаем новый аккаунт, повторяем все сначала)

Аккаунты можно купить на ggsel и plati market. Там, кстати, куча способов оплаты: российские карты, крипта, карты usd/eur

Вот продавцы, которыми я неоднократно пользовался:
- https://ggsel.net/catalog/product/4758819
- https://ggsel.net/catalog/product/5027984
- https://plati.market/itm/cursor-ai-pro-business-ultra-podpiski-bystro/4758785

Новые аккаунты стоят ~2400р, это где-то 30$.
Используем курсор на 40$ => экономия 10$

@ValidatedVibe
2👨‍💻2
Запускаем Python Django и NextJS

Продолжаем вайбкодим сервис для генерации дизайн стайлгайдов для ИИ агентов.

В этом видео переходим от документации к коду:
1. Генерируем Roadmap
2. Создаём структуру Python Django backend
3. Настраиваем Next.js frontend
4. Тестим регистрацию на беке

Работаем в Cursor + Claude Code

https://youtu.be/1eaZghVreMw
6
Оптимизация контекста в Claude Code
(и не только)

Было много вопросов по этой теме. Проблема лимитов актуальна, особенно на pro подписках.

Cразу cкажу, что волшебной таблетки не нашел, работать на pro тарифе 24/7 не получается.

Но можно реже упираться в лимиты и меньше платить за API аккаунт.

В первую очередь надо понимать базу:
Как считаются лимиты, за что мы платим при использовании LLM. Я рассказал об этом в видео и собрал 13 советов, как снизить расходы использования.

Часть советов экспериментальные.
Некоторые из них мы обсуждали в чате. Решил их тоже включить в видео и поделиться своим опытом.

Ссылки из видео:
- MCP to Skills converter
- playwright-skill
- Маркетплейс aitmpl
- deepcontext-mcp
- Ollama официальный сайт
- Ollama mcp

Приятного просмотра!
https://youtu.be/IQyaJZw6wJ0
7
Git для вайбкодеров

Если вы все еще не используете git в своих проектах, то это срочно нужно менять!

С его помощью можно не бояться, что нейронка удалит нужный код. Гит помогает гибко контролировать версии проекта и вы можете внедрять новые фичи не боясь, что сломается существующий функционал.

На самом деле git для опытных разработчиков это основа основ, его используют все. Но в вайбкодерском мире все по-другому и не все даже знают стек используемых технологий.. Так что решил записать это видео, как ликбез по работае с гитом в контексте вайбкодинга.

В создании видео я вошел в ритм 1 видео в неделю, с чередованием подготовленных гайдов и лайвкодинга. С ютубом меня этот ритм устраивает. Сейчас у меня цель дополнительно еще по текстовому посту в неделю писать.

Буду рад, если напишете пожелания по новым гайдам и темам, которые хотели бы разобрать)

https://youtu.be/pVR3RG7D0Fo
7👨‍💻3
Antigravity новая IDE от Google

Гугл запилили свою agent-first платформу для разработки. И сейчас все модели бесплатны, включая Sonnet 4.5! Можно скачать как минимум ради халявы 😁

Что это вообще такое?

Гугл позиционируют Antigravity не просто как еще одну IDE с автокомплитом, а полноценную агентную платформу. В который ты архитектор, а ИИ агенты делают всю рутину за тебя.

Агенты получают прямой доступ к редактору, терминалу и браузеру. То есть они могут сами писать код, запускать команды, тестировать в браузере и верифицировать свою работу.

Вообще удобно, не надо никаких mcp устанавливать, только расширение в хром и то antigravity сам предложит это сделать при первом открытии браузера. И вот нейронка уже гуляет по нужным страницам, кликает, смотрит отображения. Это кайф.

С консолью тоже никаких проблем, но их и так не было в других инструментах.

Как оно работает?

Есть два режима работы:
- Editor View — привычный интерфейс IDE с агентами в сайдбаре
- Manager Surface — агент-first интерфейс, где ты управляешь несколькими агентами параллельно в разных воркспейсах. Похоже на то, что сделали в cursor 2 недавно.

Агенты создают Artifacts — артефакты своей работы: таск-листы, планы реализации, скриншоты, записи работы в браузере. То есть это не просто логи действий, а понятные для человека результаты, которые легко верифицировать.

Про модели

Платформа работает на Gemini 3 Pro, но можно юзать и другие модели:
- Claude Sonnet 4.5
- OpenAI GPT-OSS

И все это бесплатно в public preview! С щедрыми лимитами на Gemini 3 Pro. Лимиты обновляются каждые 5 часов.

Планы гугла

Гугл позиционирует Antigravity как "home base for software development in the era of agents". Их цель — сделать так, чтобы любой человек с идеей мог ее реализовать.

Они вложили $2.4 млрд в найм сотрудников из Windsurf и лицензию на использование технологий, так что амбиции серьезные.

Платформа построена на четырех принципах: trust (доверие), autonomy (автономность), feedback (обратная связь) и self-improvement (самообучение). Типа это не просто "ИИ который кодит", а система где ты можешь доверять результатам (видишь что происходит), агенты работают самостоятельно, ты можешь корректировать на лету, и они учатся на своем опыте.

Что по бенчмаркам?

Gemini 3 Pro показывает:
- 1487 Elo на WebDev Arena (топ лидерборда)
- 76.2% на SWE-bench Verified
- 54.2% на Terminal-Bench 2.0

Стоит ли пробовать?

Ну естественно! Когда дают бесплатный Sonnet 4.5, все сомнения отпадают) Плюс можно потестить новый Gemini 3 и сравнить с Claude Code и Cursor.

Доступно на macOS, Windows и Linux.

Так что тестим.

@ValidatedVibe
8👨‍💻2
Верстка UI в curosr AI

Продолжаем вайбкодить SaaS для генерации дизайн стайлгайдов. В этой части дорабатываем UI страницы проекта, настраиваем Cursor Rules для лучшей работы с документацией, делаем сайдбар, форму и превьюшки изображений.

Вообще, это просто рядовой видос. Изначально я хотел записать полностью процесс от 0 до релиза.. Но сейчас думаю, что некоторые процессы можно пропустить. То есть как работать с UI по документации уже как бы и так понятно, примеров было много в других видосах. Так что рутину в будущем буду пропускать, чтобы меньше воды было в видео. Записывать буду какие-то интересные моменты разработки, а "покраску кнопок" буду пропускать.

Но если вы хотите отдохнуть и посмотреть что-то за едой или кружечкой чая, то это видео вполне подойдет)

https://youtu.be/2WBZQ_Dzoj8
7👨‍💻4
Как работают бенчмарки для AI моделей и зачем их столько

Каждый раз когда выходит новая модель, везде мелькают цифры: MMLU 87%, HumanEval 92%, SWE-bench 71.7%. Но что это все значит и почему нельзя просто сказать "эта модель лучше"?

Что такое бенчмарк

Бенчмарк — это типа ЕГЭ для AI моделей. Набор задач с правильными ответами, где модель получает процент за то, сколько заданий решила верно. Только вместо одного теста их десятки, и каждый проверяет свою способность.

Основные типы бенчмарков

MMLU — это монстр из 15 000+ вопросов по 57 предметам: от математики до права. Проверяет общие знания модели. Раньше считался золотым стандартом, но сейчас топовые модели решают его на 85-90%, поэтому появились более сложные варианты.

HumanEval — 164 задачи по программированию с юнит-тестами. Модель должна написать код, который реально работает, а не просто выглядит правдоподобно. Claude Sonnet 4.5 и ChatGPT 5.1 тут показывает 95%+, что дикая цифра.

SWE-bench — вообще хардкор. 2294 реальных задачи с GitHub: баги, фичи, рефакторинг. Модель получает issue и должна запилить рабочий патч. В 2023 модели решали 4.4% задач, сейчас лучшие — 71.7%. Это уже серьезно.

Chatbot Arena — здесь все иначе. Живые люди сравнивают ответы двух анонимных моделей и голосуют за лучший. Уже собрано 5+ миллионов голосов. Используется система рейтингов как в шахматах (Elo). Самый близкий к реальности бенчмарк, но есть нюанс: люди часто голосуют за более длинные ответы с эмодзи, хотя они могут быть хуже по сути.

Почему их так много

Потому что одним тестом не измерить все способности модели:

- MMLU — общие знания
- GSM8K — математика школьного уровня
- MATH — сложная математика
- HumanEval — кодинг
- GPQA — вопросы уровня PhD
- MMMU — мультимодальные задачи

Это как мерить разработчика: знание алгоритмов, опыт работы с фреймворками, софт скиллы — нужно смотреть на все.

Проблема насыщения

В 2023 исследователи запилили новые сложные бенчмарки типа MMMU и GPQA. Спустя год модели улучшились на них на 18.8 и 48.9 процентных пунктов соответственно. Бенчмарки устаревают быстрее, чем их успевают нормально использовать.

Поэтому появились экстремально сложные тесты:
- FrontierMath — AI решает только 2% задач
- Humanity's Last Exam — топовые модели набирают меньше 10%

Реальность vs бенчмарки

Самая главная проблема: бенчмарки не отражают реальное использование. Анализ 4+ миллионов промптов показал, что люди используют AI для:
- Технической помощи (65%)
- Ревью работы (59%)
- Генерации контента (25%)
- Поиска информации (17%)

А бенчмарки проверяют абстрактные задачи типа олимпиадных задач по математике.

Что из этого следует

Не стоит зацикливаться на одной цифре. Если модель выигрывает на HumanEval, это не значит что она лучше для написания документации или дебага сложной архитектуры.

По моим ощущениям Claude Sonnet 4.5 лучше всего схватывает контекст и редко тупит, хотя на некоторых бенчмарках может быть не первым. Это мой фаворит, использую ее почти всегда)

> Лучший способ выбрать модель — протестить ее на своих реальных задачах

@ValidatedVibe
👨‍💻43