Пока обсуждают изъезженный на западе вдоль и поперек блэкпил, продают курсы для луксмакса за 100 долларов, находятся смелые люди которые видят в сложившейся ситуации целевую аудиторию и ВОЗМОЖНОСТИ - тот самый голубой океан! Одинокие платежеспособные ребятки жаждут женского внимания и на помощь им пришли платные подписки на ИИ))
Candy AI запустились в конце 2023, к концу 2025 вышли на $25M ARR. И это не самый большой игрок. Chai AI имеет $30M ARR на 12 человек, $2.5M на сотрудника. Это в 12 раз эффективнее среднего SaaS. И это из тех компаний которые всё таки решили "легализоваться".
Кабанчики арендуют ГПУ на время из датацентров. Запускают abliterated модели. Обходят комиссию Google/Apple находясь в вебе. И приносят прибыль!
Abliteration — техника, которая убирает механизм отказа из любой open-source модели без дообучения. На Hugging Face уже тысячи таких моделей. Есть инструмент Heretic, который делает это полностью автоматически - запускаешь одну команду и получаешь расцензуренную модель, которая сохраняет интеллект оригинала.
Вообщем, порог входа для среднего айтишника: пару вечеров с клодом и десятки долларов.
Легально ли это? Как с этим бороться? Будут ли вообще с этим бороться? Столько вопросов... А пока мы их задаём регуляторам и ждём ответа - смелые и смышлённые набирают себе квартиры на Петроградке.
P.S. Канал не призывает к действиям и не поощряет заработок в серых зонах законодательства.
Candy AI запустились в конце 2023, к концу 2025 вышли на $25M ARR. И это не самый большой игрок. Chai AI имеет $30M ARR на 12 человек, $2.5M на сотрудника. Это в 12 раз эффективнее среднего SaaS. И это из тех компаний которые всё таки решили "легализоваться".
Кабанчики арендуют ГПУ на время из датацентров. Запускают abliterated модели. Обходят комиссию Google/Apple находясь в вебе. И приносят прибыль!
Abliteration — техника, которая убирает механизм отказа из любой open-source модели без дообучения. На Hugging Face уже тысячи таких моделей. Есть инструмент Heretic, который делает это полностью автоматически - запускаешь одну команду и получаешь расцензуренную модель, которая сохраняет интеллект оригинала.
Вообщем, порог входа для среднего айтишника: пару вечеров с клодом и десятки долларов.
Легально ли это? Как с этим бороться? Будут ли вообще с этим бороться? Столько вопросов... А пока мы их задаём регуляторам и ждём ответа - смелые и смышлённые набирают себе квартиры на Петроградке.
P.S. Канал не призывает к действиям и не поощряет заработок в серых зонах законодательства.
🐳1
Был на конференции в прошлом году. Чел рассказывал: у нас вот LOW CODE платформа для тестирования гипотез. Соединяешь два прямоугольника в веб-интерфейсе — вуаля, процесс передачи данных. Из Кафки в постгрес, из монги в Кафку! До меня микрофон не дошёл, но первое что хотел спросить — а чем это отличается от Apache NiFi?
Моё мнение: текст — лучшее хранилище для алгоритмов, в зависимости от задач нужны различные синтаксисы. Никакие визуальные решения меня не убеждали. Хотя бы один вопрос: а чо с version control? Текст версионируется, диффается, ревьюится. Визуальные блоки — нет. Окей окей обходы есть))) тот же NiFi умеет подключаться к гиту. Но возникает вопрос: зачем редактировать блоки визуально, чтобы потом сгенерировать код? Может наоборот — писать код и смотреть визуализацию?))
Визуальный drag-and-drop no-code в упадке. Вендоры отказываются. Платформы которые вчера продавали "соедини два блока", сегодня прикручивают AI-генерацию и переименовываются.
Что интереснее — no-code умер, а его мечта сбылась. Идея "не технический человек создаёт софт" никуда не делась, но вместо появления очень интеллектуальных соединений прямоугольников в вебе — промпты пишут на естественном языке. Текст победил дважды: и как способ хранить алгоритмы, и как способ их создавать!
Моё мнение: текст — лучшее хранилище для алгоритмов, в зависимости от задач нужны различные синтаксисы. Никакие визуальные решения меня не убеждали. Хотя бы один вопрос: а чо с version control? Текст версионируется, диффается, ревьюится. Визуальные блоки — нет. Окей окей обходы есть))) тот же NiFi умеет подключаться к гиту. Но возникает вопрос: зачем редактировать блоки визуально, чтобы потом сгенерировать код? Может наоборот — писать код и смотреть визуализацию?))
Визуальный drag-and-drop no-code в упадке. Вендоры отказываются. Платформы которые вчера продавали "соедини два блока", сегодня прикручивают AI-генерацию и переименовываются.
Что интереснее — no-code умер, а его мечта сбылась. Идея "не технический человек создаёт софт" никуда не делась, но вместо появления очень интеллектуальных соединений прямоугольников в вебе — промпты пишут на естественном языке. Текст победил дважды: и как способ хранить алгоритмы, и как способ их создавать!
Каждую неделю — новая модель которая "побеждает Claude/GPT по бенчмаркам".
А что за бенчмарки? Два самых значимых сейчас — SWE-bench Verified и Humanity's Last Exam. Первый проверяет может ли модель починить реальный баг в реальном репозитории на гитхабе. Второй — 3000 сложных вопросов от экспертов из десятков дисциплин. Результаты которые показывают авторы моделей, впечатляют. Проблема в том, что числам всё сложнее доверять.
Модели обучаются на данных из интернета (бенчмарки тоже в интернете!!). Производительность моделей на задачах Codeforces резко падает после даты окончания обучения — до этой даты они просто помнят ответы. Сами авторы моделей выбирают на каких бенчмарках хвастаться))) Не прошёл GPQA? Покажем MMLU. Не прошёл MMLU? Зато на arena hard мы в топ 3! Это всё лаконично называют benchmaxxx
А теперь о тех вещах, которые вообще не бенчмаркают:
> Скорость инференса.
> Time to first token.
> Может ли модель грамотно использовать инструменты — вызывать функции, ходить в файловую систему, работать с браузером?
> Какие инструменты ей вообще доступны в среде?
> Насколько стабильны результаты от запуска к запуску?
Если выйдет модель которая получит 100% на SWEbv но она:
> Заставляет ждать первого токена по минуте
> Выдаёт меньше 20tps
> Ошибается при вызове команд (привет Gemini)
Практически будет не полезна! Очень много вещей одновременно делают опыт взаимодействия с агентом продуктивным.
Claude Code, Cursor, Codex — не просто модели. Это оркестрация десятков вызовов, контекст-менеджмент, интеграция с IDE, гит, файловой системой итд
В intelligence передовые open-source модели отстают от SOTA может на пару месяцев. В usefulness — на годы. По той простой причине что usefulness это сложная экосистема которая окружает модель и позволяет ей выполнять полезную работу.
А что за бенчмарки? Два самых значимых сейчас — SWE-bench Verified и Humanity's Last Exam. Первый проверяет может ли модель починить реальный баг в реальном репозитории на гитхабе. Второй — 3000 сложных вопросов от экспертов из десятков дисциплин. Результаты которые показывают авторы моделей, впечатляют. Проблема в том, что числам всё сложнее доверять.
Модели обучаются на данных из интернета (бенчмарки тоже в интернете!!). Производительность моделей на задачах Codeforces резко падает после даты окончания обучения — до этой даты они просто помнят ответы. Сами авторы моделей выбирают на каких бенчмарках хвастаться))) Не прошёл GPQA? Покажем MMLU. Не прошёл MMLU? Зато на arena hard мы в топ 3! Это всё лаконично называют benchmaxxx
А теперь о тех вещах, которые вообще не бенчмаркают:
> Скорость инференса.
> Time to first token.
> Может ли модель грамотно использовать инструменты — вызывать функции, ходить в файловую систему, работать с браузером?
> Какие инструменты ей вообще доступны в среде?
> Насколько стабильны результаты от запуска к запуску?
Если выйдет модель которая получит 100% на SWEbv но она:
> Заставляет ждать первого токена по минуте
> Выдаёт меньше 20tps
> Ошибается при вызове команд (привет Gemini)
Практически будет не полезна! Очень много вещей одновременно делают опыт взаимодействия с агентом продуктивным.
Claude Code, Cursor, Codex — не просто модели. Это оркестрация десятков вызовов, контекст-менеджмент, интеграция с IDE, гит, файловой системой итд
В intelligence передовые open-source модели отстают от SOTA может на пару месяцев. В usefulness — на годы. По той простой причине что usefulness это сложная экосистема которая окружает модель и позволяет ей выполнять полезную работу.
🕊1
This media is not supported in your browser
VIEW IN TELEGRAM
всем самого лучшего продуктивного дня!
🥰2
Пишут, мол, AI разработка очень нагружает голову. Нужно больше спать, отдыхать и не убиваться в создание параллельно пяти проектов чтобы не поехать кукухой.
Читаем между строк - хотят поменьше конкуренции)) А мы с Пути не сойдём. Продолжаем работу. Быть добру!
Читаем между строк - хотят поменьше конкуренции)) А мы с Пути не сойдём. Продолжаем работу. Быть добру!
Уже не так часто слышу тейк "мои задачи слишком сложные для ИИ". Количество скептиков ИИ с сентября по январь уменьшилось, по ощущениям, на процентов 95.
Для оставшихся решателей "слишком сложных задач" есть возможность заработать - люди готовы платить за проекты в имплементации которых современные агенты косячат
Завтра вечером будет пост не связанный с ИИ !!! Я почти дописал... Будет обсуждение уже рабочей нишевой гениальной технологии
Для оставшихся решателей "слишком сложных задач" есть возможность заработать - люди готовы платить за проекты в имплементации которых современные агенты косячат
Завтра вечером будет пост не связанный с ИИ !!! Я почти дописал... Будет обсуждение уже рабочей нишевой гениальной технологии
> читаем постик в данном тгк о важности минимизации контекста
> заходим в пустой клодкод
> занят уже 21килотокен контекста
???
Предлагаю пообщаться про этот налог - что за такой текст отправляется ещё до нашего первого промпта?
1. System prompt — должностная инструкция, объясняет кем ллмка является и глобально что вообще происходит. https://github.com/asgeirtj/system_prompts_leaks/blob/main/Anthropic%2Fclaude-code.md)
2. System tools: 17.4kt (8.7%) — самый жирный кусок. Описания ~18 инструментов: bash, grep, read, write, edit, web search и др. По каждому название, параметры, ограничения, примеры использования. 17 килотокенов чтобы модель знала чем она умеет пользоваться. И это только встроенные)) Объяснения как использовать ваши МСР сервера загрузятся в эту часть (как ИМЕННО и как подробно зависит от агента. уже есть оптимизации которые помогают не вставлять полную спецификацию сюда)
3. Memory — правила, соглашения, стек проекта. (CLAUDE.md, AGENTS.md ... *.md) Плюс MEMORY.md — что модель "выучила" в прошлых сессиях. Плюс git state. При старте сессии Claude Code загружает шесть слоёв, вообщем целая инфраструктура для того чтобы вести ллм в контекст конкретного проекта.
4. Skills. Тут при нулевом количестве налог не большой.
5. Autocompact buffer: 33k (16.5%). Зарезервировано под сжатие контекста когда окно начнёт заполняться. То есть платим за какую-то будущую операцию которая вообще скорее всего и не произойдёт. Терпим.
Вместе это называется harness — обвязка вокруг модели. И вот что забавно: эта обвязка влияет на результат больше чем сама модель)
Claude Opus 4.5 набирает 42% на CORE-Bench с одной обвязкой и 78% с другой. Sonnet 4: 33% vs 47%. Поменяли только обвязку своего агента — плюс 13.7 пунктов на бенчмарке!
У разработчиков этих обвязок тоже есть тренды. Паттерн один: все выкидывают лишнее из контекста)
Vercel убрал 80% инструментов у своего агента. Шаги: 100 → 19. Латенси: 724 → 141 сек. И агент начал выполнять задачи которые раньше проваливал. Не быстрее — вообще начал.
Cursor столкнулся с тем что MCP серверы тащат десятки тулов с длинными описаниями, большинство не используются. Решение: агент видит только названия, полные описания подтягиваются когда нужны. Минус 47% токенов.
Manus переписывал фреймворк пять раз. Каждый раз — выкидывал. Их цитата: "самые большие улучшения приходили от удаления, не добавления".
Но опять же есть контринтуитивный пример — TodoWrite у Claude Code. Инструмент-пустышка, no-op, ВООБЩЕ ничего не делает. Но заставляет агента записать план — и на длинных задачах это якорь от context rot. Казалась бы, пытаемся сохранить каждый токен и сделать каждый инструмент максимально многофункциональным... но вот бывают ситуации когда абсолютно фейковый инструмент оказался полезнее настоящих)
Всё не просто, коллеги, как же всё не просто.
Ссылка на статью "Agent harness is the real product" https://x.com/i/status/2028116431876116660"
И вот интересная статья
"CLI is all you need" https://x.com/i/status/2021364017147818434
о том, что заполнение контекста MCP серверами становится проблемой — проще написать CLI и дать ллм им пользоваться. Она от 11 февраля и уже не совсем актуальна, но описанная тенденция сохраняется. Лаконичное оформление задачи и забота о контексте это важно и не тривиально
> заходим в пустой клодкод
> занят уже 21килотокен контекста
???
Предлагаю пообщаться про этот налог - что за такой текст отправляется ещё до нашего первого промпта?
1. System prompt — должностная инструкция, объясняет кем ллмка является и глобально что вообще происходит. https://github.com/asgeirtj/system_prompts_leaks/blob/main/Anthropic%2Fclaude-code.md)
2. System tools: 17.4kt (8.7%) — самый жирный кусок. Описания ~18 инструментов: bash, grep, read, write, edit, web search и др. По каждому название, параметры, ограничения, примеры использования. 17 килотокенов чтобы модель знала чем она умеет пользоваться. И это только встроенные)) Объяснения как использовать ваши МСР сервера загрузятся в эту часть (как ИМЕННО и как подробно зависит от агента. уже есть оптимизации которые помогают не вставлять полную спецификацию сюда)
3. Memory — правила, соглашения, стек проекта. (CLAUDE.md, AGENTS.md ... *.md) Плюс MEMORY.md — что модель "выучила" в прошлых сессиях. Плюс git state. При старте сессии Claude Code загружает шесть слоёв, вообщем целая инфраструктура для того чтобы вести ллм в контекст конкретного проекта.
4. Skills. Тут при нулевом количестве налог не большой.
5. Autocompact buffer: 33k (16.5%). Зарезервировано под сжатие контекста когда окно начнёт заполняться. То есть платим за какую-то будущую операцию которая вообще скорее всего и не произойдёт. Терпим.
Вместе это называется harness — обвязка вокруг модели. И вот что забавно: эта обвязка влияет на результат больше чем сама модель)
Claude Opus 4.5 набирает 42% на CORE-Bench с одной обвязкой и 78% с другой. Sonnet 4: 33% vs 47%. Поменяли только обвязку своего агента — плюс 13.7 пунктов на бенчмарке!
У разработчиков этих обвязок тоже есть тренды. Паттерн один: все выкидывают лишнее из контекста)
Vercel убрал 80% инструментов у своего агента. Шаги: 100 → 19. Латенси: 724 → 141 сек. И агент начал выполнять задачи которые раньше проваливал. Не быстрее — вообще начал.
Cursor столкнулся с тем что MCP серверы тащат десятки тулов с длинными описаниями, большинство не используются. Решение: агент видит только названия, полные описания подтягиваются когда нужны. Минус 47% токенов.
Manus переписывал фреймворк пять раз. Каждый раз — выкидывал. Их цитата: "самые большие улучшения приходили от удаления, не добавления".
Но опять же есть контринтуитивный пример — TodoWrite у Claude Code. Инструмент-пустышка, no-op, ВООБЩЕ ничего не делает. Но заставляет агента записать план — и на длинных задачах это якорь от context rot. Казалась бы, пытаемся сохранить каждый токен и сделать каждый инструмент максимально многофункциональным... но вот бывают ситуации когда абсолютно фейковый инструмент оказался полезнее настоящих)
Всё не просто, коллеги, как же всё не просто.
Ссылка на статью "Agent harness is the real product" https://x.com/i/status/2028116431876116660"
И вот интересная статья
"CLI is all you need" https://x.com/i/status/2021364017147818434
о том, что заполнение контекста MCP серверами становится проблемой — проще написать CLI и дать ллм им пользоваться. Она от 11 февраля и уже не совсем актуальна, но описанная тенденция сохраняется. Лаконичное оформление задачи и забота о контексте это важно и не тривиально
🔥1🥰1
Дон Кнут — автор "The Art of Computer Programming" (TAoCP), создатель TeX, лауреат Тьюринга — опубликовал заметку “Claude’s Cycles”.
Летом 2025 он вместе с Filip Stappers работал над старой открытой задачей по ориентированным графам для нового тома TAoCP.
У этой линии задач история как минимум с 1982 года, то есть уже больше 40 лет.
Проблема на тот момент была такая: для нескольких частных значений параметров и отдельных классов графов решения уже существовали. То есть “локально” задача продвигалась, но универсальной конструкции, которая закрывает общий случай, всё ещё не было.
На этом этапе они подключили Claude и дали конкретную цель: найти конструкцию, которую можно довести до общего результата для нечётного случая.
Дальше пошли серии попыток. Это был не один промпт “solve please make no mistakes”, а обычная исследовательская работа:
- разные стратегии на нескольких прогонах
- сужение пространства решений
- фиксация инвариантов и промежуточных результатов
По опубликованным материалам, удалось получить общий результат для нечётных случаев (чётные остались открыты). И Кнут отдельно отметил, что его поразил прогресс автоматического дедуктивного и творческого решения задач.
Мораль тут такая: инженеры из Claude Code/Codex для своих задач тщательно работают над окружением, контекстом и итеративным процессом агента.
Так же и мы, простолюдины, можем улучшить качество решения задач, работая над созданием итеративного процесса, сохранением прогресса и вот этого всего для решения сложных задачек!
Летом 2025 он вместе с Filip Stappers работал над старой открытой задачей по ориентированным графам для нового тома TAoCP.
У этой линии задач история как минимум с 1982 года, то есть уже больше 40 лет.
Проблема на тот момент была такая: для нескольких частных значений параметров и отдельных классов графов решения уже существовали. То есть “локально” задача продвигалась, но универсальной конструкции, которая закрывает общий случай, всё ещё не было.
На этом этапе они подключили Claude и дали конкретную цель: найти конструкцию, которую можно довести до общего результата для нечётного случая.
Дальше пошли серии попыток. Это был не один промпт “solve please make no mistakes”, а обычная исследовательская работа:
- разные стратегии на нескольких прогонах
- сужение пространства решений
- фиксация инвариантов и промежуточных результатов
По опубликованным материалам, удалось получить общий результат для нечётных случаев (чётные остались открыты). И Кнут отдельно отметил, что его поразил прогресс автоматического дедуктивного и творческого решения задач.
Мораль тут такая: инженеры из Claude Code/Codex для своих задач тщательно работают над окружением, контекстом и итеративным процессом агента.
Так же и мы, простолюдины, можем улучшить качество решения задач, работая над созданием итеративного процесса, сохранением прогресса и вот этого всего для решения сложных задачек!
1🔥2
Коллеги а если все разрабы перейдут на разработку с помощью агентов то что мешает РАБотодателям ставить какой-то софт внутрь агентов (за которых они платят) для подробного просмотра чем именно сотрудник занимается целый день?)) как-то агрегировать логи активности, промпты итд☺️
Клод сделай пожалуйста на основе данных за последний месяц дэшборд оценки ЭФФЕКТИВНОСТИ сотрудников и помоги "оптимизировать косты во благо сохранения средств компании"☺️
Клод сделай пожалуйста на основе данных за последний месяц дэшборд оценки ЭФФЕКТИВНОСТИ сотрудников и помоги "оптимизировать косты во благо сохранения средств компании"☺️
Уважаемые коллеги. Долгожданный (вероятно только мною) пост про HTMX.
https://vladtrc.github.io/contextrot/2026/03/htmx-no-frontend/
https://vladtrc.github.io/contextrot/2026/03/htmx-no-frontend/
1🔥2👀2