context rot
модель начинает "плыть" в середине длинного разговора, путает детали, теряет нить — хотя всё нужное чисто технически есть в чате. это context rot. "полезность" ответов деградирует на каждом шаге увеличения контекста — не только вблизи лимита. модель с окном в 1M токенов страдает уже на 50k.
это ещё и дорого!!
Gemini берёт $1.25/M токенов при коротком контексте и уже $2.50/M при длинном. Больше токенов = дороже и ХУЖЕ одновременно. Скам!
что это означает для нас вайбкодеров:
> изменились условия — редактируем сообщение выше, не дописываем новое
> тема сменилась — начинаем новый чат
> смотрим на процент оставшегося контекста в cc/codex
> хотим выполнить какую-то параллельную задачку - пишем в другого агента, не засоряем контекст текущего (кстати в СС появилась интересная фича - теперь прямо в середине общения с соннетом можно попросить запустить его опус)
> SKILLs MCPs и проч не бесплатные
*в следующих постах: RAG, RLM, subagent architectures — как с этим борются (или пытаются бороться)*
модель начинает "плыть" в середине длинного разговора, путает детали, теряет нить — хотя всё нужное чисто технически есть в чате. это context rot. "полезность" ответов деградирует на каждом шаге увеличения контекста — не только вблизи лимита. модель с окном в 1M токенов страдает уже на 50k.
это ещё и дорого!!
Gemini берёт $1.25/M токенов при коротком контексте и уже $2.50/M при длинном. Больше токенов = дороже и ХУЖЕ одновременно. Скам!
что это означает для нас вайбкодеров:
> изменились условия — редактируем сообщение выше, не дописываем новое
> тема сменилась — начинаем новый чат
> смотрим на процент оставшегося контекста в cc/codex
> хотим выполнить какую-то параллельную задачку - пишем в другого агента, не засоряем контекст текущего (кстати в СС появилась интересная фича - теперь прямо в середине общения с соннетом можно попросить запустить его опус)
> SKILLs MCPs и проч не бесплатные
*в следующих постах: RAG, RLM, subagent architectures — как с этим борются (или пытаются бороться)*
❤2🕊1
Пишешь на C и знаешь железо — гигачед. Делаешь REST API — КРУДошлёп. Пишешь на JS — красишь кнопочку.
Embedded ближе к физике, это факт. Здравый смысл подсказывает что такие задачки и сложнее и серьёзнее. А что если сложность — это не только свойство задач, но и следствие того, сколько людей работало над тем, чтобы эти задачи стали проще?
Открываем любую биржу фриланса. Считаем заказы "сделать сайт / приложение / бота" и заказы "написать драйвер / прошивку ". Соотношение будет не 10:1, а, скорее, 1000:1. Делаем лэндинг "НАПИСАНИЕ ДРАЙВЕРОВ ПОД КЛЮЧ!" и инвестируем к рекламу, пытаемся "закрыть" хоть одного клиента...
Я не к тому что прошивки никому не нужны — а к тому что бизнес, которому нужен сайт, — это кофейня, стоматология, инфобизнесмен, стартап на пре-сиде и еще десятки если не сотни других кейсов. По сути любой человек с идеей и картой.
А бизнес, которому нужна прошивка/драйвера/etc — это компания которая шлёпает железяки с сертификацией и контрактным производством. То есть они очень нужны но мало кому.
Маленький рынок → мало инвестиций → мало людей → плохой тулинг → сложная разработка.
Большой рынок → сотни тысяч разработчиков → из них сотни пишут тулинг → десятки доводят до ума → единицы делают продукт мировой известности.
В 2005 году деплой — ручная настройка Apache, SSH, iptables. Сейчас
Задача не стала проще. Порог стал ниже!
Vercel, React, Next.js не появились потому что веб — простая область. Они появились потому что за веб *платят*.
Если бы индустрии нужно было столько же embedded-разработчиков, на YouTube было бы не "топ 10 хуков React", а "топ 10 обработчиков аппаратных прерываний". Embedded-форумы на полтора землекопа были бы похожи на Stack Overflow. 800 страничные PDF даташиты превратились в интерактивные гайды со смешными обзорами на ютюбe.
Пока писал этот постик нашел в сообществе embedded интересные примеры такого же снобизма)
Статья "Beware of learning embedded systems with Arduino"
>"настоящий embedded" — это когда сидишь с даташитом и девбордой
> Ардуино учит платформу, не контроллер
> начинать с неё — "big NO-NO"
Но на конференции Embedded Systems Conference 2015: "Arduino for Rapid Prototyping; It's Not Just a Toy".
То есть само существование такой сессии доказывает, что восприятие Arduino как игрушки достаточно распространено, чтобы с ним приходилось бороться. И это было 10 лет назад) Такая же история с Raspberry Pi, кому интересно погуглите или поверьте на слово.
Когда кто-то говорит, что [ОБЛАСТЬ ЗАДАЧ] — не настоящая разработка, он редко учитывает, что сами люди из [ОБЛАСТЬ ЗАДАЧ] сделали себе жизнь проще. Экономика формирует порог. Культура конвертирует порог в престиж — "настоящая работа" всегда воспринимается ближе к физическому миру, а любое снижение порога входа воспринимается как "несерьезные игрушечки".
Embedded ближе к физике, это факт. Здравый смысл подсказывает что такие задачки и сложнее и серьёзнее. А что если сложность — это не только свойство задач, но и следствие того, сколько людей работало над тем, чтобы эти задачи стали проще?
Открываем любую биржу фриланса. Считаем заказы "сделать сайт / приложение / бота" и заказы "написать драйвер / прошивку ". Соотношение будет не 10:1, а, скорее, 1000:1. Делаем лэндинг "НАПИСАНИЕ ДРАЙВЕРОВ ПОД КЛЮЧ!" и инвестируем к рекламу, пытаемся "закрыть" хоть одного клиента...
Я не к тому что прошивки никому не нужны — а к тому что бизнес, которому нужен сайт, — это кофейня, стоматология, инфобизнесмен, стартап на пре-сиде и еще десятки если не сотни других кейсов. По сути любой человек с идеей и картой.
А бизнес, которому нужна прошивка/драйвера/etc — это компания которая шлёпает железяки с сертификацией и контрактным производством. То есть они очень нужны но мало кому.
Маленький рынок → мало инвестиций → мало людей → плохой тулинг → сложная разработка.
Большой рынок → сотни тысяч разработчиков → из них сотни пишут тулинг → десятки доводят до ума → единицы делают продукт мировой известности.
В 2005 году деплой — ручная настройка Apache, SSH, iptables. Сейчас
vercel deploy. Задача не стала проще. Порог стал ниже!
Vercel, React, Next.js не появились потому что веб — простая область. Они появились потому что за веб *платят*.
Если бы индустрии нужно было столько же embedded-разработчиков, на YouTube было бы не "топ 10 хуков React", а "топ 10 обработчиков аппаратных прерываний". Embedded-форумы на полтора землекопа были бы похожи на Stack Overflow. 800 страничные PDF даташиты превратились в интерактивные гайды со смешными обзорами на ютюбe.
Пока писал этот постик нашел в сообществе embedded интересные примеры такого же снобизма)
Статья "Beware of learning embedded systems with Arduino"
>"настоящий embedded" — это когда сидишь с даташитом и девбордой
> Ардуино учит платформу, не контроллер
> начинать с неё — "big NO-NO"
Но на конференции Embedded Systems Conference 2015: "Arduino for Rapid Prototyping; It's Not Just a Toy".
То есть само существование такой сессии доказывает, что восприятие Arduino как игрушки достаточно распространено, чтобы с ним приходилось бороться. И это было 10 лет назад) Такая же история с Raspberry Pi, кому интересно погуглите или поверьте на слово.
Когда кто-то говорит, что [ОБЛАСТЬ ЗАДАЧ] — не настоящая разработка, он редко учитывает, что сами люди из [ОБЛАСТЬ ЗАДАЧ] сделали себе жизнь проще. Экономика формирует порог. Культура конвертирует порог в престиж — "настоящая работа" всегда воспринимается ближе к физическому миру, а любое снижение порога входа воспринимается как "несерьезные игрушечки".
🥰1
Пока обсуждают изъезженный на западе вдоль и поперек блэкпил, продают курсы для луксмакса за 100 долларов, находятся смелые люди которые видят в сложившейся ситуации целевую аудиторию и ВОЗМОЖНОСТИ - тот самый голубой океан! Одинокие платежеспособные ребятки жаждут женского внимания и на помощь им пришли платные подписки на ИИ))
Candy AI запустились в конце 2023, к концу 2025 вышли на $25M ARR. И это не самый большой игрок. Chai AI имеет $30M ARR на 12 человек, $2.5M на сотрудника. Это в 12 раз эффективнее среднего SaaS. И это из тех компаний которые всё таки решили "легализоваться".
Кабанчики арендуют ГПУ на время из датацентров. Запускают abliterated модели. Обходят комиссию Google/Apple находясь в вебе. И приносят прибыль!
Abliteration — техника, которая убирает механизм отказа из любой open-source модели без дообучения. На Hugging Face уже тысячи таких моделей. Есть инструмент Heretic, который делает это полностью автоматически - запускаешь одну команду и получаешь расцензуренную модель, которая сохраняет интеллект оригинала.
Вообщем, порог входа для среднего айтишника: пару вечеров с клодом и десятки долларов.
Легально ли это? Как с этим бороться? Будут ли вообще с этим бороться? Столько вопросов... А пока мы их задаём регуляторам и ждём ответа - смелые и смышлённые набирают себе квартиры на Петроградке.
P.S. Канал не призывает к действиям и не поощряет заработок в серых зонах законодательства.
Candy AI запустились в конце 2023, к концу 2025 вышли на $25M ARR. И это не самый большой игрок. Chai AI имеет $30M ARR на 12 человек, $2.5M на сотрудника. Это в 12 раз эффективнее среднего SaaS. И это из тех компаний которые всё таки решили "легализоваться".
Кабанчики арендуют ГПУ на время из датацентров. Запускают abliterated модели. Обходят комиссию Google/Apple находясь в вебе. И приносят прибыль!
Abliteration — техника, которая убирает механизм отказа из любой open-source модели без дообучения. На Hugging Face уже тысячи таких моделей. Есть инструмент Heretic, который делает это полностью автоматически - запускаешь одну команду и получаешь расцензуренную модель, которая сохраняет интеллект оригинала.
Вообщем, порог входа для среднего айтишника: пару вечеров с клодом и десятки долларов.
Легально ли это? Как с этим бороться? Будут ли вообще с этим бороться? Столько вопросов... А пока мы их задаём регуляторам и ждём ответа - смелые и смышлённые набирают себе квартиры на Петроградке.
P.S. Канал не призывает к действиям и не поощряет заработок в серых зонах законодательства.
🐳1
Был на конференции в прошлом году. Чел рассказывал: у нас вот LOW CODE платформа для тестирования гипотез. Соединяешь два прямоугольника в веб-интерфейсе — вуаля, процесс передачи данных. Из Кафки в постгрес, из монги в Кафку! До меня микрофон не дошёл, но первое что хотел спросить — а чем это отличается от Apache NiFi?
Моё мнение: текст — лучшее хранилище для алгоритмов, в зависимости от задач нужны различные синтаксисы. Никакие визуальные решения меня не убеждали. Хотя бы один вопрос: а чо с version control? Текст версионируется, диффается, ревьюится. Визуальные блоки — нет. Окей окей обходы есть))) тот же NiFi умеет подключаться к гиту. Но возникает вопрос: зачем редактировать блоки визуально, чтобы потом сгенерировать код? Может наоборот — писать код и смотреть визуализацию?))
Визуальный drag-and-drop no-code в упадке. Вендоры отказываются. Платформы которые вчера продавали "соедини два блока", сегодня прикручивают AI-генерацию и переименовываются.
Что интереснее — no-code умер, а его мечта сбылась. Идея "не технический человек создаёт софт" никуда не делась, но вместо появления очень интеллектуальных соединений прямоугольников в вебе — промпты пишут на естественном языке. Текст победил дважды: и как способ хранить алгоритмы, и как способ их создавать!
Моё мнение: текст — лучшее хранилище для алгоритмов, в зависимости от задач нужны различные синтаксисы. Никакие визуальные решения меня не убеждали. Хотя бы один вопрос: а чо с version control? Текст версионируется, диффается, ревьюится. Визуальные блоки — нет. Окей окей обходы есть))) тот же NiFi умеет подключаться к гиту. Но возникает вопрос: зачем редактировать блоки визуально, чтобы потом сгенерировать код? Может наоборот — писать код и смотреть визуализацию?))
Визуальный drag-and-drop no-code в упадке. Вендоры отказываются. Платформы которые вчера продавали "соедини два блока", сегодня прикручивают AI-генерацию и переименовываются.
Что интереснее — no-code умер, а его мечта сбылась. Идея "не технический человек создаёт софт" никуда не делась, но вместо появления очень интеллектуальных соединений прямоугольников в вебе — промпты пишут на естественном языке. Текст победил дважды: и как способ хранить алгоритмы, и как способ их создавать!
Каждую неделю — новая модель которая "побеждает Claude/GPT по бенчмаркам".
А что за бенчмарки? Два самых значимых сейчас — SWE-bench Verified и Humanity's Last Exam. Первый проверяет может ли модель починить реальный баг в реальном репозитории на гитхабе. Второй — 3000 сложных вопросов от экспертов из десятков дисциплин. Результаты которые показывают авторы моделей, впечатляют. Проблема в том, что числам всё сложнее доверять.
Модели обучаются на данных из интернета (бенчмарки тоже в интернете!!). Производительность моделей на задачах Codeforces резко падает после даты окончания обучения — до этой даты они просто помнят ответы. Сами авторы моделей выбирают на каких бенчмарках хвастаться))) Не прошёл GPQA? Покажем MMLU. Не прошёл MMLU? Зато на arena hard мы в топ 3! Это всё лаконично называют benchmaxxx
А теперь о тех вещах, которые вообще не бенчмаркают:
> Скорость инференса.
> Time to first token.
> Может ли модель грамотно использовать инструменты — вызывать функции, ходить в файловую систему, работать с браузером?
> Какие инструменты ей вообще доступны в среде?
> Насколько стабильны результаты от запуска к запуску?
Если выйдет модель которая получит 100% на SWEbv но она:
> Заставляет ждать первого токена по минуте
> Выдаёт меньше 20tps
> Ошибается при вызове команд (привет Gemini)
Практически будет не полезна! Очень много вещей одновременно делают опыт взаимодействия с агентом продуктивным.
Claude Code, Cursor, Codex — не просто модели. Это оркестрация десятков вызовов, контекст-менеджмент, интеграция с IDE, гит, файловой системой итд
В intelligence передовые open-source модели отстают от SOTA может на пару месяцев. В usefulness — на годы. По той простой причине что usefulness это сложная экосистема которая окружает модель и позволяет ей выполнять полезную работу.
А что за бенчмарки? Два самых значимых сейчас — SWE-bench Verified и Humanity's Last Exam. Первый проверяет может ли модель починить реальный баг в реальном репозитории на гитхабе. Второй — 3000 сложных вопросов от экспертов из десятков дисциплин. Результаты которые показывают авторы моделей, впечатляют. Проблема в том, что числам всё сложнее доверять.
Модели обучаются на данных из интернета (бенчмарки тоже в интернете!!). Производительность моделей на задачах Codeforces резко падает после даты окончания обучения — до этой даты они просто помнят ответы. Сами авторы моделей выбирают на каких бенчмарках хвастаться))) Не прошёл GPQA? Покажем MMLU. Не прошёл MMLU? Зато на arena hard мы в топ 3! Это всё лаконично называют benchmaxxx
А теперь о тех вещах, которые вообще не бенчмаркают:
> Скорость инференса.
> Time to first token.
> Может ли модель грамотно использовать инструменты — вызывать функции, ходить в файловую систему, работать с браузером?
> Какие инструменты ей вообще доступны в среде?
> Насколько стабильны результаты от запуска к запуску?
Если выйдет модель которая получит 100% на SWEbv но она:
> Заставляет ждать первого токена по минуте
> Выдаёт меньше 20tps
> Ошибается при вызове команд (привет Gemini)
Практически будет не полезна! Очень много вещей одновременно делают опыт взаимодействия с агентом продуктивным.
Claude Code, Cursor, Codex — не просто модели. Это оркестрация десятков вызовов, контекст-менеджмент, интеграция с IDE, гит, файловой системой итд
В intelligence передовые open-source модели отстают от SOTA может на пару месяцев. В usefulness — на годы. По той простой причине что usefulness это сложная экосистема которая окружает модель и позволяет ей выполнять полезную работу.
🕊1
