АйТиБорода

Forwarded from Осцилляции WaveCut (WaveCut)

Западные соцсети родили новый термин — "клэмпинг" (clamping). Если вы пользуетесь Codex, Claude Code или любым другим агентом для разработки, вы уже ощутили это на себе. С начала 2026 года вендоры синхронно закручивают гайки: режут лимиты, отменяют безлимиты, закрывают дешевые тарифы и переходят на жесткий учет токенов.

Эпоха "AI-кодинга за $20 в месяц" кончилась.
Причина банальна — coding agents. Одно дело, когда человек лениво переписывается с чатом. Другое — когда агент поднимает весь контекст репозитория, пишет патчи, дергает тулы, гоняет тесты и сжигает миллионы токенов за один цикл. Псевдобезлимитные тарифы под такой нагрузкой треснули.

Хроника схлопывания халявы (по состоянию на весну 2026):

Западный фронт:

❕

OpenAI (Codex): Полный отказ от лимитов в "сообщениях". Теперь работает token-based rate card. Тяжелые запросы с длинным контекстом сжирают баланс моментально. Обычный Plus-план занерфили в пользу "размазывания" сессий по неделе. Хочешь гонять агента без тормозов — заноси $100 или $200 за Pro.

❕

Anthropic (Claude Code): Ввели peak-hour throttling — лимиты в часы пик тают на глазах. Запретили использовать подписку через сторонние CLI-обертки. И главное: они A/B-тестировали на новых юзерах удаление Claude Code из базового Pro-тарифа за $20. Готовят почву для перевода кодеров в дорогие Max-тиры.

❕

GitHub Copilot: Выкатили жесткие сессионные и недельные лимиты. Добавили model multipliers — дорогие модели выжирают квоту в разы быстрее (до 7.5x).

❕

Google: Выступили ранним триггером инфраструктурного удорожания. Одни из первых подняли цены на модели линейки Gemini 3 версии, защемили до бесполезности AI Plan. Подняли цены на сетевой egress и начали тарифицировать execution и память в Vertex AI отдельными строками.

Китайский фронт (там зажимают еще жестче):

❕

Zhipu (GLM): Задрали прайс на кодинг-план на 30%, а на API — на 83% в первом квартале. Старые безлимитные планы принудительно закрыли, пересадив всех на жесткие недельные лимиты.

❕

Alibaba (Qwen): Сначала порезали daily-квоту на free OAuth с 1000 до 100 запросов, а потом вообще ее снесли. Дешевый план Lite закрыт для новых юзеров — порог входа начинается с $50 за Pro.

❕

ByteDance (Trae / BytePlus): Убили скидки на первую покупку. Перевели кодинг в чистую quota/PAYG модель.

❕

Kimi / MiniMax: Загнали все в платные тиры с rolling-окнами по 5 часов. Кончился лимит — сиди жди ресета или плати по счетчику.

Аномалия:

❕

DeepSeek: Единственный игрок, который ломает конкурентам маржинальную логику. Их V4 Flash отдает 1М токенов за $0.14 на вход и $0.28 на выход.

Теперь о практических последствиях. Компании радостно внедряли AI-агентов, рассчитывая на взрывной рост производительности и экономию. Наступил 2026 год, и выяснилось, что корпоративные бюджеты на токены пробивают потолок. Агентный луп жрет серверное время в промышленных масштабах.

Как бизнес решает проблему кассового разрыва? Начинаются лейофы. Менеджмент тупо разменивает потенциальную продуктивность оставшихся разработчиков на размер штата, чтобы высвободить деньги на оплату счетов от OpenAI, Anthropic и GitHub.

Для наемных разработчиков ситуация складывается откровенно паршивая. Требования к выработке растут — тебе же дали ИИ, ты должен закрывать таски пачками. При этом сами инструменты лимитируются. Ты запускаешь авто-рефакторинг, а через час ловишь "limit exceeded, wait 4 hours" или требование апгрейднуться за свой счет на тариф за сотку баксов. Нас заставляют выдавать 10x результат в условиях, когда вендор бьет по рукам за слишком интенсивное использование продукта.

Глядя на то, как быстро индустрия перешла от раздачи бесплатного контекста к агрессивному доению корпоративных балансов, возникает резонная мысль о выживаемости самой профессии прикладного разработчика. Возможно, через пару лет мы все окончательно мутируем в операторов биллинга, которые следят, чтобы один скрипт не сжег квартальный бюджет компании на попытки отладить другой скрипт, пока нас самих не оптимизируют за нерентабельность.

А что вы думаете - какое будущее ждет разработчиков в этой новой реальности?

Please open Telegram to view this post

VIEW IN TELEGRAM

4.51K views15:41

АйТиБорода

⬆️ Тут Валера (на пару с ИИ, очевидно 😁) толково разложил про закручивание гаек в токеномике программировании с ИИ.

От себя добавлю, что раньше в обычном ИИ-чате мы делали в разы меньше работы, по сравнению с агентами кодописателями нового дня (кодекс, CC). Например, позавчера ночью, за три часа мы с CC (он) написали бэкенд и мобильный фронт для андройд-апки нетривиальной, разобрались с выкаткой, запили контент-менеджмент web-UI. С обычным ИИ-чатом образца годичной давности у меня бы ушло пару полноценных дней копания в коде. Тут ушло три часа довольно плавного ревью кода, да ещё и на языке, на котором я не пишу (Котлин). Это всё по подписке за 100 баксов, лимитов хватило.

Год назад предложи мне подписку такую вместо 20$ за чат - я бы согласился не раздумывая. Так что, закручивания закручиваниями, но продуктивность даже с крепко сидящими гайками пока ещё все эти подписки окупает с лихвой.

Особенно, если не ныть, и понимать, как работает инструмент, где его минусы и как его улучшить (MCP, SSD, subagents, контекст-инженерия etc )

Думайте.

5.38K viewsedited 15:45

АйТиБорода

Forwarded from на Вайбе

⚡️ 408 выпуск "на Вайбе" уже онлайн!

Сегодня обсуждаем громкий релиз GPT-5.5 и GPT-5.5 Pro от OpenAI, радуемся прокачанным ChatGPT Images 2.0 и корпоративным Workspace Agents, смеемся над эпичным фейлом Anthropic со сливом модели Mythos и оцениваем новый инструмент Claude Design. Также исследуем открытый стандарт DESIGN.md и новые процессоры TPU 8-го поколения от Google, вникаем в сделку века между SpaceX и Cursor, удивляемся цифровому бессмертию Марка Цукерберга и тестируем Open Source монстра DeepSeek V4. В конце выпуска поговорим про китайских вооруженных робособак, локальные модели ElevenLabs, использование Claude в АНБ, священников-"разметчиков" и бенчмарк на выживание человечества - KillBench.

Приятного просмотра и прослушивания, наши дорогие 🤗

👉 YouTube
👉 Apple Podcasts
👉 Spotify
👉 Скачать mp3
👉 RSS
💬 Обсудить в чате

YouTube

🔥Релиз GPT-5.5, SpaceX покупает Cursor, DeepSeek V4, клон Цука, церковь + Anthropic = ❤️ / ПНВ #408

Сегодня обсуждаем громкий релиз GPT-5.5 и GPT-5.5 Pro от OpenAI, радуемся прокачанным ChatGPT Images 2.0 и корпоративным Workspace Agents, смеемся над эпичным фейлом Anthropic со сливом модели Mythos и оцениваем новый инструмент Claude Design. Также исследуем…

3.88K views11:44

АйТиБорода

Forwarded from Осцилляции WaveCut (WaveCut)

Плотва старше половины современных AI-стартапов.

⏳ Она начиналась ещё в эпоху Skype, ICQ и была написана на PHP, жила в беларуском IT-чате, потом переехала в Telegram, обросла мини-играми, странными привычками и интерактивом. Где-то к 2020-му у неё появилось первое подобие “искусственного сознания”, а после LLM-бума всё окончательно вышло из-под контроля.

Исторически мне всегда хотелось, чтобы Плотва была живой, весёлой и при этом приватной. Бот может шутить, рисовать, нести чушь и воплощать искусственный разум, но пользовательские сообщения не должны без необходимости улетать в чужое облако просто ради ответа в чате.

Последние годы это было сложнее, чем хотелось бы. Нормальные локальные модели перестали влезать в мой сетап, и часть разговорных функций пришлось держать на внешних провайдерах. Это был вынужденный компромисс, который всё время меня грузил. Приватность и безопасность общения — один из базовых принципов Плотвы, даже если сама Плотва иногда ведёт себя как лошадь, которую пустили к клавиатуре.

За последние пару недель ситуация сильно изменилась.

🥔 Благодаря донатам и VIP в сетап приехала RTX 3090 на 24 ГБ. Спасибо всем, кто к этому приложился. Эта видеокарта куплена из денег, которые вы пожертвовали в проект.
Сейчас больше 99% обычных разговорных запросов обрабатываются локально. На железе в моём контуре, без отправки текста внешним LLM-провайдерам. Внешний fallback пока остаётся на случай перегруза или отдельных сложных сценариев, но направление понятное: максимум общения держать дома, а всё исходящее наружу постепенно заворачивать через очистку персональных данных. К слову об этом.

🧹 Я добавил локальный privacy-фильтр. Перед отправкой текста в модель Плотва умеет вырезать ФИО, телефоны, почты и другие персональные данные. Фильтр основан на OpenAI privacy-filter с русскоязычной донастройкой, потому что основная аудитория Плотвы пишет по-русски.

Ещё одна большая штука — новая память.

💾 Старая система отдельных “фактов” отправилась на пенсию. Теперь Плотва в фоне разбирает завершённые куски истории, выкидывает спам, форварды, ботов и одноразовую шелуху, а из нормального человеческого разговора собирает долговременные воспоминания. Пока это фоновый слой, ему нужно пожить, накопить контекст и перестать путать седло с жабрами.

Важный момент: приватное остаётся приватным. Воспоминания из личных чатов не попадают в группы, групповой контекст не сваливается в кашу.

🛡 Появился и Shield — safety-слой для чувствительных ситуаций. Если разговор уходит в темы самоповреждения, суицидальных мыслей, бредовых состояний, насилия, доксинга, сталкинга или опасных инструкций, Плотва подтягивает специальный safety-контекст и пытается деэскалировать ситуацию, не подливать бензина и вернуть разговор в безопасное русло.

Под капотом тоже стало меньше хаоса: очереди, лимиты, fallback при перегрузе, раздельная обработка диалогов и памяти, трассировка запросов, защита от дублей и от случаев, когда служебный мусор внезапно лезет пользователю в ответ. Скучные инженерные кишки, без которых нормальная жизнь быстро превращается в весёлую ферму.

Локальное железо — это домашний сетап, не ровня датацентру за сто-пятьсот денег. Иногда Плотва может отвечать чуть медленнее, особенно под нагрузкой. Зато у меня теперь сильно больше пространства для экспериментов, улучшений и нормального развития без постоянного ощущения, что каждый чих надо тащить во внешний API.

Короче, мой pet-проект никогда такого не было и вот опять вырос до неприличных размеров. Теперь это маленький рыбозавод с конюшней на столе и всё ещё та самая Плотва, которая приносит людям радость, странные разговоры и немного искреннего ✨ безумия ✨.

Спасибо всем, кто пользуется, донатит, подписывается на VIP, пишет фидбек и просто держит эту рыбо-лошадь на плаву. Именно из-за вас я могу продолжать её пилить.

❤️

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

5.05K views21:20

АйТиБорода

Сегодня узнал, что Грэй ушёл из Радиота...

Такое ощущение, знаете... Будто бы ушла эпоха. Радио-Т был первым моим подкастом (спасибо Саша, что показал когда-то!). Слушал я его в основном из-за разгонов Бобука и Грэя. Ни первого (количественно точно) ни второго в подкасте уже нет. Примерно с тех пор, как парни стали захаживать эпизодически, и сам подкаст как-то выветрился из моего подкастоприемника.

Удачи Радио-Т конечно. Но блин, мужики, вы - лучшие. Не пропадайте.

БлоGнот

Про Радио-Т

Субботний выпуск подкаста Радио-Т был последним, в котором я участвовал. Хотя обстоятельства решения вышли несколько скандальными, само решение назрело давно.
С легкой руки Гриши Бакунова было принято …

4.48K viewsedited 01:26

АйТиБорода

Forwarded from Эволюция Кода / Анонсы

🔥 Запись онлайн-интервью с Глебом Моргачёвым — co-creator и главным инженером Gonka Protocol

Глеб — один из создателей Gonka наряду с братьями Либерманами и другими участниками команды.

Gonka — это децентрализованный блокчейн-протокол, задача которого — предоставлять пользователям децентрализованный инференс открытых моделей и потеснить монополистов-гиперскейлеров вроде OpenAI, Anthropic и других.

В этом интервью мы подробно разбираемся, как устроена Gonka, зачем она нужна и какую пользу может принести нам, разработчикам.

ПРО ЧТО ГОВОРИЛИ
- Что такое «протокол» в контексте децентрализованного AI
- Как происходят апгрейды сети: бинарники и голосование майнеров
- Философия AI-First: почему блокчейн здесь лишь инструмент
- Техническая реализация инференса на децентрализованных мощностях
- Обучение моделей: синхронизация градиентов и оффчейн-эксперименты
- Экономика проекта: токены GNK и Bitcoin-style реварды
- Динамическое ценообразование на инференс
- Доступные модели: Qwen, Kimi и критерии их выбора
- Proof-of-Compute: как верифицировать правильность ответа модели
- Процесс добавления новых моделей и роль DeepSeek
- Эффективность железа: конкуренция между H100 и B200
- Разделение логики: что остается On-chain, а что уходит Off-chain
- Метрики качества и общая пропускная способность сети
- Безопасность сети: защита от перехвата управления и стоимость атаки
- Разработчикам: как интегрировать Gonka в свой проект (SDK, Proxy)
- Проблема приватности и использование Trusted Execution Environments (TEE)
- Почему TEE — это не «серебряная пуля» для безопасности
- Для каких задач Gonka пока не подходит
- Внутренняя команда и внешние контрибьюторы
- Как стать контрибьютором: архитектура и DevShards
- Сессия вопросов и ответов (Q&A)
- Как реализован консенсус в связке с Cosmos SDK
- Прямые конкуренты: Bittensor, Ethereum, Ton

👉 Смотреть и слушать интервью в клубе
#evo_интервью

3.86K views23:40

АйТиБорода

Forwarded from Осцилляции WaveCut (WaveCut)

ds4.c - — маленький inference engine под Metal для DeepSeek V4 Flash. 💻
C/Objective-C/Metal, свои GGUF, CLI, локальный сервер с OpenAI/Anthropic-compatible API, tool calls, streaming.

Двухбитный квант влазит в Маки со 128 ГБ памяти. q4 требует 256+ GB.
На MacBook Pro M3 Max 128 GB заявлено около 26.7 ток/с на коротком prompt и 21.5 ток/с после 11.7k токенов контекста. Движок не держит модель онлайн, загружает и выгружает её между запросами почти мгновенно, используя memory mapping.

Мой товарищ поднял это на MacBook M5 Max 128 GB и великодушно записал для нас демку. У меня челюсть, честно, немного отвисла при просмотре.

Для агентов там тоже есть мясо: ds4-server умеет /v1/chat/completions, /v1/messages, SSE streaming, tool calls и оффлод KV cache на диск. Клиенты любят присылать один и тот же огромный prefix заново, а движок умеет сохранять KV на диск и переиспользовать его между запросами. В README прямо советуют на 128 GB держать контекст где-то в районе 100–300k, потому что полный 1M контекст сам по себе отъедает десятки гигабайт.

Ограничения: Metal-only, один live graph/session, параллельные запросы ждут очередь, стандартный GGUF не подсунешь, CPU path лучше не трогать — автор пугает крашем macOS kernel и сухо резюмирует: software sucks.

Счастливые обладатели жирных MacBook’ов уже могут держать фронтир DeepSeek V4 Flash локально и закрывать им ежедневные LLM-задачи без похода во внешний API. Везунчики. Остальные — продолжаем почесывать свои маленькие VRAM и делать вид, что нам нормально😎.

1:58

This media is not supported in your browser

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

4.62K views15:58

АйТиБорода

Forwarded from на Вайбе

⚡️ 409 выпуск "на Вайбе" уже онлайн!

Сегодня разбираемся, как Anthropic сорвал куш в $40 млрд от Google и SpaceX, а Claude стал новым стандартом для кодинга и дизайна. Обсуждаем GPT-5.5 Instant от OpenAI, их секретный смартфон и планы заработать $100 млрд на рекламе в чате. Выясняем, зачем Google тайно ставит Gemini Nano в ваш Chrome и зачем вешать дата-центры на стены жилых домов. Также в выпуске: релиз Mistral Medium 3.5, Grok 4.3, мобильный агент Trae Solo и китайские хитрости вокруг Manus. Залетаем в мир ИИ-музыки от Spotify и ElevenLabs, смотрим на завод роботов Figure AI, обсуждаем суд между OpenAI и Маском, и рассказываем про модель, обученную на данных 1930-х годов.

👉 YouTube
👉 Apple Podcasts
👉 Spotify
👉 Скачать mp3
👉 RSS
💬 Обсудить в чате

YouTube

Суд между Маском и OpenAI, Google "продался" Пентагону, смартфон от OpenAI и закат GitHub / ПНВ #409

Сегодня разбираемся, как Anthropic сорвал куш в $40 млрд от Google и SpaceX, а Claude стал новым стандартом для кодинга и дизайна. Обсуждаем GPT-5.5 Instant от OpenAI, их секретный смартфон и планы заработать $100 млрд на рекламе в чате. Выясняем, зачем Google…

3.93K views14:35

АйТиБорода

Forwarded from на Вайбе

⚡️ 410 выпуск "на Вайбе" уже онлайн!

Сегодня обсуждаем главные анонсы Google I/O: от масштабной трансформации Antigravity, Gemini 3.5 Flash и Omni до очков Android XR и ноутбуков Google Book, разбираем финал эпичного суда Маска и Альтмана, громкий трансфер Андрея Карпатого в Anthropic, манифест «AI Leadership 2028» и китайский прорыв Qwen 3.7 Max. Оцениваем безумный кейс, где рантайм Bun переписали с Zig на Rust всего за 10 дней с помощью ИИ, тестируем огромную меху Unitree GD01 за $650,000 и изучаем энциклику Ватикана об этике вместе с тибетским монахом-андроидом.

В конце вас ждёт ламповый оффтоп про ностальгические пиратские переводы Людей Икс!

👉 YouTube
👉 Apple Podcasts
👉 Spotify
👉 Скачать mp3
👉 RSS
💬 Обсудить в чате

YouTube

🔥 Gemini 3.5 и Gemini Omni, крах суда Маска, Карпатый в Anthropic, ИИ в Ватикане / ПНВ #410

Сегодня обсуждаем главные анонсы Google I/O: от масштабной трансформации Antigravity, Gemini 3.5 Flash и Omni до очков Android XR и ноутбуков Google Book, разбираем финал эпичного суда Маска и Альтмана, громкий трансфер Андрея Карпатого в Anthropic, манифест…

2.37K views17:14

АйТиБорода

Forwarded from Эволюция Кода / Анонсы

📰 ТОП-4 новости ИИ в программировании из 70го дайджеста клуба Эволюция Кода

🔸 Google представила новый флагман — Gemini 3.5 Flash
Несмотря на название, это уже не тот Flash, что был в линейке Gemini 3: модель позиционируется как новый флагман и обходит Gemini 3.1 Pro. При этом заявлена скорость до 300 токенов/с и сильные результаты на SWE-bench Pro (55,1%) и Terminal-Bench 2.1 (76,2%). Gemini 3.5 Pro обещают выпустить уже в следующем месяце.

🔸 Alibaba выпустила Qwen 3.7 Max
Первая модель семейства Qwen 3.7 показывает результаты уровня мировых лидеров: 69,7% на Terminal Bench 2.0, 60,6% на SWE-Pro и 80,4% на SWE-Verified. На фоне этих метрик Alibaba всё увереннее закрепляется среди лидеров AI-гонки, конкурируя с Anthropic и Google.

🔸 OpenAI добавила удалённое управление Codex в ChatGPT
Теперь агентом можно управлять со смартфона: приложение показывает скриншоты среды, логи терминала, результаты тестов и diff-файлы в реальном времени. Также появился Remote SSH для работы в корпоративной инфраструктуре; функция уже доступна на macOS и всех тарифах.

🔸 Йошуа Бенджио представил архитектуру GRAM
GRAM (Generative Recursive reAsoning Models) развивает идею рекурсивного рассуждения во внутренних состояниях модели без раздувания контекста. Ключевое новшество — стохастичность: модель исследует разные траектории решения и выбирает лучшую через reward-модель. На ARC-AGI система уже показывает около 52%.

💡 Всего в дайджесте 30+ новостей, в аудио, видео и текстовом форматах, так что присоединяйся к клубу 🧬

2.29K views00:38

About

Blog

Apps

Platform