Forwarded from Осцилляции WaveCut (WaveCut)
Западные соцсети родили новый термин — "клэмпинг" (clamping). Если вы пользуетесь Codex, Claude Code или любым другим агентом для разработки, вы уже ощутили это на себе. С начала 2026 года вендоры синхронно закручивают гайки: режут лимиты, отменяют безлимиты, закрывают дешевые тарифы и переходят на жесткий учет токенов.
Эпоха "AI-кодинга за $20 в месяц" кончилась.
Причина банальна — coding agents. Одно дело, когда человек лениво переписывается с чатом. Другое — когда агент поднимает весь контекст репозитория, пишет патчи, дергает тулы, гоняет тесты и сжигает миллионы токенов за один цикл. Псевдобезлимитные тарифы под такой нагрузкой треснули.
Хроника схлопывания халявы (по состоянию на весну 2026):
Западный фронт:
❕ OpenAI (Codex): Полный отказ от лимитов в "сообщениях". Теперь работает token-based rate card. Тяжелые запросы с длинным контекстом сжирают баланс моментально. Обычный Plus-план занерфили в пользу "размазывания" сессий по неделе. Хочешь гонять агента без тормозов — заноси $100 или $200 за Pro.
❕ Anthropic (Claude Code): Ввели peak-hour throttling — лимиты в часы пик тают на глазах. Запретили использовать подписку через сторонние CLI-обертки. И главное: они A/B-тестировали на новых юзерах удаление Claude Code из базового Pro-тарифа за $20. Готовят почву для перевода кодеров в дорогие Max-тиры.
❕ GitHub Copilot: Выкатили жесткие сессионные и недельные лимиты. Добавили model multipliers — дорогие модели выжирают квоту в разы быстрее (до 7.5x).
❕ Google: Выступили ранним триггером инфраструктурного удорожания. Одни из первых подняли цены на модели линейки Gemini 3 версии, защемили до бесполезности AI Plan. Подняли цены на сетевой egress и начали тарифицировать execution и память в Vertex AI отдельными строками.
Китайский фронт (там зажимают еще жестче):
❕ Zhipu (GLM): Задрали прайс на кодинг-план на 30%, а на API — на 83% в первом квартале. Старые безлимитные планы принудительно закрыли, пересадив всех на жесткие недельные лимиты.
❕ Alibaba (Qwen): Сначала порезали daily-квоту на free OAuth с 1000 до 100 запросов, а потом вообще ее снесли. Дешевый план Lite закрыт для новых юзеров — порог входа начинается с $50 за Pro.
❕ ByteDance (Trae / BytePlus): Убили скидки на первую покупку. Перевели кодинг в чистую quota/PAYG модель.
❕ Kimi / MiniMax: Загнали все в платные тиры с rolling-окнами по 5 часов. Кончился лимит — сиди жди ресета или плати по счетчику.
Аномалия:
❕ DeepSeek: Единственный игрок, который ломает конкурентам маржинальную логику. Их V4 Flash отдает 1М токенов за $0.14 на вход и $0.28 на выход.
Теперь о практических последствиях. Компании радостно внедряли AI-агентов, рассчитывая на взрывной рост производительности и экономию. Наступил 2026 год, и выяснилось, что корпоративные бюджеты на токены пробивают потолок. Агентный луп жрет серверное время в промышленных масштабах.
Как бизнес решает проблему кассового разрыва? Начинаются лейофы. Менеджмент тупо разменивает потенциальную продуктивность оставшихся разработчиков на размер штата, чтобы высвободить деньги на оплату счетов от OpenAI, Anthropic и GitHub.
Для наемных разработчиков ситуация складывается откровенно паршивая. Требования к выработке растут — тебе же дали ИИ, ты должен закрывать таски пачками. При этом сами инструменты лимитируются. Ты запускаешь авто-рефакторинг, а через час ловишь "limit exceeded, wait 4 hours" или требование апгрейднуться за свой счет на тариф за сотку баксов. Нас заставляют выдавать 10x результат в условиях, когда вендор бьет по рукам за слишком интенсивное использование продукта.
Глядя на то, как быстро индустрия перешла от раздачи бесплатного контекста к агрессивному доению корпоративных балансов, возникает резонная мысль о выживаемости самой профессии прикладного разработчика. Возможно, через пару лет мы все окончательно мутируем в операторов биллинга, которые следят, чтобы один скрипт не сжег квартальный бюджет компании на попытки отладить другой скрипт, пока нас самих не оптимизируют за нерентабельность.
А что вы думаете - какое будущее ждет разработчиков в этой новой реальности?
Эпоха "AI-кодинга за $20 в месяц" кончилась.
Причина банальна — coding agents. Одно дело, когда человек лениво переписывается с чатом. Другое — когда агент поднимает весь контекст репозитория, пишет патчи, дергает тулы, гоняет тесты и сжигает миллионы токенов за один цикл. Псевдобезлимитные тарифы под такой нагрузкой треснули.
Хроника схлопывания халявы (по состоянию на весну 2026):
Западный фронт:
Китайский фронт (там зажимают еще жестче):
Аномалия:
Теперь о практических последствиях. Компании радостно внедряли AI-агентов, рассчитывая на взрывной рост производительности и экономию. Наступил 2026 год, и выяснилось, что корпоративные бюджеты на токены пробивают потолок. Агентный луп жрет серверное время в промышленных масштабах.
Как бизнес решает проблему кассового разрыва? Начинаются лейофы. Менеджмент тупо разменивает потенциальную продуктивность оставшихся разработчиков на размер штата, чтобы высвободить деньги на оплату счетов от OpenAI, Anthropic и GitHub.
Для наемных разработчиков ситуация складывается откровенно паршивая. Требования к выработке растут — тебе же дали ИИ, ты должен закрывать таски пачками. При этом сами инструменты лимитируются. Ты запускаешь авто-рефакторинг, а через час ловишь "limit exceeded, wait 4 hours" или требование апгрейднуться за свой счет на тариф за сотку баксов. Нас заставляют выдавать 10x результат в условиях, когда вендор бьет по рукам за слишком интенсивное использование продукта.
Глядя на то, как быстро индустрия перешла от раздачи бесплатного контекста к агрессивному доению корпоративных балансов, возникает резонная мысль о выживаемости самой профессии прикладного разработчика. Возможно, через пару лет мы все окончательно мутируем в операторов биллинга, которые следят, чтобы один скрипт не сжег квартальный бюджет компании на попытки отладить другой скрипт, пока нас самих не оптимизируют за нерентабельность.
А что вы думаете - какое будущее ждет разработчиков в этой новой реальности?
Please open Telegram to view this post
VIEW IN TELEGRAM
⬆️ Тут Валера (на пару с ИИ, очевидно 😁) толково разложил про закручивание гаек в токеномике программировании с ИИ.
От себя добавлю, что раньше в обычном ИИ-чате мы делали в разы меньше работы, по сравнению с агентами кодописателями нового дня (кодекс, CC). Например, позавчера ночью, за три часа мы с CC (он) написали бэкенд и мобильный фронт для андройд-апки нетривиальной, разобрались с выкаткой, запили контент-менеджмент web-UI. С обычным ИИ-чатом образца годичной давности у меня бы ушло пару полноценных дней копания в коде. Тут ушло три часа довольно плавного ревью кода, да ещё и на языке, на котором я не пишу (Котлин). Это всё по подписке за 100 баксов, лимитов хватило.
Год назад предложи мне подписку такую вместо 20$ за чат - я бы согласился не раздумывая. Так что, закручивания закручиваниями, но продуктивность даже с крепко сидящими гайками пока ещё все эти подписки окупает с лихвой.
Особенно, если не ныть, и понимать, как работает инструмент, где его минусы и как его улучшить (MCP, SSD, subagents, контекст-инженерия etc )
Думайте.
От себя добавлю, что раньше в обычном ИИ-чате мы делали в разы меньше работы, по сравнению с агентами кодописателями нового дня (кодекс, CC). Например, позавчера ночью, за три часа мы с CC (он) написали бэкенд и мобильный фронт для андройд-апки нетривиальной, разобрались с выкаткой, запили контент-менеджмент web-UI. С обычным ИИ-чатом образца годичной давности у меня бы ушло пару полноценных дней копания в коде. Тут ушло три часа довольно плавного ревью кода, да ещё и на языке, на котором я не пишу (Котлин). Это всё по подписке за 100 баксов, лимитов хватило.
Год назад предложи мне подписку такую вместо 20$ за чат - я бы согласился не раздумывая. Так что, закручивания закручиваниями, но продуктивность даже с крепко сидящими гайками пока ещё все эти подписки окупает с лихвой.
Особенно, если не ныть, и понимать, как работает инструмент, где его минусы и как его улучшить (MCP, SSD, subagents, контекст-инженерия etc )
Думайте.
Forwarded from на Вайбе
⚡️ 408 выпуск "на Вайбе" уже онлайн!
Сегодня обсуждаем громкий релиз GPT-5.5 и GPT-5.5 Pro от OpenAI, радуемся прокачанным ChatGPT Images 2.0 и корпоративным Workspace Agents, смеемся над эпичным фейлом Anthropic со сливом модели Mythos и оцениваем новый инструмент Claude Design. Также исследуем открытый стандарт DESIGN.md и новые процессоры TPU 8-го поколения от Google, вникаем в сделку века между SpaceX и Cursor, удивляемся цифровому бессмертию Марка Цукерберга и тестируем Open Source монстра DeepSeek V4. В конце выпуска поговорим про китайских вооруженных робособак, локальные модели ElevenLabs, использование Claude в АНБ, священников-"разметчиков" и бенчмарк на выживание человечества - KillBench.
Приятного просмотра и прослушивания, наши дорогие 🤗
👉 YouTube
👉 Apple Podcasts
👉 Spotify
👉 Скачать mp3
👉 RSS
💬 Обсудить в чате
Сегодня обсуждаем громкий релиз GPT-5.5 и GPT-5.5 Pro от OpenAI, радуемся прокачанным ChatGPT Images 2.0 и корпоративным Workspace Agents, смеемся над эпичным фейлом Anthropic со сливом модели Mythos и оцениваем новый инструмент Claude Design. Также исследуем открытый стандарт DESIGN.md и новые процессоры TPU 8-го поколения от Google, вникаем в сделку века между SpaceX и Cursor, удивляемся цифровому бессмертию Марка Цукерберга и тестируем Open Source монстра DeepSeek V4. В конце выпуска поговорим про китайских вооруженных робособак, локальные модели ElevenLabs, использование Claude в АНБ, священников-"разметчиков" и бенчмарк на выживание человечества - KillBench.
Приятного просмотра и прослушивания, наши дорогие 🤗
👉 YouTube
👉 Apple Podcasts
👉 Spotify
👉 Скачать mp3
👉 RSS
💬 Обсудить в чате
YouTube
🔥Релиз GPT-5.5, SpaceX покупает Cursor, DeepSeek V4, клон Цука, церковь + Anthropic = ❤️ / ПНВ #408
Сегодня обсуждаем громкий релиз GPT-5.5 и GPT-5.5 Pro от OpenAI, радуемся прокачанным ChatGPT Images 2.0 и корпоративным Workspace Agents, смеемся над эпичным фейлом Anthropic со сливом модели Mythos и оцениваем новый инструмент Claude Design. Также исследуем…
1
Forwarded from Осцилляции WaveCut (WaveCut)
Плотва старше половины современных AI-стартапов.
⏳ Она начиналась ещё в эпоху Skype, ICQ и была написана на PHP, жила в беларуском IT-чате, потом переехала в Telegram, обросла мини-играми, странными привычками и интерактивом. Где-то к 2020-му у неё появилось первое подобие “искусственного сознания”, а после LLM-бума всё окончательно вышло из-под контроля.
Исторически мне всегда хотелось, чтобы Плотва была живой, весёлой и при этом приватной. Бот может шутить, рисовать, нести чушь и воплощать искусственный разум, но пользовательские сообщения не должны без необходимости улетать в чужое облако просто ради ответа в чате.
Последние годы это было сложнее, чем хотелось бы. Нормальные локальные модели перестали влезать в мой сетап, и часть разговорных функций пришлось держать на внешних провайдерах. Это был вынужденный компромисс, который всё время меня грузил. Приватность и безопасность общения — один из базовых принципов Плотвы, даже если сама Плотва иногда ведёт себя как лошадь, которую пустили к клавиатуре.
За последние пару недель ситуация сильно изменилась.
🥔 Благодаря донатам и VIP в сетап приехала RTX 3090 на 24 ГБ. Спасибо всем, кто к этому приложился. Эта видеокарта куплена из денег, которые вы пожертвовали в проект.
Сейчас больше 99% обычных разговорных запросов обрабатываются локально. На железе в моём контуре, без отправки текста внешним LLM-провайдерам. Внешний fallback пока остаётся на случай перегруза или отдельных сложных сценариев, но направление понятное: максимум общения держать дома, а всё исходящее наружу постепенно заворачивать через очистку персональных данных. К слову об этом.
🧹 Я добавил локальный privacy-фильтр. Перед отправкой текста в модель Плотва умеет вырезать ФИО, телефоны, почты и другие персональные данные. Фильтр основан на OpenAI privacy-filter с русскоязычной донастройкой, потому что основная аудитория Плотвы пишет по-русски.
Ещё одна большая штука — новая память.
💾 Старая система отдельных “фактов” отправилась на пенсию. Теперь Плотва в фоне разбирает завершённые куски истории, выкидывает спам, форварды, ботов и одноразовую шелуху, а из нормального человеческого разговора собирает долговременные воспоминания. Пока это фоновый слой, ему нужно пожить, накопить контекст и перестать путать седло с жабрами.
Важный момент: приватное остаётся приватным. Воспоминания из личных чатов не попадают в группы, групповой контекст не сваливается в кашу.
🛡 Появился и Shield — safety-слой для чувствительных ситуаций. Если разговор уходит в темы самоповреждения, суицидальных мыслей, бредовых состояний, насилия, доксинга, сталкинга или опасных инструкций, Плотва подтягивает специальный safety-контекст и пытается деэскалировать ситуацию, не подливать бензина и вернуть разговор в безопасное русло.
Под капотом тоже стало меньше хаоса: очереди, лимиты, fallback при перегрузе, раздельная обработка диалогов и памяти, трассировка запросов, защита от дублей и от случаев, когда служебный мусор внезапно лезет пользователю в ответ. Скучные инженерные кишки, без которых нормальная жизнь быстро превращается в весёлую ферму.
Локальное железо — это домашний сетап, не ровня датацентру за сто-пятьсот денег. Иногда Плотва может отвечать чуть медленнее, особенно под нагрузкой. Зато у меня теперь сильно больше пространства для экспериментов, улучшений и нормального развития без постоянного ощущения, что каждый чих надо тащить во внешний API.
Короче, мой pet-проект никогда такого не было и вот опять вырос до неприличных размеров. Теперь это маленький рыбозавод с конюшней на столе и всё ещё та самая Плотва, которая приносит людям радость, странные разговоры и немного искреннего✨ безумия ✨ .
Спасибо всем, кто пользуется, донатит, подписывается на VIP, пишет фидбек и просто держит эту рыбо-лошадь на плаву. Именно из-за вас я могу продолжать её пилить.
❤️
Исторически мне всегда хотелось, чтобы Плотва была живой, весёлой и при этом приватной. Бот может шутить, рисовать, нести чушь и воплощать искусственный разум, но пользовательские сообщения не должны без необходимости улетать в чужое облако просто ради ответа в чате.
Последние годы это было сложнее, чем хотелось бы. Нормальные локальные модели перестали влезать в мой сетап, и часть разговорных функций пришлось держать на внешних провайдерах. Это был вынужденный компромисс, который всё время меня грузил. Приватность и безопасность общения — один из базовых принципов Плотвы, даже если сама Плотва иногда ведёт себя как лошадь, которую пустили к клавиатуре.
За последние пару недель ситуация сильно изменилась.
🥔 Благодаря донатам и VIP в сетап приехала RTX 3090 на 24 ГБ. Спасибо всем, кто к этому приложился. Эта видеокарта куплена из денег, которые вы пожертвовали в проект.
Сейчас больше 99% обычных разговорных запросов обрабатываются локально. На железе в моём контуре, без отправки текста внешним LLM-провайдерам. Внешний fallback пока остаётся на случай перегруза или отдельных сложных сценариев, но направление понятное: максимум общения держать дома, а всё исходящее наружу постепенно заворачивать через очистку персональных данных. К слову об этом.
🧹 Я добавил локальный privacy-фильтр. Перед отправкой текста в модель Плотва умеет вырезать ФИО, телефоны, почты и другие персональные данные. Фильтр основан на OpenAI privacy-filter с русскоязычной донастройкой, потому что основная аудитория Плотвы пишет по-русски.
Ещё одна большая штука — новая память.
💾 Старая система отдельных “фактов” отправилась на пенсию. Теперь Плотва в фоне разбирает завершённые куски истории, выкидывает спам, форварды, ботов и одноразовую шелуху, а из нормального человеческого разговора собирает долговременные воспоминания. Пока это фоновый слой, ему нужно пожить, накопить контекст и перестать путать седло с жабрами.
Важный момент: приватное остаётся приватным. Воспоминания из личных чатов не попадают в группы, групповой контекст не сваливается в кашу.
Под капотом тоже стало меньше хаоса: очереди, лимиты, fallback при перегрузе, раздельная обработка диалогов и памяти, трассировка запросов, защита от дублей и от случаев, когда служебный мусор внезапно лезет пользователю в ответ. Скучные инженерные кишки, без которых нормальная жизнь быстро превращается в весёлую ферму.
Локальное железо — это домашний сетап, не ровня датацентру за сто-пятьсот денег. Иногда Плотва может отвечать чуть медленнее, особенно под нагрузкой. Зато у меня теперь сильно больше пространства для экспериментов, улучшений и нормального развития без постоянного ощущения, что каждый чих надо тащить во внешний API.
Короче, мой pet-проект никогда такого не было и вот опять вырос до неприличных размеров. Теперь это маленький рыбозавод с конюшней на столе и всё ещё та самая Плотва, которая приносит людям радость, странные разговоры и немного искреннего
Спасибо всем, кто пользуется, донатит, подписывается на VIP, пишет фидбек и просто держит эту рыбо-лошадь на плаву. Именно из-за вас я могу продолжать её пилить.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Сегодня узнал, что Грэй ушёл из Радиота...
Такое ощущение, знаете... Будто бы ушла эпоха. Радио-Т был первым моим подкастом (спасибо Саша, что показал когда-то!). Слушал я его в основном из-за разгонов Бобука и Грэя. Ни первого (количественно точно) ни второго в подкасте уже нет. Примерно с тех пор, как парни стали захаживать эпизодически, и сам подкаст как-то выветрился из моего подкастоприемника.
Удачи Радио-Т конечно. Но блин, мужики, вы - лучшие. Не пропадайте.
Такое ощущение, знаете... Будто бы ушла эпоха. Радио-Т был первым моим подкастом (спасибо Саша, что показал когда-то!). Слушал я его в основном из-за разгонов Бобука и Грэя. Ни первого (количественно точно) ни второго в подкасте уже нет. Примерно с тех пор, как парни стали захаживать эпизодически, и сам подкаст как-то выветрился из моего подкастоприемника.
Удачи Радио-Т конечно. Но блин, мужики, вы - лучшие. Не пропадайте.
БлоGнот
Про Радио-Т
Субботний выпуск подкаста Радио-Т был последним, в котором я участвовал. Хотя обстоятельства решения вышли несколько скандальными, само решение назрело давно.
С легкой руки Гриши Бакунова было принято …
С легкой руки Гриши Бакунова было принято …
1
Forwarded from Эволюция Кода / Анонсы
🔥 Запись онлайн-интервью с Глебом Моргачёвым — co-creator и главным инженером Gonka Protocol
Глеб — один из создателей Gonka наряду с братьями Либерманами и другими участниками команды.
Gonka — это децентрализованный блокчейн-протокол, задача которого — предоставлять пользователям децентрализованный инференс открытых моделей и потеснить монополистов-гиперскейлеров вроде OpenAI, Anthropic и других.
В этом интервью мы подробно разбираемся, как устроена Gonka, зачем она нужна и какую пользу может принести нам, разработчикам.
ПРО ЧТО ГОВОРИЛИ
- Что такое «протокол» в контексте децентрализованного AI
- Как происходят апгрейды сети: бинарники и голосование майнеров
- Философия AI-First: почему блокчейн здесь лишь инструмент
- Техническая реализация инференса на децентрализованных мощностях
- Обучение моделей: синхронизация градиентов и оффчейн-эксперименты
- Экономика проекта: токены GNK и Bitcoin-style реварды
- Динамическое ценообразование на инференс
- Доступные модели: Qwen, Kimi и критерии их выбора
- Proof-of-Compute: как верифицировать правильность ответа модели
- Процесс добавления новых моделей и роль DeepSeek
- Эффективность железа: конкуренция между H100 и B200
- Разделение логики: что остается On-chain, а что уходит Off-chain
- Метрики качества и общая пропускная способность сети
- Безопасность сети: защита от перехвата управления и стоимость атаки
- Разработчикам: как интегрировать Gonka в свой проект (SDK, Proxy)
- Проблема приватности и использование Trusted Execution Environments (TEE)
- Почему TEE — это не «серебряная пуля» для безопасности
- Для каких задач Gonka пока не подходит
- Внутренняя команда и внешние контрибьюторы
- Как стать контрибьютором: архитектура и DevShards
- Сессия вопросов и ответов (Q&A)
- Как реализован консенсус в связке с Cosmos SDK
- Прямые конкуренты: Bittensor, Ethereum, Ton
👉 Смотреть и слушать интервью в клубе
#evo_интервью
Глеб — один из создателей Gonka наряду с братьями Либерманами и другими участниками команды.
Gonka — это децентрализованный блокчейн-протокол, задача которого — предоставлять пользователям децентрализованный инференс открытых моделей и потеснить монополистов-гиперскейлеров вроде OpenAI, Anthropic и других.
В этом интервью мы подробно разбираемся, как устроена Gonka, зачем она нужна и какую пользу может принести нам, разработчикам.
ПРО ЧТО ГОВОРИЛИ
- Что такое «протокол» в контексте децентрализованного AI
- Как происходят апгрейды сети: бинарники и голосование майнеров
- Философия AI-First: почему блокчейн здесь лишь инструмент
- Техническая реализация инференса на децентрализованных мощностях
- Обучение моделей: синхронизация градиентов и оффчейн-эксперименты
- Экономика проекта: токены GNK и Bitcoin-style реварды
- Динамическое ценообразование на инференс
- Доступные модели: Qwen, Kimi и критерии их выбора
- Proof-of-Compute: как верифицировать правильность ответа модели
- Процесс добавления новых моделей и роль DeepSeek
- Эффективность железа: конкуренция между H100 и B200
- Разделение логики: что остается On-chain, а что уходит Off-chain
- Метрики качества и общая пропускная способность сети
- Безопасность сети: защита от перехвата управления и стоимость атаки
- Разработчикам: как интегрировать Gonka в свой проект (SDK, Proxy)
- Проблема приватности и использование Trusted Execution Environments (TEE)
- Почему TEE — это не «серебряная пуля» для безопасности
- Для каких задач Gonka пока не подходит
- Внутренняя команда и внешние контрибьюторы
- Как стать контрибьютором: архитектура и DevShards
- Сессия вопросов и ответов (Q&A)
- Как реализован консенсус в связке с Cosmos SDK
- Прямые конкуренты: Bittensor, Ethereum, Ton
👉 Смотреть и слушать интервью в клубе
#evo_интервью
2
Forwarded from Осцилляции WaveCut (WaveCut)
ds4.c - — маленький inference engine под Metal для DeepSeek V4 Flash. 💻
C/Objective-C/Metal, свои GGUF, CLI, локальный сервер с OpenAI/Anthropic-compatible API, tool calls, streaming.
Двухбитный квант влазит в Маки со 128 ГБ памяти. q4 требует 256+ GB.
На MacBook Pro M3 Max 128 GB заявлено около 26.7 ток/с на коротком prompt и 21.5 ток/с после 11.7k токенов контекста. Движок не держит модель онлайн, загружает и выгружает её между запросами почти мгновенно, используя memory mapping.
Мой товарищ поднял это на MacBook M5 Max 128 GB и великодушно записал для нас демку. У меня челюсть, честно, немного отвисла при просмотре.
Для агентов там тоже есть мясо: ds4-server умеет /v1/chat/completions, /v1/messages, SSE streaming, tool calls и оффлод KV cache на диск. Клиенты любят присылать один и тот же огромный prefix заново, а движок умеет сохранять KV на диск и переиспользовать его между запросами. В README прямо советуют на 128 GB держать контекст где-то в районе 100–300k, потому что полный 1M контекст сам по себе отъедает десятки гигабайт.
Ограничения: Metal-only, один live graph/session, параллельные запросы ждут очередь, стандартный GGUF не подсунешь, CPU path лучше не трогать — автор пугает крашем macOS kernel и сухо резюмирует: software sucks.
Счастливые обладатели жирных MacBook’ов уже могут держать фронтир DeepSeek V4 Flash локально и закрывать им ежедневные LLM-задачи без похода во внешний API. Везунчики. Остальные — продолжаем почесывать свои маленькие VRAM и делать вид, что нам нормально😎.
C/Objective-C/Metal, свои GGUF, CLI, локальный сервер с OpenAI/Anthropic-compatible API, tool calls, streaming.
Двухбитный квант влазит в Маки со 128 ГБ памяти. q4 требует 256+ GB.
На MacBook Pro M3 Max 128 GB заявлено около 26.7 ток/с на коротком prompt и 21.5 ток/с после 11.7k токенов контекста. Движок не держит модель онлайн, загружает и выгружает её между запросами почти мгновенно, используя memory mapping.
Мой товарищ поднял это на MacBook M5 Max 128 GB и великодушно записал для нас демку. У меня челюсть, честно, немного отвисла при просмотре.
Для агентов там тоже есть мясо: ds4-server умеет /v1/chat/completions, /v1/messages, SSE streaming, tool calls и оффлод KV cache на диск. Клиенты любят присылать один и тот же огромный prefix заново, а движок умеет сохранять KV на диск и переиспользовать его между запросами. В README прямо советуют на 128 GB держать контекст где-то в районе 100–300k, потому что полный 1M контекст сам по себе отъедает десятки гигабайт.
Ограничения: Metal-only, один live graph/session, параллельные запросы ждут очередь, стандартный GGUF не подсунешь, CPU path лучше не трогать — автор пугает крашем macOS kernel и сухо резюмирует: software sucks.
Счастливые обладатели жирных MacBook’ов уже могут держать фронтир DeepSeek V4 Flash локально и закрывать им ежедневные LLM-задачи без похода во внешний API. Везунчики. Остальные — продолжаем почесывать свои маленькие VRAM и делать вид, что нам нормально😎.
This media is not supported in your browser
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from на Вайбе
⚡️ 409 выпуск "на Вайбе" уже онлайн!
Сегодня разбираемся, как Anthropic сорвал куш в $40 млрд от Google и SpaceX, а Claude стал новым стандартом для кодинга и дизайна. Обсуждаем GPT-5.5 Instant от OpenAI, их секретный смартфон и планы заработать $100 млрд на рекламе в чате. Выясняем, зачем Google тайно ставит Gemini Nano в ваш Chrome и зачем вешать дата-центры на стены жилых домов. Также в выпуске: релиз Mistral Medium 3.5, Grok 4.3, мобильный агент Trae Solo и китайские хитрости вокруг Manus. Залетаем в мир ИИ-музыки от Spotify и ElevenLabs, смотрим на завод роботов Figure AI, обсуждаем суд между OpenAI и Маском, и рассказываем про модель, обученную на данных 1930-х годов.
👉 YouTube
👉 Apple Podcasts
👉 Spotify
👉 Скачать mp3
👉 RSS
💬 Обсудить в чате
Сегодня разбираемся, как Anthropic сорвал куш в $40 млрд от Google и SpaceX, а Claude стал новым стандартом для кодинга и дизайна. Обсуждаем GPT-5.5 Instant от OpenAI, их секретный смартфон и планы заработать $100 млрд на рекламе в чате. Выясняем, зачем Google тайно ставит Gemini Nano в ваш Chrome и зачем вешать дата-центры на стены жилых домов. Также в выпуске: релиз Mistral Medium 3.5, Grok 4.3, мобильный агент Trae Solo и китайские хитрости вокруг Manus. Залетаем в мир ИИ-музыки от Spotify и ElevenLabs, смотрим на завод роботов Figure AI, обсуждаем суд между OpenAI и Маском, и рассказываем про модель, обученную на данных 1930-х годов.
👉 YouTube
👉 Apple Podcasts
👉 Spotify
👉 Скачать mp3
👉 RSS
💬 Обсудить в чате
YouTube
Суд между Маском и OpenAI, Google "продался" Пентагону, смартфон от OpenAI и закат GitHub / ПНВ #409
Сегодня разбираемся, как Anthropic сорвал куш в $40 млрд от Google и SpaceX, а Claude стал новым стандартом для кодинга и дизайна. Обсуждаем GPT-5.5 Instant от OpenAI, их секретный смартфон и планы заработать $100 млрд на рекламе в чате. Выясняем, зачем Google…
Forwarded from на Вайбе
⚡️ 410 выпуск "на Вайбе" уже онлайн!
Сегодня обсуждаем главные анонсы Google I/O: от масштабной трансформации Antigravity, Gemini 3.5 Flash и Omni до очков Android XR и ноутбуков Google Book, разбираем финал эпичного суда Маска и Альтмана, громкий трансфер Андрея Карпатого в Anthropic, манифест «AI Leadership 2028» и китайский прорыв Qwen 3.7 Max. Оцениваем безумный кейс, где рантайм Bun переписали с Zig на Rust всего за 10 дней с помощью ИИ, тестируем огромную меху Unitree GD01 за $650,000 и изучаем энциклику Ватикана об этике вместе с тибетским монахом-андроидом.
В конце вас ждёт ламповый оффтоп про ностальгические пиратские переводы Людей Икс!
👉 YouTube
👉 Apple Podcasts
👉 Spotify
👉 Скачать mp3
👉 RSS
💬 Обсудить в чате
Сегодня обсуждаем главные анонсы Google I/O: от масштабной трансформации Antigravity, Gemini 3.5 Flash и Omni до очков Android XR и ноутбуков Google Book, разбираем финал эпичного суда Маска и Альтмана, громкий трансфер Андрея Карпатого в Anthropic, манифест «AI Leadership 2028» и китайский прорыв Qwen 3.7 Max. Оцениваем безумный кейс, где рантайм Bun переписали с Zig на Rust всего за 10 дней с помощью ИИ, тестируем огромную меху Unitree GD01 за $650,000 и изучаем энциклику Ватикана об этике вместе с тибетским монахом-андроидом.
В конце вас ждёт ламповый оффтоп про ностальгические пиратские переводы Людей Икс!
👉 YouTube
👉 Apple Podcasts
👉 Spotify
👉 Скачать mp3
👉 RSS
💬 Обсудить в чате
YouTube
🔥 Gemini 3.5 и Gemini Omni, крах суда Маска, Карпатый в Anthropic, ИИ в Ватикане / ПНВ #410
Сегодня обсуждаем главные анонсы Google I/O: от масштабной трансформации Antigravity, Gemini 3.5 Flash и Omni до очков Android XR и ноутбуков Google Book, разбираем финал эпичного суда Маска и Альтмана, громкий трансфер Андрея Карпатого в Anthropic, манифест…
Forwarded from Эволюция Кода / Анонсы
📰 ТОП-4 новости ИИ в программировании из 70го дайджеста клуба Эволюция Кода
🔸 Google представила новый флагман — Gemini 3.5 Flash
Несмотря на название, это уже не тот Flash, что был в линейке Gemini 3: модель позиционируется как новый флагман и обходит Gemini 3.1 Pro. При этом заявлена скорость до 300 токенов/с и сильные результаты на SWE-bench Pro (55,1%) и Terminal-Bench 2.1 (76,2%). Gemini 3.5 Pro обещают выпустить уже в следующем месяце.
🔸 Alibaba выпустила Qwen 3.7 Max
Первая модель семейства Qwen 3.7 показывает результаты уровня мировых лидеров: 69,7% на Terminal Bench 2.0, 60,6% на SWE-Pro и 80,4% на SWE-Verified. На фоне этих метрик Alibaba всё увереннее закрепляется среди лидеров AI-гонки, конкурируя с Anthropic и Google.
🔸 OpenAI добавила удалённое управление Codex в ChatGPT
Теперь агентом можно управлять со смартфона: приложение показывает скриншоты среды, логи терминала, результаты тестов и diff-файлы в реальном времени. Также появился Remote SSH для работы в корпоративной инфраструктуре; функция уже доступна на macOS и всех тарифах.
🔸 Йошуа Бенджио представил архитектуру GRAM
GRAM (Generative Recursive reAsoning Models) развивает идею рекурсивного рассуждения во внутренних состояниях модели без раздувания контекста. Ключевое новшество — стохастичность: модель исследует разные траектории решения и выбирает лучшую через reward-модель. На ARC-AGI система уже показывает около 52%.
💡 Всего в дайджесте 30+ новостей, в аудио, видео и текстовом форматах, так что присоединяйся к клубу 🧬
🔸 Google представила новый флагман — Gemini 3.5 Flash
Несмотря на название, это уже не тот Flash, что был в линейке Gemini 3: модель позиционируется как новый флагман и обходит Gemini 3.1 Pro. При этом заявлена скорость до 300 токенов/с и сильные результаты на SWE-bench Pro (55,1%) и Terminal-Bench 2.1 (76,2%). Gemini 3.5 Pro обещают выпустить уже в следующем месяце.
🔸 Alibaba выпустила Qwen 3.7 Max
Первая модель семейства Qwen 3.7 показывает результаты уровня мировых лидеров: 69,7% на Terminal Bench 2.0, 60,6% на SWE-Pro и 80,4% на SWE-Verified. На фоне этих метрик Alibaba всё увереннее закрепляется среди лидеров AI-гонки, конкурируя с Anthropic и Google.
🔸 OpenAI добавила удалённое управление Codex в ChatGPT
Теперь агентом можно управлять со смартфона: приложение показывает скриншоты среды, логи терминала, результаты тестов и diff-файлы в реальном времени. Также появился Remote SSH для работы в корпоративной инфраструктуре; функция уже доступна на macOS и всех тарифах.
🔸 Йошуа Бенджио представил архитектуру GRAM
GRAM (Generative Recursive reAsoning Models) развивает идею рекурсивного рассуждения во внутренних состояниях модели без раздувания контекста. Ключевое новшество — стохастичность: модель исследует разные траектории решения и выбирает лучшую через reward-модель. На ARC-AGI система уже показывает около 52%.
💡 Всего в дайджесте 30+ новостей, в аудио, видео и текстовом форматах, так что присоединяйся к клубу 🧬