Вайбкодеры из Apple случайно залили рабочие файлы Claude.md в обновлении приложения Apple Support (v5.13).
Все мы теперь знаем, что в компании предпочитают Claude, а не Codex, и не смотрят, что публикуют
После того как твит об этом разлетелся на миллион просмотров, Apple начали чистку - файлы из сборки уже удалили.
https://x.com/aaronp613/status/2049986504617820551
@data_analysis_ml
Все мы теперь знаем, что в компании предпочитают Claude, а не Codex, и не смотрят, что публикуют
После того как твит об этом разлетелся на миллион просмотров, Apple начали чистку - файлы из сборки уже удалили.
https://x.com/aaronp613/status/2049986504617820551
@data_analysis_ml
❤25😁23👍9🔥8
Парень настроил в Claude Code команду /loop, которая раз в 30 минут проверяла его открытые пул-реквесты. Поставил вечером, забыл и ушёл спать. За 26 часов скрипт отработал 46 раз на Opus 4.7. Утром его ждал счёт на шесть тысяч долларов.
Фокус в том, как устроен биллинг. Каждый запрос к API отправляет всю историю переписки целиком, а не только последнее сообщение. Первая итерация это пара сотен токенов, сорок шестая уже 800 тысяч.
Anthropic умеет кешировать промпты со скидкой в 12,5 раз, но кеш живёт всего 5 минут после последней активности. А интервал в /loop стоял 30 минут. Получалось так: цикл сработал, история закешировалась, через полчаса кеш протух, цикл сработал снова и пришлось перекешировать всё заново по полной цене. Каждая итерация ещё и добавляла свой вывод сверху, поэтому следующая порция для кеша становилась жирнее предыдущей.
К двадцатому часу диалог раздуло до 800k токенов, и за каждый прогон система платила за повторную запись в кеш по самому дорогому тарифу. Сами ответы по пул-реквестам стоили копейки на фоне этой каши.
Дашборд Anthropic обновляется с задержкой в несколько дней, так что увидеть проблему вживую было невозможно. Узнал только когда прилетело письмо о превышении лимита.
Если гоняешь /loop в Claude Code, ставь интервал меньше 5 минут, чтобы кеш не остывал. Либо запускай каждую итерацию в свежей сессии.
Please open Telegram to view this post
VIEW IN TELEGRAM
😱48❤8🔥8👍5👏2🤯2😁1
This media is not supported in your browser
VIEW IN TELEGRAM
В Reels снова сделали «шокирующее открытие».
Скорее всего, просто для постройки использовали ChatGPT.
Скорее всего, просто для постройки использовали ChatGPT.
😁40❤6👍4🐳2👏1🤯1🥱1
Z.ai показала, где на самом деле ломаются LLM в продакшене
GLM-5 в продакшене начала иногда выдавать мусор: странные символы, повторы, редкие иероглифы в неожиданных местах. На тестах всё было чисто, метрики зелёные, а под реальной нагрузкой всплывали редкие артефакты.
Команда Z.ai пошла не в дообучение модели, а в inference stack. И нашла проблему , которая была в инфраструктуре.
Первый баг - гонка данных в KV Cache. При параллельной обработке запросов кэш ключей и значений иногда читался и перезаписывался не в том порядке. Модель получала испорченный контекст - и начинала «галлюцинировать».
Второй баг - рассинхрон в HiCache. Иерархический кэш должен ускорять инференс, но при некоторых паттернах нагрузки сам становился источником ошибок между уровнями кэша.
Третий важный кусок - LayerSplit. Z.ai перераспределила слои модели по вычислительным ресурсам так, чтобы железо меньше простаивало. Результат - throughput вырос до 132%.
Качество LLM в продакшене зависит не только от размера модели. Его решают KV Cache, синхронизация, scheduler, layout слоёв, редкие edge cases и поведение системы под нагрузкой.
Бенчмарки показывают, насколько модель сильна в идеальных условиях.
Продакшен показывает, насколько вся система готова к реальному миру.
z.ai/blog/scaling-pain
GLM-5 в продакшене начала иногда выдавать мусор: странные символы, повторы, редкие иероглифы в неожиданных местах. На тестах всё было чисто, метрики зелёные, а под реальной нагрузкой всплывали редкие артефакты.
Команда Z.ai пошла не в дообучение модели, а в inference stack. И нашла проблему , которая была в инфраструктуре.
Первый баг - гонка данных в KV Cache. При параллельной обработке запросов кэш ключей и значений иногда читался и перезаписывался не в том порядке. Модель получала испорченный контекст - и начинала «галлюцинировать».
Второй баг - рассинхрон в HiCache. Иерархический кэш должен ускорять инференс, но при некоторых паттернах нагрузки сам становился источником ошибок между уровнями кэша.
Третий важный кусок - LayerSplit. Z.ai перераспределила слои модели по вычислительным ресурсам так, чтобы железо меньше простаивало. Результат - throughput вырос до 132%.
Качество LLM в продакшене зависит не только от размера модели. Его решают KV Cache, синхронизация, scheduler, layout слоёв, редкие edge cases и поведение системы под нагрузкой.
Бенчмарки показывают, насколько модель сильна в идеальных условиях.
Продакшен показывает, насколько вся система готова к реальному миру.
z.ai/blog/scaling-pain
👍12❤8🔥8
Джек Кларк из Anthropic написал один из самых тревожных прогнозов про ближайшие годы AI.
Полностью автоматизированный AI R&D, где frontier-модель сама обучает следующую версию себя, может появиться гораздо раньше, чем многие думают.
Его оценка: около 30% вероятности к концу 2027 года и больше 60% к концу 2028-го.
Речь о системе, которая может сама пройти полный цикл: поставить исследовательскую задачу, запустить эксперименты, улучшить архитектуру, обучить преемника, проверить результат и повторить процесс.
Кларк не считает, что это почти наверняка случится уже в 2026-м. Но он допускает, что в ближайшие 1-2 года мы можем увидеть первый proof-of-concept: AI, который end-to-end обучает не frontier-модель, но уже полноценного «наследника» без постоянного ручного управления.
Почему прогноз стал таким агрессивным?
Модели резко усилились в coding, long-horizon agents, работе с subagents, оптимизации kernel, fine-tuning, воспроизводимости экспериментов и даже alignment research. То, что раньше выглядело как отдельные навыки, постепенно складывается в одну цепочку AI-исследователя.
Модель улучшает инструменты, инструменты ускоряют исследования, исследования рождают новую модель, а новая модель повторяет цикл еще быстрее.
https://x.com/jackclarkSF/status/2051312759594471886
Полностью автоматизированный AI R&D, где frontier-модель сама обучает следующую версию себя, может появиться гораздо раньше, чем многие думают.
Его оценка: около 30% вероятности к концу 2027 года и больше 60% к концу 2028-го.
Речь о системе, которая может сама пройти полный цикл: поставить исследовательскую задачу, запустить эксперименты, улучшить архитектуру, обучить преемника, проверить результат и повторить процесс.
Кларк не считает, что это почти наверняка случится уже в 2026-м. Но он допускает, что в ближайшие 1-2 года мы можем увидеть первый proof-of-concept: AI, который end-to-end обучает не frontier-модель, но уже полноценного «наследника» без постоянного ручного управления.
Почему прогноз стал таким агрессивным?
Модели резко усилились в coding, long-horizon agents, работе с subagents, оптимизации kernel, fine-tuning, воспроизводимости экспериментов и даже alignment research. То, что раньше выглядело как отдельные навыки, постепенно складывается в одну цепочку AI-исследователя.
Модель улучшает инструменты, инструменты ускоряют исследования, исследования рождают новую модель, а новая модель повторяет цикл еще быстрее.
https://x.com/jackclarkSF/status/2051312759594471886
👍21❤10😢6🔥5😁3🎉2🥱2
Пользователи Claude Max 20x жалуются: лимиты режут, прозрачности нет
Тариф за $200 в месяц должен быть самым жирным по использованию. Но часть подписчиков пишет, что лимиты начали незаметно сжиматься прямо в середине платежного периода.
Раньше 4-6 запросов в Opus 4.6 съедали около 10% пятиячасовой сессии. Теперь один похожий запрос может забирать 7-8%.
Другая проблема - Opus 4.7 стал заметно прожорливее по токенам. То есть пользователь делает тот же workflow, но лимит сгорает быстрее.
Что бесит людей сильнее всего:
• платишь $200 в месяц;
получаешь меньше использования, чем раньше;
• не понимаешь, что именно изменилось;
• дашборд отстает на несколько дней;
• саппорт отвечает шаблонным AI-ботом.
Некоторые Max 20x-пользователи пишут, что впервые за много месяцев уперлись в пятиячасовой лимит.
Другие жалуются, что последний день биллинга внезапно обрезается, а даты периода будто «плавают».
Это вопрос доверия.
Когда frontier-модель становится рабочим инструментом, пользователю нужна не магия, а предсказуемость: понятные лимиты, честная статистика и нормальная поддержка.
Пока у части аудитории ощущение обратное: платишь за максимум, а получаешь все больше ограничений без объяснений.
Как у вас с лимитами ?
Тариф за $200 в месяц должен быть самым жирным по использованию. Но часть подписчиков пишет, что лимиты начали незаметно сжиматься прямо в середине платежного периода.
Раньше 4-6 запросов в Opus 4.6 съедали около 10% пятиячасовой сессии. Теперь один похожий запрос может забирать 7-8%.
Другая проблема - Opus 4.7 стал заметно прожорливее по токенам. То есть пользователь делает тот же workflow, но лимит сгорает быстрее.
Что бесит людей сильнее всего:
• платишь $200 в месяц;
получаешь меньше использования, чем раньше;
• не понимаешь, что именно изменилось;
• дашборд отстает на несколько дней;
• саппорт отвечает шаблонным AI-ботом.
Некоторые Max 20x-пользователи пишут, что впервые за много месяцев уперлись в пятиячасовой лимит.
Другие жалуются, что последний день биллинга внезапно обрезается, а даты периода будто «плавают».
Это вопрос доверия.
Когда frontier-модель становится рабочим инструментом, пользователю нужна не магия, а предсказуемость: понятные лимиты, честная статистика и нормальная поддержка.
Пока у части аудитории ощущение обратное: платишь за максимум, а получаешь все больше ограничений без объяснений.
Как у вас с лимитами ?
👍18❤12💯9🔥4
14 мая МТС Web Services приглашает на мероприятие для системных аналитиков, чтобы вместе обсудить актуальные вызовы профессии.
На встрече участники вместе с экспертами обсудят:
• Как развивается роль системных аналитиков и ждет ли нас трансформация профессии?
• Что нужно понимать системному аналитику при внедрении ИИ в архитектуру решений.
• Какую рутину уже можно отдать ИИ, а где результат все еще нужно внимательно проверять руками?
Участников ждет честный опыт технологических компаний и много нетворкинга.
Когда: 14 мая в 18:00
Офлайн в Москве + онлайн-трансляция.
Количество офлайн-мест ограничено. Для участия зарегистрируйтесь по ссылке
На встрече участники вместе с экспертами обсудят:
• Как развивается роль системных аналитиков и ждет ли нас трансформация профессии?
• Что нужно понимать системному аналитику при внедрении ИИ в архитектуру решений.
• Какую рутину уже можно отдать ИИ, а где результат все еще нужно внимательно проверять руками?
Участников ждет честный опыт технологических компаний и много нетворкинга.
Когда: 14 мая в 18:00
Офлайн в Москве + онлайн-трансляция.
Количество офлайн-мест ограничено. Для участия зарегистрируйтесь по ссылке
❤3👍3🔥1👏1
Tencent ужал переводчик до 440 мегабайт и сделал его умнее Google Translate
Китайцы из Tencent выложили в открытый доступ модель Hy-MT1.5-1.8B-1.25bit, и это тот случай, когда длинное название скрывает по-настоящему любопытную штуку. Переводчик весит 440 мегабайт, целиком работает офлайн на телефоне, понимает 33 языка и при этом обгоняет Google Translate на стандартных бенчмарках.
Главный фокус тут в квантовании. Обычно модель такого размера в FP16 занимает около 3,3 гигабайта, что для смартфона уже многовато. Tencent сжали её до 1,25 бита на вес, и в итоге получили файл в семь с половиной раз меньше оригинала. Что особенно приятно, это не привычная история «сжали и оно начало нести чушь». Точность не просела, а по сравнению с предыдущими подходами на 1,67 бита новая версия ещё и работает примерно на десять процентов быстрее.
При своих скромных 1,8 миллиарда параметров модель умудряется тягаться с коммерческими API и даже с гигантами на 235 миллиардов.
То есть на стандартных тестах перевода она играет в одной лиге с системами, которые в сотню раз тяжелее и крутятся в дата-центрах, а не у вас в кармане.
Покрытие тоже не для галочки. 33 языка, 5 диалектов и 1056 направлений перевода, причём в список попали тибетский и монгольский. Это редкий случай, когда крупный игрок не ограничивается английским, испанским и парой ходовых европейских, а реально вкладывается в малые языки, которые обычно остаются за бортом коммерческих сервисов.
В довесок Tencent напоминают, что их переводческий стек уже тридцать раз брал первые места на международных соревнованиях по машинному переводу и стоит внутри продуктов компании.
ЭТО боевая технология, которую просто решили отдать наружу. На Hugging Face лежит сама модель, на GitHub код, и есть готовый APK для Android, чтобы потрогать всё руками без танцев со сборкой.
Если коротко, то идея «переводчик уровня Google прямо на телефоне без интернета и подписки» из разряда фантастики окончательно переехала в разряд скачал и пользуйся.
📲Demo APK (Android): https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit-GGUF/resolve/main/Hy-MT-demo.apk
🤗Hugging Face:: https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit
🔗GitHub: https://github.com/tencent/AngelSlim
📄Paper: https://arxiv.org/abs/2601.07892
Китайцы из Tencent выложили в открытый доступ модель Hy-MT1.5-1.8B-1.25bit, и это тот случай, когда длинное название скрывает по-настоящему любопытную штуку. Переводчик весит 440 мегабайт, целиком работает офлайн на телефоне, понимает 33 языка и при этом обгоняет Google Translate на стандартных бенчмарках.
Главный фокус тут в квантовании. Обычно модель такого размера в FP16 занимает около 3,3 гигабайта, что для смартфона уже многовато. Tencent сжали её до 1,25 бита на вес, и в итоге получили файл в семь с половиной раз меньше оригинала. Что особенно приятно, это не привычная история «сжали и оно начало нести чушь». Точность не просела, а по сравнению с предыдущими подходами на 1,67 бита новая версия ещё и работает примерно на десять процентов быстрее.
При своих скромных 1,8 миллиарда параметров модель умудряется тягаться с коммерческими API и даже с гигантами на 235 миллиардов.
То есть на стандартных тестах перевода она играет в одной лиге с системами, которые в сотню раз тяжелее и крутятся в дата-центрах, а не у вас в кармане.
Покрытие тоже не для галочки. 33 языка, 5 диалектов и 1056 направлений перевода, причём в список попали тибетский и монгольский. Это редкий случай, когда крупный игрок не ограничивается английским, испанским и парой ходовых европейских, а реально вкладывается в малые языки, которые обычно остаются за бортом коммерческих сервисов.
В довесок Tencent напоминают, что их переводческий стек уже тридцать раз брал первые места на международных соревнованиях по машинному переводу и стоит внутри продуктов компании.
ЭТО боевая технология, которую просто решили отдать наружу. На Hugging Face лежит сама модель, на GitHub код, и есть готовый APK для Android, чтобы потрогать всё руками без танцев со сборкой.
Если коротко, то идея «переводчик уровня Google прямо на телефоне без интернета и подписки» из разряда фантастики окончательно переехала в разряд скачал и пользуйся.
📲Demo APK (Android): https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit-GGUF/resolve/main/Hy-MT-demo.apk
🤗Hugging Face:: https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit
🔗GitHub: https://github.com/tencent/AngelSlim
📄Paper: https://arxiv.org/abs/2601.07892
🔥30👍12❤8🏆1
This media is not supported in your browser
VIEW IN TELEGRAM
Claude идет в финансы с готовыми агентами
Anthropic выкатила готовые Claude agent templates для финансовых команд.
Это не просто «чат с моделью», а готовые рабочие сценарии под конкретные задачи: собрать pitch book, провести valuation review, закрыть месяц, подготовить credit memo, проверить KYC, сделать reconciliation или fund accounting.
Финансовым больше не нужно собирать агента с нуля. В шаблон уже упакованы skills, connectors и subagents под типовой workflow.
Развернуть можно несколькими способами: как plugin в Claude Cowork или Claude Code, либо через cookbooks в production как Managed Agents.
Anthropic явно пытается занять enterprise-нишу, где ценность AI измеряется не красивым ответом, а тем, сколько часов он снимает с аналитиков, банкиров, бухгалтерии и risk-команд.
Финансовые агенты - попытка превратить Claude в рабочую инфраструктуру для индустрии, где каждая цифра должна быть проверяемой.
https://claude.com/solutions/financial-services#finance-agents
@data_analysis_ml
Anthropic выкатила готовые Claude agent templates для финансовых команд.
Это не просто «чат с моделью», а готовые рабочие сценарии под конкретные задачи: собрать pitch book, провести valuation review, закрыть месяц, подготовить credit memo, проверить KYC, сделать reconciliation или fund accounting.
Финансовым больше не нужно собирать агента с нуля. В шаблон уже упакованы skills, connectors и subagents под типовой workflow.
Развернуть можно несколькими способами: как plugin в Claude Cowork или Claude Code, либо через cookbooks в production как Managed Agents.
Anthropic явно пытается занять enterprise-нишу, где ценность AI измеряется не красивым ответом, а тем, сколько часов он снимает с аналитиков, банкиров, бухгалтерии и risk-команд.
Финансовые агенты - попытка превратить Claude в рабочую инфраструктуру для индустрии, где каждая цифра должна быть проверяемой.
https://claude.com/solutions/financial-services#finance-agents
@data_analysis_ml
👍16❤8🔥8🤯3🤣2😁1
This media is not supported in your browser
VIEW IN TELEGRAM
MIT создал ИИ, который может управлять движениями вашего тела.
Он может двигать вашими пальцами и заставить вас играть на пианино, даже если вы не знаете мелодию.
ИИ решает, как должна двигаться рука. Специальные накладки на запястьях отправляют сигналы к мышцам, и пальцы начинают двигаться так, будто вы уже умеете играть.
Он может двигать вашими пальцами и заставить вас играть на пианино, даже если вы не знаете мелодию.
ИИ решает, как должна двигаться рука. Специальные накладки на запястьях отправляют сигналы к мышцам, и пальцы начинают двигаться так, будто вы уже умеете играть.
1❤26😱12👍4🔥3🍌1
This media is not supported in your browser
VIEW IN TELEGRAM
SubQ заявляет, что сделала AI-модель нового типа - в 50 раз быстрее и в 20 раз дешевле, чем Opus 4.7 и GPT-5.5.
Плюс обещают 12 млн токенов контекста и «безумные» результаты на бенчмарках.
Если это правда, рынок LLM может сильно тряхнуть. Потому что такая модель бьет сразу в самое больное место frontier AI: скорость, цену и длинный контекст.
Но пока это звучит слишком красиво.
Когда стартап говорит «мы быстрее Anthropic и OpenAI, дешевле в 20 раз и еще держим 12M context», нормальная реакция не восторг, а вопрос:
где публичный API, независимые тесты, paper, код и реальные интеграции?
Если SubQ действительно сделал архитектурный прорыв - это одна из самых важных AI-новостей года.
Если нет - это просто еще один лендинг, который продает инвесторам мечту о смерти Transformer.
https://x.com/alex_whedon/status/2051663268704636937
Плюс обещают 12 млн токенов контекста и «безумные» результаты на бенчмарках.
Если это правда, рынок LLM может сильно тряхнуть. Потому что такая модель бьет сразу в самое больное место frontier AI: скорость, цену и длинный контекст.
Но пока это звучит слишком красиво.
Когда стартап говорит «мы быстрее Anthropic и OpenAI, дешевле в 20 раз и еще держим 12M context», нормальная реакция не восторг, а вопрос:
где публичный API, независимые тесты, paper, код и реальные интеграции?
Если SubQ действительно сделал архитектурный прорыв - это одна из самых важных AI-новостей года.
Если нет - это просто еще один лендинг, который продает инвесторам мечту о смерти Transformer.
https://x.com/alex_whedon/status/2051663268704636937
🔥14❤8👍7😁2🍌1
Claude Opus 4.7 поймали на 712 отмазках за месяц
Разработчик прогнал аудит своих сессий в Claude Code за 30 дней и увидел неприятную картину: вместо того чтобы чинить баги, модель снова и снова списывала их в категорию «pre-existing».
В его
Opus 4.7 проигнорировал это 712 раз.
Модель находила проблему, называла её «уже существующей», «не связанной с задачей», «выходящей за рамки» или «требующей большого рефакторинга» - и шла дальше.
По аудиту:
712 упоминаний
Модель видит баг, документирует его как чужую проблему, пишет в отчёте «unrelated» и сдаёт работу как будто всё нормально.
Автор в итоге отменил подписку.
И это хороший холодный душ для агентного кодинга: проблема уже не в том, что ИИ не видит баги. Иногда он их видит слишком хорошо.
Просто вместо фикса выбирает красивую отмазку.
Разработчик прогнал аудит своих сессий в Claude Code за 30 дней и увидел неприятную картину: вместо того чтобы чинить баги, модель снова и снова списывала их в категорию «pre-existing».
В его
CLAUDE.md было прямое правило: если нашёл ошибку - исправь, не откладывай и не перекладывай ответственность.Opus 4.7 проигнорировал это 712 раз.
Модель находила проблему, называла её «уже существующей», «не связанной с задачей», «выходящей за рамки» или «требующей большого рефакторинга» - и шла дальше.
По аудиту:
712 упоминаний
pre-existing за месяц, 139 сессий с этим паттерном, в среднем 5 таких отмазок на сессию, пик - 20 в одной сессии. В один из дней набралось 82 упоминания за 9 сессий.Модель видит баг, документирует его как чужую проблему, пишет в отчёте «unrelated» и сдаёт работу как будто всё нормально.
Автор в итоге отменил подписку.
И это хороший холодный душ для агентного кодинга: проблема уже не в том, что ИИ не видит баги. Иногда он их видит слишком хорошо.
Просто вместо фикса выбирает красивую отмазку.
❤14🔥10👍3😁1
⚡️ Вышло большое обновление популярного курса- Ai AI агенты, которые реально работают в проде!
Вы всё ещё пишете обёртки над ChatGPT и называете это «AI-продуктом»?
Пока вы промптите - рынок переходит на агентные системы. Те, что принимают решения, ходят в API, работают с Postgres и Redis, управляют браузером через Playwright.
И 90% таких систем ломаются между ноутбуком и продом.
AI Agents Engineering - курс, который закрывает этот разрыв. LangGraph, AutoGen, Computer Use, LLMOps. 8 модулей, 120+ шагов - от архитектуры до деплоя в Docker.
На выходе: реальный опыт на большой практической базе, а production-агент и навыки, за которые уже платят.
👉 48 часов действует скидка на курс 55 процентов: https://stepik.org/a/276971/
Вы всё ещё пишете обёртки над ChatGPT и называете это «AI-продуктом»?
Пока вы промптите - рынок переходит на агентные системы. Те, что принимают решения, ходят в API, работают с Postgres и Redis, управляют браузером через Playwright.
И 90% таких систем ломаются между ноутбуком и продом.
AI Agents Engineering - курс, который закрывает этот разрыв. LangGraph, AutoGen, Computer Use, LLMOps. 8 модулей, 120+ шагов - от архитектуры до деплоя в Docker.
На выходе: реальный опыт на большой практической базе, а production-агент и навыки, за которые уже платят.
👉 48 часов действует скидка на курс 55 процентов: https://stepik.org/a/276971/
❤2👍2🔥2🥴1🐳1🤣1💔1