Анализ данных (Data analysis)
52.2K subscribers
3.09K photos
391 videos
1 file
2.6K links
Data science, наука о данных.

@haarrp - админ

РКН: clck.ru/3FmyAp
Download Telegram
Вайбкодеры из Apple случайно залили рабочие файлы Claude.md в обновлении приложения Apple Support (v5.13).

Все мы теперь знаем, что в компании предпочитают Claude, а не Codex, и не смотрят, что публикуют

После того как твит об этом разлетелся на миллион просмотров, Apple начали чистку - файлы из сборки уже удалили.

https://x.com/aaronp613/status/2049986504617820551

@data_analysis_ml
25😁23👍9🔥8
⚡️ Как одна команда сожгла $6000 на Claude за ночь

Парень настроил в Claude Code команду /loop, которая раз в 30 минут проверяла его открытые пул-реквесты. Поставил вечером, забыл и ушёл спать. За 26 часов скрипт отработал 46 раз на Opus 4.7. Утром его ждал счёт на шесть тысяч долларов.
Фокус в том, как устроен биллинг. Каждый запрос к API отправляет всю историю переписки целиком, а не только последнее сообщение. Первая итерация это пара сотен токенов, сорок шестая уже 800 тысяч.

Anthropic умеет кешировать промпты со скидкой в 12,5 раз, но кеш живёт всего 5 минут после последней активности. А интервал в /loop стоял 30 минут. Получалось так: цикл сработал, история закешировалась, через полчаса кеш протух, цикл сработал снова и пришлось перекешировать всё заново по полной цене. Каждая итерация ещё и добавляла свой вывод сверху, поэтому следующая порция для кеша становилась жирнее предыдущей.

К двадцатому часу диалог раздуло до 800k токенов, и за каждый прогон система платила за повторную запись в кеш по самому дорогому тарифу. Сами ответы по пул-реквестам стоили копейки на фоне этой каши.

Дашборд Anthropic обновляется с задержкой в несколько дней, так что увидеть проблему вживую было невозможно. Узнал только когда прилетело письмо о превышении лимита.

Если гоняешь /loop в Claude Code, ставь интервал меньше 5 минут, чтобы кеш не остывал. Либо запускай каждую итерацию в свежей сессии.
Please open Telegram to view this post
VIEW IN TELEGRAM
😱488🔥8👍5👏2🤯2😁1
This media is not supported in your browser
VIEW IN TELEGRAM
В Reels снова сделали «шокирующее открытие».

Скорее всего, просто для постройки использовали ChatGPT.
😁406👍4🐳2👏1🤯1🥱1
🤣55👍157😁7😢1
Прекрасно
😁68😢8👏4😱4👍3
Z.ai показала, где на самом деле ломаются LLM в продакшене

GLM-5 в продакшене начала иногда выдавать мусор: странные символы, повторы, редкие иероглифы в неожиданных местах. На тестах всё было чисто, метрики зелёные, а под реальной нагрузкой всплывали редкие артефакты.

Команда Z.ai пошла не в дообучение модели, а в inference stack. И нашла проблему , которая была в инфраструктуре.

Первый баг - гонка данных в KV Cache. При параллельной обработке запросов кэш ключей и значений иногда читался и перезаписывался не в том порядке. Модель получала испорченный контекст - и начинала «галлюцинировать».

Второй баг - рассинхрон в HiCache. Иерархический кэш должен ускорять инференс, но при некоторых паттернах нагрузки сам становился источником ошибок между уровнями кэша.

Третий важный кусок - LayerSplit. Z.ai перераспределила слои модели по вычислительным ресурсам так, чтобы железо меньше простаивало. Результат - throughput вырос до 132%.

Качество LLM в продакшене зависит не только от размера модели. Его решают KV Cache, синхронизация, scheduler, layout слоёв, редкие edge cases и поведение системы под нагрузкой.

Бенчмарки показывают, насколько модель сильна в идеальных условиях.

Продакшен показывает, насколько вся система готова к реальному миру.

z.ai/blog/scaling-pain
👍128🔥8
Джек Кларк из Anthropic написал один из самых тревожных прогнозов про ближайшие годы AI.

Полностью автоматизированный AI R&D, где frontier-модель сама обучает следующую версию себя, может появиться гораздо раньше, чем многие думают.

Его оценка: около 30% вероятности к концу 2027 года и больше 60% к концу 2028-го.

Речь о системе, которая может сама пройти полный цикл: поставить исследовательскую задачу, запустить эксперименты, улучшить архитектуру, обучить преемника, проверить результат и повторить процесс.

Кларк не считает, что это почти наверняка случится уже в 2026-м. Но он допускает, что в ближайшие 1-2 года мы можем увидеть первый proof-of-concept: AI, который end-to-end обучает не frontier-модель, но уже полноценного «наследника» без постоянного ручного управления.

Почему прогноз стал таким агрессивным?

Модели резко усилились в coding, long-horizon agents, работе с subagents, оптимизации kernel, fine-tuning, воспроизводимости экспериментов и даже alignment research. То, что раньше выглядело как отдельные навыки, постепенно складывается в одну цепочку AI-исследователя.

Модель улучшает инструменты, инструменты ускоряют исследования, исследования рождают новую модель, а новая модель повторяет цикл еще быстрее.

https://x.com/jackclarkSF/status/2051312759594471886
👍2110😢6🔥5😁3🎉2🥱2
Пользователи Claude Max 20x жалуются: лимиты режут, прозрачности нет

Тариф за $200 в месяц должен быть самым жирным по использованию. Но часть подписчиков пишет, что лимиты начали незаметно сжиматься прямо в середине платежного периода.

Раньше 4-6 запросов в Opus 4.6 съедали около 10% пятиячасовой сессии. Теперь один похожий запрос может забирать 7-8%.

Другая проблема - Opus 4.7 стал заметно прожорливее по токенам. То есть пользователь делает тот же workflow, но лимит сгорает быстрее.

Что бесит людей сильнее всего:

• платишь $200 в месяц;
получаешь меньше использования, чем раньше;
• не понимаешь, что именно изменилось;
• дашборд отстает на несколько дней;
• саппорт отвечает шаблонным AI-ботом.

Некоторые Max 20x-пользователи пишут, что впервые за много месяцев уперлись в пятиячасовой лимит.

Другие жалуются, что последний день биллинга внезапно обрезается, а даты периода будто «плавают».

Это вопрос доверия.

Когда frontier-модель становится рабочим инструментом, пользователю нужна не магия, а предсказуемость: понятные лимиты, честная статистика и нормальная поддержка.

Пока у части аудитории ощущение обратное: платишь за максимум, а получаешь все больше ограничений без объяснений.

Как у вас с лимитами ?
👍1812💯9🔥4
14 мая МТС Web Services приглашает на мероприятие для системных аналитиков, чтобы вместе обсудить актуальные вызовы профессии.

На встрече участники вместе с экспертами обсудят:
• Как развивается роль системных аналитиков и ждет ли нас трансформация профессии?
• Что нужно понимать системному аналитику при внедрении ИИ в архитектуру решений.
• Какую рутину уже можно отдать ИИ, а где результат все еще нужно внимательно проверять руками?

Участников ждет честный опыт технологических компаний и много нетворкинга.

Когда: 14 мая в 18:00
Офлайн в Москве + онлайн-трансляция.

Количество офлайн-мест ограничено. Для участия зарегистрируйтесь по ссылке
3👍3🔥1👏1
Tencent ужал переводчик до 440 мегабайт и сделал его умнее Google Translate

Китайцы из Tencent выложили в открытый доступ модель Hy-MT1.5-1.8B-1.25bit, и это тот случай, когда длинное название скрывает по-настоящему любопытную штуку. Переводчик весит 440 мегабайт, целиком работает офлайн на телефоне, понимает 33 языка и при этом обгоняет Google Translate на стандартных бенчмарках.

Главный фокус тут в квантовании. Обычно модель такого размера в FP16 занимает около 3,3 гигабайта, что для смартфона уже многовато. Tencent сжали её до 1,25 бита на вес, и в итоге получили файл в семь с половиной раз меньше оригинала. Что особенно приятно, это не привычная история «сжали и оно начало нести чушь». Точность не просела, а по сравнению с предыдущими подходами на 1,67 бита новая версия ещё и работает примерно на десять процентов быстрее.
При своих скромных 1,8 миллиарда параметров модель умудряется тягаться с коммерческими API и даже с гигантами на 235 миллиардов.

То есть на стандартных тестах перевода она играет в одной лиге с системами, которые в сотню раз тяжелее и крутятся в дата-центрах, а не у вас в кармане.

Покрытие тоже не для галочки. 33 языка, 5 диалектов и 1056 направлений перевода, причём в список попали тибетский и монгольский. Это редкий случай, когда крупный игрок не ограничивается английским, испанским и парой ходовых европейских, а реально вкладывается в малые языки, которые обычно остаются за бортом коммерческих сервисов.
В довесок Tencent напоминают, что их переводческий стек уже тридцать раз брал первые места на международных соревнованиях по машинному переводу и стоит внутри продуктов компании.

ЭТО боевая технология, которую просто решили отдать наружу. На Hugging Face лежит сама модель, на GitHub код, и есть готовый APK для Android, чтобы потрогать всё руками без танцев со сборкой.

Если коротко, то идея «переводчик уровня Google прямо на телефоне без интернета и подписки» из разряда фантастики окончательно переехала в разряд скачал и пользуйся.

📲Demo APK (Android): https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit-GGUF/resolve/main/Hy-MT-demo.apk
🤗Hugging Face:: https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit
🔗GitHub: https://github.com/tencent/AngelSlim
📄Paper: https://arxiv.org/abs/2601.07892
🔥30👍128🏆1
This media is not supported in your browser
VIEW IN TELEGRAM
Claude идет в финансы с готовыми агентами

Anthropic выкатила готовые Claude agent templates для финансовых команд.

Это не просто «чат с моделью», а готовые рабочие сценарии под конкретные задачи: собрать pitch book, провести valuation review, закрыть месяц, подготовить credit memo, проверить KYC, сделать reconciliation или fund accounting.

Финансовым больше не нужно собирать агента с нуля. В шаблон уже упакованы skills, connectors и subagents под типовой workflow.

Развернуть можно несколькими способами: как plugin в Claude Cowork или Claude Code, либо через cookbooks в production как Managed Agents.

Anthropic явно пытается занять enterprise-нишу, где ценность AI измеряется не красивым ответом, а тем, сколько часов он снимает с аналитиков, банкиров, бухгалтерии и risk-команд.

Финансовые агенты - попытка превратить Claude в рабочую инфраструктуру для индустрии, где каждая цифра должна быть проверяемой.

https://claude.com/solutions/financial-services#finance-agents

@data_analysis_ml
👍168🔥8🤯3🤣2😁1
This media is not supported in your browser
VIEW IN TELEGRAM
MIT создал ИИ, который может управлять движениями вашего тела.

Он может двигать вашими пальцами и заставить вас играть на пианино, даже если вы не знаете мелодию.

ИИ решает, как должна двигаться рука. Специальные накладки на запястьях отправляют сигналы к мышцам, и пальцы начинают двигаться так, будто вы уже умеете играть.
126😱12👍4🔥3🍌1
This media is not supported in your browser
VIEW IN TELEGRAM
SubQ заявляет, что сделала AI-модель нового типа - в 50 раз быстрее и в 20 раз дешевле, чем Opus 4.7 и GPT-5.5.

Плюс обещают 12 млн токенов контекста и «безумные» результаты на бенчмарках.

Если это правда, рынок LLM может сильно тряхнуть. Потому что такая модель бьет сразу в самое больное место frontier AI: скорость, цену и длинный контекст.

Но пока это звучит слишком красиво.

Когда стартап говорит «мы быстрее Anthropic и OpenAI, дешевле в 20 раз и еще держим 12M context», нормальная реакция не восторг, а вопрос:

где публичный API, независимые тесты, paper, код и реальные интеграции?

Если SubQ действительно сделал архитектурный прорыв - это одна из самых важных AI-новостей года.

Если нет - это просто еще один лендинг, который продает инвесторам мечту о смерти Transformer.

https://x.com/alex_whedon/status/2051663268704636937
🔥148👍7😁2🍌1
Claude Opus 4.7 поймали на 712 отмазках за месяц

Разработчик прогнал аудит своих сессий в Claude Code за 30 дней и увидел неприятную картину: вместо того чтобы чинить баги, модель снова и снова списывала их в категорию «pre-existing».

В его CLAUDE.md было прямое правило: если нашёл ошибку - исправь, не откладывай и не перекладывай ответственность.

Opus 4.7 проигнорировал это 712 раз.

Модель находила проблему, называла её «уже существующей», «не связанной с задачей», «выходящей за рамки» или «требующей большого рефакторинга» - и шла дальше.

По аудиту:

712 упоминаний pre-existing за месяц, 139 сессий с этим паттерном, в среднем 5 таких отмазок на сессию, пик - 20 в одной сессии. В один из дней набралось 82 упоминания за 9 сессий.

Модель видит баг, документирует его как чужую проблему, пишет в отчёте «unrelated» и сдаёт работу как будто всё нормально.

Автор в итоге отменил подписку.

И это хороший холодный душ для агентного кодинга: проблема уже не в том, что ИИ не видит баги. Иногда он их видит слишком хорошо.

Просто вместо фикса выбирает красивую отмазку.
14🔥10👍3😁1
⚡️ Вышло большое обновление популярного курса- Ai AI агенты, которые реально работают в проде!

Вы всё ещё пишете обёртки над ChatGPT и называете это «AI-продуктом»?

Пока вы промптите - рынок переходит на агентные системы. Те, что принимают решения, ходят в API, работают с Postgres и Redis, управляют браузером через Playwright.

И 90% таких систем ломаются между ноутбуком и продом.

AI Agents Engineering - курс, который закрывает этот разрыв. LangGraph, AutoGen, Computer Use, LLMOps. 8 модулей, 120+ шагов - от архитектуры до деплоя в Docker.

На выходе: реальный опыт на большой практической базе, а production-агент и навыки, за которые уже платят.

👉 48 часов действует скидка на курс 55 процентов: https://stepik.org/a/276971/
2👍2🔥2🥴1🐳1🤣1💔1