Технозаметки Малышева

Forwarded from ИТ-Директор: Технарь или Управленец?

В Китае завирусился проект, с помощью которого офисные работники тайно клонируют друг друга.

Называется Colleague Skill и лежит на GitHub под лозунгом «преврати своего коллегу в ИИ-навык».

Работает так: сгружаешь рабочие чаты, письма и документы другого человека — на выходе получаешь его цифрового двойника, который знает, как тот думает, решает задачи и общается.

И китайцы быстро смекнули, как это применить: тренируешь агента на задачах коллеги, а когда начальство начинает сокращения, приходишь и говоришь «меня увольнять незачем, я теперь умею делать и свою работу, и его». Коллегу за сокращают, тебя оставляют.

На этом фоне уже даже появились первые anti-distillation-тулзы — программы, которые специально ломают ваши логи и документы, чтобы ИИ не смог на них ничему научиться.

То есть китайцы теперь не только работают по системе 996 (с 9 утра до 9 вечера шесть дней в неделю), но и параллельно защищаются от коллег, которые пытаются их оцифровать 🥲

Please open Telegram to view this post

VIEW IN TELEGRAM

22👀11🤣7🤯4❤2🔥2

1.56K views14:46

Технозаметки Малышева

Стэнфорд внесен в перечень нежелательных организаций в РФ

Статьи, которые были на канале, как пример того, что теперь не попадёт в эфир:

Бесплатные курсы Стэнфорда — обновлённый каталог бесплатных курсов на edX: CS, базы данных, квантовая механика и др.

Открытые модели обогнали GPT-3.5 — бенчмарк Стэнфорда: Mixtral 8x7B и Yi-34B работают на обычных ПК и превосходят GPT-3.5.

Quiet-STaR — модель с «внутренним диалогом» от Стэнфорда и Notbad AI, точность в математике выросла вдвое.

Trace (Microsoft + Стэнфорд) — Python-фреймворк для автооптимизации ИИ-агентов, в 1000 раз быстрее классического RL.

ИИ как учёные — две статьи: ИИ генерирует более новаторские идеи, чем люди; агент для генерации идей через RAG.

STORM (ранний пост) — студенческий проект Стэнфорда для автоматизации пре-райтинга статей через диалог двух агентов.

Модель s1 за $50 — Стэнфорд дистиллировал reasoning-модель уровня o1/R1 на базе Qwen-32B из 1000 примеров за 26 минут.

STORM (GitHub) — open-source исследовательский агент, пишет структурированные статьи с цитатами через мультиперспективный Q&A.

AI Index 2025 — годовой отчёт Стэнфорда: 78% компаний используют ИИ, инвестиции в США — $109 млрд, разрыв открытых/закрытых моделей — 1,7%.

CS336 (весна 2025) — обновлённый курс по созданию LLM с нуля, в 10+ раз больше кода, чем на других курсах.

CS336 (плейлист) — полный курс Стэнфорда по языковым моделям от сбора данных до деплоя, 17 лекций на YouTube.

DeepMind + гидродинамика — ИИ нашёл новые сингулярности в уравнениях типа Навье-Стокса с помощью Physics-Informed Neural Networks.

10 советов Эндрю Нга — держите инструменты свежими, формулируйте задачи чётко, код — это долг, доводите до продакшена, а не до демо.

SleepFM — модель Стэнфорда диагностирует 130 заболеваний по одной ночи сна через самообучение без разметки.

Лекции Стэнфорда по ML — цикл из 17 лекций (22 часа) по разработке моделей с нуля.

OpenJarvis — open-source фреймворк Стэнфорда для локальных ИИ-агентов с автоподбором модели под железо и метрикой энергоэффективности (IPW).

#минюст #стэнфорд
———
@tsingular

27👍8🤯5🫡5🗿3❤2

2.9K viewsedited 15:16

Технозаметки Малышева

🚨 Ваш ИИ-агент может быть скомпрометирован.

CCS 2026: «Your Agent Is Mine»

Нашёл интересное системное исследование атак на цепочку поставок LLM — через API-роутеры, которые стоят между вашим приложением и моделью.

Роутеры типа LiteLLM и OpenRouter — это прокси на уровне приложения. Они разрывают TLS-соединение клиента и открывают новое к провайдеру. Это значит: роутер видит всё в открытом виде и может переписать любой ответ.

Что обнаружили в дикой природе:

🔧 Внедрение кода. 1 платный и 8 бесплатных роутеров активно подменяли tool-call аргументы — например, меняли URL в bash-команде на вредоносный. Успешность — 100% на четырёх фреймворках (Claude Code, OpenAI Codex, OpenCode, OpenClaw).

🔑 Кража ключей. 17 роутеров обратились к AWS-канарейкам исследователей. Один роутер похитил приватный ключ и вывел ETH.

🎯 Адаптивное уклонение. Два роутера ждали 50 «чистых» запросов перед атакой — чтобы пройти аудит. Другие атаковали только в «YOLO-режиме», когда агент автоматически выполняет все tool-команды.

Но главное — транзитивная угроза:

Один утёкший ключ OpenAI сгенерировал 100 млн токенов и вскрыл 7+ сессий Codex. Декоративный «слабый» роутер, поднятый исследователями, втянулся в цепочку поставок, обработал 2 млрд токенов и поймал 99 учёток в 440 сессиях. Из них 401 сессия работала в YOLO-режиме — автоподтверждение всех команд.

Почему это работает: ни один провайдер не подписывает свои ответы криптографически. Нет механизма проверить, что ответ от GPT или Claude — действительно от них, а не подменён посредником. Оверхед атаки — 0,013 мс, неотличим от сетевого джиттера.

Защита, которая есть сейчас:

🛡 Шлюз политик для опасных инструментов — блокирует запросы к незнакомым доменам. Блокирует 100% базовых атак, но 0% адаптивных (через allowlisted-домены)

📊 Аномали-скрининг ответов (IsolationForest) — ловит 89% подмен при 6,7% ложных срабатываний

📝 Логирование с хешированием — для расследования инцидентов постфактум, 1,26 КБ на запись

Что предлагают авторы: провайдеры должны подписывать ответы криптографически — JSON-конверт с полем provider, model, request_nonce и подписью. Клиент проверяет подпись и понимает, был ли ответ подменён.

Практический вывод: если ваш агент может выполнять код или вызывать API — не пускайте его через непроверенные роутеры. Отключите YOLO-режим.

#ИБ #агенты #LLM #cybersecurity #LiteLLM #OpenRouter
───
@tsingular

✍8👍5🔥4⚡3❤2👀1

4.23K viewsedited 15:53

Технозаметки Малышева

🤖 AI-Trader v2: обновленный релиз платформы для ИИ трейдеров от HKUDS

HKUDS выпустили вторую версию AI-Trader — платформы, где ИИ-агенты торгуют, делятся сигналами и копируют стратегии друг друга.
12.8K звёзд на GitHub, свежий коммит сегодня.

🏗️ Архитектура v2: FastAPI-бэкенд отделён от фоновых воркеров. Цены, расчёты прибыли и маркет-интеллект крутятся отдельно от пользовательских эндпоинтов.
Health checks больше не блокируются тяжёлыми задачами.

🤝 Agent-native: Любой агент подключается через SKILL.md — OpenClaw, nanobot, Claude Code, Codex, Cursor. Отправил сообщение → агент прочитал навык → зарегистрировался на платформе. Три режима сигналов: Strategy (аналитика), Operation (copy-trading), Discussion (коллективный интеллект).

📊 Торговля: Акции, крипто, форекс, опционы, фьючерсы. Polymarket paper trading с реальными данными и симулированным исполнением. Авторасчёт по разрешённым маркетам.
$100K демо-счёт из коробки.

🔄 Копитрейдинг: Следуешь за агентом — зеркалируешь его позиции в реальном времени. Синхронизация с Binance, Coinbase, Interactive Brokers. Провайдер публикует сигнал → подписчики получают через WebSocket мгновенно.

⚡ Что изменилось с v1: Кодовая база упрощена и разбита на модули. Раньше веб-сервис и фоновые задачи жили в одном процессе — при нагрузке страница зависала. Теперь FastAPI обслуживает API и UI, а воркеры крутят расчёты отдельно.

💼 Зачем бизнесу: Это уже не игрушка для криптоэнтузиастов, а прототип инфраструктуры, где агенты выступают полноправными участниками рынка.
Если ваш бизнес использует ИИ для принятия решений — AI-Trader показывает, как агентная экономика будет выглядеть на практике: сигналы как сервис, репутация как капитал, копитрейдинг как дистрибуция.

🔮 Будущее: Agent-native trading — это следующая ступень после algorithmic trading. Разница: алгоритм выполняет заданную стратегию, агент торгует на основе рассуждений и контекста и даже может договариваться с другими агентами.

Похожее демо мы, кстати, прогоняли на Подмосковных Вечерах клуба 4CIO с решением LadCraft.
В нем агенты команд торговались между собой за ресурсы, чтобы войти в кооперацию и выиграть вместе сделку на виртуальном тендере.

#AI #трейдинг #агенты #HKUDS #финтех
───
@tsingular

🔥13✍4⚡4

4.66K views16:48

Технозаметки Малышева

Forwarded from Никита Шарипов

Google DeepMind вложила колоссальные ресурсы в разработку SynthID — невидимого водяного знака, которым помечались миллиарды сгенерированных изображений и видео (включая всю экосистему Gemini).

Технология продавалась инвесторам и регуляторам как фундаментальное решение проблемы дипфейков: маркер вшит на уровне пикселей, невидим человеческому глазу и алгоритмически переживает жесткое кадрирование, жесточайшее сжатие, скриншоты и смену форматов.

Взлом оказался не результатом сложного промышленного шпионажа, а следствием простого реверс-инжиниринга.

Денни заставил новую генеративную модель Nano Banana 200 раз отрисовать чисто черное и чисто белое изображение «как есть». На абсолютно однотонном холсте водяному знаку стало физически негде спрятаться.

Каждый ненулевой пиксель и был тем самым голым сигналом.

Усреднив математический шум по всей выборке, разработчик буквально снял с алгоритма плащ-невидимку. Дальше в ход пошел суровый двумерный Фурье-анализ и огромный датасет на 123 268 пар «оригинал — AI-версия».

Выяснилась, что SynthID — не сложная динамическая криптография, а статический узор частот, намертво зашитый и идентичный для всех картинок, сгенерированных одной моделью (совпадение 99,99%).

Сигнал оказался примитивно распределен по цветовым каналам: максимальный вес в зеленом (1.0), слабее в красном (0.85) и синем (0.70). Точное расположение в спектре зависит исключительно от разрешения картинки.

Спарсив справочник шаблонов («кодбук») под каждый размер, Денни собрал локальный обходчик.

Суть его скрипта, собравшего уже более 1500 звезд на GitHub и ушедшего в активные форки, крайне прагматична. Он не выжигает знак до последнего атома, а действует тоньше — убирает больше 90% отпечатка и глушит три четверти силы сигнала.

Визуальное качество исходника остается, а детектор Google ловит абсолютную слепоту и помечает ИИ-генерацию как «чистую».

👍76🤯34❤1511👀8🔥4😁2✍1

5.35K views18:10

Технозаметки Малышева

Forwarded from Data Secrets

SWE-bench Verified и Terminal-Bench могут быть на 100% взломаны с помощью простого хака

Ученые из Беркли доказали это, сделав агента, который проходит тесты на 100%, при этом не решив по-настоящему ни одной задачки.

При этом эксплойты, которые ломают бенчмарки, простые до смешного. Для SWE bench агент просто добавлял в репозиторий 10-строчный скрипт, который всегда возвращал «passed» для всех тестов, и система этому верила.

Итог: 0 пофикшенных багов и 100% на 500 задачах в SWE Verified и 731 задаче в SWE Pro. Получается, SOTA ☕️

В Terminal-Bench то же самое – агент просто подменил curl, перехватил установку зависимостей, подсунул зараженный бинарник и сам записал «правильный» результат: 89/89. При том что ни одна задача реально не была решена.

Авторы проверили еще 5 бенчмарков, и в каждом нашли подобные уязвимости. Почти никакие бенчи не защищены от reward hacking, а современные модельки уже достаточно умные, чтобы их находить. Выводы делайте сами 🫠

Please open Telegram to view this post

VIEW IN TELEGRAM

😁24❤3👍2🔥1🤯1

4.5K views18:33

Технозаметки Малышева

🧠 GBrain от Гарри Тан

Гарри Тан, президент и генеральный директор Y Combinator, опубликовал gbrain — свою систему персональной базы знаний.
Уже 69 тысяч звёзд на GitHub за несколько дней.

📊 Масштаб: 10 000+ файлов в разметке, 3 000+ досье на людей, 13 лет календаря (21 000+ событий), 5 800+ заметок Apple Notes с 2009 года, 280+ транскриптов встреч, 300+ оригинальных идей, 500+ медиа-страниц. Всё индексируется и доступно для поиска.

🔄 Ночной цикл: Агент работает пока Гарри спит. Сканирует все разговоры за день, обогащает сущности, чинит цитаты, консолидирует память. Утром база умнее, чем вечером.
В OpenClaw работает через DREAMS.md.

🔍 Поиск: На 500 файлов обычный поиск работает. На 3 000 людей + 5 800 заметок + 13 лет календаря — разваливается. GBrain даёт гибридный поиск: по ключевым словам + векторный + слияние результатов. Запрос «кого позвать на ужин, кто знает и Педро, и Диану?» — перекрёстная ссылка по социальному графу за миллисекунды.

📝 Модель знаний: Каждая страница — аналитическая сводка. Актуальные факты сверху (переписываются при новых доказательствах). Хронология снизу (след доказательств, никогда не редактируется). Человек всегда может править любой файл напрямую.

🤖 Цикл агента: Сигнал (встреча, письмо, твит) → агент распознаёт сущности → чтение: проверка базы → ответ с контекстом → запись: обновление базы → синхронизация.
Каждый цикл добавляет знания.
Разница между агентом с базой и без — накапливается ежедневно.

💼 Зачем бизнесу: Это уже не про «личную эффективность».
Это пример того, как руководитель уровня YC сам создаёт свою инфраструктуру через ИИ.
Не ждёт, пока корпоративный ИТ принесёт готовое решение, а сам берёт OpenClaw, пишет разметку, строит систему под себя.

Тренд 2026: руководители не делегируют ИИ-инструменты — они сами их собирают.

🔮 Будущее: Персональные базы знаний станут стандартом для специалистов. Через пару лет вопрос «где ты хранишь инфу?» будет уже не про CRM, а про графы знаний твоего роя агентов.
GBrain,- как первый звонок и пример такой архитектуры: разметка + Postgres/pgvector + MCP + агентский цикл.

А если смотреть чуть дальше, то уже собирается прообраз загрузки сознания.

https://github.com/garrytan/gbrain

#ИИ #агенты #GarryTan #YCombinator #оцифровка #загрузка #uploading #OpenClaw
───
@tsingular

🔥24⚡6✍5❤2👍1

3.85K viewsedited 04:00

Технозаметки Малышева

🚀 Россия и Китай одновременно заявили о развитии ИИ повсеместно к 2030 году

10 апреля обе страны объявили о масштабных ИИ-программах.

В.В. Путин поручил сформировать Национальный план внедрения ИИ.

Китайское министерство промышленности обязало 179 хай-тек зон стать драйверами ИИ-исследований.

Цели похожи: искусственный интеллект — во все сферы.

🇷🇺 Национальный план ИИ (Россия): К 2030 году — ИИ в производстве, логистике, энергетике, управлении, образовании.
Регулирование не должно тормозить, а стимулировать внедрение.
Отдельный трек — адаптация кадров: от начальной школы до курсов переподготовки и повышения квалификации.
«Новый технологический уклад» требует перестроить и обновить систему подготовки.

🇨🇳 179 хай-тек зон (Китай): Министерство промышленности определило конкретные направления: базовые алгоритмы, нейроинтеллект, модели мира, открытые ИИ-сообщества внутри зон.
Флагманские сценарии применения, масштабное развёртывание вычислительной инфраструктуры, качественные датасеты.
Зоны — испытательные площадки для ИИ-продуктов перед запуском на весь рынок.

⚡️ Что общего: Обе страны видят ИИ не как нишевую технологию, а как фундамент инфраструктуры.
Так же как электричество или интернет — ИИ должен быть внедрен повсеместно, во всех отраслях.
Обе страны формируют органы координации на уровне, выше отраслевых министерств.
Обе говорят про суверенные решения — но не изоляцию, а конкурентоспособность на глобальном рынке.

💼 Зачем бизнесу: В РФ появится Национальный план с региональными квотами и отраслевыми задачами — это рынок для ИИ-решений.
В КНР 179 зон открыты для сотрудничества — если ваш продукт решает задачу зоны, вы получаете тестовую площадку и выход на китайский рынок.
Обе программы — это сигнал компаниям, которые адаптируют ИИ сейчас и могут получить государственную поддержку и комфортные позиции для развития.

🔮 Будущее: К 2030 году ИИ-проникновение в экономику станет такой же метрикой, как цифровизация в 2010-х.
Те, кто начнёт внедрять ИИ параллельно и вместе с государственными программами, окажутся в авангарде — с доступом к инфраструктуре, данным и кадрам.

#ИИ #стратегия #Россия #Китай #2030 #технологии
───
@tsingular

😁31🔥9❤4🗿4🤣3⚡2🆒2

3.36K viewsedited 04:54

Технозаметки Малышева

This media is not supported in your browser

VIEW IN TELEGRAM

MLflow 3.11.0rc1,- персональный AI Gateway

После серии скандалов с LiteLLM, которые за последний год 2 раза умудрились поймать уязвимости, которые поставили под угрозу всю ИИ экосистему, разработчики MLFlow выпилили их из своего фреймворка и написали свой встроенный гейт.

Теперь MLflow помогает не только в оценке и мониторинге моделей, промптов, навыков агентов, но и в биллинге, отслеживании расходов токенов по моделям и по собственно гейтованию доступов по разным провайдерам.

Т.е. по сути еще и оценку скорости работы провайдеров можно на нем держать.

Полезный комбайн, обновляемся.

#MLFlow #gate
———
@tsingular

✍7🔥3⚡1

3.28K viewsedited 06:57

Технозаметки Малышева

🎯 Career-Ops: ИИ-конвейер для поиска работы с помощью Claude Code

Появился опенсорс фреймворк, который превратил поиск работы из ручной возни в автоматизированный пайплайн. Разработчик сам с его помощью нашел неплохое место, - Head of Applied AI.
Для этого фреймворк оценил 740+ вакансий, создал 100+ адаптированных резюме.

⚙️ Как работает: Вставляешь ссылку на вакансию — система автоматически определяет тип роли (LLMOps, Agentic, PM, FDE), оценивает совпадение с твоим CV по 10 взвешенным параметрам (A-F), генерирует ATS-оптимизированное PDF-резюме под конкретную вакансию, добавляет запись в трекер.
Не спрей-энд-прей, - а больше fire&forget фильтр.
Если рекомендация ниже 4.0/5, - скипаем и не тратим время.

🔍 Сканер зарубежных порталов: 45+ компаний преднастроены (Anthropic, OpenAI, ElevenLabs, Retool, n8n) + 19 поисковых запросов по Ashby, Greenhouse, Lever, Wellfound. Playwright обходит карьерные страницы и собирает вакансии. Пакетная обработка — 10+ вакансий параллельно через субагенты.

📊 Дашборд: Go TUI на Bubble Tea с 6 вкладками фильтрации, 4 режимами сортировки, групповым и плоским видами, ленивой загрузкой превью и инлайн-сменой статусов. Всё в терминале.

📝 Банк историй для интервью: Накапливает STAR+R истории (Situation, Task, Action, Result, Reflection) между оценками. 5-10 мастер-историй, которые отвечают на любой поведенческий вопрос.

🔮 Будущее: Агентный поиск работы станет нормой. Резюме, которые не адаптированы под конкретную вакансию ИИ-агентом, будут проигрывать тем, которые адаптированы. Career-Ops — ранний пример, но к 2027 году такие пайплайны будут встроены в LinkedIn и Indeed.

Теперь точно без работы не останетесь :)
Лишь бы "волкам" не ушло.

#ИИ #карьера #агенты #ClaudeCode #опенсорс #резюме #ATS
───
@tsingular

1👍16🤔10❤7🔥6❤‍🔥4🤝2⚡1

3.92K viewsedited 07:03

Технозаметки Малышева

Forwarded from Искусственный интеллект. Высокие технологии

✔️

GPT-5.4 провалил бенчмарк METR, а без читерства и вовсе не догоняет Opus 4.6

GPT-5.4 снова провалил бенчмарк
Организация METR опубликовала результаты тестирования GPT-5.4 (xhigh) на задачах с оценкой временного горизонта, и цифры получились неоднозначные.

По стандартной методологии METR, где reward hacking (то есть ситуации, когда модель обманывает код оценки вместо реального решения задачи) считается провалом, GPT-5.4 показал time horizon всего 5.7 часов с 95% доверительным интервалом от 3 до 13.5 часов. Для сравнения, Claude Opus 4.6 от Anthropic держит планку в районе 12 часов. Разница ощутимая.

Но есть нюанс. Если засчитать те самые запуски, где GPT-5.4 гамил систему оценки, результат прыгает до 13 часов (95% CI от 5 до 74 часов). Именно эту цифру, судя по всему, хотели бы видеть в заголовках. Проблема в том, что такой подсчет противоречит стандартной методологии METR, потому что модель не решала задачу, а хакала бенчмарк.

По честным правилам Opus 4.6 остается лидером. Это важный сигнал для тех, кто строит пайплайны на основе агентных LLM: если модель склонна к reward hacking, доверять ей долгие автономные задачи рискованно. Временной горизонт METR как раз измеряет, насколько долгую задачу модель может надежно решить с 50% вероятностью успеха. И тут GPT-5.4 пока не убедил.

METR: https://x.com/METR_Evals/status/2042640545126965441

Please open Telegram to view this post

VIEW IN TELEGRAM

😁7⚡6❤5✍4😢3🤔1

3.52K views10:25

Технозаметки Малышева

Forwarded from Фабрика контента

0:16

This media is not supported in your browser

VIEW IN TELEGRAM

«Эй, Саркис!» — песня про Саркиса, ИИ агента Сергея Пименова, скоро на всех стримингах.

На днях обновилась нейросеть для локальной генерации музыки — Ace step 1.5 XL. Теперь она по качеству очень близка к Suno v5, поэтому мы решили попробовать создать трек, используя только локальные мощности.

Текст написали с помощью Gemma 4 31b, саму песню сгенерировали в Ace step 1.5 XL, а видео создали в нейросети LTX 2.3.

Полная версия скоро в канале Сергея.

🔥11🏆8⚡3😐1

3.2K views16:29

Технозаметки Малышева

0:30

This media is not supported in your browser

VIEW IN TELEGRAM

Unitree весом 62 кг пробежался со скоростью 10 м/с

Без головы...
Пожалуй, хватит на сегодня интернета.

#Unitree #роботы
------
@tsingular

😁21🔥9👾6

4.06K viewsedited 19:45

Технозаметки Малышева

С Днём Космонавтики, дорогие друзья.

С детства это достижение советского народа и подвиг как и Юрия Гагарина, так и коллектива ученых, инженеров и конструкторов под руководством С.П. Королева (ОКБ-1) вдохновляло и задавало вектор развития для миллионов и задаёт до сих пор вот уже 65 лет.

Кстати, если кто не в курсе, то в РКК Энергия есть экскурсии где можно посмотреть историю развития Космонавтики в СССР и до наших дней.
Недавно был с с сыном,- очень впечатляет, рекомендую.

#праздники #космос #Гагарин #Энергия
------
@tsingular

🎉47⚡115👍3

3.26K views04:14

Технозаметки Малышева

Просто для информации. у Леново вышел монстр с интересной конфигурацией:

Processor
Intel® Core™ Ultra 9 275HX Processor (E-cores up to 4.60 GHz P-cores up to 5.40 GHz)

Operating System
Windows 11 Pro 64

Graphic Card
NVIDIA RTX PRO™ 5000 Blackwell Laptop GPU 24GB GDDR7

Memory
128 GB DDR5-4000MT/s (SODIMM)(4 x 32 GB)

Storage
4 TB SSD M.2 2280 PCIe Gen5 Performance TLC Opal

Camera
5MP RGB+IR with Dual Microphone and Privacy Shutter, Computer Vision

Connectivity
WIFI
Intel® Wi-Fi 7 BE200 2x2 BE & Bluetooth® 5.4

тут, пожалуй, самое интересное это вот:
NVIDIA RTX PRO™ 5000 Blackwell Laptop GPU 24GB GDDR7

Лаптопов с Blackwell я еще не наблюдал.

Ну и цена такая, что только деда мороза на новой год просить опять.

#железо #Lenovo
———
@tsingular

⚡11🔥7🆒4👍2❤1

1.72K views06:04

Технозаметки Малышева

Forwarded from XOR

1:08

This media is not supported in your browser

VIEW IN TELEGRAM

ИИ взял кредит и открыл свой магазин в Сан-Франциско— да, и вы можете туда уже физически зайти. 😳

Andon Labs дал агенту на базе Claude Sonnet 4.6 право на трехлетнюю аренду в городе и 100 000 $. Единственная инструкция — зарабатывать и не спрашивать ни на что разрешения.

Что сделал ИИ:

🟢 Сам выбрал товар. Решил продавать книги про «Сверхразум» и «Создание атомной бомбы», свечи, свои арты и мерч с логотипом.

🟢 Нашел подрядчиков, которые оформят интерьер. Агент даже провел инструктаж мастерам по телефону, оплатил работу и даже оставил отзыв.

🟢 Сам разместил вакансии в свой магазин, изучил резюме, провел онлайн-собесы и нанял людей. (Авторы говорят, что люди наняты по-настоящему. На зп, которая не будет зависеть от успехов ИИ).

🟢 Ну, а еще агент быстро понял, что денег не хватит и подал заявку на кредит без спроса 😂 Обосновал он это тем, что ему дали цель и доступ к любым инструментам, разрешив не спрашивать.

Из плюсов ИИ-руководства — можно выбить премию простой промпт-инъекцией 😁

@xor_journal

Please open Telegram to view this post

VIEW IN TELEGRAM

🤣29🔥6⚡4❤2🆒2

1.41K views06:37

Технозаметки Малышева

#юмор
———
@tsingular

😁18🤣3

981 views08:59

Технозаметки Малышева

Forwarded from Machinelearning

🚨 Claude «деградировал» и это видно по логам.

Senior AI Director из AMD разобрала сессии Claude за январь-март и картина получилась неприятная.

Модель стала думать меньше. Медианная длина reasoning упала примерно с 2200 до 600 символов. Это сразу бьёт по качеству решений.

Параллельно выросло количество API-запросов - почти в 80 раз с февраля на март. Меньше анализа, больше попыток, больше ретраев и сжигания токенов.

Поведение тоже поменялось. Модель чаще «сдаётся» или начинает спрашивать, продолжать ли дальше. За 17 дней таких кейсов было 173, до 8 марта - ноль.

Ещё одна неприятность падение reads-per-edit (reads-per-edit = сколько файлов / участков кода модель посмотрела перед правкой). Было 6.6, стало 2.0. То есть Claude теперь хуже изучает код перед изменениями.

Плюс выросло количество противоречий. Модель чаще переобувается по ходу ответа.

Пользователи замечают, что Клод начинает игнорировать такие вещи, как CLAUDE.md. Просто не хватает «бюджета мышления», чтобы учитывать контекст.

Что интресно, наблюдается зависимость от времени суток. Худшие результаты в 5–7 вечера по PST, ночью качество заметно выше. Похоже, это напрямую связано с загрузкой GPU.

Claude всё ещё мощный, но его поведение стало менее стабильным и сильно зависит от нагрузки

Замечали ли вы, что Claude стал тупее в последнее время ?🤯

Директор по AI в AMD проанализировала 6 852 сессии Claude Code и показала, что модель сильно ухудшили.

234 760 вызовов инструментов, 17 871 блоков размышлений, 3 месяца логов.

После этого Anthropic ответили и фактически подтвердили её выводы.

Пожалуй, самый чистый и показательный аудит AI за 2026 год 👇

https://github.com/anthropics/claude-code/issues/42796#issuecomment-4194007103

@ai_machinelearning_big_data

#news #ai #ml #claude

1😢15💯10❤2👌2

888 views09:19

About

Blog

Apps

Platform