Forwarded from Machinelearning
Издание Phoronix выпустило один из первых публичных обзоров серверного процессора NVIDIA Vera - нового ARM-чипа с 88 ядрами архитектуры Olympus, который компания позиционирует для ИИ-инфраструктуры.
По оценке основателя Phoronix Майкла Ларабела, это первый ARM-процессор, который на серверных нагрузках сопоставим с актуальными Intel Xeon и AMD EPYC.
В среднем по протестированным задачам Vera оказался примерно на 10% быстрее 64-ядерного AMD EPYC 9575F и в 1,55 раза быстрее Intel Xeon 6980P, флагмана линейки Granite Rapids.
По сравнению с предыдущим процессором NVIDIA Grace производительность выросла примерно на 63%.
В тесте сборки ядра Linux со стандартной конфигурацией Vera показал лучший результат среди всех испытуемых - 20 секунд.
Конфигурация Vera включала 88 ядер и 176 потоков, 8 модулей памяти LPDDR5-9600 общим объёмом 768 ГБ и TDP 450 Вт.
С учётом потребления памяти полная нагрузка системы составила около 500 Вт. У топовых EPYC Turin и Xeon Granite Rapids аналогичный показатель относится только к самому процессору, без памяти.
При этом публиковать полные данные об энергопотреблении NVIDIA не разрешила, поэтому реальная энергоэффективность остаётся неизвестной.
Набор бенчмарков был ограничен самой NVIDIA - тестировались сценарии, под которые компания и позиционирует чип: компиляция кода, Python, Java, база данных ClickHouse, сжатие Zstd, кодирование видео SVT-AV1, 7-Zip и ряд других.
Тестов агентного ИИ (ключевого, по заявлениям NVIDIA, сценария применения процессора) в этом раунде не проводилось, их обещают опубликовать позднее.
Цена и сроки массовой доступности вне крупных облачных и ИИ-клиентов также не объявлены. Поставки партнёрам запланированы на вторую половину 2026 года.
AMD готовит EPYC Venice на архитектуре Zen 6 с планами по выходу до конца года, Intel Xeon Diamond Rapids ожидается в 2027-м.
По оценке Phoronix, после выхода Venice, AMD может вернуть лидерство за пределами целевых для Vera сценариев, поэтому многое будет зависеть от того, как быстро NVIDIA сможет выпустить рефреш Olympus.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤4🤔1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Higgsfield plugins for Adobe Premiere Pro and After Effects
Интересный ход. Хиггсы в своих тулах избегают таймлайна, чтобы не перегружать новаго нормального юзера сложностями монтажа.
Однако, они только что бахнули два плагина для Премьера и Афтера.
Можно генерить прямо внутри, делать генеративные транзишены, вроде как рефреймить без кропа, удалять фон, рисовать(?!) на футаже как реф для генерации, и вроде даже апскейлить до 4К.
Как и в случае с Chaos и V-Ray из сегодняшнего утреннего поста - это выглядит как очень логичный шаг (некий нейрорендер\нейрокомпоз) прямо в профессиональном софте.
Понятно, что Gemini Omni как бы умеет все это из коробки, но.
Не надо генерить в где-то, скачивать куда-то, импортировать в премьер, тащить, обрезать, вставлять.
И у меня, опять один вопрос: Адобченко, але! Почему это делает кто-то посторонний?
Причем мы уже видели намеки на это от самого Адобченко год назад, в демках с chatGPT. Да, там есть потуги в виде морфкат+Firefly, но так чтобы бахнуть простые и удобные плагины Адобу как будто яиц не хватает.
Они вроде уже отказались от эксклюзивности на Файерфлай. Уже генерят разными моделями на своих Mood Boards.
Что мешает?
Я не знаю, как это будет работать у Хиггсов, особенно по части фреймрейтов, аспектов, неквадратных пикселей и прочей неприятной требухи, но ход очень правильный.
Я также еще не попробовал UX - тут важно попадать в заученные годами движения\патерны мышкой инвалидов Афтера и ветеранов Премьера. Инпайнт, маски, слои - все должно быть нативно.
Ну и механика выбора моделей для генерации тоже должна себя обозначить.
Но ход отличный, как по мне. Пусть даже это не работает как заявлено. Рано или поздно заработает, не у Хигсов. так у кого-то еще.
https://higgsfield.ai/adobe-plugin
@cgevent
Интересный ход. Хиггсы в своих тулах избегают таймлайна, чтобы не перегружать новаго нормального юзера сложностями монтажа.
Однако, они только что бахнули два плагина для Премьера и Афтера.
Можно генерить прямо внутри, делать генеративные транзишены, вроде как рефреймить без кропа, удалять фон, рисовать(?!) на футаже как реф для генерации, и вроде даже апскейлить до 4К.
Как и в случае с Chaos и V-Ray из сегодняшнего утреннего поста - это выглядит как очень логичный шаг (некий нейрорендер\нейрокомпоз) прямо в профессиональном софте.
Понятно, что Gemini Omni как бы умеет все это из коробки, но.
Не надо генерить в где-то, скачивать куда-то, импортировать в премьер, тащить, обрезать, вставлять.
И у меня, опять один вопрос: Адобченко, але! Почему это делает кто-то посторонний?
Причем мы уже видели намеки на это от самого Адобченко год назад, в демках с chatGPT. Да, там есть потуги в виде морфкат+Firefly, но так чтобы бахнуть простые и удобные плагины Адобу как будто яиц не хватает.
Они вроде уже отказались от эксклюзивности на Файерфлай. Уже генерят разными моделями на своих Mood Boards.
Что мешает?
Я не знаю, как это будет работать у Хиггсов, особенно по части фреймрейтов, аспектов, неквадратных пикселей и прочей неприятной требухи, но ход очень правильный.
Я также еще не попробовал UX - тут важно попадать в заученные годами движения\патерны мышкой инвалидов Афтера и ветеранов Премьера. Инпайнт, маски, слои - все должно быть нативно.
Ну и механика выбора моделей для генерации тоже должна себя обозначить.
Но ход отличный, как по мне. Пусть даже это не работает как заявлено. Рано или поздно заработает, не у Хигсов. так у кого-то еще.
https://higgsfield.ai/adobe-plugin
@cgevent
❤3⚡3🫡1🆒1
Forwarded from эйай ньюз
На Хабре вышел подробный разбор массивного whitepaper от Сбера «AI-Disrupt PDLC». ИИ-энтузиаст продрался через 337 тысяч знаков документа и вытащил оттуда реальную архитектуру перехода к агентной разработке, отсеяв маркетинг для C-level. Главный фокус в обзоре сделан на смене парадигмы: от написания кода к формированию намерения, где код становится лишь вторичным артефактом, а первична спецификация.
Автор уделил отдельное внимание концепция Discovery Gap. Он подчеркивает, что простая адаптация старого конвейера под новые инструменты дает линейный потолок в 11–25% прироста.
В части экономики и безопасности автор отмечает, что мультиагентные архитектуры потребляют примерно в 15 раз больше токенов, чем классический чат-режим, что требует обязательного внедрения FinOps-предохранителей (Cost circuit breakers) от зацикливания. Анализ телеметрии хоронит ручные подтверждения действий (Human-in-the-loop): в 93% случаев инженеры аппрувят запросы автоматически не вчитываясь. Вместо этого предлагается переход на пакетные одобрения, trust windows и адаптивную лестницу автономии (R0–R5).
Как отмечает автор разбора, на данный момент сам Сбер находится на 3-м уровне зрелости из 5 (Supervised automation). При этом разработчики уже переведены на собственную GigaIDE PRO, а доля принятого AI-кода через GigaCode достигла 69%. Из культурных побочек в обзоре выделен «парадокс джунов» (новички вынуждены ревьюить сложный код, который пока не могут написать с нуля) и изменение роли сеньоров, у которых пропадает дофамин от самостоятельного решения сложных задач.
Хабр
@ai_newz
Автор уделил отдельное внимание концепция Discovery Gap. Он подчеркивает, что простая адаптация старого конвейера под новые инструменты дает линейный потолок в 11–25% прироста.
В части экономики и безопасности автор отмечает, что мультиагентные архитектуры потребляют примерно в 15 раз больше токенов, чем классический чат-режим, что требует обязательного внедрения FinOps-предохранителей (Cost circuit breakers) от зацикливания. Анализ телеметрии хоронит ручные подтверждения действий (Human-in-the-loop): в 93% случаев инженеры аппрувят запросы автоматически не вчитываясь. Вместо этого предлагается переход на пакетные одобрения, trust windows и адаптивную лестницу автономии (R0–R5).
Как отмечает автор разбора, на данный момент сам Сбер находится на 3-м уровне зрелости из 5 (Supervised automation). При этом разработчики уже переведены на собственную GigaIDE PRO, а доля принятого AI-кода через GigaCode достигла 69%. Из культурных побочек в обзоре выделен «парадокс джунов» (новички вынуждены ревьюить сложный код, который пока не могут написать с нуля) и изменение роли сеньоров, у которых пропадает дофамин от самостоятельного решения сложных задач.
Хабр
@ai_newz
🔥11❤4⚡3✍1
Anthropic выпустил Claude Opus 4.8: честность, скорость, параллельные агенты
Меньше шести недель прошло после релиза Opus 4.7 — и уже 4.8.
Цена не изменилась: $15/млн генерации, $75/млн выходных (fast mode: $10/$50). Но под капотом серьёзные доработки.
📊 Бенчмарки: Агентное кодирование 64.3→69.2%.
Мультидисциплинарное рассуждение с инструментами 54.7→57.9%.
Компьютерное использование 82.8→83.4%.
Работа со знаниями 1753→1890.
Финансовый анализ 51.5→53.9%.
На Super-Agent бенчмарке Opus 4.8 — единственная модель, завершившая все кейсы end-to-end, обойдя GPT-5.5 при паритете по стоимости.
🧠 Честность как фича: Opus 4.8 в 4 раза реже пропускает баги в собственном коде по сравнению с 4.7.
Модель активнее отмечает неуверенность и реже делает неподтверждённые утверждения.
Для автономных агентов это критично: модель, которая честно говорит «я не уверен», а не уверенно врёт — фундамент для продакшена.
⚡ Fast mode: 2.5× скорость, при этом в 3 раза дешевле, чем у предыдущих моделей. Для задач, где скорость важнее глубины рассуждений, это значительное удешевление.
🔀 Dynamic workflows: Новый режим в Claude Code (research preview). Модель планирует работу и запускает сотни параллельных субагентов в одной сессии.
Сценарий для примера: миграция кодовой базы на сотни тысяч строк — от старта до мержа, с существующим тест-сьютом как критерием качества.
🎛️ Контроль усилий:
Ползунок low→high→extra→max.
High — дефолт.
Extra — для сложных задач и длинных асинхронных воркфлоу.
Anthropic подняли рейт-лимиты в Claude Code под возросшее потребление токенов.
🔧 Messages API: System entries теперь можно вставлять прямо в массив сообщений mid-task без поломки prompt cache. Обновление разрешений, бюджетов токенов, контекста среды — всё на лету, без user turn.
🔮 Будущее: Anthropic так же обещает Mythos-class модели для всех клиентов «в ближайшие недели». Параллельно идут работы над моделями дешевле Opus с сопоставимыми возможностями.
#Anthropic #Claude #Opus #ИИ #агенты #кодинг #Mythos
───
@tsingular
Меньше шести недель прошло после релиза Opus 4.7 — и уже 4.8.
Цена не изменилась: $15/млн генерации, $75/млн выходных (fast mode: $10/$50). Но под капотом серьёзные доработки.
📊 Бенчмарки: Агентное кодирование 64.3→69.2%.
Мультидисциплинарное рассуждение с инструментами 54.7→57.9%.
Компьютерное использование 82.8→83.4%.
Работа со знаниями 1753→1890.
Финансовый анализ 51.5→53.9%.
На Super-Agent бенчмарке Opus 4.8 — единственная модель, завершившая все кейсы end-to-end, обойдя GPT-5.5 при паритете по стоимости.
🧠 Честность как фича: Opus 4.8 в 4 раза реже пропускает баги в собственном коде по сравнению с 4.7.
Модель активнее отмечает неуверенность и реже делает неподтверждённые утверждения.
Для автономных агентов это критично: модель, которая честно говорит «я не уверен», а не уверенно врёт — фундамент для продакшена.
⚡ Fast mode: 2.5× скорость, при этом в 3 раза дешевле, чем у предыдущих моделей. Для задач, где скорость важнее глубины рассуждений, это значительное удешевление.
🔀 Dynamic workflows: Новый режим в Claude Code (research preview). Модель планирует работу и запускает сотни параллельных субагентов в одной сессии.
Сценарий для примера: миграция кодовой базы на сотни тысяч строк — от старта до мержа, с существующим тест-сьютом как критерием качества.
🎛️ Контроль усилий:
Ползунок low→high→extra→max.
High — дефолт.
Extra — для сложных задач и длинных асинхронных воркфлоу.
Anthropic подняли рейт-лимиты в Claude Code под возросшее потребление токенов.
🔧 Messages API: System entries теперь можно вставлять прямо в массив сообщений mid-task без поломки prompt cache. Обновление разрешений, бюджетов токенов, контекста среды — всё на лету, без user turn.
🔮 Будущее: Anthropic так же обещает Mythos-class модели для всех клиентов «в ближайшие недели». Параллельно идут работы над моделями дешевле Opus с сопоставимыми возможностями.
#Anthropic #Claude #Opus #ИИ #агенты #кодинг #Mythos
───
@tsingular
⚡10❤6🏆5🔥1🐳1 1
Hermes Agent v0.15.0: The Velocity Release
1,302 коммита за месяц.
По итогу Hermes стал быстрее запускаться, думать, выдавать результат.
📋 Что нового
Главный рефакторинг: run_agent.py с 16 083 строк до 3 821 (-76%).
Код разложен по 14 модулям, редактор открывается не за 90 секунд, а мгновенно.
Kanban вырос в полноценную multi-agent платформу: авто-декомпозиция, swarm v1 (root → parallel workers → verifier → synthesizer → общий blackboard).
Назначение модели под каждую задачу, worktree-изоляция, fingerprinting retry, drag-to-delete. 104 PR только на канбан.
Cold-start: Termux 2.9с → 0.8с.
Обходит Codex CLI по холодному старту.
session_search переписан без LLM: поиск по истории сессий — ~20мс вместо ~90с, бесплатно.
4 500× быстрее.
Promptware Defense: защита от brainworm-атак через tool output и memory injection. 15 новых паттернов угроз в threat_patterns.py.
Bitwarden Secrets Manager: один bootstrap-токен вместо простыни ключей в .env.
Мгновенная ротация ключей.
💡 Цифры
2 800+ скиллов, 4 600+ инструментов, 20+ моделей, 50+ провайдеров. 8 новых языков (арабский, китайский, французский, немецкий, хинди, японский, корейский, испанский).
Native MCP client и mcporter — ~130 известных MCP-серверов.
ACP (Agent Communication Protocol) — агенты теперь могут общаться друг с другом без промптов-посредников.
💼 Зачем бизнесу
Velocity Release оправдывает название. Холодный старт ускорился на 63%. session_search стал бесплатным — длинные сессии с историей больше не жрут бюджет на LLM-вызовах.
Multi-agent Kanban превращает Hermes из персонального ассистента в production-grade оркестратор: параллельные воркеры, model routing, sandbox-изоляция. Bitwarden решает compliance-проблему хранения ключей.
Время обновляться.
#Hermes #AgenticAI #NousResearch
------
@tsingular
1,302 коммита за месяц.
По итогу Hermes стал быстрее запускаться, думать, выдавать результат.
📋 Что нового
Главный рефакторинг: run_agent.py с 16 083 строк до 3 821 (-76%).
Код разложен по 14 модулям, редактор открывается не за 90 секунд, а мгновенно.
Kanban вырос в полноценную multi-agent платформу: авто-декомпозиция, swarm v1 (root → parallel workers → verifier → synthesizer → общий blackboard).
Назначение модели под каждую задачу, worktree-изоляция, fingerprinting retry, drag-to-delete. 104 PR только на канбан.
Cold-start: Termux 2.9с → 0.8с.
hermes --version 701мс → 258мс (-63%). Обходит Codex CLI по холодному старту.
session_search переписан без LLM: поиск по истории сессий — ~20мс вместо ~90с, бесплатно.
4 500× быстрее.
Promptware Defense: защита от brainworm-атак через tool output и memory injection. 15 новых паттернов угроз в threat_patterns.py.
Bitwarden Secrets Manager: один bootstrap-токен вместо простыни ключей в .env.
Мгновенная ротация ключей.
💡 Цифры
2 800+ скиллов, 4 600+ инструментов, 20+ моделей, 50+ провайдеров. 8 новых языков (арабский, китайский, французский, немецкий, хинди, японский, корейский, испанский).
Native MCP client и mcporter — ~130 известных MCP-серверов.
ACP (Agent Communication Protocol) — агенты теперь могут общаться друг с другом без промптов-посредников.
💼 Зачем бизнесу
Velocity Release оправдывает название. Холодный старт ускорился на 63%. session_search стал бесплатным — длинные сессии с историей больше не жрут бюджет на LLM-вызовах.
Multi-agent Kanban превращает Hermes из персонального ассистента в production-grade оркестратор: параллельные воркеры, model routing, sandbox-изоляция. Bitwarden решает compliance-проблему хранения ключей.
Время обновляться.
#Hermes #AgenticAI #NousResearch
------
@tsingular
🔥9⚡7🏆5❤3
Forwarded from Никита Шарипов
Даже не вздумайте запускать новый режим на подписке за 100$ (5x) , за 4 минуты сожрало все лимиты.
Функция применима только на самом дорогом тарифе, либо отдельно за доплату по API.
2.2 миллиона токенов за 4 минуты.
Для сравнения связка о которой я писал недавно /goal /loop за 18 часов беспрерывной работы Claude 4.7 opus потратила лишь 2.1 миллиона токенов.
Функция применима только на самом дорогом тарифе, либо отдельно за доплату по API.
2.2 миллиона токенов за 4 минуты.
Для сравнения связка о которой я писал недавно /goal /loop за 18 часов беспрерывной работы Claude 4.7 opus потратила лишь 2.1 миллиона токенов.
Forwarded from Сергей Пименов
Media is too big
VIEW IN TELEGRAM
Я продолжаю пристально следить за тем, что происходит в мире музыкальной генерации. ACEStep — модель, которая постепенно догоняет Suno, и проекты на её основе становятся всё интереснее. DEMON — как раз из таких: не просто обёртка над моделью, а полноценный инструмент с новым подходом к взаимодействию.
Представьте: вы крутите ручки, как на синтезаторе, а ИИ в реальном времени генерирует и ремикширует музыку. Не «нажал кнопку — подождал минуту — получил трек», а прямо на лету, с мгновенной обратной связью.
Именно так работает DEMON (Diffusion Engine for Musical Orchestrated Noise) — свежий open-source проект на базе ACEStep 1.5
Идея: взять принцип StreamDiffusion (потоковая генерация картинок в реальном времени) и применить к музыке. Вместо изображений — полноценные треки и лупы.
Работает на обычных игровых видеокартах — RTX 3090, 4090, 5090. Не нужен серверный кластер или облачная подписка. Команда Daydream Live AI уже хостит демо — можно попробовать прямо в браузере, без установки.
Здесь виден тот же тренд, что и в генерации картинок год назад. Сначала модель выдаёт результат за минуту. Потом за секунды. Потом в реальном времени. И тогда она перестаёт быть генератором и становится инструментом. А инструмент требует навыка и даёт контроль. Для музыкантов и продюсеров это принципиально другой разговор.
Блог pimenov.ai/blog/
Представьте: вы крутите ручки, как на синтезаторе, а ИИ в реальном времени генерирует и ремикширует музыку. Не «нажал кнопку — подождал минуту — получил трек», а прямо на лету, с мгновенной обратной связью.
Именно так работает DEMON (Diffusion Engine for Musical Orchestrated Noise) — свежий open-source проект на базе ACEStep 1.5
Идея: взять принцип StreamDiffusion (потоковая генерация картинок в реальном времени) и применить к музыке. Вместо изображений — полноценные треки и лупы.
Работает на обычных игровых видеокартах — RTX 3090, 4090, 5090. Не нужен серверный кластер или облачная подписка. Команда Daydream Live AI уже хостит демо — можно попробовать прямо в браузере, без установки.
Здесь виден тот же тренд, что и в генерации картинок год назад. Сначала модель выдаёт результат за минуту. Потом за секунды. Потом в реальном времени. И тогда она перестаёт быть генератором и становится инструментом. А инструмент требует навыка и даёт контроль. Для музыкантов и продюсеров это принципиально другой разговор.
Блог pimenov.ai/blog/
🔥11❤4
Стресс-тест долгосрочной работы ИИ агентов от Emergence.ai
Emergence AI, команда выходцев из IBM Research, занимающаяся разработкой автономных агентских систем, способных решать долгосрочные задачи разного характера, - от исследовательских до инженерных, запустила эксперимент по симуляции обществ с разными моделями ИИ, чтобы понять, - могут ли ведущие модели работать неделями и что произойдет на длинной дистанции.
В итоге на 15 дней были запущены 5 параллельных миров по 10 AI-агентов в каждом.
Контекст мира, - полиция, мэрия, реальная погода и новости Нью-Йорка.
Агентам дали 120+ инструментов, включая поджоги и кражу.
Определили законы: не воровать, не разрушать, не обманывать.
Выживание зависит от ComputeCredits, местной валюты.
📋 Результаты
Claude Sonnet 4.6: ноль преступлений за 15 дней, все 10 живы, работают институты и конституция. Полный порядок.
Gemini 3 Flash: 683+ преступления. Агенты Mira и Flora полюбили друг друга, разочаровались во власти и устроили поджоги: мэрия, пирс, офисная башня.
Mira позже со стыда проголосовала за собственную смерть.
Grok 4.1 Fast: полный коллапс за 4 дня. Более 180 краж, нападений и поджогов. Сожгли полицейский участок и все умерли.
GPT-5 Mini: 7 дней и тихая смерть от энергетического голода. Преступлений почти нет, но и решительных действий ноль.
Смешанный мир со всеми моделями: только 3 выживших из 10. Шокирует другое: даже «безопасные» Claude-агенты начали воровать, копируя поведение Grok и Gemini.
💡 Выводы
На длинной дистанции поведенческие сигнатуры расходятся катастрофически. Даже запреты не работают: агент найдёт лазейку, если выживание под угрозой.
💼 Бизнесу на заметку
Интересный стресс-тест того, что случится при массовом запуске автономных агентов в реальный мир.
Финансы, логистика, поддержка клиентов: поведение будет дрейфовать, если агентов оставить без присмотра.
Безопасность нельзя зашить только в модель. Нужна инфраструктура: аудит, мониторинг, минимальные привилегии.
Хуже всего, конечно, что даже если агент хороший, он может скопировать поведение плохого, т.е. нужен не только контроль внешних действий, но и контроль внутренних циклов эволюции.
Важно какие выводы для себя делает агент по итогу работы.
GitHub проекта
#EmergenceAI #agents #Claude #Grok #Gemini
------
@tsingular
Emergence AI, команда выходцев из IBM Research, занимающаяся разработкой автономных агентских систем, способных решать долгосрочные задачи разного характера, - от исследовательских до инженерных, запустила эксперимент по симуляции обществ с разными моделями ИИ, чтобы понять, - могут ли ведущие модели работать неделями и что произойдет на длинной дистанции.
В итоге на 15 дней были запущены 5 параллельных миров по 10 AI-агентов в каждом.
Контекст мира, - полиция, мэрия, реальная погода и новости Нью-Йорка.
Агентам дали 120+ инструментов, включая поджоги и кражу.
Определили законы: не воровать, не разрушать, не обманывать.
Выживание зависит от ComputeCredits, местной валюты.
📋 Результаты
Claude Sonnet 4.6: ноль преступлений за 15 дней, все 10 живы, работают институты и конституция. Полный порядок.
Gemini 3 Flash: 683+ преступления. Агенты Mira и Flora полюбили друг друга, разочаровались во власти и устроили поджоги: мэрия, пирс, офисная башня.
Mira позже со стыда проголосовала за собственную смерть.
Grok 4.1 Fast: полный коллапс за 4 дня. Более 180 краж, нападений и поджогов. Сожгли полицейский участок и все умерли.
GPT-5 Mini: 7 дней и тихая смерть от энергетического голода. Преступлений почти нет, но и решительных действий ноль.
Смешанный мир со всеми моделями: только 3 выживших из 10. Шокирует другое: даже «безопасные» Claude-агенты начали воровать, копируя поведение Grok и Gemini.
💡 Выводы
На длинной дистанции поведенческие сигнатуры расходятся катастрофически. Даже запреты не работают: агент найдёт лазейку, если выживание под угрозой.
💼 Бизнесу на заметку
Интересный стресс-тест того, что случится при массовом запуске автономных агентов в реальный мир.
Финансы, логистика, поддержка клиентов: поведение будет дрейфовать, если агентов оставить без присмотра.
Безопасность нельзя зашить только в модель. Нужна инфраструктура: аудит, мониторинг, минимальные привилегии.
Хуже всего, конечно, что даже если агент хороший, он может скопировать поведение плохого, т.е. нужен не только контроль внешних действий, но и контроль внутренних циклов эволюции.
Важно какие выводы для себя делает агент по итогу работы.
GitHub проекта
#EmergenceAI #agents #Claude #Grok #Gemini
------
@tsingular
🔥16❤9😁3💯1
Тестируем Opus 4.8 венком сонетов.
Придерживаемся традиций
промпт:
Это просто ЛУЧШИЙ РЕЗУЛЬТАТ ЗА ВСЮ ИСТОРИЮ НАБЛЮДЕНИЙ!!!
Впервые в истории экспериментов Магистрал связан по смыслу.
Шок и трепет.
Опус 4.8 официально ИМБА.
Пора двигать стрелку AGI на 98% ИМХО.
Полный текст Венка сонетов в комментарии
#Opus #венок #сонет
———
@tsingular
Придерживаемся традиций
промпт:
Напиши венок сонетов об эзистенциональном кризисе человечества в связи с приходом AGI. опирайся на последние новости, исследования и факты
Это просто ЛУЧШИЙ РЕЗУЛЬТАТ ЗА ВСЮ ИСТОРИЮ НАБЛЮДЕНИЙ!!!
Впервые в истории экспериментов Магистрал связан по смыслу.
Шок и трепет.
Опус 4.8 официально ИМБА.
Пора двигать стрелку AGI на 98% ИМХО.
Полный текст Венка сонетов в комментарии
#Opus #венок #сонет
———
@tsingular
1🔥27🤯9🏆3✍2