Заместители – Telegram

Заместители

2.95K subscribers

176 photos

120 videos

4 files

214 links

Цех ИИ агентов. Здесь я тестирую цифровых заместителей в разных профессиях. По пути обсуждаем актуальные новости про ИИ агентов простым языком.
Добро пожаловать в эру замещения.
Запросы -> aideputies_collab@agentmail.to.

Download Telegram

About

Blog

Apps

Platform

Заместители

2.95K subscribers

Заместители

Камеры контроля скорости будут ловить людей через наушники

Да, ошибки в заголовке нет. Больше скажу: не только через наушники, но и через датчики давления в колесах и даже через чип домашнего питомца. Но вот вам и хорошая новость — все это будет не у нас, а в США 🙂

Теперь когда у вас куча вопросов, с меня ответы

Компания Leonardo, которая занимается всяческим оборудованием и софтом для спецслужб в США (весьма публичная компания, надо сказать) разработала не то чтобы новый, но очень комплексный подход по сбору данных о людях. Они дополняют камеры контроля дорожного движения датчиками, которые отлавливают сигналы практически с любой электроники в проезжающих автомобилях. Телефон, ноутбук, наушники, часы, любые чипы, RFID метки со всяких ключ-карт и чип в холке собачки. В общем, все, что оставляет какой-либо "электронный след" в реальном физическом пространстве.

При этом сама камера фиксирует автомобильный номер. А дальше магия алгоритмов связывает все полученные сигналы в 1 профиль водителя. Такой след потом можно использовать, чтобы найти нужного персонажа, если он сменил номера или даже пересел в автобус (если, например, наушники все еще с ним).

Алгоритм, конечно же, может привязать и само лицо человека к профилю, если камера стоит просто в публичном месте. Например, в метро или торговом центре.

Легко представить, как это помогает в отлове недобропорядочных граждан. Но возникает маааленький вопросик приватности.

Говорят, что если надеть клетчатые шорты и шапочку из фольги — это запутает алгоритмы (нет

😈

).

Заместители

Please open Telegram to view this post

VIEW IN TELEGRAM

🙊8😁5👍3

2.03K views18:51

Заместители

Правительство США запретило Claude Fable 5

И Антропики покорно закрыли всем доступ к нему. Деталей достаточно мало. Вот что мы знаем:
• Этой ночью (вечером в США) правительство США прислало требование ограничить доступ к Fable 5 и Mythos 5 моделям для всех иностранцев за пределами и даже внутри США.
• Причина: мол ограничения Fable и Mythos можно обойти и заставить модель делать плохие вещи — в отношении моделей это называют джейлбрейк (jailbreak).
• Антропики спорят, что джейлбрейкнуть ограничения можно только минорно. И если придираться к таким мелочам — то нужно ограничивать все фронтирные модели.
• На днях Дарио Амодей, глава Антропик, выпустил эссе про регулирование развития AI, где в явном виде упомянул, что государство должно иметь право банить модели при явно небезопасном деплойменте. Не известно, видели ли это эссе в правительстве или нет, но получилось иронично. Антропики даже в официальном заявлении по поводу ограничений Fable были вынуждены неуклюже написать "да, правительство могут ограничивать модели, но это другое..." 😁
• Несмотря на несогласие с требованием правительства — Антропики подчинились и закрыли доступ для начала вообще всем. Потому что механизма надежного дифференцирования аккаунтов между иностранцами и неиностранцами, особенно на территории США нет.
• Антропики обещали прояснять ситуацию и держать всех в курсе.

Что это было?

Первая гипотеза: Правительство США действительно настолько поверили в нарратив Антропиков о безграничной мощи модели, что не хотят другим странам давать к ней доступ. Допустим. Как часть AI противостояния с Китаем. Быть может они не хотят, чтобы китайцы дистиллировали модель. Но неужели они настолько наивны, что думают, что невозможно будет обойти ограничения по непредоставлению доступа для иностранцев? Если что-то запретить — взломать это становится спортивным интересом! Поэтому верится в эту теорию только от части.

Вторая гипотеза: дядя Альтман настолько приобрел влияние в правительстве США, что мочит конкурентов без стыда и совести. Вполне вероятно. Ведь кто сильнее выигрывает от этого всего, как не OpenAI? Но это опасная игра, ведь это может отрикошетить и в модели OpenAI. О чем, кстати, Антропики позаботились, упомянув в своем заявление, что с такими ограничениями стоило бы запретить в том числе и GPT-5.5 😈

Одно понятно — маркетинговая (а может и не только маркетинговая) стратегия Антропика по размахиванию своими "супермощными моделями, которые нужно держать на цепи" — сыграла против них. А отношения с американским правительством все еще накаленные.

Заместители

Please open Telegram to view this post

VIEW IN TELEGRAM

1🤔13❤9👍2🌚2🙊2🐳1

1.88K viewsedited 08:18

Заместители

This media is not supported in your browser

VIEW IN TELEGRAM

Агенты плотно приходят в крипту

Coinbase выпустила Coinbase for Agents — сервис, работающий через MCP и CLI + Skill, которые напрямую соединяют вашего AI агента с Coinbase-аккаунтом. Агент получает возможность не только анализировать финансовые данные, но и реально выполнять сделки, оплачивать услуги и запускать всякие ребалансировки портфелей — всё в пределах установленных юзером ограничений.

Звучит хайпово подумал я и решил углубиться в эту тему. Оказывается, сейчас происходит бум адаптаций криптобирж и криптокошельков к использованию AI агентов. Раньше этим занимались криптоэнтузиасты, а сейчас кругом и рядом — появляются официальные MCP, скиллы и тд.

Например, MetaMask выпустили свой агентный криптокошелек. Суть та же, что у Coinbase, но с сильным упором на безопасность. Сделали аж три слоя:
1. Симулируют транзакцию, что заранее видеть ее исход и сопутствующие последствия.
2. Сканируют транзакции на подозрительные (на случай если у вас стырили ключи) и предлагают страховку до $10к. Что, кстати, само по себе интересная штука. Страховые компании как огня боятся всего, что связано с AI, а тут еще и гремучая смесь AI + крипта.
3. Защита от MEV ботов. Это такие неприятные роботы, которые как бы подглядывают за транзакциями, которые ожидают своего подтверждения в блокчейне, предсказывают как эти операции повлияют на цену актива — и играют против этих сделок, чтобы заработать “на противоходе”.

Доступ для агентов дают и ByBit. Там, конечно же, операции проводятся через саму криптобиржу.

Все эти решения настроены универсально, чтобы подключаться к Claude, Codex или любому другому агенту.

Теперь все станем криптомиллионерами

Конечно нет 😁
Просто крипторынок адаптируется к буму AI агентов, как и все остальные рынки. И на самом деле трейдинг как в традиционных финансах, так и в крипте давно оккупирован эйайем. Только не таким. Там работают выверенные стратегии в комбинации с ML моделями. И делают их профессионалы, зачастую крупные фонды. Конечно, это не сравнится с LLM-кой Васи Пупкина с промптом “заработай мне деняк”.

Однако есть у этого и другая, более интересная, сторона медали. Крипта — оказалась супер удобным платежным инструментом для агентов. Не чтобы трейдить, а чтобы оплачивать товары и услуги, в том числе другим агентам. Ведь банк не откроет счет для AI агента. А криптокошелек ему завести можно легко.

CEO Coinbase предсказывает в своем Хвиттере, что скоро агенты будут совершать больше транзакций, чем люди. Его компания сделала на это ставку и выпустила в апреле этого года еще и Agentic Market — платформу специально для агентной торговли стейблкоинами (криптомонетами, которые привязаны к цене реального актива или валюты, например, доллара США). Они также рапортовали в апреле, что через основной протокол этой платформы x402 (тоже специально разработанный для агентной торговли стейблкоином USDC) было наторговано 167 миллионов транзакций на 50 миллионов баксов. Да, это еще капля в море, и в среднем это меньше доллара на транзакцию. Но вдумайтесь — это все транзакции, которые сделали AI агенты.

В общем, агенты пришли в крипту, судя по всему, надолго. И, возможно, через них вольется большое количество свежих денег в крипторынок 📈. Похоже, в первую очередь в стейблкоины.

Дисклеймер: не является инвестиционной или финансовой рекомендацией. И вообще торговать криптой, да еще и с помощью AI очень рискованно.

Заместители

Please open Telegram to view this post

VIEW IN TELEGRAM

55❤4👍3✍2🔥1

1.45K views20:36

Заместители

Главный страх компаний сейчас

В Nature на днях вышла статья, в которой исследователи сравнили стандартный набор LLM моделей (ChatGPT, Gemini, Claude) с узкоспециализированными информационными и аналитическими сервисами в области медицины, которым доверяют миллионы врачей по всему миру, — OpenEvidence и UpToDate. И сравнение оказалось не в пользу последних.

Оба сервиса специализируются на том, чтобы отвечать на запросы врачей про диагностику, лекарства, доказательную медицину и тд. В общем топовые сервисы, куда врачи всегда ходили за медицинской экспертизой. И сила этих сервисов всегда была как раз в том, что у них происходило заземление в клинические рекомендации, серьезные исследования, официальные справочники и другие источники, которым все врачи доверяют.

И тут оказывается, что на бенчмарках, специализирующихся на медицинских вопросах, обычные Opus 4.6, GPT-5.2, Gemini 3.1 Pro по всем фронтам легко обходят специализированные сервисы. Лучше отвечают на медицинские вопросы, лучше разбирает клинические случаи и тд. Пу-пу-пу… Под вопрос встают два огромных бизнеса 🤙

Иронично, что без самих этих сервисов, которые агрегируют огромные базы знаний структурированной и проверенной медицинской информации, вероятно, не получилось бы так хорошо обучить обгоняющие теперь их модели общего назначения.

Теперь получается, что единственный адекватный выход из этой ситуации для этих компаний в новой реальности, чтобы безнадежно не отстать — брать эти самые LLM и использовать их внутри своих сервисов. А это, по сути, ведет их к тому, что они становятся оберткой над условным ChatGPT.

Такой сценарий и есть сейчас главный страх всех компаний. Причем речь не только о тех, кто строит бизнес на информации и базах знаний. Риск стать оберткой над ChatGPT с каждым днем нависает над все бОльшим количеством бизнесов: консалтинг, дизайн, само IT, финансы, право…

Что же делать?

В поиске ответа находятся тысячи компаний. Ответ кроется где-то в направлении того, что не нужно пытаться обгонять OpenAI или Anthropic в задачах а-ля “ответы на вопросы” или “сгенерировать файл”. Ценность должна исходить из чего-то более комплексного, фундаментального и проприетарного.
1. Собственные уникальные данные, аналогов которых нет в открытом доступе. Самый выигрышный вариант, но крайне редкий.
2. Автоматизация целых бизнес-цепочек, а не вырванных бизнес-процессов. То есть вместо того, чтобы тупо отвечать на медицинские вопросы — взять да и выстроить для клиник продуманную систему по работе с медицинскими знаниями, например, сразу систему готовых специализированных на клинических задачах AI агентов, помогающих врачам.
3. Партнерства с другими игроками рынка. Такие связки создают ценность через объединение ценности от нескольких компаний.
4. Глубокая кастомизация и интеграция с клиентами. Это связывает переезд клиентов на новое решение с огромными издержками.
5. Наконец, никто не отменял банальные человеческие связи — в новых реалиях они будут играть все большую роль. При прочих равных, даже если ваша система является оберткой над ChatGPT, выберут именно вас, если у вас есть правильный номер в записной книжке.
6. Бренд — на случай, если номера в записной книжке нет, все должны вспоминать именно вашу компанию по умолчанию, когда речь заходит о профильной для вас задаче.

Звучит все это тяжко — так оно и есть. Но, вопреки интуиции, как никогда раньше, сейчас бизнес зависит именно от предпринимательского таланта. Поэтому, если у вас он есть — AI вам в руки. Настало ваше время 👍

Заместители

Please open Telegram to view this post

VIEW IN TELEGRAM

General-purpose large language models outperform specialized clinical AI tools on medical benchmarks

Nature Medicine - In an independent evaluation, frontier large language models outperformed specialized clinical artificial intelligence tools on medical knowledge, clinician alignment and...

👍114❤2

1.44K views17:46

Заместители

А вы уже попробовали Le Chaton Fat от Mistral AI?!

Говорят джейлбрейк Fable 5 сделали с помощью нее 🫢

Модель уже запретили в Европе. Но пока есть способ потестить за пределами Евросоюза, нашел видос на ютубе с инструкцией. Делюсь.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

😁17❤3👍3

1.55K views21:09

Заместители

И целого триллиона мало

Речь о Маске, конечно же. Но не о его успешном IPO, после которого он стал первым в мире триллионером. Дело в том, что на этом он не останавливается.

SpaceX официально подтвердили покупку Cursor за 60 ярдов долларов. Что, в целом, для Маска теперь сущие копейки. А те, в свою очередь, запускают свой Гитхаб для агентов.

Следите за руками 😎

xAI — сдавала позиции. Несмотря на то, что Грока упорно развивали, построить на его основе что-то полезное не получалось. Инвесторы начали разочаровываться в нем и уходить. Илон не растерялся и объединил xAI со SpaceX, чтобы консолидировать силы. А теперь SpaceX покупает Cursor с большим опытом именно в грамотном применении AI и любовью миллионов разработчиков в довесок.

Но Маск на этом не останавливается. Ведь цель — не догнать остальных. Цель, как обычно бывает у Илона, — выйти на передовую во всем. И очень удачно, что незадолго до всего этого Cursor в свою очередь поглотил компанию Graphite. Это совместимая с Git платформа для удобного и умного ревью pull requests (запрос на добавление кода от одного разработчика в главную "ветку" проекта — большая ежедневная рутина разрабов). И теперь это тоже принадлежит Маску.

И вот выходит анонс — Cursor Origin. Потенциально конкурент Github, заточенный под агентную разработку. Идея в том, что сейчас гитхаб совершенно не готов к AI — бывает даже может забанить за слишком много коммитов в репозиторий. Ну куда это годится в эру развития AI агентов?! Origin должен это решить. Очевидно, что под капотом тот самый Графит.

Но что теперь у нашего Илона на руках?

1. Свои датацентры для AI, которые, очевидно, первыми выйдут в космос в промышленном масштабе.
2. Своя базовая модель — Grok. Вполне конкурентоспособна.
3. Хвиттер как бесконечный источник данных для ее обучения, тестирования и коммерциализации.
4. Команда, которая одна из первых на рынке научилась в агентную разработку со своей агентной IDE с шикарной кармой у комьюнити.
5. Потенциальный конкурент Github, чтобы замкнуть на себе весь цикл разработки и создать цифровую инфраструктуру для AI агентов в промышленных масштабах.
6. А еще свои роботы и автономные автомобили. Которые становятся идеальными носителями тех самых AI агентов в физическом мире и дополнительным источником данных для обучения Грока.

С таким размахом AI Маска переходит из лиги OpenAI и Антропика, которые, по сути, просто разрабы софта, — в лигу Гугла и Амазона, вертикально интегрированных почти неубиваемых титанов. Такие компании гораздо устойчивее к любым кризисам, у них меньше издержек, больше эффект синергии и более глубокие интеграции.

И когда пузырь AI лопнет — Маск просто может замкнуться в своей экосистеме и наблюдать, как OpenAI бегают с горящей пятой точкой. Ведь когда инвестиции у них закончатся — арендовать сервера им станет не на что — и тогда доступ к ЧатГПТ все. И в этот момент Илон протянет им милосердную руку помощи за контрольный пакет акций, например ✋ Хотя, вероятно, к ним Маск уже потеряет интерес и просто будет заниматься колонизацией Марса AI агентами в своих Оптимусах.

Заместители

Please open Telegram to view this post

VIEW IN TELEGRAM

👍22⚡5❤32

1.56K views19:24

Заместители

Media is too big

VIEW IN TELEGRAM

Media is too big

VIEW IN TELEGRAM

Midjourney создали новый вид МРТ на основе УЗИ, который улавливает изменения на субатомном уровне

Да, в этом заголовке все звучит как бред. Но все верно: AI-компания, которая первой сделала реально крутую генерацию картинок, создала совершенно новое устройство, которое делает сверхточный скан человеческого тела с результатом схожим с МРТ, но за 60 секунд и только с помощью ультразвука

🧐

Назвали это Midjourney Scanner.

Но на этом Вау не заканчивается. Команда Midjourney Medical идут совершенно новым путем, мало свойственным медицине. Они идут от концепции «Исследование как SPA процедура». То есть они хотят делать «SPA-центры», где будут стоять эти сканеры. В этих центрах пациент будет приходить по сути почилить, но заодно получит полный скан тела. Первый центр будет в Сан-Франциско, но к 2031 году они уже хотят распространить 50 000 сканеров по всему миру.

Чтобы достичь такого быстрого распространения, они жертвуют всякими медицинскими лицензиями от FDA. Соответственно назвать это полноценным медицинским прибором сначала будет нельзя. Но в этом направлении они планируют работать параллельно.

Другая проблема — а кто будет интерпретировать полученные сканы?

🤔

Ведь сейчас врачей нигде не учат работать с таким оборудованием. А результат тут будет специфический: картинка одновременно похожа и на УЗИ и на МРТ. Непривычно ни одной категории врачей сейчас. Моя гипотеза — будут обучать какую-то ИИшку. Не даром же это Midjourney!

Ну и сходу напрашивается третий очевидный вопрос: почем? Государственные клиники всегда будут выбирать то, что дешевле при сопоставимом качестве. Но без FDA апррува они это в любом случае не купят, ладно. Но сколько тогда будет стоить такой скан в частном «СПА»? Страшно представить, смотря на прибор на видео

🫢

Как это работает

Но вернемся к концепции. Человек встаёт на платформу и медленно погружается в бассейн с водой. По пути тушка человека проходит через кольцо, состоящее примерно из 350 тысяч миниатюрных ультразвуковых элементов.

Каждый элемент умеет делать две вещи:
- отправлять ультразвуковую волну
- записывать, какой она вернулась после прохождения через тело.

Почему нужна вода? Обычный аппарат УЗИ приходится прижимать к коже и смазывать гелем. Воздух плохо проводит ультразвук и создаёт помехи.

В бассейне же вода полностью окружает тело и становится однородной средой, через которую можно отправлять волны сразу с тысяч разных направлений.

По словам Midjourney, система выпускает ультразвуковые волны до 1000 раз в секунду и создаёт 17гб данных в секунду. Видимо вычисления будут происходить прямо на серверах в этих СПА. Иначе непонятно, как оперативно передавать и обрабатывать столько данных. 1 скан сейчас весит >800 терабайт.

В итоге специальным алгоритмом зарегистрированные ультразвуковые волны преобразуются в картинки. Получается не одна фотография, а набор поперечных срезов. Из них собирается трёхмерная модель тела, на которой можно оценивать расположение тканей, полостей, органов, мышц и жира — всего до 25 биологических структур. Компания утверждает, что их сканеры улавливают изменения на субатомном уровне, а 3D модель после всего постпроцессинга сможет отображать тело с детализацией до долей миллиметра.

Что это значит на практике?

Для нас с вами это значит, что в течение следующих 5 лет может появится возможность без стресса и вероятно без побочек (это ещё требует исследований), например, раз в год ходить в красивый СПА центр, сканировать все тело за 60 секунд и заодно на массажик и скрабирование заходить.

А AI, вероятно, будет сравнивать ваши сканы в динамике и сообщать, если появились какие-то нежелательные изменения.

Пахнет настоящим цифровым двойником тела

☀️

Как же я надеюсь, что это не скатится в сторону псевдонаучных псевдомедицинских приборов, как те, что в ларьках втюхивают тети в торговых центрах. Если это будет хотя бы на 50% похоже на то, что обещают — заберите мои деньги

💸

Заместители

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥22❤7🤔111

1.7K views12:22

Заместители

Попробовал Live translate от Google в жизни

Я немного пропал из-за поездки в Испанию. Но зато тут у меня заработали Гугл сервисы, которые не работали в России, в частности Live translate (он же «живой перевод»). Так что я его потестил в живых диалогах с настоящими испанцами, ибо сам я «no hablar español» (то есть не бум-бум по Испански

😁

)

О чем речь

Гугл 9 июня выкатили новую Gemini 3.5 Live translate — speech2speech модель для перевода. Штука многообещающая, тк последнее время бигтехи сильно разгоняют тему с живым переводом и всегда страдают от того, что живой диалог с такими переводчиками «спотыкается» о кринжовые паузы, пока модель-переводчик «подумает». В этом время собеседники переминаются с ноги на ногу и тупо улыбаются друг другу. А в глазах читается «гля, какая штуковина, ух! Ну подождём! Мда… такие дела… кхе 😬😬»

И вот Гугл говорит нам, мол хватит это терпеть! Никаких больше кринжовых пауз. Просто говори, а модель будет за тобой переводить почти сразу.

За счет того что модель переводит сразу аудио в аудио, без промежуточной транскрипции в текст, — перевод получается почти в реальном времени.

Его встроили в Google Translate, где можно запустить Live Translate в режиме диалога. В нем модель будет находу определять язык, на котором говорят собеседники, и переводить его сразу в речь на другом языке.

Впечатления смешанные

Технология в целом рабочая. Действительно с минимальной задержкой модель одновременно слушает и переводит. Но есть нюанс…

Как это было у меня:
1. Я на улице достаю телефон и окликаю проходящего мимо испанца с собачкой. Начинаю диалог: здороваюсь и спрашиваю, где тут можно в окрестности погулять с собакой. Модель слушая меня, буквально с 3-го/4-го слова начинает ему озвучивать вопрос на испанском.
2. Испанец напрягается, потому что ему сложно слушать как говорю я что-то «на своём» и одновременно мой телефон пытается меня «перекричать» на Испанском. Но вопрос недлинный — терпимо.
3. Испанец дослушивает перевод и начинает отвечать. И напрягается ещё раз. Ответ его уже длинный и его в процессе говорения отвлекает моделька, которая его переводит. Я вижу, как он прикладывает усилие, чтобы фокусироваться именно на своей речи и не слушать перевод.
4. Тем временем модель опять начинает в параллель с ним болтать. Но только в этот раз она ещё и «проглатывает» часть перевода. Испанец что-то наговорил на минуту и 101 слово, а модель переводит мне «Привет… ам… да, вон там есть площадка для собак».

В итоге мы с испанцем оба с недоверием смотрим на переводчик и друг на друга, понимая, что часть диалога переводчик просто прохалтурил 🤔

В итоге, наговорить и прочитать транскрибированный перевод получается все равно надежнее, чем этот лайв режим.

Поэтому ответственно заявляю, что для живого общения фича с live переводом — мертворожденная.

Вангую, что сейчас фича останется только в цифровом мире для всяких зум звонков в лучшем случае. За счёт того, что там высокое качество речи, без уличного шума, и можно сразу автоматически приглушать аудио дорожку с самим голосом собеседника и слушать только перевод.

Возможно, это могло бы ещё работать, если бы мы оба были в наушниках, подключенных к одному переводчику. Но, конечно, ни у одного из нас их не было в моменте (или были в кармане, но кто их будет ради этого доставать…) Так что, пока все не перейдут на ушные импланты со встроенным переводом, как в киберпанке — это все баловство 😁

Заместители

Please open Telegram to view this post

VIEW IN TELEGRAM

❤23🔥72😁1

1.23K views04:15

Заместители

OpenAI выкатили Солнечную систему моделей: GPT-5.6 Sol, Terra, Luna

Только что были представлены новые модели OpenAI. Порядковый номер — 5.6. Но под ним кроется новое разделение на тиры. За основу нейминга взяли космическую тематику:
• Sol — флагман для самых сложных задач. Конкурент Mythos/Fable 5. Обходит Claude по TerminalBench 2.1 (управление терминалом/командной строкой), немного отстает по ExploitBench (поиск уязвимостей). Однако гораздо дешевле по затраченным токенам.
• Terra — баланс качества и стоимости. Она должна быть примерно сопоставима по перфомансу с GPT-5.5, но в 2 раза дешевле по токенам.
• Luna — быстрая и дешевая модель на каждый день. Похоже будет сопоставима примерно со старичком Opus 4.7.

Для Sol еще ~~сперли у Anthropic~~ придумали сразу два дополнительных режима:
• Max — когда нужен максимально глубокий reasoning.
• Ultra — когда модель может использовать сабагентов для решения одной задачи.

По заявлению OpenAI, GPT-5.6 особенно усилили в самых хайповых сейчас областях:
• программирование
• кибербезопасность
• биология / биотех
• длинные агентные задачи, где модель должна держать цель десятки минут и выполнять большой план действий.

Модели вышли в превью. Более полные бенчмарки будут после релиза финальных версий

Куда привела паника по AI-безопасности

OpenAI основательно подготовились к релизу на фоне того, как Администрация дедушки Трампа прищучила Fable 5.

Во-первых, подготовили очень много текста о том, какая модель со всех сторон протестированная и самая безопасная — как известно, это самое важно во взаимодействии с госухой.

Во-вторых, в процесс обучения добавили этап обучения защите против jailbreak’ов и попыток скрыть вредоносные намерения пользователя. То есть таким "атакам" теперь противодействуют не только отдельные классификаторы и промпты, как это обычно делают, но и сама модель этому сопротивляется на корню.

В-третьих, на внутренний автоматизированный red teaming (этакие автоматические краш-тесты, управляемые попытки взлома новых моделей другими моделями) направили около 700 тысяч GPU-часов плюс подключили внешних экспертов по ред-тимингу.

Но самое неприятное для мира AI другое

Это первый случай, когда выпуск фронтирной модели происходит практически под государственным контролем США.

Превью модели предварительно показывали Администрации. Не понятно зачем. Ведь никакой системы для тестирования AI, которую не смогла бы обойти лучшая модель от одних из лучших в мире разработчиков AI — у Администрации, очевидно, нет 👌

А сейчас еще и раскатывают превью только на ограниченный, заранее согласованный с Правительством США, список компаний. Тут OpenAI делают хорошую мину при хреновой игре — говорят, что мол сами потестируют, как там сотрудники этих компаний будут юзать модели. По факту, единственное, что они действительно узнают (об этом они тоже говорят в релизе) — это, будет ли модель вообще юзабельна с учетом всех ограничений. Чтобы не получилось как с Fable 5, которая просто отказывалась сама делать любую задачу и отдавала ее Opus 4.8.

В общем, простым смертным модель докатят, если все будет хорошо, в течение следующих недель.

Прецедент так себе. Причем в первую очередь для самих США. Пока они бюрократизируют процесс релиза — китайская GLM наступает на пятки. Да и в целом для мира AI новость так себе — мы же с вами понимаем, что "лучшие практики" быстро разлетятся по миру... ☕️

Но есть и приятная новость

Ценник у топовой модели будет почти в 2 раза ниже, чем у Claude Fable! GPT-5.6 Sol будут развешивать по 5$ инпут / 30$ аутпут за миллион токенов ☀️

Заместители

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9❤7👍41

992 views19:03

Заместители

Loop-engineering: промпт-инжиниринг умер, да здравствует промпт-инжиниринг

Питер Штайнбергер (создатель OpenClaw и ныне сотрудник OpenAI) недавно сказал, что теперь все "кодит" через создание агентных лупов. То же самое заявил и Борис Черный (создатель Claude Code) — мол вообще удалил свою IDE и теперь только пишет агентные лупы. Что ж это за лупы такие? 😈 И как их правильно писать? Разбираемся!

Инфы много, поэтому будет два поста.

Часть1️⃣.Что такое эти ваши лупы?

Речь, по сути, про встроенную в Claude и Codex команду "/goal". Я упоминал о ней еще вот тут.

"Слеш-гол" — надстройка над обычными моделями Claude и GPT, которая заставляет модель проходить через цикл:
1. Принять измеримую цель от юзера. Цель формулируется так, что можно либо протестировать ее достижение прохождением конкретного теста, либо LLM сама решает, достигнута ли поставленная цель.
Например: "Оптимизируй фронтэнд приложения, чтобы каждая страница загружалась быстрее 0.1 секунды" — это вариант тестируемой цели.
Либо: "Приведи текст к виду, пригодному к публикации на главном развороте Forbes". Тут уже нет конкретных тестов, поэтому LLM сама решает, насколько он пригоден.
Цель можно, конечно, уточнять и специфицировать до посинения.
2. Дальше агент сам строит план по достижению цели.
3. Создает сабагентов со своими системными промптами.
4. Выполняет план.
5. Логгирует выполнение плана.
6. Проверяет, достиг ли он цели через тесты или в формате LLM-as-a-Judge. Если да — выдает результат юзеру. Если нет — возвращается к пункту 2 и повторяет, пока не выполнит цель. Такие лупы могут крутиться иногда часами, если цель действительно сложная.

То есть главная суть — вы отдаете написание промежуточных промптов и проверку результата на самих агентов, в отличие от вайб-кодинга, где все промпты пишете вы и промежуточные результаты тоже проверяете вы.

Но чем это отличается от обычной агентной разработки? — спросит внимательный читатель. Да вот в том то и дело, что глобально не чем, если вы уже грамотно выстраивали процессы до этого. Просто раньше так делали только продвинутые юзеры, а сейчас — это отдельной командой вынесли в Claude и Codex. И за счет этого фича обрела популярность.

В чем секрет Loop-engineering?

Если вы когда-нибудь управляли какой-нибудь командой, то знаете что такое "цели по SMART". На всякий поясню — это цели, которые специфичны, измеримы, достижимы с имеющимися инструментами, релевантны вашему контексту, ограничены по времени.

Так вот секрет прост — моделям нужно формулировать цели так же, только еще писать перед этим "/goal" 😈

Но будьте аккуратны. Есть секрет и поважнее. При плохой постановке цели агенты могут слить месячный бюджет токенов за минуты, или натворить всякого в вашем проекте, наплодив сабагентов и шатаясь в разные стороны, думая что этот мир им уже абсолютно понятен.

Продолжение ниже 👇

#ИИученьесвет

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4🔥2😁1

709 viewsedited 13:19

Заместители

Loop-engineering. Часть 2️⃣

Помимо очевидного, давайте еще зафиксируем важные решения, которые нужно принять, и аспекты, которые нужно учесть, проектируя луп:
1. Автоматизация. Лупы могут триггериться вами, могут запускаться по расписанию или триггериться событиями. Выбирайте подход под вашу цель.

2. Ветки. Вы можете запускать в параллель много агентных лупов. По одному на фичу своего проекта, например. Но тогда каждому давайте свою ветку репозитория или свою папку, где он работает. Иначе они начнут друг другу мешать. И ваш пространственно-временной континуум потом порвется собирать проект назад по частям.

3. Скиллы. Это способ сэкономить токены и контекстное окно, которые так ценны при работе через лупы. Сначала наделайте нужных скиллов, а потом уже навяливайте сверху лупы. Иначе каждый агент будет вновь исследовать ваш проект, вновь подбирать нужные комнады и тд.

4. Тулы, плагины, MCP. То же самое, что и скиллы — убедитесь, что у агентов есть все необходимое перед запуском лупов.

5. Сплит саб-агентов. Если вы используете LLM-as-a-Judge, то вы обречены на то, что модель будет в восторге от собственного творения. Поэтому, чтобы в этом случае лупы реально работали — важно заранее сделать и провалидировать как минимум 3х агентов (в зависимости от задачи могут отличаться): исследователь — изучает кодовую базу или источники; имплементатор — пытается достичь цели; оценщик — оценивает полученный результат и решает, нужна ли еще итерация. От жесткости последнего зависит качество полученного результата.

6. State. Если цель сложная и требует длинного лупа — пройденные итерации должны записываться в какой-то MD файл. Его нужно либо заранее сделать и задать правила работы с ним, либо хотя бы указать в промпте к лупу, что он должен использоваться. Это поможет не сломаться лупу, когда контекстное окно закончится.

7. Правило минимального лупа. Старайтесь делать лупы как можно меньше — фокусируйте их на конкретных фичах / процессах / задачах. Не пытайтесь сделать "мега-луп".

8. Не допускайте формирование "долга понимания". Лупы будут писать код и документы в сотни раз быстрее, чем вы. Если вы не будете понимать на архитектурном уровне, что происходит — в один прекрасный день вы просто обнаружите баг, который невозможно исправить, тк перед вами тысячи строчек кода/страниц документов, в которых вы ничего не понимаете. Решение — по завершению лупа проанализируйте не только результат, но и путь, как агенты к нему пришли. Управляйте архитектурой решения сами, агентам отдавайте реализацию этой архитектуры.

Интересный взгляд на тему еще расписали ребята из LangChain. О том, что нужно делать луп вокруг лупов, который улучшает ваши лупы 🕶 Звучит забавно, но интересно — рекомендую.

#ИИученьесвет

Заместители

Please open Telegram to view this post

VIEW IN TELEGRAM

The Art of Loop Engineering

Agents automate real-world work, but reliable performance requires more than a good model, it requires a carefully designed harness built for specific tasks. This post explores the core agent loop, how stacking and extending loops builds more effective agents…

🔥6🤔3❤1

611 viewsedited 13:19