Заместители
2.95K subscribers
176 photos
120 videos
4 files
214 links
Цех ИИ агентов. Здесь я тестирую цифровых заместителей в разных профессиях. По пути обсуждаем актуальные новости про ИИ агентов простым языком.
Добро пожаловать в эру замещения.
Запросы -> aideputies_collab@agentmail.to.
Download Telegram
А вы уже попробовали Le Chaton Fat от Mistral AI?!

Говорят джейлбрейк Fable 5 сделали с помощью нее 🫢

Модель уже запретили в Европе. Но пока есть способ потестить за пределами Евросоюза, нашел видос на ютубе с инструкцией. Делюсь.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁173👍3
И целого триллиона мало

Речь о Маске, конечно же. Но не о его успешном IPO, после которого он стал первым в мире триллионером. Дело в том, что на этом он не останавливается.

SpaceX официально подтвердили покупку Cursor за 60 ярдов долларов. Что, в целом, для Маска теперь сущие копейки. А те, в свою очередь, запускают свой Гитхаб для агентов.

Следите за руками 😎

xAI — сдавала позиции. Несмотря на то, что Грока упорно развивали, построить на его основе что-то полезное не получалось. Инвесторы начали разочаровываться в нем и уходить. Илон не растерялся и объединил xAI со SpaceX, чтобы консолидировать силы. А теперь SpaceX покупает Cursor с большим опытом именно в грамотном применении AI и любовью миллионов разработчиков в довесок.

Но Маск на этом не останавливается. Ведь цель — не догнать остальных. Цель, как обычно бывает у Илона, — выйти на передовую во всем. И очень удачно, что незадолго до всего этого Cursor в свою очередь поглотил компанию Graphite. Это совместимая с Git платформа для удобного и умного ревью pull requests (запрос на добавление кода от одного разработчика в главную "ветку" проекта — большая ежедневная рутина разрабов). И теперь это тоже принадлежит Маску.

И вот выходит анонс — Cursor Origin. Потенциально конкурент Github, заточенный под агентную разработку. Идея в том, что сейчас гитхаб совершенно не готов к AI — бывает даже может забанить за слишком много коммитов в репозиторий. Ну куда это годится в эру развития AI агентов?! Origin должен это решить. Очевидно, что под капотом тот самый Графит.

Но что теперь у нашего Илона на руках?

1. Свои датацентры для AI, которые, очевидно, первыми выйдут в космос в промышленном масштабе.
2. Своя базовая модель — Grok. Вполне конкурентоспособна.
3. Хвиттер как бесконечный источник данных для ее обучения, тестирования и коммерциализации.
4. Команда, которая одна из первых на рынке научилась в агентную разработку со своей агентной IDE с шикарной кармой у комьюнити.
5. Потенциальный конкурент Github, чтобы замкнуть на себе весь цикл разработки и создать цифровую инфраструктуру для AI агентов в промышленных масштабах.
6. А еще свои роботы и автономные автомобили. Которые становятся идеальными носителями тех самых AI агентов в физическом мире и дополнительным источником данных для обучения Грока.

С таким размахом AI Маска переходит из лиги OpenAI и Антропика, которые, по сути, просто разрабы софта, — в лигу Гугла и Амазона, вертикально интегрированных почти неубиваемых титанов. Такие компании гораздо устойчивее к любым кризисам, у них меньше издержек, больше эффект синергии и более глубокие интеграции.

И когда пузырь AI лопнет — Маск просто может замкнуться в своей экосистеме и наблюдать, как OpenAI бегают с горящей пятой точкой. Ведь когда инвестиции у них закончатся — арендовать сервера им станет не на что — и тогда доступ к ЧатГПТ все. И в этот момент Илон протянет им милосердную руку помощи за контрольный пакет акций, например Хотя, вероятно, к ним Маск уже потеряет интерес и просто будет заниматься колонизацией Марса AI агентами в своих Оптимусах.

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22532
Midjourney создали новый вид МРТ на основе УЗИ, который улавливает изменения на субатомном уровне

Да, в этом заголовке все звучит как бред. Но все верно: AI-компания, которая первой сделала реально крутую генерацию картинок, создала совершенно новое устройство, которое делает сверхточный скан человеческого тела с результатом схожим с МРТ, но за 60 секунд и только с помощью ультразвука 🧐 Назвали это Midjourney Scanner.

Но на этом Вау не заканчивается. Команда Midjourney Medical идут совершенно новым путем, мало свойственным медицине. Они идут от концепции «Исследование как SPA процедура». То есть они хотят делать «SPA-центры», где будут стоять эти сканеры. В этих центрах пациент будет приходить по сути почилить, но заодно получит полный скан тела. Первый центр будет в Сан-Франциско, но к 2031 году они уже хотят распространить 50 000 сканеров по всему миру.

Чтобы достичь такого быстрого распространения, они жертвуют всякими медицинскими лицензиями от FDA. Соответственно назвать это полноценным медицинским прибором сначала будет нельзя. Но в этом направлении они планируют работать параллельно.

Другая проблема — а кто будет интерпретировать полученные сканы? 🤔 Ведь сейчас врачей нигде не учат работать с таким оборудованием. А результат тут будет специфический: картинка одновременно похожа и на УЗИ и на МРТ. Непривычно ни одной категории врачей сейчас. Моя гипотеза — будут обучать какую-то ИИшку. Не даром же это Midjourney!

Ну и сходу напрашивается третий очевидный вопрос: почем? Государственные клиники всегда будут выбирать то, что дешевле при сопоставимом качестве. Но без FDA апррува они это в любом случае не купят, ладно. Но сколько тогда будет стоить такой скан в частном «СПА»? Страшно представить, смотря на прибор на видео 🫢

Как это работает

Но вернемся к концепции. Человек встаёт на платформу и медленно погружается в бассейн с водой. По пути тушка человека проходит через кольцо, состоящее примерно из 350 тысяч миниатюрных ультразвуковых элементов.

Каждый элемент умеет делать две вещи:
- отправлять ультразвуковую волну
- записывать, какой она вернулась после прохождения через тело.

Почему нужна вода? Обычный аппарат УЗИ приходится прижимать к коже и смазывать гелем. Воздух плохо проводит ультразвук и создаёт помехи.

В бассейне же вода полностью окружает тело и становится однородной средой, через которую можно отправлять волны сразу с тысяч разных направлений.

По словам Midjourney, система выпускает ультразвуковые волны до 1000 раз в секунду и создаёт 17гб данных в секунду. Видимо вычисления будут происходить прямо на серверах в этих СПА. Иначе непонятно, как оперативно передавать и обрабатывать столько данных. 1 скан сейчас весит >800 терабайт.

В итоге специальным алгоритмом зарегистрированные ультразвуковые волны преобразуются в картинки. Получается не одна фотография, а набор поперечных срезов. Из них собирается трёхмерная модель тела, на которой можно оценивать расположение тканей, полостей, органов, мышц и жира — всего до 25 биологических структур. Компания утверждает, что их сканеры улавливают изменения на субатомном уровне, а 3D модель после всего постпроцессинга сможет отображать тело с детализацией до долей миллиметра.

Что это значит на практике?

Для нас с вами это значит, что в течение следующих 5 лет может появится возможность без стресса и вероятно без побочек (это ещё требует исследований), например, раз в год ходить в красивый СПА центр, сканировать все тело за 60 секунд и заодно на массажик и скрабирование заходить.

А AI, вероятно, будет сравнивать ваши сканы в динамике и сообщать, если появились какие-то нежелательные изменения.

Пахнет настоящим цифровым двойником тела ☀️

Как же я надеюсь, что это не скатится в сторону псевдонаучных псевдомедицинских приборов, как те, что в ларьках втюхивают тети в торговых центрах. Если это будет хотя бы на 50% похоже на то, что обещают — заберите мои деньги 💸

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥227🤔111
Попробовал Live translate от Google в жизни

Я немного пропал из-за поездки в Испанию. Но зато тут у меня заработали Гугл сервисы, которые не работали в России, в частности Live translate (он же «живой перевод»). Так что я его потестил в живых диалогах с настоящими испанцами, ибо сам я «no hablar español» (то есть не бум-бум по Испански 😁)

О чем речь

Гугл 9 июня выкатили новую Gemini 3.5 Live translate — speech2speech модель для перевода. Штука многообещающая, тк последнее время бигтехи сильно разгоняют тему с живым переводом и всегда страдают от того, что живой диалог с такими переводчиками «спотыкается» о кринжовые паузы, пока модель-переводчик «подумает». В этом время собеседники переминаются с ноги на ногу и тупо улыбаются друг другу. А в глазах читается «гля, какая штуковина, ух! Ну подождём! Мда… такие дела… кхе 😬😬»

И вот Гугл говорит нам, мол хватит это терпеть! Никаких больше кринжовых пауз. Просто говори, а модель будет за тобой переводить почти сразу.

За счет того что модель переводит сразу аудио в аудио, без промежуточной транскрипции в текст, — перевод получается почти в реальном времени.

Его встроили в Google Translate, где можно запустить Live Translate в режиме диалога. В нем модель будет находу определять язык, на котором говорят собеседники, и переводить его сразу в речь на другом языке.

Впечатления смешанные

Технология в целом рабочая. Действительно с минимальной задержкой модель одновременно слушает и переводит. Но есть нюанс…

Как это было у меня:
1. Я на улице достаю телефон и окликаю проходящего мимо испанца с собачкой. Начинаю диалог: здороваюсь и спрашиваю, где тут можно в окрестности погулять с собакой. Модель слушая меня, буквально с 3-го/4-го слова начинает ему озвучивать вопрос на испанском.
2. Испанец напрягается, потому что ему сложно слушать как говорю я что-то «на своём» и одновременно мой телефон пытается меня «перекричать» на Испанском. Но вопрос недлинный — терпимо.
3. Испанец дослушивает перевод и начинает отвечать. И напрягается ещё раз. Ответ его уже длинный и его в процессе говорения отвлекает моделька, которая его переводит. Я вижу, как он прикладывает усилие, чтобы фокусироваться именно на своей речи и не слушать перевод.
4. Тем временем модель опять начинает в параллель с ним болтать. Но только в этот раз она ещё и «проглатывает» часть перевода. Испанец что-то наговорил на минуту и 101 слово, а модель переводит мне «Привет… ам… да, вон там есть площадка для собак».

В итоге мы с испанцем оба с недоверием смотрим на переводчик и друг на друга, понимая, что часть диалога переводчик просто прохалтурил 🤔

В итоге, наговорить и прочитать транскрибированный перевод получается все равно надежнее, чем этот лайв режим.

Поэтому ответственно заявляю, что для живого общения фича с live переводом — мертворожденная.

Вангую, что сейчас фича останется только в цифровом мире для всяких зум звонков в лучшем случае. За счёт того, что там высокое качество речи, без уличного шума, и можно сразу автоматически приглушать аудио дорожку с самим голосом собеседника и слушать только перевод.

Возможно, это могло бы ещё работать, если бы мы оба были в наушниках, подключенных к одному переводчику. Но, конечно, ни у одного из нас их не было в моменте (или были в кармане, но кто их будет ради этого доставать…) Так что, пока все не перейдут на ушные импланты со встроенным переводом, как в киберпанке — это все баловство 😁

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
23🔥72😁1
OpenAI выкатили Солнечную систему моделей: GPT-5.6 Sol, Terra, Luna

Только что были представлены новые модели OpenAI. Порядковый номер — 5.6. Но под ним кроется новое разделение на тиры. За основу нейминга взяли космическую тематику:
• Sol — флагман для самых сложных задач. Конкурент Mythos/Fable 5. Обходит Claude по TerminalBench 2.1 (управление терминалом/командной строкой), немного отстает по ExploitBench (поиск уязвимостей). Однако гораздо дешевле по затраченным токенам.
• Terra — баланс качества и стоимости. Она должна быть примерно сопоставима по перфомансу с GPT-5.5, но в 2 раза дешевле по токенам.
• Luna — быстрая и дешевая модель на каждый день. Похоже будет сопоставима примерно со старичком Opus 4.7.

Для Sol еще сперли у Anthropic придумали сразу два дополнительных режима:
• Max — когда нужен максимально глубокий reasoning.
• Ultra — когда модель может использовать сабагентов для решения одной задачи.

По заявлению OpenAI, GPT-5.6 особенно усилили в самых хайповых сейчас областях:
• программирование
• кибербезопасность
• биология / биотех
• длинные агентные задачи, где модель должна держать цель десятки минут и выполнять большой план действий.

Модели вышли в превью. Более полные бенчмарки будут после релиза финальных версий

Куда привела паника по AI-безопасности

OpenAI основательно подготовились к релизу на фоне того, как Администрация дедушки Трампа прищучила Fable 5.

Во-первых, подготовили очень много текста о том, какая модель со всех сторон протестированная и самая безопасная — как известно, это самое важно во взаимодействии с госухой.

Во-вторых, в процесс обучения добавили этап обучения защите против jailbreak’ов и попыток скрыть вредоносные намерения пользователя. То есть таким "атакам" теперь противодействуют не только отдельные классификаторы и промпты, как это обычно делают, но и сама модель этому сопротивляется на корню.

В-третьих, на внутренний автоматизированный red teaming (этакие автоматические краш-тесты, управляемые попытки взлома новых моделей другими моделями) направили около 700 тысяч GPU-часов плюс подключили внешних экспертов по ред-тимингу.

Но самое неприятное для мира AI другое

Это первый случай, когда выпуск фронтирной модели происходит практически под государственным контролем США.

Превью модели предварительно показывали Администрации. Не понятно зачем. Ведь никакой системы для тестирования AI, которую не смогла бы обойти лучшая модель от одних из лучших в мире разработчиков AI — у Администрации, очевидно, нет 👌

А сейчас еще и раскатывают превью только на ограниченный, заранее согласованный с Правительством США, список компаний. Тут OpenAI делают хорошую мину при хреновой игре — говорят, что мол сами потестируют, как там сотрудники этих компаний будут юзать модели. По факту, единственное, что они действительно узнают (об этом они тоже говорят в релизе) — это, будет ли модель вообще юзабельна с учетом всех ограничений. Чтобы не получилось как с Fable 5, которая просто отказывалась сама делать любую задачу и отдавала ее Opus 4.8.

В общем, простым смертным модель докатят, если все будет хорошо, в течение следующих недель.

Прецедент так себе. Причем в первую очередь для самих США. Пока они бюрократизируют процесс релиза — китайская GLM наступает на пятки. Да и в целом для мира AI новость так себе — мы же с вами понимаем, что "лучшие практики" быстро разлетятся по миру... ☕️

Но есть и приятная новость

Ценник у топовой модели будет почти в 2 раза ниже, чем у Claude Fable! GPT-5.6 Sol будут развешивать по 5$ инпут / 30$ аутпут за миллион токенов ☀️

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥97👍41
Loop-engineering: промпт-инжиниринг умер, да здравствует промпт-инжиниринг

Питер Штайнбергер (создатель OpenClaw и ныне сотрудник OpenAI) недавно сказал, что теперь все "кодит" через создание агентных лупов. То же самое заявил и Борис Черный (создатель Claude Code) — мол вообще удалил свою IDE и теперь только пишет агентные лупы. Что ж это за лупы такие? 😈 И как их правильно писать? Разбираемся!

Инфы много, поэтому будет два поста.

Часть1️⃣.Что такое эти ваши лупы?

Речь, по сути, про встроенную в Claude и Codex команду "/goal". Я упоминал о ней еще вот тут.

"Слеш-гол" — надстройка над обычными моделями Claude и GPT, которая заставляет модель проходить через цикл:
1. Принять измеримую цель от юзера. Цель формулируется так, что можно либо протестировать ее достижение прохождением конкретного теста, либо LLM сама решает, достигнута ли поставленная цель.
Например: "Оптимизируй фронтэнд приложения, чтобы каждая страница загружалась быстрее 0.1 секунды" — это вариант тестируемой цели.
Либо: "Приведи текст к виду, пригодному к публикации на главном развороте Forbes". Тут уже нет конкретных тестов, поэтому LLM сама решает, насколько он пригоден.
Цель можно, конечно, уточнять и специфицировать до посинения.
2. Дальше агент сам строит план по достижению цели.
3. Создает сабагентов со своими системными промптами.
4. Выполняет план.
5. Логгирует выполнение плана.
6. Проверяет, достиг ли он цели через тесты или в формате LLM-as-a-Judge. Если да — выдает результат юзеру. Если нет — возвращается к пункту 2 и повторяет, пока не выполнит цель. Такие лупы могут крутиться иногда часами, если цель действительно сложная.

То есть главная суть — вы отдаете написание промежуточных промптов и проверку результата на самих агентов, в отличие от вайб-кодинга, где все промпты пишете вы и промежуточные результаты тоже проверяете вы.

Но чем это отличается от обычной агентной разработки? — спросит внимательный читатель. Да вот в том то и дело, что глобально не чем, если вы уже грамотно выстраивали процессы до этого. Просто раньше так делали только продвинутые юзеры, а сейчас — это отдельной командой вынесли в Claude и Codex. И за счет этого фича обрела популярность.

В чем секрет Loop-engineering?

Если вы когда-нибудь управляли какой-нибудь командой, то знаете что такое "цели по SMART". На всякий поясню — это цели, которые специфичны, измеримы, достижимы с имеющимися инструментами, релевантны вашему контексту, ограничены по времени.

Так вот секрет прост — моделям нужно формулировать цели так же, только еще писать перед этим "/goal" 😈

Но будьте аккуратны. Есть секрет и поважнее. При плохой постановке цели агенты могут слить месячный бюджет токенов за минуты, или натворить всякого в вашем проекте, наплодив сабагентов и шатаясь в разные стороны, думая что этот мир им уже абсолютно понятен.

Продолжение ниже 👇

#ИИученьесвет
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥2😁1
Loop-engineering. Часть 2️⃣

Помимо очевидного, давайте еще зафиксируем важные решения, которые нужно принять, и аспекты, которые нужно учесть, проектируя луп:
1. Автоматизация. Лупы могут триггериться вами, могут запускаться по расписанию или триггериться событиями. Выбирайте подход под вашу цель.

2. Ветки. Вы можете запускать в параллель много агентных лупов. По одному на фичу своего проекта, например. Но тогда каждому давайте свою ветку репозитория или свою папку, где он работает. Иначе они начнут друг другу мешать. И ваш пространственно-временной континуум потом порвется собирать проект назад по частям.

3. Скиллы. Это способ сэкономить токены и контекстное окно, которые так ценны при работе через лупы. Сначала наделайте нужных скиллов, а потом уже навяливайте сверху лупы. Иначе каждый агент будет вновь исследовать ваш проект, вновь подбирать нужные комнады и тд.

4. Тулы, плагины, MCP. То же самое, что и скиллы — убедитесь, что у агентов есть все необходимое перед запуском лупов.

5. Сплит саб-агентов. Если вы используете LLM-as-a-Judge, то вы обречены на то, что модель будет в восторге от собственного творения. Поэтому, чтобы в этом случае лупы реально работали — важно заранее сделать и провалидировать как минимум 3х агентов (в зависимости от задачи могут отличаться): исследователь — изучает кодовую базу или источники; имплементатор — пытается достичь цели; оценщик — оценивает полученный результат и решает, нужна ли еще итерация. От жесткости последнего зависит качество полученного результата.

6. State. Если цель сложная и требует длинного лупа — пройденные итерации должны записываться в какой-то MD файл. Его нужно либо заранее сделать и задать правила работы с ним, либо хотя бы указать в промпте к лупу, что он должен использоваться. Это поможет не сломаться лупу, когда контекстное окно закончится.

7. Правило минимального лупа. Старайтесь делать лупы как можно меньше — фокусируйте их на конкретных фичах / процессах / задачах. Не пытайтесь сделать "мега-луп".

8. Не допускайте формирование "долга понимания". Лупы будут писать код и документы в сотни раз быстрее, чем вы. Если вы не будете понимать на архитектурном уровне, что происходит — в один прекрасный день вы просто обнаружите баг, который невозможно исправить, тк перед вами тысячи строчек кода/страниц документов, в которых вы ничего не понимаете. Решение — по завершению лупа проанализируйте не только результат, но и путь, как агенты к нему пришли. Управляйте архитектурой решения сами, агентам отдавайте реализацию этой архитектуры.

Интересный взгляд на тему еще расписали ребята из LangChain. О том, что нужно делать луп вокруг лупов, который улучшает ваши лупы 🕶 Звучит забавно, но интересно — рекомендую.

#ИИученьесвет

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥61🤔1