⚪️ Cursor, Composer 2.5, немного мыслей
Новости про выпущенные модели у курсора вы видели, весьма позитивные их оценки, я думаю, тоже прочитали. Я же хотел отметить несколько моментов
▶️ Первое. Композёр основан на Кими 2.5 и доучен на данных Курсора. Говорят, что много копьюта вложили в дообучение, неудивительно впрочем - курсор богат на даныне по программированию) Я бы отметил, что отрыв китов от фронтира в узком домене программирования не так велик. Курсор своей моделью показал что значительная часть отрыва может быть быстро покрыта качественной синтетеикой. Да, модель общего назначения не так просто сделать, агентность вообще оказалось тонкой материей, как и креативность того же клода - повторить непросто, требуется некий удачный баланс многих аспектов.
Но узко на домен заточить модель - вполне реально, как показывает опыт композёра. В итоге - если независимые тесты подтвердят хорошие показатели модели, то догоняющие киты могут задуматься над выпуском специализированных кодинговых редакций своих моделей, то - от чего некоторое время назад все отошли в пользу более универсальных моделей. Посмотрим.
▶️ Еще аспект: сокращение отрыва на практике Курсора очевидно основывается на доступе к данным. Это даже не какие-то тайные методики или алгоритмы обучения, банально доступ к нужным данным. Дистиляция и синтетика рулят. Еще майки в свое время на примере своих мелких моделей показывали что качественные обучающие данные, в том числе синтетика, решают против горы сырых.
▶️ Еще аспект: прогресс пока велик по всем направлениям, но чтобы получать качественные данные лабы уже нанимают умных людей, ученых и те самые обучающие данные производят. Очень уж это похоже на методическую работу. Появилась спекулятивная гипотеза: что если ранее центры научной мысли были в том числе в универах, где куча преподавателей учила студентов. Теперь имеем лабы, где куча умных людей учит нейронки. По мне - так весьма похоже! Имеет смысл подумать и для наших условий. Компьютом мы пока не богаты, но вот с умными людьми проблем нету. Объединение ученых и лаб, возможно на базе универов, может дать нам так нужные данные для умных моделей.
▶️ Еще момент: на какое то время потерявшийся курсор, сейчас сохраняет свою лояльную базу клиентов за счет некоторой оркестрации: своя более-менее модель на выполнение работы, фронтирные модели - на план/ревью. Перепродавать инференс за свои подписки оказалось дорого, без своей модели это не работает. А вот со своей моделью и оркестрацией - вполне, подписка рабоатет норм.
👉 Впору задуматься ИИ компаниям типа опенкода. Но и наши конторы Сбер/Яндекс могут задуматься: топовых китов в контур, задействуем на планы/ревью, свои модели тюним на кодинг в качестве рабочих лошадок. До топов свои модели не дотянем, но рабочие модельки можем сделать вполне. Только ТЗ должно быть адекватным. Контекст не менее 200к, лучше в районе 500к хотя бы (дипсик опубликовал технологии сделать это экономно), высокая и очень высокая агентность (много RL), большое колчиество голов внимания (программирование требует много чего увязывать), тюн на качественной синтетике (я бы языки ограничил пучком топ10-15 самых востребованных и включил бы 1С). Сделайте коллаб с 1с, оно у нас востребовано. Дотюнивайте на языки СНГ/Глобального юга, чтобы оно на них разговаривать могло нормально и не наказывало бы токенайзером.
(ц) так - победим! Ну, в чем то))
@deksden_notes
Новости про выпущенные модели у курсора вы видели, весьма позитивные их оценки, я думаю, тоже прочитали. Я же хотел отметить несколько моментов
▶️ Первое. Композёр основан на Кими 2.5 и доучен на данных Курсора. Говорят, что много копьюта вложили в дообучение, неудивительно впрочем - курсор богат на даныне по программированию) Я бы отметил, что отрыв китов от фронтира в узком домене программирования не так велик. Курсор своей моделью показал что значительная часть отрыва может быть быстро покрыта качественной синтетеикой. Да, модель общего назначения не так просто сделать, агентность вообще оказалось тонкой материей, как и креативность того же клода - повторить непросто, требуется некий удачный баланс многих аспектов.
Но узко на домен заточить модель - вполне реально, как показывает опыт композёра. В итоге - если независимые тесты подтвердят хорошие показатели модели, то догоняющие киты могут задуматься над выпуском специализированных кодинговых редакций своих моделей, то - от чего некоторое время назад все отошли в пользу более универсальных моделей. Посмотрим.
▶️ Еще аспект: сокращение отрыва на практике Курсора очевидно основывается на доступе к данным. Это даже не какие-то тайные методики или алгоритмы обучения, банально доступ к нужным данным. Дистиляция и синтетика рулят. Еще майки в свое время на примере своих мелких моделей показывали что качественные обучающие данные, в том числе синтетика, решают против горы сырых.
▶️ Еще аспект: прогресс пока велик по всем направлениям, но чтобы получать качественные данные лабы уже нанимают умных людей, ученых и те самые обучающие данные производят. Очень уж это похоже на методическую работу. Появилась спекулятивная гипотеза: что если ранее центры научной мысли были в том числе в универах, где куча преподавателей учила студентов. Теперь имеем лабы, где куча умных людей учит нейронки. По мне - так весьма похоже! Имеет смысл подумать и для наших условий. Компьютом мы пока не богаты, но вот с умными людьми проблем нету. Объединение ученых и лаб, возможно на базе универов, может дать нам так нужные данные для умных моделей.
▶️ Еще момент: на какое то время потерявшийся курсор, сейчас сохраняет свою лояльную базу клиентов за счет некоторой оркестрации: своя более-менее модель на выполнение работы, фронтирные модели - на план/ревью. Перепродавать инференс за свои подписки оказалось дорого, без своей модели это не работает. А вот со своей моделью и оркестрацией - вполне, подписка рабоатет норм.
👉 Впору задуматься ИИ компаниям типа опенкода. Но и наши конторы Сбер/Яндекс могут задуматься: топовых китов в контур, задействуем на планы/ревью, свои модели тюним на кодинг в качестве рабочих лошадок. До топов свои модели не дотянем, но рабочие модельки можем сделать вполне. Только ТЗ должно быть адекватным. Контекст не менее 200к, лучше в районе 500к хотя бы (дипсик опубликовал технологии сделать это экономно), высокая и очень высокая агентность (много RL), большое колчиество голов внимания (программирование требует много чего увязывать), тюн на качественной синтетике (я бы языки ограничил пучком топ10-15 самых востребованных и включил бы 1С). Сделайте коллаб с 1с, оно у нас востребовано. Дотюнивайте на языки СНГ/Глобального юга, чтобы оно на них разговаривать могло нормально и не наказывало бы токенайзером.
(ц) так - победим! Ну, в чем то))
@deksden_notes
🔥23👍6😁3❤1
⚪️ Codex - лимиты исправлены и сброшены!
Мало того что сбросили, но вроде бы их теперь починили
Проблема была в кеше который неправильно срабатывал при компакте длинных сессий
Уикэнд удался)
(ц) .. пляшем!
@deksden_notes
Мало того что сбросили, но вроде бы их теперь починили
Проблема была в кеше который неправильно срабатывал при компакте длинных сессий
Уикэнд удался)
(ц) .. пляшем!
@deksden_notes
👍11🤣3
⚪️ Codex верификация аккаунтов
Небольшой фоллоу-ап пост.
Кодекс закрыл верификацией через сообщения почти все купленные мною в последнее время аккаунты с плати маркета от разных продавцов. Подозреваю, что "прогревы" аккаунтов не особо работают, впрочем - ни одного аккаунта не заблокировали. Может, для того и "греют" их своими шаманскими методами.
Несмотря на то, что часть продавцов предлагает помогать с ситуацией верификации, и несмотря на то, что есть услуга по верификации аккаунтов на том же плати маркете, я решил попробовать сам верифицировать аккаунты.
1️⃣ Номер Казахстана (который у меня есть с эпопеи с телеграммом) - работает, но сообщения шлют в whatsapp и есть лимит аккаунтов верифицированных на номер: 3 или 4. Вроде бы ошибку пишет, но иногда просто не присылает код
2️⃣ СмсФаст сервис - там активация через смс. Выбирал саудовскую аравию, номер дают для активации на 20 минут. Номера срабатывают через один - иногда сразу. Иногда 2й номер. Деньги за неиспользованные номера без полученной смс возвращаются на баланс.
Лайфхак: там можно попросить новую активацию на тот же номер. Вторая активация проходит! Итого получается по 9-10р за активацию аккаунта)) Совсем смешные деньги. Больше 2х аккаунтов на один номер почему то не смог активировать - то ли лимит, то ли еще что то, но смс просто не приходит (хотя 2 предыдущие пришли).
Ожиание смс - несколько минут, проявляем терпение. Вообще, реактивация пула аккаунтов оказалась весьма медитативной процедурой))
👉 Вывод: самое простое - если есть номер из поддержвиаемой юрисдикции. Свои пару аккаунтов всегда удобнее им активировать, даже если там whatsapp активация.
Пул аккаунтов проще и дешевле всего активировать смс Саудовской аравии по паре аккаунтов на один номер. Дешево, сердито.
——
Мелкий нюанс: в строчку ввода номера надо плюсик ввести, и тогда скопированный номер сразу с кодом страны вводится, не нужно выбирать в списке (да там и не все префиксы есть).
——
Upd 1️⃣ : Еще один способ верификации без верификации - используете сайт https://chatgptcodex.ru/ (https://naxsms.netlify.app/) и получаете готовую сессию для CLI. В cockpit tools добавляется как JSON, как добавить в CPA пока не разбирались.
В принципе, весь эффект в том, что в chatgpt.com можно логинится без верификации, она только на oauth flow прикручена. А тут сессию вам сразу дают, "вырезав" с браузерной. Можно самому через агнета такую штуку исполнить, кому не хочется в левые сайты сессии пихать
——
Upd 2️⃣ : от подписчика: обход верификации кодекса получением прямых auth файлов: https://codex-auth.netlify.app/ - работает с CPA авторизациями тоже.
Грац - @alex_v_m
——
Upd 3️⃣ : c 25 мая обход авторизации прикрыт, все варианты получить веб-сессию для работы с кодексом больше не работают. Верификацию так не обойти - только через получение смс.
(ц) так победим! Или эдак
@deksden_notes
Небольшой фоллоу-ап пост.
Кодекс закрыл верификацией через сообщения почти все купленные мною в последнее время аккаунты с плати маркета от разных продавцов. Подозреваю, что "прогревы" аккаунтов не особо работают, впрочем - ни одного аккаунта не заблокировали. Может, для того и "греют" их своими шаманскими методами.
Несмотря на то, что часть продавцов предлагает помогать с ситуацией верификации, и несмотря на то, что есть услуга по верификации аккаунтов на том же плати маркете, я решил попробовать сам верифицировать аккаунты.
1️⃣ Номер Казахстана (который у меня есть с эпопеи с телеграммом) - работает, но сообщения шлют в whatsapp и есть лимит аккаунтов верифицированных на номер: 3 или 4. Вроде бы ошибку пишет, но иногда просто не присылает код
2️⃣ СмсФаст сервис - там активация через смс. Выбирал саудовскую аравию, номер дают для активации на 20 минут. Номера срабатывают через один - иногда сразу. Иногда 2й номер. Деньги за неиспользованные номера без полученной смс возвращаются на баланс.
Лайфхак: там можно попросить новую активацию на тот же номер. Вторая активация проходит! Итого получается по 9-10р за активацию аккаунта)) Совсем смешные деньги. Больше 2х аккаунтов на один номер почему то не смог активировать - то ли лимит, то ли еще что то, но смс просто не приходит (хотя 2 предыдущие пришли).
Ожиание смс - несколько минут, проявляем терпение. Вообще, реактивация пула аккаунтов оказалась весьма медитативной процедурой))
👉 Вывод: самое простое - если есть номер из поддержвиаемой юрисдикции. Свои пару аккаунтов всегда удобнее им активировать, даже если там whatsapp активация.
Пул аккаунтов проще и дешевле всего активировать смс Саудовской аравии по паре аккаунтов на один номер. Дешево, сердито.
——
Мелкий нюанс: в строчку ввода номера надо плюсик ввести, и тогда скопированный номер сразу с кодом страны вводится, не нужно выбирать в списке (да там и не все префиксы есть).
——
Upd 1️⃣ : Еще один способ верификации без верификации - используете сайт https://chatgptcodex.ru/ (https://naxsms.netlify.app/) и получаете готовую сессию для CLI. В cockpit tools добавляется как JSON, как добавить в CPA пока не разбирались.
В принципе, весь эффект в том, что в chatgpt.com можно логинится без верификации, она только на oauth flow прикручена. А тут сессию вам сразу дают, "вырезав" с браузерной. Можно самому через агнета такую штуку исполнить, кому не хочется в левые сайты сессии пихать
——
Upd 2️⃣ : от подписчика: обход верификации кодекса получением прямых auth файлов: https://codex-auth.netlify.app/ - работает с CPA авторизациями тоже.
Грац - @alex_v_m
——
Upd 3️⃣ : c 25 мая обход авторизации прикрыт, все варианты получить веб-сессию для работы с кодексом больше не работают. Верификацию так не обойти - только через получение смс.
(ц) так победим! Или эдак
@deksden_notes
1👍12❤6🔥3
⚪️ Codex /slow mode
Тибо спрашивает - нужно ли в кодекса /slow режим (видимо, на batch мощностях можно сделать).
Я сказал, что нужно:
• фоновые агенты
• ночные задачи
Кто то говорит что под некоторые клешни норм будет
🔗 Тред: https://x.com/thsottiaux/status/2058320061258236263
❓ Что думаете?
@deksden_notes
Тибо спрашивает - нужно ли в кодекса /slow режим (видимо, на batch мощностях можно сделать).
Я сказал, что нужно:
• фоновые агенты
• ночные задачи
Кто то говорит что под некоторые клешни норм будет
🔗 Тред: https://x.com/thsottiaux/status/2058320061258236263
❓ Что думаете?
@deksden_notes
👍18🔥8❤🔥1🤔1
⚪️ Antigravity обратная связь + сброс лимитов
Ну - не кодексом же единым на канале! Вот - Антигравити пишут, что сделали некоторые выводы и пофиксили баги. И не так активно депрекейтят ИДЕ, и даже снова сделали интеграцию некоторую с ней.
👉 В общем, в честь удачного релиза и удачной починки удачного релиза - лимиты они тоже сбросили!
▶️ Нет, я пока не пойду тестить антиграв - не особо интересно. Ждем 3.5 про.
▶️ Предложение: чего бы лабам не заколлабится, и не делать синхронный сброс перед некоторыми выходными - будет vibecoding weekend фестиваль))
@deksden_notes
Ну - не кодексом же единым на канале! Вот - Антигравити пишут, что сделали некоторые выводы и пофиксили баги. И не так активно депрекейтят ИДЕ, и даже снова сделали интеграцию некоторую с ней.
👉 В общем, в честь удачного релиза и удачной починки удачного релиза - лимиты они тоже сбросили!
▶️ Нет, я пока не пойду тестить антиграв - не особо интересно. Ждем 3.5 про.
▶️ Предложение: чего бы лабам не заколлабится, и не делать синхронный сброс перед некоторыми выходными - будет vibecoding weekend фестиваль))
@deksden_notes
👍5😁3
⚪️ Liquid Glass - Web
Чел сделал liquid glass как на свежих яблочных платформах, но для web. И - да, это работает на HTML in Canvas (нужно включить флаг).
Для некоторых демок может быть круто.
🔗 Анонс: https://x.com/AndrewPrifer/status/2056923983581446529
🔗 Демо сайт: https://liquid-dom-showcase.vercel.app/
🔗 Репо: https://github.com/AndrewPrifer/liquid-dom
▶️ Интересно - озадачить что нибудь типа open dsign сделать демку/лендинг на этом получится? надо будет попробовать.
@deksden_notes
Чел сделал liquid glass как на свежих яблочных платформах, но для web. И - да, это работает на HTML in Canvas (нужно включить флаг).
Для некоторых демок может быть круто.
🔗 Анонс: https://x.com/AndrewPrifer/status/2056923983581446529
🔗 Демо сайт: https://liquid-dom-showcase.vercel.app/
🔗 Репо: https://github.com/AndrewPrifer/liquid-dom
▶️ Интересно - озадачить что нибудь типа open dsign сделать демку/лендинг на этом получится? надо будет попробовать.
@deksden_notes
❤8👌4💩3💊1
⚪️ Pnpm Rust
Похоже нас ждет еще один рерайт популярного инструмента на Rust. Не BUN единым.
Pnpm отчитался, что Rust версия быстрее на ВСЕХ сценариях.
🔗 пост: https://x.com/pnpmjs/status/2058175454012391817
▶️ На самом если с Rust все более-менее очевидно, то тут даже другой аспект интересен - что JS нынче весьма и весьма шустрый!
▶️ Еще момент: в эпоху агентов выбрать оптимальный рантейм для инструмента, похоже, становится реальностью. Если я не вчитываюсь в код, то какая разница на чем написан софт? Спека, система тестов и сценариев работает для любого языка программирвоания, любого рантайма - можно выбирать оптимальный. Задумался.
@deksden_notes
Похоже нас ждет еще один рерайт популярного инструмента на Rust. Не BUN единым.
Pnpm отчитался, что Rust версия быстрее на ВСЕХ сценариях.
🔗 пост: https://x.com/pnpmjs/status/2058175454012391817
▶️ На самом если с Rust все более-менее очевидно, то тут даже другой аспект интересен - что JS нынче весьма и весьма шустрый!
▶️ Еще момент: в эпоху агентов выбрать оптимальный рантейм для инструмента, похоже, становится реальностью. Если я не вчитываюсь в код, то какая разница на чем написан софт? Спека, система тестов и сценариев работает для любого языка программирвоания, любого рантайма - можно выбирать оптимальный. Задумался.
@deksden_notes
👍11❤1
⚪️ CMUX
Петя тоже полюбил cmux, что заслуженно. Я на нем довольно давно работаю.
CMUX - это удобная штука под cli на базе ghostty - браузер есть встроенный, воркспейсы удобные, терминал нормальный! В iterm2 возвращаться не тянет.
Плюсы упряжки:
• воркспейс под проект: пучок табов / браузер на проект
• вертикальные табы с воркспейсами / нотификациями
• нормальный терминал в основе без существенных глюков (ghostty)
• не тяжелое, легче чем кодекс апп
Не забываем: чтобы при обновлениях перезапуск сохранял/восстанавливал сессии, нужно поставить хуки в кодексе. Если СС - то будет работать и так. Это не очень явно описано в установке.
Чтобы работал встроенный браузер - ставим скилл соответствующий.
Еще есть удобный markdown viewer для планов, статусов и тп. Тоже через скилл работает.
Как делаю воркспейсы: несколько сессий кодекса под разные задачи проекта. Я часто работаю в мультирепо, и у меня сессии на разные куски проекта: дашборд, тестовый плайграунд, несколько эвалов, и сессии по подсистемам разным. Некоторые воркспейсы с одной сессией на этот проект. Это обычно что то простое. Или там где какая то задача делается отдельная.
Посмотрите - может и вам зайдет!
🔗 оффсайт: https://cmux.com/
🔗 гитхаб: https://github.com/manaflow-ai/cmux
(ц) такое мы пользуем
@deksden_notes
Петя тоже полюбил cmux, что заслуженно. Я на нем довольно давно работаю.
CMUX - это удобная штука под cli на базе ghostty - браузер есть встроенный, воркспейсы удобные, терминал нормальный! В iterm2 возвращаться не тянет.
Плюсы упряжки:
• воркспейс под проект: пучок табов / браузер на проект
• вертикальные табы с воркспейсами / нотификациями
• нормальный терминал в основе без существенных глюков (ghostty)
• не тяжелое, легче чем кодекс апп
Не забываем: чтобы при обновлениях перезапуск сохранял/восстанавливал сессии, нужно поставить хуки в кодексе. Если СС - то будет работать и так. Это не очень явно описано в установке.
Чтобы работал встроенный браузер - ставим скилл соответствующий.
Еще есть удобный markdown viewer для планов, статусов и тп. Тоже через скилл работает.
Как делаю воркспейсы: несколько сессий кодекса под разные задачи проекта. Я часто работаю в мультирепо, и у меня сессии на разные куски проекта: дашборд, тестовый плайграунд, несколько эвалов, и сессии по подсистемам разным. Некоторые воркспейсы с одной сессией на этот проект. Это обычно что то простое. Или там где какая то задача делается отдельная.
Посмотрите - может и вам зайдет!
🔗 оффсайт: https://cmux.com/
🔗 гитхаб: https://github.com/manaflow-ai/cmux
(ц) такое мы пользуем
@deksden_notes
👍14🔥5
⚪️ Немного бесплатного DeepSeek во FreeBuff
Есть такая упряжка CodeBuff, у нее есть free версия с рекламой (справедливости ради - не навязчиво).
Нынче туда дипсика PRO в бесплатный тир (именно PRO, обратите внимание) завезли, дают немного пощупать (5h сессия вроде как полноценная, много промптов). Кому надо - пользуемся!
Мелкие DeepSeek V4 Flash и MiniMax M2.7 там и так были с большими лимитами во free.
🔗 Новость: https://x.com/jahooma/status/2059023672103551450
🔗 Оффсайт: https://freebuff.com/
@deksden_notes
Есть такая упряжка CodeBuff, у нее есть free версия с рекламой (справедливости ради - не навязчиво).
Нынче туда дипсика PRO в бесплатный тир (именно PRO, обратите внимание) завезли, дают немного пощупать (5h сессия вроде как полноценная, много промптов). Кому надо - пользуемся!
Мелкие DeepSeek V4 Flash и MiniMax M2.7 там и так были с большими лимитами во free.
🔗 Новость: https://x.com/jahooma/status/2059023672103551450
🔗 Оффсайт: https://freebuff.com/
@deksden_notes
🔥7❤2
⚪️ MiMo скидочи
... вовсе не мимо, а прямо - да! Да какие! Это вам не жалкие 75% перманентного дисконта у канонического кита! Это вам - топ за свои деньги.
А если посерьезнее, то сяоми одуплилось с ценами - и смотрите картинки. Цены снижены местами до 99%. omfg.
Впрочем, снижение оно впечатляет против ранее крайне завышенных цен и крошечных лимитов в сравнении с коллегами.
Раньше план выбирался за день-два и не имел никакого смысла, то теперь, возможно, это норм.
🔗 Посмотрите на сравнение: https://sites.diy/blog/2026-05-01-coding-plan-comparisons/
▶️ Если раньше MiMo выглядело совершенно неконкурентным, то теперь все поменялось. Единственное что обратите внимание - к сожалению, 11B это не токенов дают в подписке. Это некоторые "попугаи", то есть кредиты, и есть коэффициенты пересчета в токены. Но я бы оценил что на минимальном плане будет не менее 3B токенов в итоге по месяцу, что отлично для такой недорогой подписки.
▶️ Еще один момент, на который я обратил внимание: говорится о неких оптимизациях инференса, и технические детали расскажут позже. Делаю вывод: качество работы модели нужно исследовать повторно. Знаем мы эти ваши оптимизации))
🔗 Анонс: https://x.com/XiaomiMiMo/status/2059314052892099070
🔗 Планы: https://platform.xiaomimimo.com/token-plan (я покажу - вот отсюда напали на минимакс)
Но все равно новость - хорошая. конкуренция это всегда круто.
(ц) и снова - здравствуйте!
@deksden_notes
... вовсе не мимо, а прямо - да! Да какие! Это вам не жалкие 75% перманентного дисконта у канонического кита! Это вам - топ за свои деньги.
А если посерьезнее, то сяоми одуплилось с ценами - и смотрите картинки. Цены снижены местами до 99%. omfg.
Впрочем, снижение оно впечатляет против ранее крайне завышенных цен и крошечных лимитов в сравнении с коллегами.
Раньше план выбирался за день-два и не имел никакого смысла, то теперь, возможно, это норм.
🔗 Посмотрите на сравнение: https://sites.diy/blog/2026-05-01-coding-plan-comparisons/
▶️ Если раньше MiMo выглядело совершенно неконкурентным, то теперь все поменялось. Единственное что обратите внимание - к сожалению, 11B это не токенов дают в подписке. Это некоторые "попугаи", то есть кредиты, и есть коэффициенты пересчета в токены. Но я бы оценил что на минимальном плане будет не менее 3B токенов в итоге по месяцу, что отлично для такой недорогой подписки.
▶️ Еще один момент, на который я обратил внимание: говорится о неких оптимизациях инференса, и технические детали расскажут позже. Делаю вывод: качество работы модели нужно исследовать повторно. Знаем мы эти ваши оптимизации))
🔗 Анонс: https://x.com/XiaomiMiMo/status/2059314052892099070
🔗 Планы: https://platform.xiaomimimo.com/token-plan (я покажу - вот отсюда напали на минимакс)
Но все равно новость - хорошая. конкуренция это всегда круто.
(ц) и снова - здравствуйте!
@deksden_notes
1👍13🔥3❤1😁1👻1
⚪️ Codex Profiles v2
В свежем билде CLI .134 завезли новую фичу, называется profiles v2. Not big к слову. Что это такое? Это флаг, который грузит конфиги кодекса поверх штатного.
▶️ Я то было обрадовался что решили старую проблему: некоторые функции Codex.app не работают при подключении через прокси cliproxyapi)/omnirouter/9router. Прокси используется для управления пулом аккаунтов и их автоматической ротации, что удобно, конечно.
Но plugins, например, выключены, если у вас не подключен chatgpt аккаунт напрямую (это обходится проектом codexfast с github, как и включение fast режима в апп). Раньше и browser use глючил, но теперь в CPA это починили.
▶️ Что стало удобнее? Раньше в Profiles v1 профили прописывали в отдельных секциях основного конфига, что требовало немного другого и ограниченного синтаксиса для дополнительного профиля.
Теперь профиль - это просто еще один конфиг файл, и делаем просто
▶️ Что не работает для удобного использования с прокси типа CPA? Не работает возможность выбора авторизационного файла. Нету work.auth.json. Нельзя сделать codex —profile work login.
Понятно, что решили уже эту проблему. Можно решать как руками, так и найти менеджер авторизаций.
Руками - это так:
Для CLI нужного эффекта можно добиться через указание переменной CODEX_HOME, тогда cli будет грузить настройки не из дефолтного ~/.codex, а из указанной папки. Я делаю в таких кастомных профилях симлинки на конфиг и сессии, в итоге нет дублирования. Если вам нужно разделить work/personal профили, то можно и без симлинков - сессии будут хранится в нужной папке.
Для app такой фичи встроенной нету, приходится брать основной конфиг, и превращать его в симлинк на нужный профиль, меняя по мере необходимости. У меня профили direct/CPA. Либо делать враппер, который ставит CODEX_HOME в окружение и запускает app. Решается, но небольшими плясками с бубном.
На issues несколько предложений связанных с этим, но ничего пока не реализовано.
▶️ Шаг в удобном направлении сделан, конфигурирование упрощено, может быть и другие шаги с авторизациями сделают.
(ц) так и живем
@deksden_notes
В свежем билде CLI .134 завезли новую фичу, называется profiles v2. Not big к слову. Что это такое? Это флаг, который грузит конфиги кодекса поверх штатного.
▶️ Я то было обрадовался что решили старую проблему: некоторые функции Codex.app не работают при подключении через прокси cliproxyapi)/omnirouter/9router. Прокси используется для управления пулом аккаунтов и их автоматической ротации, что удобно, конечно.
Но plugins, например, выключены, если у вас не подключен chatgpt аккаунт напрямую (это обходится проектом codexfast с github, как и включение fast режима в апп). Раньше и browser use глючил, но теперь в CPA это починили.
▶️ Что стало удобнее? Раньше в Profiles v1 профили прописывали в отдельных секциях основного конфига, что требовало немного другого и ограниченного синтаксиса для дополнительного профиля.
Теперь профиль - это просто еще один конфиг файл, и делаем просто
--profile work для загрузки work.config.toml, причем загрузится он "поверх" штатного конфига. Это означает, что можно вынести в профиль только специфику, а все остальные настройки оставить базовыми и не переписывать их повторно. ▶️ Что не работает для удобного использования с прокси типа CPA? Не работает возможность выбора авторизационного файла. Нету work.auth.json. Нельзя сделать codex —profile work login.
Понятно, что решили уже эту проблему. Можно решать как руками, так и найти менеджер авторизаций.
Руками - это так:
Для CLI нужного эффекта можно добиться через указание переменной CODEX_HOME, тогда cli будет грузить настройки не из дефолтного ~/.codex, а из указанной папки. Я делаю в таких кастомных профилях симлинки на конфиг и сессии, в итоге нет дублирования. Если вам нужно разделить work/personal профили, то можно и без симлинков - сессии будут хранится в нужной папке.
Для app такой фичи встроенной нету, приходится брать основной конфиг, и превращать его в симлинк на нужный профиль, меняя по мере необходимости. У меня профили direct/CPA. Либо делать враппер, который ставит CODEX_HOME в окружение и запускает app. Решается, но небольшими плясками с бубном.
На issues несколько предложений связанных с этим, но ничего пока не реализовано.
▶️ Шаг в удобном направлении сделан, конфигурирование упрощено, может быть и другие шаги с авторизациями сделают.
(ц) так и живем
@deksden_notes
👍3❤1
⚪️ AutoReview от Пети
Петя (отец крабобота) тут поделился своим авторевью. Почему это кажется мне интересным - Петя один из немногих людей, который активно и давно практикует full AI SDLC на полную катушку с максимально возможной автоматизацией. Это очень интересно, как именно у него все работает, потому что это не теории, не бенчмарки - а самая конкретная практика.
Итак, скилл autoreview:
🔗 Сам скилл: https://github.com/openclaw/agent-skills/blob/main/skills/autoreview/SKILL.md
🔗 Хелпер: https://github.com/openclaw/agent-skills/blob/main/skills/autoreview/scripts/autoreview
🔗 Тред с обсуждением: https://x.com/steipete/status/2059453909819654554
Скилл делает ревью кода перед PR.
Что я отметил:
• промпт ОЧЕНЬ короткий, строк 20
• больше организационных моментов - например, не вызывать вложенные встроенные ревьюеры упряжек
• тул поддерживает помимо очевидного codex еще и claude, droid, copilot; интересный "ансамбль" упряжек ))
• вводных про архитектуру, паттерны, code smell нету совсем;
• не использует сварм - не знаю почему;
• чуть чуть вводных про секьюрити;
• стиринг ревьюера не бояться легитимной функциональности только потому, что она трогает файловую систему, сеть или чувствительные данные; то есть перестраховки свойственны моделям;
• фокусные ревью по отдельным аспектам не делаются; тоже не знаю почему;
▶️ Скилл нельзя использовать без адаптации - потому что он завязан на их пайплайн сборки, с их деталями.
Но идею и подходы мы увидели.
▶️ Интересно, что такой далеко не rocket science этап пайплайна сам Петя так высоко оценивает с точки зрения результативности - что мне кажется самым главным insight этой темы. Неочевидное, кмк
(ц) говорят практики, мы слушаем
@deksden_notes
Петя (отец крабобота) тут поделился своим авторевью. Почему это кажется мне интересным - Петя один из немногих людей, который активно и давно практикует full AI SDLC на полную катушку с максимально возможной автоматизацией. Это очень интересно, как именно у него все работает, потому что это не теории, не бенчмарки - а самая конкретная практика.
Итак, скилл autoreview:
🔗 Сам скилл: https://github.com/openclaw/agent-skills/blob/main/skills/autoreview/SKILL.md
🔗 Хелпер: https://github.com/openclaw/agent-skills/blob/main/skills/autoreview/scripts/autoreview
🔗 Тред с обсуждением: https://x.com/steipete/status/2059453909819654554
Скилл делает ревью кода перед PR.
Что я отметил:
• промпт ОЧЕНЬ короткий, строк 20
• больше организационных моментов - например, не вызывать вложенные встроенные ревьюеры упряжек
• тул поддерживает помимо очевидного codex еще и claude, droid, copilot; интересный "ансамбль" упряжек ))
• вводных про архитектуру, паттерны, code smell нету совсем;
• не использует сварм - не знаю почему;
• чуть чуть вводных про секьюрити;
• стиринг ревьюера не бояться легитимной функциональности только потому, что она трогает файловую систему, сеть или чувствительные данные; то есть перестраховки свойственны моделям;
• фокусные ревью по отдельным аспектам не делаются; тоже не знаю почему;
▶️ Скилл нельзя использовать без адаптации - потому что он завязан на их пайплайн сборки, с их деталями.
Но идею и подходы мы увидели.
▶️ Интересно, что такой далеко не rocket science этап пайплайна сам Петя так высоко оценивает с точки зрения результативности - что мне кажется самым главным insight этой темы. Неочевидное, кмк
(ц) говорят практики, мы слушаем
@deksden_notes
🔥12👍7❤🔥2💩1🤡1
⚪️ Депрекейт 5.2, 5.3 в кодексе
Клозеды убирают мощности с gpt-5.2 и gpt-5.3-codex с доступом из codex cli/app. То есть с подписки эти модели нельзя больше использовать, только по api.
Срок - 02 июня.
▶️ Несколько соображений. Теория заговора, конечно, превая. Выключение моделей во вторник 02 июня может намекать на релиз 5.6, например, в четверг 04 июня! К тому же сказано - что на free дефолтная модель 5.5 становится, а значит это уже не так круто, когда фронтир дают бесплатно. выпустить новый фронтир может быть логично)
И в этот четверг ничего не будет, и колбасить кодекс будет еще неделю как минимум, видимо. Особенно в свете окончания х2 акции в конце мая.
▶️ Если 5.2 не очень жалко, хотя она отработала в свое время отлично, большой респект ей - то 5.3 иногда у меня в флоу использвоалась как быстрый "дешевый" по токенам кодер. Прийдется делать ревизию всех флоу.
🔗 Анонс: https://x.com/thsottiaux/status/2059650685948551384
(ц) опаньки!
@deksden_notes
Клозеды убирают мощности с gpt-5.2 и gpt-5.3-codex с доступом из codex cli/app. То есть с подписки эти модели нельзя больше использовать, только по api.
Срок - 02 июня.
▶️ Несколько соображений. Теория заговора, конечно, превая. Выключение моделей во вторник 02 июня может намекать на релиз 5.6, например, в четверг 04 июня! К тому же сказано - что на free дефолтная модель 5.5 становится, а значит это уже не так круто, когда фронтир дают бесплатно. выпустить новый фронтир может быть логично)
И в этот четверг ничего не будет, и колбасить кодекс будет еще неделю как минимум, видимо. Особенно в свете окончания х2 акции в конце мая.
▶️ Если 5.2 не очень жалко, хотя она отработала в свое время отлично, большой респект ей - то 5.3 иногда у меня в флоу использвоалась как быстрый "дешевый" по токенам кодер. Прийдется делать ревизию всех флоу.
🔗 Анонс: https://x.com/thsottiaux/status/2059650685948551384
(ц) опаньки!
@deksden_notes
😭7🤔5👍3
Forwarded from iz zi
🚀 Выложил agent-aget v0.2.1
Это CLI для браузерных задач агентами: Codex, Claude Code, OpenCode и другими LLM-agent workflow.
Я знаю, что уже есть аналоги: Playwright, browser automation tools, MCP-браузеры и т.п. Но в моём
случае обычные решения часто упирались в реальные сайты. Например, Playwright у меня не смог
нормально открыть даже Ozon.
Поэтому за основу я взял CloakBrowser — stealth Chromium с source-level fingerprint patches.
Что умеет agent-aget:
• открывать страницы из CLI
• отдавать агенту JSON вместо человеко-ориентированного help
• aget -h и --help возвращают agent-friendly workflow
• делать page snapshot и выдавать refs вроде @e1, @i1
• кликать и заполнять формы через refs, а не ломкие CSS-селекторы
• читать страницу, ждать текст/URL, скроллить, делать скриншоты
• выполнять многошаговые сценарии через aget batch --stdin
• проверять окружение через aget doctor
Пример:
npm i -g agent-aget
aget open https://example.com -n research
aget page snapshot -s SID
aget page click -s SID --ref @e1
aget page read -s SID --limit 80
aget session close -s SID
npm:
https://www.npmjs.com/package/agent-aget
GitHub:
https://github.com/izzzzzi/agent-aget
#opensource
Это CLI для браузерных задач агентами: Codex, Claude Code, OpenCode и другими LLM-agent workflow.
Я знаю, что уже есть аналоги: Playwright, browser automation tools, MCP-браузеры и т.п. Но в моём
случае обычные решения часто упирались в реальные сайты. Например, Playwright у меня не смог
нормально открыть даже Ozon.
Поэтому за основу я взял CloakBrowser — stealth Chromium с source-level fingerprint patches.
Что умеет agent-aget:
• открывать страницы из CLI
• отдавать агенту JSON вместо человеко-ориентированного help
• aget -h и --help возвращают agent-friendly workflow
• делать page snapshot и выдавать refs вроде @e1, @i1
• кликать и заполнять формы через refs, а не ломкие CSS-селекторы
• читать страницу, ждать текст/URL, скроллить, делать скриншоты
• выполнять многошаговые сценарии через aget batch --stdin
• проверять окружение через aget doctor
Пример:
npm i -g agent-aget
aget open https://example.com -n research
aget page snapshot -s SID
aget page click -s SID --ref @e1
aget page read -s SID --limit 80
aget session close -s SID
npm:
https://www.npmjs.com/package/agent-aget
GitHub:
https://github.com/izzzzzi/agent-aget
#opensource
👍33🔥5⚡1
⚪️ Долго мы ждали 5.6
... в последнюю неделю, тут кодекс лихорадит с лимитами который день, и замедления - а рыбный день принес нам нежданчик: Опус 4.8! omfg)) Это было внезапно - ведь 4.7 вышел буквально несколько недель назад!
Может, удачнее квантанули мифос и выродили 4.8? В общем, он еще агентнее, немного поумнее. В общем, ждем теперь deepSWE бенч, посмотрим насколько 4.8 ровняется против 5.6!
▶️ Новинка: fast теперь не х6, а х2! Что конкуренция чудодейственная делает
▶️ Новое: dynamic workflows, это флоу на сварме. Отдельно буду разбирать, это стоит отдельного поста
▶️ Дефолтом теперь идет high effort - будет меньше проблем с криками "опус отупел" как было при смене дефолта недавно у опуса, но расход токенов по-умолчанию будет выше! Клодоводам на заметку - обращаем внимание.
▶️ В гайд по промптингу добавлена специфика 4.8
🔗 Must read: https://platform.claude.com/docs/en/build-with-claude/prompt-engineering/claude-prompting-best-practices
(ц) фронтир снова поапгрейден
@deksden_notes
... в последнюю неделю, тут кодекс лихорадит с лимитами который день, и замедления - а рыбный день принес нам нежданчик: Опус 4.8! omfg)) Это было внезапно - ведь 4.7 вышел буквально несколько недель назад!
Может, удачнее квантанули мифос и выродили 4.8? В общем, он еще агентнее, немного поумнее. В общем, ждем теперь deepSWE бенч, посмотрим насколько 4.8 ровняется против 5.6!
▶️ Новинка: fast теперь не х6, а х2! Что конкуренция чудодейственная делает
▶️ Новое: dynamic workflows, это флоу на сварме. Отдельно буду разбирать, это стоит отдельного поста
▶️ Дефолтом теперь идет high effort - будет меньше проблем с криками "опус отупел" как было при смене дефолта недавно у опуса, но расход токенов по-умолчанию будет выше! Клодоводам на заметку - обращаем внимание.
▶️ В гайд по промптингу добавлена специфика 4.8
🔗 Must read: https://platform.claude.com/docs/en/build-with-claude/prompt-engineering/claude-prompting-best-practices
(ц) фронтир снова поапгрейден
@deksden_notes
👍8🔥5❤4🌚1
⚪️ Эпопея: OpenAI против дешевых подписок
Битва клозедов и вендоров дешевых аккаунтов продолжается
Не так давно была введена верификация сообщением - в ряде стран это был whatsapp, в некоторых - по смс.
Народ быстро нашел вариант обхода требований верификации через прокидывание веб-сессии (для которой верификацию не требовали) в codex сессию. Да, они не проверяли. Через несколько дней такой обход прикрыли.
Все стали пользоваться верификацией через стандартные сервисы отправки смс для активации. Аккаунты по-прежнему продавались дешево, с триалами из третьих стран.
Буквально вчера-сегодня сделан новый шаг в этой эпической битве: триальные аккаунты клозеды стали эпизодически (раз в несколько дней) случайным образом (логика пока непонятна) инвалидиировать, и просить повторное сообщение с номера, который использовали для первичной верификации. Если это был виртуальный номер с сервиса - это проблема: смена номера в ui не предусмотрена.
Ждем развития ситуации))
П.С. По прежнему работет простая схема: вы просто покупаете аккаунт за номинал у вендора. Тогда верификацию не требуют! Более того, работает довольно долго грейс период, что продлит ваше использование на некоторое время свыше оплаченного месяца (если хотите).
——
Upd 1️⃣ : нет, при повторной авторизации в openai обычного Плюс аккаунта (оплаченного, что характерно) я такие получил запрос на верификацию номера на старом аккаунте! А номер там виртуальный..
В поддержке написано - возможности сменить номер нету!
Чат с поддержкой - там только ИИ. Оператора нету. Думаю чего делать))
Пока купил eSim у giffGaff.
——
@deksden_notes
Битва клозедов и вендоров дешевых аккаунтов продолжается
Не так давно была введена верификация сообщением - в ряде стран это был whatsapp, в некоторых - по смс.
Народ быстро нашел вариант обхода требований верификации через прокидывание веб-сессии (для которой верификацию не требовали) в codex сессию. Да, они не проверяли. Через несколько дней такой обход прикрыли.
Все стали пользоваться верификацией через стандартные сервисы отправки смс для активации. Аккаунты по-прежнему продавались дешево, с триалами из третьих стран.
Буквально вчера-сегодня сделан новый шаг в этой эпической битве: триальные аккаунты клозеды стали эпизодически (раз в несколько дней) случайным образом (логика пока непонятна) инвалидиировать, и просить повторное сообщение с номера, который использовали для первичной верификации. Если это был виртуальный номер с сервиса - это проблема: смена номера в ui не предусмотрена.
Ждем развития ситуации))
П.С. По прежнему работет простая схема: вы просто покупаете аккаунт за номинал у вендора. Тогда верификацию не требуют! Более того, работает довольно долго грейс период, что продлит ваше использование на некоторое время свыше оплаченного месяца (если хотите).
——
Upd 1️⃣ : нет, при повторной авторизации в openai обычного Плюс аккаунта (оплаченного, что характерно) я такие получил запрос на верификацию номера на старом аккаунте! А номер там виртуальный..
В поддержке написано - возможности сменить номер нету!
Чат с поддержкой - там только ИИ. Оператора нету. Думаю чего делать))
Пока купил eSim у giffGaff.
——
@deksden_notes
❤11👍3
⚪️ Workflows от Антропика
Ну вот мы и дождались полноценного оркестратора от вендора! Тема - огромная, как уместить даже в серию постов - не совсем ясно. Спрашивайте в комментах если нужно.
Почитал первые обзоры - все оч поверхностно, повторяет документацию, а ее вы и сами прочитаете. Я решил начать с конца/с сути: сначала скажу анатомию воркфлоу, а всю обвязку разберем в последующих постах.
▶️ Workflow - это детерминированный скрипт на js, написанный с применением специальных функций для флоу. Вот они, главные кирпичики флоу:
* phase: устанавливает фазу вашего воркфлоу, этап в прогрессе;
* agent: запускает субагента; можно пускать в worktree; можно указать фазу; можно указать кастомный промпт для субагента; можно выбрать модель; важно - указываем SCHEMA для генерации агентом ответа по схеме - мы же в детерминированном скрипте, для обработки это нужно;
* parallel(tasks): запускает переданные элементы tasks параллельно, и как барьер ждет чтобы все они завершились результатом (или упали) - как promise.all()
* pipeline(items, ...stages): этот примитив КАЖДЫЙ item запускает через этапы STAGES независимо; то есть элемент 2 может быть на 2м этапе, а элемент 4 уже все этапы пройти; элементы обрабатываются независимо и параллельно; считай - fan-out;
* workflow: запуск суб-воркфлоу (вложенность ограничена 1, то есть из воркфлоу можно пустить еще один суб-воркфлоу) - выполнит воркфлоу и вернет все что воркфлоу возвращает;
▶️ Воркфлоу описан на верхнем уровне из двух секций - meta описание (фазы), параметры запуска, и далее тело воркфлоу на js состоящее из примитивов воркфлоу и обычного кода js. Часть функций внутри js нелоступна - так как воркфлоу можно возобновлять, Date(), math.random() запрещены, они нарушают возможность сохранять состояние воркфлоу и возобновлять его.
▶️ Паралелльные задачи выполняются с учетом общей конкурентности вашей системы. Если вы дали parallel например 100 задач, а максимальная конкурентность в системе 10, то заачи будут выполняться пачками по 10. Но логика барьера parallel сохранится - он дождется всех задач.
▶️ Есть встроенный /deep-research воркфлоу, из 5 фаз:
* scope: декомпозировать вопрос в пять разныз углов зрения;
* search: сделать parallel с 5 воркерами, по одному на каждый угол зрения;
* fetch: получить итоги поиска, сделать дедупликацию, и достать top-15 из каждого угла зрения;
* verify: интересная штука - запускаем parallel со скептиками, которые должны покритиковать релевантность результата; остаются только те, кто прошел;
* synthesize: синтезировать результат из отфильтрованных итогов
Этот ворфлоу можно вызывать из своих воркфлоу, если нужно что-то качнственно поискать в интернете (например, решение для какого то бага в коде)
▶️ Сам Workflow это тул в СС, вызывается с указанием скрипта из .claude/workflows
Команда /workflows показывает список ваших воркфлоу/их запусков, включая текущий - можно смотреть как там каждая фаза, как там агент и что делает (промпт/результат), ставить флоу на паузу/останавливать.
(ц) вот такое!
@deksden_notes
Ну вот мы и дождались полноценного оркестратора от вендора! Тема - огромная, как уместить даже в серию постов - не совсем ясно. Спрашивайте в комментах если нужно.
Почитал первые обзоры - все оч поверхностно, повторяет документацию, а ее вы и сами прочитаете. Я решил начать с конца/с сути: сначала скажу анатомию воркфлоу, а всю обвязку разберем в последующих постах.
▶️ Workflow - это детерминированный скрипт на js, написанный с применением специальных функций для флоу. Вот они, главные кирпичики флоу:
* phase: устанавливает фазу вашего воркфлоу, этап в прогрессе;
* agent: запускает субагента; можно пускать в worktree; можно указать фазу; можно указать кастомный промпт для субагента; можно выбрать модель; важно - указываем SCHEMA для генерации агентом ответа по схеме - мы же в детерминированном скрипте, для обработки это нужно;
* parallel(tasks): запускает переданные элементы tasks параллельно, и как барьер ждет чтобы все они завершились результатом (или упали) - как promise.all()
* pipeline(items, ...stages): этот примитив КАЖДЫЙ item запускает через этапы STAGES независимо; то есть элемент 2 может быть на 2м этапе, а элемент 4 уже все этапы пройти; элементы обрабатываются независимо и параллельно; считай - fan-out;
* workflow: запуск суб-воркфлоу (вложенность ограничена 1, то есть из воркфлоу можно пустить еще один суб-воркфлоу) - выполнит воркфлоу и вернет все что воркфлоу возвращает;
▶️ Воркфлоу описан на верхнем уровне из двух секций - meta описание (фазы), параметры запуска, и далее тело воркфлоу на js состоящее из примитивов воркфлоу и обычного кода js. Часть функций внутри js нелоступна - так как воркфлоу можно возобновлять, Date(), math.random() запрещены, они нарушают возможность сохранять состояние воркфлоу и возобновлять его.
▶️ Паралелльные задачи выполняются с учетом общей конкурентности вашей системы. Если вы дали parallel например 100 задач, а максимальная конкурентность в системе 10, то заачи будут выполняться пачками по 10. Но логика барьера parallel сохранится - он дождется всех задач.
▶️ Есть встроенный /deep-research воркфлоу, из 5 фаз:
* scope: декомпозировать вопрос в пять разныз углов зрения;
* search: сделать parallel с 5 воркерами, по одному на каждый угол зрения;
* fetch: получить итоги поиска, сделать дедупликацию, и достать top-15 из каждого угла зрения;
* verify: интересная штука - запускаем parallel со скептиками, которые должны покритиковать релевантность результата; остаются только те, кто прошел;
* synthesize: синтезировать результат из отфильтрованных итогов
Этот ворфлоу можно вызывать из своих воркфлоу, если нужно что-то качнственно поискать в интернете (например, решение для какого то бага в коде)
▶️ Сам Workflow это тул в СС, вызывается с указанием скрипта из .claude/workflows
Команда /workflows показывает список ваших воркфлоу/их запусков, включая текущий - можно смотреть как там каждая фаза, как там агент и что делает (промпт/результат), ставить флоу на паузу/останавливать.
(ц) вот такое!
@deksden_notes
👍10🔥10❤3
⚪️ Workflows от Антропика, дальше
В общем, конструкцию вы уловили, надеюсь - вся суть именно в детерминирвоанном коде. Именно он ставит рельсы, чтобы создать схему работы для 1000 агентов. Да, именно такой лимит для агентов на воркфлоу, так что оцените масштаб.
Да, BUN переписывали именно этим.
Да, это сильно похоже на кучу оркестраторов которые ранее были - типа OmO. Теперь смотрим что придумали вендоры.
▶️ Табличку отличий Subagent, Agent Team (сварм) и Workflow вы все уже видели - это очень разного масштаба инструменты.
Субагенты выполняют задачи изолированно, получили задачу, сделали, вернули в контекст оркестратору.
Сварм работает коллаборативно, может обмениваться результатами друг с другом, но все равно получает задачу от оркестратора и отдает итоги в контекст.
Флоу работает по детерминирвоанному скрипту, и является полноценной программой: с параметрами, фиксированной логикой, результатами. Все передается и обрабатывается через детерминирвоанный код.
▶️ Ultracode переводит СС в режим xhigh режима размышлений и делает из текущей сессии скрипт для выполнения поставленных задач.
▶️ По мне - так весьма прилично сделано:
* паралелльность есть в двух формах; думаю больше всего в интерентах будут пережовывать тему отличия pipeline от parallel;
* есть композиция через вызов суб-воркфлоу;
* есть условная надежность в виде перезапусков - вроде как состяоние сохраняется; с этим надо еще разбираться, как все работает;
* документация полноценная традиционно отсутствует; ну - хоть сам клод понимает как эти воркфлоу писать! думаю надо расковырять промпт/скилл которым ему это объяснили, он будет самый поучительный с точки зрения документации;
* это конечно мощно sherlocked все независимые оркестраторы - что и так было понятно; я вот свой dd-flow по этим соображениям и не выпускал, хотя механики похожие; я просто думал раньше выпустят, февраль - а не в мае; но team тоже можно для флоу использовать, хотя менее надежно;
▶️ Токены: это машина по истреблению токенов. Думаю, кейсы с $500m чеками такие системы только умножат. Прикиньте: если в один поток у вас лимиты заметно тратятся, то Agent Team тратит их кратно - запустил х6 агентов, расход вырос в 7 раз, оркестратор тоже кушает. И если у вас лимит уходил, например, за 4 часа, то х7 сделает это за 35 минут.
А в воркфлоу лимит субагентов - 1000. Поэтому аккаунтами надо запасаться, да. Жалею конторы, которым приходится за апи покупать такое - это жесть, думаю уже сравнимо с оплатой за труд, так что замена программистов может отложиться, технологии весьма подорожали))
Кстати, именно поэтому на Плюс тарифе оно отключено по дефолту. можно включить, да - но чтобы убедиться что выжигает оно быстро))
(ц) такое, да - но интересно))
@deksden_notes
В общем, конструкцию вы уловили, надеюсь - вся суть именно в детерминирвоанном коде. Именно он ставит рельсы, чтобы создать схему работы для 1000 агентов. Да, именно такой лимит для агентов на воркфлоу, так что оцените масштаб.
Да, BUN переписывали именно этим.
Да, это сильно похоже на кучу оркестраторов которые ранее были - типа OmO. Теперь смотрим что придумали вендоры.
▶️ Табличку отличий Subagent, Agent Team (сварм) и Workflow вы все уже видели - это очень разного масштаба инструменты.
Субагенты выполняют задачи изолированно, получили задачу, сделали, вернули в контекст оркестратору.
Сварм работает коллаборативно, может обмениваться результатами друг с другом, но все равно получает задачу от оркестратора и отдает итоги в контекст.
Флоу работает по детерминирвоанному скрипту, и является полноценной программой: с параметрами, фиксированной логикой, результатами. Все передается и обрабатывается через детерминирвоанный код.
▶️ Ultracode переводит СС в режим xhigh режима размышлений и делает из текущей сессии скрипт для выполнения поставленных задач.
▶️ По мне - так весьма прилично сделано:
* паралелльность есть в двух формах; думаю больше всего в интерентах будут пережовывать тему отличия pipeline от parallel;
* есть композиция через вызов суб-воркфлоу;
* есть условная надежность в виде перезапусков - вроде как состяоние сохраняется; с этим надо еще разбираться, как все работает;
* документация полноценная традиционно отсутствует; ну - хоть сам клод понимает как эти воркфлоу писать! думаю надо расковырять промпт/скилл которым ему это объяснили, он будет самый поучительный с точки зрения документации;
* это конечно мощно sherlocked все независимые оркестраторы - что и так было понятно; я вот свой dd-flow по этим соображениям и не выпускал, хотя механики похожие; я просто думал раньше выпустят, февраль - а не в мае; но team тоже можно для флоу использовать, хотя менее надежно;
▶️ Токены: это машина по истреблению токенов. Думаю, кейсы с $500m чеками такие системы только умножат. Прикиньте: если в один поток у вас лимиты заметно тратятся, то Agent Team тратит их кратно - запустил х6 агентов, расход вырос в 7 раз, оркестратор тоже кушает. И если у вас лимит уходил, например, за 4 часа, то х7 сделает это за 35 минут.
А в воркфлоу лимит субагентов - 1000. Поэтому аккаунтами надо запасаться, да. Жалею конторы, которым приходится за апи покупать такое - это жесть, думаю уже сравнимо с оплатой за труд, так что замена программистов может отложиться, технологии весьма подорожали))
Кстати, именно поэтому на Плюс тарифе оно отключено по дефолту. можно включить, да - но чтобы убедиться что выжигает оно быстро))
(ц) такое, да - но интересно))
@deksden_notes
❤7😱3
Forwarded from Phantom AI
⚡️ SuperGrok 1мес:
├ На ваш аккаунт (CDK) — 959₽
└ Готовый аккаунт — 729₽😮 Gemini Pro 18мес:
└ Ссылка активация на ваш аккаунт — 469₽🤞 ChatGpt Plus 1 мес:
├ На ваш аккаунт (CDK) — 1 359₽
└ Готовый аккаунт — 639₽😎 Claude Pro 1 мес:
└ На ваш аккаунт (CDK) — 1 549₽😵💫 Cursor Pro 1 мес:
└ Готовый аккаунт — 1 490₽⚡️ Perplexity Pro 1 ГОД
└ На ваш аккаунт (CODE) — 2 059₽
FIRST101КУПИТЬ ПОДПИСКУ - https://t.me/phantomAI_shop_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
😁5👍3🔥2❤1
⚪️ Claude Workflows, еще немного оценок
Да, оркестратор сам себе пишет рельсы по которым потом бегает.
Материализованные детерминирвоанные воркфлоу это большой шаг вперед: работает сильно надежнее.
Я отошел от чисто агентных воркфлоу еще в сентябре 2025, начал в той или иной форме делать рельсовые воркфлоу и использовал разные прибулды ставшие потом моими оркестраторами.
▶️ Оркестраторов было уже 4 штуки:
1️⃣ на агентных воркфлоу СС недетерминированный алгоритм (зато были красивые визуализации в mermaid диаграммах, которые понмиали агенты в том числе);
2️⃣ потом сделал сложный универсальный ai-kod, это был максимально навороченный комбайн - и бандлы, и скриптовые этапы, и observability, и свой DSL; как раз все паттерны паралелльности - fan-out, parallel с барьерами, суб-воркфлоу, что то про стек вызовов, трейсы, и тп;
3️⃣ потом сделал легкий dd-flow чисто под кодинг, ипользовал его под проекты с codex начиная с 5.1;
4️⃣ последним сделал снова гибридный кодинговый флоу, перенеся dd-flow на ванильный кодекс cli + легкая обвязка в виде хуков и своих cli.
👉 я немного в теме.
▶️ Вы же понимаете, что каждый Agent() в воркфлоу внутри себя может звать Agent Team? )) И вызвать суб-воркфлоу внутри которого снова будут агенты и agent team? We need to go deeper!
А если серьезно - то скромный на первый взгляд набор кубиков для флоу я оцениваю как весьма комплектным для ОЧЕНЬ сложных флоу. Не уверен даже что его стоит далее усложнять.
▶️ На таких кубиках вполне можно сделать то, что я называю dd-flow: свой SDLC:
хотелка ➡️ задача+сценарий ➡️ планирование ➡️ реализация ➡️ верификация сценарием на хотелку
Все это замешивается на рабочих деревьях, на графовом плане - делаем волнами, паралелльные линии. Делать проверки по согласованному сценарию и вам сдавать фичу с готовым доказательством работы на скриншотах и видосах как оно там сработало.
И вот такие флоу будут крутится с детерминированной надежностью, а не через раз по настроению агента.
▶️ почему оркестратор от антропиков все еще базовый, чего по фичам нету (хотя я не сторонних набить продукт фичами - не всегда полезно):
* нет встроенной политики ретраев - надежность работы нужно обеспечить самостоятельно, что сильно осложняет воркфлоу;
* нету встроенного мультисемплинга - я это пользую;
* не нашел политики работы с ошибками - как сбоями агентов (это больше в части ретраев), так и логическими ошибками в воркфлоу; для себя я делал отдельные цепочки во флоу для обработки логических exceptions;
* ноль документации как правильно применять: best practice хотя бы - типа, пояснялки про паттерны map/reduce, fan-out, про lessons learned и эвалы для флоу (как настраивать и отлаживать);
* не совсем внятно описана observability и какие имеем трейсы в системе и как их смотреть; я делал папку .runs где каждый ран воркфлоу лежал с папками для каждого "шага" воркфлоу; шаг содержал промпты агента, его артефакты которые он сгенерировал, и ответ агента (у меня был yaml зачем то, но думаю json надо ставить раз json output прижился);
* нету организации воркспейса для флоу - каждый будет выдумывать для себя; я делал описанную передачу отдельных файлов между шагами флоу; то есть оркестратор проверял не только наличие json по схеме в конце агентного хода, но и наличие пучка файлов с какими то детерминированными проверками; типа, чтобы не просто выполнить ревью и выдать вердикт, но и на каждый косяк оформить карточку;
* нет подходов к отладке флоу - для себя я делал на флоу "эвалы"; это когда берем стандартизированное состояние воркспейса для флоу, прогоняем какой то кусок флоу, и смотрим как флоу отработало; например, для флоу "ревью" берем заранее сделанное состояние подопытного репо с косяками, гоняем флоу, и проверяем потом что косяки найдены и правильно оформлены;
Не уверен, что все фичи такого рода нужны и всем, но мне представляется что это полезное - я такое пользую.
▶️ Если это кому то интересно, можно развернуть отдельные аспекты в отдельных постах - пишите комменты ⬇️
(ц) да, это сложно
@deksden_notes
Да, оркестратор сам себе пишет рельсы по которым потом бегает.
Материализованные детерминирвоанные воркфлоу это большой шаг вперед: работает сильно надежнее.
Я отошел от чисто агентных воркфлоу еще в сентябре 2025, начал в той или иной форме делать рельсовые воркфлоу и использовал разные прибулды ставшие потом моими оркестраторами.
▶️ Оркестраторов было уже 4 штуки:
1️⃣ на агентных воркфлоу СС недетерминированный алгоритм (зато были красивые визуализации в mermaid диаграммах, которые понмиали агенты в том числе);
2️⃣ потом сделал сложный универсальный ai-kod, это был максимально навороченный комбайн - и бандлы, и скриптовые этапы, и observability, и свой DSL; как раз все паттерны паралелльности - fan-out, parallel с барьерами, суб-воркфлоу, что то про стек вызовов, трейсы, и тп;
3️⃣ потом сделал легкий dd-flow чисто под кодинг, ипользовал его под проекты с codex начиная с 5.1;
4️⃣ последним сделал снова гибридный кодинговый флоу, перенеся dd-flow на ванильный кодекс cli + легкая обвязка в виде хуков и своих cli.
👉 я немного в теме.
▶️ Вы же понимаете, что каждый Agent() в воркфлоу внутри себя может звать Agent Team? )) И вызвать суб-воркфлоу внутри которого снова будут агенты и agent team? We need to go deeper!
А если серьезно - то скромный на первый взгляд набор кубиков для флоу я оцениваю как весьма комплектным для ОЧЕНЬ сложных флоу. Не уверен даже что его стоит далее усложнять.
▶️ На таких кубиках вполне можно сделать то, что я называю dd-flow: свой SDLC:
хотелка ➡️ задача+сценарий ➡️ планирование ➡️ реализация ➡️ верификация сценарием на хотелку
Все это замешивается на рабочих деревьях, на графовом плане - делаем волнами, паралелльные линии. Делать проверки по согласованному сценарию и вам сдавать фичу с готовым доказательством работы на скриншотах и видосах как оно там сработало.
И вот такие флоу будут крутится с детерминированной надежностью, а не через раз по настроению агента.
▶️ почему оркестратор от антропиков все еще базовый, чего по фичам нету (хотя я не сторонних набить продукт фичами - не всегда полезно):
* нет встроенной политики ретраев - надежность работы нужно обеспечить самостоятельно, что сильно осложняет воркфлоу;
* нету встроенного мультисемплинга - я это пользую;
* не нашел политики работы с ошибками - как сбоями агентов (это больше в части ретраев), так и логическими ошибками в воркфлоу; для себя я делал отдельные цепочки во флоу для обработки логических exceptions;
* ноль документации как правильно применять: best practice хотя бы - типа, пояснялки про паттерны map/reduce, fan-out, про lessons learned и эвалы для флоу (как настраивать и отлаживать);
* не совсем внятно описана observability и какие имеем трейсы в системе и как их смотреть; я делал папку .runs где каждый ран воркфлоу лежал с папками для каждого "шага" воркфлоу; шаг содержал промпты агента, его артефакты которые он сгенерировал, и ответ агента (у меня был yaml зачем то, но думаю json надо ставить раз json output прижился);
* нету организации воркспейса для флоу - каждый будет выдумывать для себя; я делал описанную передачу отдельных файлов между шагами флоу; то есть оркестратор проверял не только наличие json по схеме в конце агентного хода, но и наличие пучка файлов с какими то детерминированными проверками; типа, чтобы не просто выполнить ревью и выдать вердикт, но и на каждый косяк оформить карточку;
* нет подходов к отладке флоу - для себя я делал на флоу "эвалы"; это когда берем стандартизированное состояние воркспейса для флоу, прогоняем какой то кусок флоу, и смотрим как флоу отработало; например, для флоу "ревью" берем заранее сделанное состояние подопытного репо с косяками, гоняем флоу, и проверяем потом что косяки найдены и правильно оформлены;
Не уверен, что все фичи такого рода нужны и всем, но мне представляется что это полезное - я такое пользую.
▶️ Если это кому то интересно, можно развернуть отдельные аспекты в отдельных постах - пишите комменты ⬇️
(ц) да, это сложно
@deksden_notes
👍14🔥10❤🔥6