⚪️ Новости с фронта
👉 Для фронтэндеров - маленкая штука: https://font-stealer.vercel.app/
Можно исследовать любой сайт - какие там шрифты, и в пару кликов их спереть! WOFF, WOFF2, TTF, and OTF.
👉 Agentation обновился до 2.0
Риалтайм коллаборативный режим
🔗 https://agentation.dev/blog/introducing-agentation-2
@deksden_notes
👉 Для фронтэндеров - маленкая штука: https://font-stealer.vercel.app/
Можно исследовать любой сайт - какие там шрифты, и в пару кликов их спереть! WOFF, WOFF2, TTF, and OTF.
👉 Agentation обновился до 2.0
Риалтайм коллаборативный режим
🔗 https://agentation.dev/blog/introducing-agentation-2
@deksden_notes
font-stealer.vercel.app
Font Stealer
Extract and download fonts from any website instantly.
😁2👍1🤣1
⚪️ Сварм в Копилоте КЛИ
Похоже - да, эта тема со стаей агентов ушла в народ. Вот и копилот CLI подтянулся. Экспериментальная команда /fleet которая деплоит пучок агентов для параллельной работой над планом задач.
Todo в sqlite положено! ведь это так удобно - сделать sql запрос для получения списка задач. Видимо, готовятся масштабироваться
🔗 https://x.com/_Evan_Boyle/status/2019497961777172488?s=20
@deksden_notes
Похоже - да, эта тема со стаей агентов ушла в народ. Вот и копилот CLI подтянулся. Экспериментальная команда /fleet которая деплоит пучок агентов для параллельной работой над планом задач.
Todo в sqlite положено! ведь это так удобно - сделать sql запрос для получения списка задач. Видимо, готовятся масштабироваться
🔗 https://x.com/_Evan_Boyle/status/2019497961777172488?s=20
@deksden_notes
👍2😁1
⚪️ Opus 4.6 в AMP
Акция - amp заманивает к себе
Надо идти по ссылке:
https://ampcode.com/code/AMP-WFRP-3PME
Я ходил - вроде кончились, но скоро обещали еще докинуть. Вдруг кому захочется в лотерейку игрануть!
Акция - amp заманивает к себе
Надо идти по ссылке:
https://ampcode.com/code/AMP-WFRP-3PME
Я ходил - вроде кончились, но скоро обещали еще докинуть. Вдруг кому захочется в лотерейку игрануть!
⚪️ Cursor Credits в Lenny's Product Pass
Открыл тут LennysProductPass - а там в Курсор дают $50 для обычного Annual тира!
В связи с этим вот постом:
🔗 https://www.lennysnewsletter.com/p/how-to-build-ai-product-sense
‼️ Это вниманию тех, у кого есть подписка на Lenny. Без подписки никак
@deksden_notes
Открыл тут LennysProductPass - а там в Курсор дают $50 для обычного Annual тира!
В связи с этим вот постом:
🔗 https://www.lennysnewsletter.com/p/how-to-build-ai-product-sense
‼️ Это вниманию тех, у кого есть подписка на Lenny. Без подписки никак
@deksden_notes
🔥2
Forwarded from A M
Выпустил 2.11 Agent Sessions - из главного что появилось:
- Image Browser и показ картинок из чатов прямо внутри сессии
и модное - поддержка OpenClaw сессий - первый non coding agent в большом зоопарке поддерживаемых агентов
- Image Browser и показ картинок из чатов прямо внутри сессии
и модное - поддержка OpenClaw сессий - первый non coding agent в большом зоопарке поддерживаемых агентов
⚪️ Свет мой, зеркальце, скажи! ... (5.2 vs 5.3-codex)
#ddeval #52vs53
Решил провести ЭВАЛ, чтобы сравнить новый 5.3-codex high и свою рабочую лошадь 5.2 high. В обычной работе чтобы понять разницу надо довольно долго поработать, только чтобы уяснить особенности поведения модели. А ведь еще надо вспомнить как оно в прошлой версии себя ведет... В общем, лучше делать предметное сравнение. Силы воли чтобы сделать полноценный бенчмарк у меня не набралось - проблема таки не зудит, но для меня вопрос довольно важный: чем работать дальше. Поэтому я придумал eval - это решение моей специфической условно узкой задачи разными моделями. Тут нужен дисклеймер: задача моя, она не претендует на обобщение и репрезентативность, методика моя, она не претендует на академическую правильность.
Итак, это будет серия постов - смотрите по тегам в поиске, но я постить их буду подряд.
▶️ Что я придумал делать, план эвала:
* берем текущий проект dd-flow
* берем мои промпты на прайминг контекста и общий анализ (прогон сценария и анализ "всего")
* делаем по три контекста gpt5.2 и gpt5.3-codex
* каждый получает идентичные промпты, цепочка из двух: прайминг и промпт на широкий анализ
* агент работает, результат пишет в индивидуальный файл
* после того как все 6 сессий отработают, начнем этап сопоставления
* сначала сделаем сгруппированные таблички по каждой модели (по 3 отчета) - и верификацию находок.
* Верификатором назначим gpt5.2-xhigh: самая дотошная, кмк.
* После верификации и сведения по модели, получившиеся 2 отчета сводим в единый итоговый отчет об обнаруженных проблемах.
* ...
* PROFIT!
‼️ Важные замечания: промпт на анализ предполагает очень широкий спектр анализа - там и code smels, и архитектурные косяки, и куча прочих аспектов. Для выцепления настоящих проблем это слишком широкая задача. Лучше каждый такой аспект отдельно аналиировать. Но у меня в первом приближении хотелось бы посмотреть что "широкой сетью" удастся вытащить! Поэтому значительные вариации в ассортименте найденного даже одной моделью вполне ожидаемы. То есть важно все правильно интерпретировать.
👉 Цель этого эвала - общая оценка работы моделей в сравнении на похожей задачей. Мы скорее будем наблюдать за работой, чем за результатами. Результаты теста по определению будут немного рандомными и разбросанными - это важно понимать, задача широкая, значит температура будет сказываться и модели будут углубляться в рандомные аспекты.
🟢 Чтобы сравнить именно внимательность модели я следом проведу такой же тест, только выберу ОДИН/ДВА аспекта, почитав "общий" сводный анализ. И там уже можно будет сравнить внимательность и дотошность моделей.
...
#ddeval #52vs53
Решил провести ЭВАЛ, чтобы сравнить новый 5.3-codex high и свою рабочую лошадь 5.2 high. В обычной работе чтобы понять разницу надо довольно долго поработать, только чтобы уяснить особенности поведения модели. А ведь еще надо вспомнить как оно в прошлой версии себя ведет... В общем, лучше делать предметное сравнение. Силы воли чтобы сделать полноценный бенчмарк у меня не набралось - проблема таки не зудит, но для меня вопрос довольно важный: чем работать дальше. Поэтому я придумал eval - это решение моей специфической условно узкой задачи разными моделями. Тут нужен дисклеймер: задача моя, она не претендует на обобщение и репрезентативность, методика моя, она не претендует на академическую правильность.
Итак, это будет серия постов - смотрите по тегам в поиске, но я постить их буду подряд.
▶️ Что я придумал делать, план эвала:
* берем текущий проект dd-flow
* берем мои промпты на прайминг контекста и общий анализ (прогон сценария и анализ "всего")
* делаем по три контекста gpt5.2 и gpt5.3-codex
* каждый получает идентичные промпты, цепочка из двух: прайминг и промпт на широкий анализ
* агент работает, результат пишет в индивидуальный файл
* после того как все 6 сессий отработают, начнем этап сопоставления
* сначала сделаем сгруппированные таблички по каждой модели (по 3 отчета) - и верификацию находок.
* Верификатором назначим gpt5.2-xhigh: самая дотошная, кмк.
* После верификации и сведения по модели, получившиеся 2 отчета сводим в единый итоговый отчет об обнаруженных проблемах.
* ...
* PROFIT!
‼️ Важные замечания: промпт на анализ предполагает очень широкий спектр анализа - там и code smels, и архитектурные косяки, и куча прочих аспектов. Для выцепления настоящих проблем это слишком широкая задача. Лучше каждый такой аспект отдельно аналиировать. Но у меня в первом приближении хотелось бы посмотреть что "широкой сетью" удастся вытащить! Поэтому значительные вариации в ассортименте найденного даже одной моделью вполне ожидаемы. То есть важно все правильно интерпретировать.
👉 Цель этого эвала - общая оценка работы моделей в сравнении на похожей задачей. Мы скорее будем наблюдать за работой, чем за результатами. Результаты теста по определению будут немного рандомными и разбросанными - это важно понимать, задача широкая, значит температура будет сказываться и модели будут углубляться в рандомные аспекты.
🟢 Чтобы сравнить именно внимательность модели я следом проведу такой же тест, только выберу ОДИН/ДВА аспекта, почитав "общий" сводный анализ. И там уже можно будет сравнить внимательность и дотошность моделей.
...
1🔥6
⚪️ Эвал 5.2 vs 5.3-codex : погнали!
#ddeval #52vs53
Итак, приступаем. Первый пункт марлезонского балета - это прайминг контекста. Запускаем, смотрим.
1️⃣ Тайминги примерно одинаковые получились, но у 5.3 больше не написано сколько модель работала. Видимо, ее комментарии по ходу работы каким то образом сбивают счетчик! Жаль, я обращал на него внимание иногда. Еще зафиксируем процент заполнения контекста на момент завершения прайминга:
* Gpt 5.2: 1:44 (90%), 1:47 (86%), 2:42 (84%)
* Gpt 5.3-codex: 74%, 66%, 66%.
Все три 5.2 начали задание с составления плана, зафиксировав схему работы. Два кодекса 5.3 тоже составили план, а один запустил сварм агентов (но план не составил). Забавно: 5.3 уже подучена пускать сварм чаще!
Первое наблюдение: скорость работы на короткой задаче прайминга - сопоставимая, но контекст кодекс забил заметно больше: все три сессии - значит, это особенность поведения модели.
2️⃣ Приступим к следующей фазе. Запускаем промпт на анализ, и ждем! Тут работа будет подольше.
gpt 5.2: время работы и контекст:
* 1 : работал 14:45, заполнил контекст до 69%, 1 компакт;
* 2 : работал 14:45, закончил на 14% - без компактов;
* 3 : 21 минута, 1 компакт, 55% контекста.
gpt 5.3-codex: время работы и контекст:
* 1 : 15 мин, 23% контекст при завершении, сварм после компакта;
* 2 : отстрелялся за 9:30 примерно, 79%, 2 компакта, без сварма :
* 3 : 20 минут, 48% контекста; сварм сразу.
Получили отчеты, записали их в соответствующие файлы. Зафиксировал размеры:
gpt 5.2: размер отчета:
* 1 : 855 строк
* 2 : 691 строка
* 3 : 662 строки
gpt 5.3-codex: размер отчета:
* 1 : 612 строк
* 2 : 784 строк
* 3 : 629 строк
Видно что между моделями нет особенной разницы в размерах отчетов. Отчет записывался всеми агентами около 2 минут, только одна из 5.2 решила записать отчет поподробнее с номерами строк и записывала 3:40.
Эти забавы скушали 89% лимита 5 часовой сессии на Teams плане (стадия анализа, без сопоставления отчетов).
...
#ddeval #52vs53
Итак, приступаем. Первый пункт марлезонского балета - это прайминг контекста. Запускаем, смотрим.
1️⃣ Тайминги примерно одинаковые получились, но у 5.3 больше не написано сколько модель работала. Видимо, ее комментарии по ходу работы каким то образом сбивают счетчик! Жаль, я обращал на него внимание иногда. Еще зафиксируем процент заполнения контекста на момент завершения прайминга:
* Gpt 5.2: 1:44 (90%), 1:47 (86%), 2:42 (84%)
* Gpt 5.3-codex: 74%, 66%, 66%.
Все три 5.2 начали задание с составления плана, зафиксировав схему работы. Два кодекса 5.3 тоже составили план, а один запустил сварм агентов (но план не составил). Забавно: 5.3 уже подучена пускать сварм чаще!
Первое наблюдение: скорость работы на короткой задаче прайминга - сопоставимая, но контекст кодекс забил заметно больше: все три сессии - значит, это особенность поведения модели.
2️⃣ Приступим к следующей фазе. Запускаем промпт на анализ, и ждем! Тут работа будет подольше.
gpt 5.2: время работы и контекст:
* 1 : работал 14:45, заполнил контекст до 69%, 1 компакт;
* 2 : работал 14:45, закончил на 14% - без компактов;
* 3 : 21 минута, 1 компакт, 55% контекста.
gpt 5.3-codex: время работы и контекст:
* 1 : 15 мин, 23% контекст при завершении, сварм после компакта;
* 2 : отстрелялся за 9:30 примерно, 79%, 2 компакта, без сварма :
* 3 : 20 минут, 48% контекста; сварм сразу.
Получили отчеты, записали их в соответствующие файлы. Зафиксировал размеры:
gpt 5.2: размер отчета:
* 1 : 855 строк
* 2 : 691 строка
* 3 : 662 строки
gpt 5.3-codex: размер отчета:
* 1 : 612 строк
* 2 : 784 строк
* 3 : 629 строк
Видно что между моделями нет особенной разницы в размерах отчетов. Отчет записывался всеми агентами около 2 минут, только одна из 5.2 решила записать отчет поподробнее с номерами строк и записывала 3:40.
Эти забавы скушали 89% лимита 5 часовой сессии на Teams плане (стадия анализа, без сопоставления отчетов).
...
1👍4❤1🔥1
⚪️ 5.2 и 5.3-codex - проведение анализа
#ddeval #52vs53
3️⃣ Следующий пункт плана - это начать делать сводные таблицы выявленных проблем. Для этого мы сделаем две свежие сессии кодекса с 5.2 xhigh, каждая будет анализировать по 3 отчета одной модели.
Задача анализа - двухэтапная. Брать каждую выявленную проблему, верифицировать в коде, добавлять заключение верификатора и формировать сводную табличку:
* N пп
* Описание проблемы
* Статус верификации
* Критичность проблемы
* Отчет 1 : наличие в отчете
* Отчет 2 : наличие в отчете
* Отчет 3 : наличие в отчете
Итого наши 2 агента с xhigh работали около 20 минут, и сделали файлик с итоговыми таблицами.
* Gpt 5.2 : всего 38 проблем выявлено. 100% верифицировано как подтвержденные в коде.
* Gpt 5.3-codex : 41 обнаруженная проблема, 100% верифицировано, но одна - частично (проблема имеет место быть только для старых рантаймов);
В общем, на будущее - стадию верификации можно пропускать. Модели довольно сильные, если что то находят, то это по делу.
4️⃣ И, финальный шаг - сделать сводный общий отчет. Просим новую сессию 5.2 xhigh взять два отчета и свести в единую таблицу. Получаем итоговый файл. В нем уже 67 пунктов - это значит разброс аспектов анализа весьма высок.
Так и получилось: Итоговая статистика по проблемам, по столбцу «Кол-во ✅»
* 1 обнаружение: 52 строки
* 2 обнаружения: 6 строк
* 3 обнаружения: 4 строки
* 4 обнаружения: 0 строк
* 5 обнаружений: 4 строки
* 6 обнаружений: 1 строка
Из 52 проблем, которые обнаружил единственный агент в 23 случаях это был 5.2 и в 29 это был кодекс-5.3! То есть условная ничья, с некоторым преимуществом 5.3. Вот вам и широкий фокус - 1 обнаружение в 52 строках из 67!
...
#ddeval #52vs53
3️⃣ Следующий пункт плана - это начать делать сводные таблицы выявленных проблем. Для этого мы сделаем две свежие сессии кодекса с 5.2 xhigh, каждая будет анализировать по 3 отчета одной модели.
Задача анализа - двухэтапная. Брать каждую выявленную проблему, верифицировать в коде, добавлять заключение верификатора и формировать сводную табличку:
* N пп
* Описание проблемы
* Статус верификации
* Критичность проблемы
* Отчет 1 : наличие в отчете
* Отчет 2 : наличие в отчете
* Отчет 3 : наличие в отчете
Итого наши 2 агента с xhigh работали около 20 минут, и сделали файлик с итоговыми таблицами.
* Gpt 5.2 : всего 38 проблем выявлено. 100% верифицировано как подтвержденные в коде.
* Gpt 5.3-codex : 41 обнаруженная проблема, 100% верифицировано, но одна - частично (проблема имеет место быть только для старых рантаймов);
В общем, на будущее - стадию верификации можно пропускать. Модели довольно сильные, если что то находят, то это по делу.
4️⃣ И, финальный шаг - сделать сводный общий отчет. Просим новую сессию 5.2 xhigh взять два отчета и свести в единую таблицу. Получаем итоговый файл. В нем уже 67 пунктов - это значит разброс аспектов анализа весьма высок.
Так и получилось: Итоговая статистика по проблемам, по столбцу «Кол-во ✅»
* 1 обнаружение: 52 строки
* 2 обнаружения: 6 строк
* 3 обнаружения: 4 строки
* 4 обнаружения: 0 строк
* 5 обнаружений: 4 строки
* 6 обнаружений: 1 строка
Из 52 проблем, которые обнаружил единственный агент в 23 случаях это был 5.2 и в 29 это был кодекс-5.3! То есть условная ничья, с некоторым преимуществом 5.3. Вот вам и широкий фокус - 1 обнаружение в 52 строках из 67!
...
1👍6
⚪️ 5.2 vs 5.3-codex, итоги
#ddeval #52vs53
👉 Выводы: скорость работы - модели работаю сопоставимое время. Шустрость кодекса 5.3 в задачах не наблюдается в итоговом времени gtd - инстансы агентов 5.2 и 5.3 работали сопоставимое время, разбег во времени работы между 5.2 и 5.3 незначительный. Впрочем, тут может быть дело в сварме, который заметно замедляет. Агент 5.3, который работал без сварма, справился за 9 минут, что заметно быстрее (30% от времени 5.2 или более чем 50% от своего времени в базе), чем 5.2 (там 14-20 минут было).
👉 Качество обнаружения проблем требует отдельной диагностики, но широкий "чес" показывает примерно сопоставимые возможности.
👉 Заметное отличие в работе с контекстом - 5.3 заметно быстрее набирает контекст, и больше его тратит.
👉 Заметное отличие в работе со свармом: только 5.3 пробует его использовать без дополнительного промптинга, видимо уже подучена.
👉 Сварм не сказать чтобы ускорил задачу, но и задача была небольшая (15-20 минут максимум в одну сессию). Скорее сварм замедлил. Агенты в один поток работал на 50%-100% быстрее (9 минут против 15-20).
👉 Возможно, сварм увеличил качество работы: сессии 1 и 3 у 5.3-кодекса работали со свармом. Количество обнаруженных у них уникальных проблем - 12 и 13 соответственно. У сессии 2 которая в один поток работала, обнаружено 4 уникальных проблемы. Разница заметная и выраженная. Возможное объяснение: каждый агент из сварма получил более узкую фокусную задачу, чем отдельный агент в одном потоке, что помогло концентрировать внимание.
👉 У модели 5.2 больше всего уникальных проблем нашел агент, кто дольше всех праймился и кто заметнее всех забил контекст. Впрочем, распределение 8, 5 и 10 не позволяет считать такой разброс заметным, ведь 8 проблем нашел агент с минимальной потратой контекста на прайминг! Так что тут выводов сделать сложно.
▶️ Промпты пока не публикую, если будет выраженный интерес - можно будет зашарить, там ничего секретного и интересного, все довольно линейно.
@deksden_notes
#ddeval #52vs53
👉 Выводы: скорость работы - модели работаю сопоставимое время. Шустрость кодекса 5.3 в задачах не наблюдается в итоговом времени gtd - инстансы агентов 5.2 и 5.3 работали сопоставимое время, разбег во времени работы между 5.2 и 5.3 незначительный. Впрочем, тут может быть дело в сварме, который заметно замедляет. Агент 5.3, который работал без сварма, справился за 9 минут, что заметно быстрее (30% от времени 5.2 или более чем 50% от своего времени в базе), чем 5.2 (там 14-20 минут было).
👉 Качество обнаружения проблем требует отдельной диагностики, но широкий "чес" показывает примерно сопоставимые возможности.
👉 Заметное отличие в работе с контекстом - 5.3 заметно быстрее набирает контекст, и больше его тратит.
👉 Заметное отличие в работе со свармом: только 5.3 пробует его использовать без дополнительного промптинга, видимо уже подучена.
👉 Сварм не сказать чтобы ускорил задачу, но и задача была небольшая (15-20 минут максимум в одну сессию). Скорее сварм замедлил. Агенты в один поток работал на 50%-100% быстрее (9 минут против 15-20).
👉 Возможно, сварм увеличил качество работы: сессии 1 и 3 у 5.3-кодекса работали со свармом. Количество обнаруженных у них уникальных проблем - 12 и 13 соответственно. У сессии 2 которая в один поток работала, обнаружено 4 уникальных проблемы. Разница заметная и выраженная. Возможное объяснение: каждый агент из сварма получил более узкую фокусную задачу, чем отдельный агент в одном потоке, что помогло концентрировать внимание.
👉 У модели 5.2 больше всего уникальных проблем нашел агент, кто дольше всех праймился и кто заметнее всех забил контекст. Впрочем, распределение 8, 5 и 10 не позволяет считать такой разброс заметным, ведь 8 проблем нашел агент с минимальной потратой контекста на прайминг! Так что тут выводов сделать сложно.
▶️ Промпты пока не публикую, если будет выраженный интерес - можно будет зашарить, там ничего секретного и интересного, все довольно линейно.
@deksden_notes
1👍8👻1
⚪️ Эвал моделей - финальный забег по фокусному аспекту
#ddeval #52vs53
▶️ Зафиналим эксперимент! Часть 2: опять 6 сессий, но теперь будет фокусный аспект - типизация: кто в курсе про TS - это использование "as any" и заморочки типизации в коде. Модели будут смотреть только этот аспект, и больше ничего. Так проще проверить действительную внимательность, детальность и смышленость модели.
Этап сбора контекста, тайминги и финишный контекст (процент свободного):
gpt 5.2:
* 1: 3.5 мин, 71%
* 2: 3.5 мин, 75%
* 3: 4.5 мин, 61%
gpt 5.3-codex:
* 1: меньше 2мин, 69%
* 2: меньше 2 мин, 67%
* 3: 3 мин, 70%
Стартуем: gpt5.2 возился заметно дольше, gpt5.3-codex существенно пошустрее. На одной сессии разница раза в 2,5 по времени достигла (там 5.2 после компакта решил еще на разик все переделать заново). Ничего неожиданного! Сварм в 5.3 был в сесси 2 и 3.
Первые результаты сведения находок:
▶️ 5.3-codex : найдено 23 проблемы. сессия 1 нашла 1 уникальную проблему, сессии 2 и 3 со свармом - 3 и 6. проблем. Соответственно, сварм опять сделал лучше.
▶️ 5.2: нашла заметно больше проблем - 34. Это на 50% больше!
- только gpt5.2: 21
- в обоих: 14
- только gpt5.3-codex: 12
🆕 Расход токенов. Сам анализ занял примерно 100m токенов модели 5.2 и 78m токенов 5.3-codex. То есть кодекс на 20% меньше токенов кушает точно. замечу - тут еще потери на сварме! если в один поток, экономия токенов будет еще значительнее.
👉 Выводы по туру 2: сварм в 5.3 действительно улучшает результаты.
👉 Модель 5.3 работает быстрее минимум на 30%, и тратит токенов минимум на 20% меньше. Сварм заметно замедляет агента на небольших задачах.
👉 Внимательность и глубина проработки вопросов у 5.2 все таки больше, и заметно.
🟢 Мой Вывод: дебаг и планирование остаются за 5.2. Кодирование по проработанному плану (когда не нужно глубоких раздумий) вполне можно делать на 5.3 - будет быстрее, дешевле по лимитам, и не хуже! Сварм включаем для более сложных задач, он улучшает качество почти до 5.2 на подходящих вопросах.
#ddeval #52vs53
▶️ Зафиналим эксперимент! Часть 2: опять 6 сессий, но теперь будет фокусный аспект - типизация: кто в курсе про TS - это использование "as any" и заморочки типизации в коде. Модели будут смотреть только этот аспект, и больше ничего. Так проще проверить действительную внимательность, детальность и смышленость модели.
Этап сбора контекста, тайминги и финишный контекст (процент свободного):
gpt 5.2:
* 1: 3.5 мин, 71%
* 2: 3.5 мин, 75%
* 3: 4.5 мин, 61%
gpt 5.3-codex:
* 1: меньше 2мин, 69%
* 2: меньше 2 мин, 67%
* 3: 3 мин, 70%
Стартуем: gpt5.2 возился заметно дольше, gpt5.3-codex существенно пошустрее. На одной сессии разница раза в 2,5 по времени достигла (там 5.2 после компакта решил еще на разик все переделать заново). Ничего неожиданного! Сварм в 5.3 был в сесси 2 и 3.
Первые результаты сведения находок:
▶️ 5.3-codex : найдено 23 проблемы. сессия 1 нашла 1 уникальную проблему, сессии 2 и 3 со свармом - 3 и 6. проблем. Соответственно, сварм опять сделал лучше.
▶️ 5.2: нашла заметно больше проблем - 34. Это на 50% больше!
- только gpt5.2: 21
- в обоих: 14
- только gpt5.3-codex: 12
🆕 Расход токенов. Сам анализ занял примерно 100m токенов модели 5.2 и 78m токенов 5.3-codex. То есть кодекс на 20% меньше токенов кушает точно. замечу - тут еще потери на сварме! если в один поток, экономия токенов будет еще значительнее.
👉 Выводы по туру 2: сварм в 5.3 действительно улучшает результаты.
👉 Модель 5.3 работает быстрее минимум на 30%, и тратит токенов минимум на 20% меньше. Сварм заметно замедляет агента на небольших задачах.
👉 Внимательность и глубина проработки вопросов у 5.2 все таки больше, и заметно.
🟢 Мой Вывод: дебаг и планирование остаются за 5.2. Кодирование по проработанному плану (когда не нужно глубоких раздумий) вполне можно делать на 5.3 - будет быстрее, дешевле по лимитам, и не хуже! Сварм включаем для более сложных задач, он улучшает качество почти до 5.2 на подходящих вопросах.
👍8❤🔥1
⚪️ Antigravity Knowledge Items
Тут Гугол близок к изобретению меморибанка
🔗 https://x.com/antigravity/status/2020180758606807471?s=20
Лучше поздно ..
@deksden_notes
Тут Гугол близок к изобретению меморибанка
🔗 https://x.com/antigravity/status/2020180758606807471?s=20
Лучше поздно ..
@deksden_notes
🔥4👻2
⚪️ ... и Боба!
Биба и Боба - два ... трейдера! Торгуй через Бобу - останешся на бобах!
Это волшебый нейминг. Не мог не поделиться. Встретилось в твиттере!
Интересно, что помешало спросить Гемини про разные ассоциации на разных языках? Она знает отлично.
"Итог: Для локального рынка США/Европы — название хорошее и хайповое. Для глобального рынка (особенно LatAm и ЮВА) — это провал нейминга."
"🔴 Главная угроза: Мем «Биба и Боба»"
Нейминг без нейросети нынче делать не надо, да?)
@deksden_notes
Биба и Боба - два ... трейдера! Торгуй через Бобу - останешся на бобах!
Это волшебый нейминг. Не мог не поделиться. Встретилось в твиттере!
Интересно, что помешало спросить Гемини про разные ассоциации на разных языках? Она знает отлично.
"Итог: Для локального рынка США/Европы — название хорошее и хайповое. Для глобального рынка (особенно LatAm и ЮВА) — это провал нейминга."
"🔴 Главная угроза: Мем «Биба и Боба»"
Нейминг без нейросети нынче делать не надо, да?)
@deksden_notes
❤5😁2🤣1
⚪️ Opus 4.6 в антигравити
Забрал нового опуса из антигравити, подписка AI Pro.
Обращаем внимание на смену нейминга моделей внутри антигравити - приставка gemini- перед именами моделей пропала
актуальный список смотрим на прокси через
Я смотрел postman
@deksden_notes
Забрал нового опуса из антигравити, подписка AI Pro.
Обращаем внимание на смену нейминга моделей внутри антигравити - приставка gemini- перед именами моделей пропала
актуальный список смотрим на прокси через
GET http://localhost:8317/v1/modelsЯ смотрел postman
@deksden_notes
👍7🔥1
⚪️ Опрос: кто как делает
Вопрос к аудитории: вот у вас нейронка закончила задачу. Вы выработали как "принимать" работу от нейронки?
Типа, она вам про чеки/quality gate только докладывает (типа, сделала тесты, тесты прошли).
Или стоит отчет просить подробный: что сделала, как все прошло, чего было сложного?
Или сценарий на приемку работы сделать - типа, use case какой то чтобы проходил?
Или пускай отчет с картинками генерирует?
У кого какая практика или идеи/фантазии?
Вопрос к аудитории: вот у вас нейронка закончила задачу. Вы выработали как "принимать" работу от нейронки?
Типа, она вам про чеки/quality gate только докладывает (типа, сделала тесты, тесты прошли).
Или стоит отчет просить подробный: что сделала, как все прошло, чего было сложного?
Или сценарий на приемку работы сделать - типа, use case какой то чтобы проходил?
Или пускай отчет с картинками генерирует?
У кого какая практика или идеи/фантазии?
👍5🔥1
⚪️ GLM 5
По ходу выкатывают на сайт! В чате уже шевелится
Инфы пока нету
Upd 1️⃣: Появилась карточка:
🔗 https://docs.z.ai/guides/llm/glm-5
Ценник - почти х1.5 к glm-4.7, а именно $1/$3.2, но сильно дешевле чем буржуйский фронтир
Есть модель GLM-5-code, она подороже, $1.2/$5
Контекст и модальности те же - 200к, текст. зато сама модель теперь 755b moe с 40b активныз параметров, рост почти х2. Использует DeepSeek Sparse Attention.
Картинки бенчей в комментах, но местами послабее опуса 4.5, а с 4.6 нету сравнений, ждем коммьюнити. На HLE сильнее опуса 4.5! )) Кто тренировал на бенчмарк?!
В кодинговый план glm-5 сейчас доступна только для макс подписок (а у меня - pro). Для pro будет позже, как они разберутся с ротацией поколений модели (видимо, высвободим со старых моделей оборудование). Новая glm-5 будет тратить больше лимита за запрос, но не ясно насколько.
Для новых подписок вводят недельный лимит. Раньше не было
Тестов GLM-5-code и про эту модельсовсем ничего не говорят.
——
Upd 2️⃣ : Еще блог есть
🔗 https://z.ai/blog/glm-5
Там чуть больше тестов и текста про модель
——
Upd 3️⃣ : GLM-5 is coming to Coding Plan Pro users within one week, and we're working to bring it to everyone after that.
——
Upd 4️⃣ : Бесплатный тест GLM-5 на Modal :
🔗 https://modal.com/blog/try-glm-5
🔗 https://x.com/modal/status/2021645783733616800?s=20
——
‼️ Upd 5️⃣ : Важный момент про GLM-5 : это, пожалуй, первая модель, которая тренировалась на китайском железе (чипы Huawei Ascent, кластер в 100k чипов). Декоарируется 100% NVIDIA free.
Мощный китайский удар. Не теоретическая возможность, а практически сделанная модель! Работающее импортоамещение. К слову, с 2025 Z.ai под американскими санкциями на поставку чипов. Опоздали))
Это BIG 🔥
@deksden_notes
По ходу выкатывают на сайт! В чате уже шевелится
Инфы пока нету
Upd 1️⃣: Появилась карточка:
🔗 https://docs.z.ai/guides/llm/glm-5
Ценник - почти х1.5 к glm-4.7, а именно $1/$3.2, но сильно дешевле чем буржуйский фронтир
Есть модель GLM-5-code, она подороже, $1.2/$5
Контекст и модальности те же - 200к, текст. зато сама модель теперь 755b moe с 40b активныз параметров, рост почти х2. Использует DeepSeek Sparse Attention.
Картинки бенчей в комментах, но местами послабее опуса 4.5, а с 4.6 нету сравнений, ждем коммьюнити. На HLE сильнее опуса 4.5! )) Кто тренировал на бенчмарк?!
В кодинговый план glm-5 сейчас доступна только для макс подписок (а у меня - pro). Для pro будет позже, как они разберутся с ротацией поколений модели (видимо, высвободим со старых моделей оборудование). Новая glm-5 будет тратить больше лимита за запрос, но не ясно насколько.
Для новых подписок вводят недельный лимит. Раньше не было
Тестов GLM-5-code и про эту модельсовсем ничего не говорят.
——
Upd 2️⃣ : Еще блог есть
🔗 https://z.ai/blog/glm-5
Там чуть больше тестов и текста про модель
——
Upd 3️⃣ : GLM-5 is coming to Coding Plan Pro users within one week, and we're working to bring it to everyone after that.
——
Upd 4️⃣ : Бесплатный тест GLM-5 на Modal :
🔗 https://modal.com/blog/try-glm-5
🔗 https://x.com/modal/status/2021645783733616800?s=20
——
‼️ Upd 5️⃣ : Важный момент про GLM-5 : это, пожалуй, первая модель, которая тренировалась на китайском железе (чипы Huawei Ascent, кластер в 100k чипов). Декоарируется 100% NVIDIA free.
Мощный китайский удар. Не теоретическая возможность, а практически сделанная модель! Работающее импортоамещение. К слову, с 2025 Z.ai под американскими санкциями на поставку чипов. Опоздали))
Это BIG 🔥
@deksden_notes
🔥9
⚪️ Глм? Кодекс ответил нескучными обоями строкой
В v0.99 alpha замечена /statusline, где можно в строку статуса напихать всяких виджетов. Кто пользовал ccstatusline тот примерно понимает.
Если кроме шуток - удобная фича. QOL повышает.
Ждем релиза
Upd 1️⃣: v0.99 зарелизили
С функцией memory надо будет разобраться, она в экспериментальных фичах - как разберусь, напишу!
@deksden_notes
В v0.99 alpha замечена /statusline, где можно в строку статуса напихать всяких виджетов. Кто пользовал ccstatusline тот примерно понимает.
Если кроме шуток - удобная фича. QOL повышает.
Ждем релиза
Upd 1️⃣: v0.99 зарелизили
С функцией memory надо будет разобраться, она в экспериментальных фичах - как разберусь, напишу!
@deksden_notes
🔥9👍2
⚪️ Китайский шипмас - MiniMax 2.5
https://x.com/SkylerMiao7/status/2021578926884053084?s=20
Тоже толком не раскатали еще!
——
Upd 1️⃣ : на неделю бесплатно в опенКоде!
——
Upd 2️⃣ : статья, презентующая модель:
🔗 https://x.com/MiniMax_AI/status/2022001452131221872
@deksden_notes
https://x.com/SkylerMiao7/status/2021578926884053084?s=20
Тоже толком не раскатали еще!
——
Upd 1️⃣ : на неделю бесплатно в опенКоде!
——
Upd 2️⃣ : статья, презентующая модель:
🔗 https://x.com/MiniMax_AI/status/2022001452131221872
@deksden_notes
🔥2❤1
⚪️ Юбилейный релиз Кодекса
Круглый релиз - v0.100.0!
Из новинок - JS движок для агента с сохранением состояния между запусками плюс какой то механим памяти /m_update /m_drop
Не особо понятно не только что это, но и зачем это! будем разбираться...
А Кодекс - с юбилеем!
——
Upd 1️⃣ : да, я видел что вышел 0.101.0 с фиксами )) недолго юбилейный рели побыл в актуальных
@deksden_notes
Круглый релиз - v0.100.0!
Из новинок - JS движок для агента с сохранением состояния между запусками плюс какой то механим памяти /m_update /m_drop
Не особо понятно не только что это, но и зачем это! будем разбираться...
А Кодекс - с юбилеем!
——
Upd 1️⃣ : да, я видел что вышел 0.101.0 с фиксами )) недолго юбилейный рели побыл в актуальных
@deksden_notes
🔥9🐳2❤🔥1
⚪️ Google Stitch
... активно развивается в последнее время. Его развитием занята команда, которая также занимается Jules, и мне нравится их темп. Я не очень пристально за ними слежу, но они в последнее время кучу крутых фич впиливают
Вот нынче туда завезли поддержку дизайн систем. Это BIG для такого софта.
🔗 https://x.com/stitchbygoogle/status/2022023576778580148?s=20
Надо будет обзакомится с его возможностями. По впечатлению - формируется весьма годный продукт для дизайна интерфейсов. А гемини во фронт умела неплохо.
@deksden_notes
... активно развивается в последнее время. Его развитием занята команда, которая также занимается Jules, и мне нравится их темп. Я не очень пристально за ними слежу, но они в последнее время кучу крутых фич впиливают
Вот нынче туда завезли поддержку дизайн систем. Это BIG для такого софта.
🔗 https://x.com/stitchbygoogle/status/2022023576778580148?s=20
Надо будет обзакомится с его возможностями. По впечатлению - формируется весьма годный продукт для дизайна интерфейсов. А гемини во фронт умела неплохо.
@deksden_notes
👍3🔥2❤🔥1
⚪️ Большой релиз у Cline - CLI 2.0
Анонс:
🔗 https://x.com/cline/status/2022341254965772367?s=20
🔗 https://cline.bot/blog/introducing-cline-cli-2-0
Новое:
• редизайн TUI
• паралелльные агенты с изолированным состоянием
• доработанный headless mode
• поддержка ACP для интеграции в поддерживающие ИДЕ/инструменты
• win / mac / linux
• акция: kimi K2.5 free, Minimax M2.5 free
Респект команде
(ц) Такое мы отслеживаем
@deksden_notes
Анонс:
🔗 https://x.com/cline/status/2022341254965772367?s=20
🔗 https://cline.bot/blog/introducing-cline-cli-2-0
Новое:
• редизайн TUI
• паралелльные агенты с изолированным состоянием
• доработанный headless mode
• поддержка ACP для интеграции в поддерживающие ИДЕ/инструменты
• win / mac / linux
• акция: kimi K2.5 free, Minimax M2.5 free
Респект команде
(ц) Такое мы отслеживаем
@deksden_notes
🐳4👍1
⚪️ Стадия 0, Прайминг
#ddeval #feb2026eval
С опусом из антигравити возникла сразу же проблема: гугл запросил верификацию моего вьетнамского аккаунта с подпиской на год. Слухи о некотором закручивании гаек, видимо, были небеспочвенными. Верифицировал через смс на телефон через онлайнсим, завел аккаунт, авторизовался, прокинул в VibeProxy для подключения в СС. Ок - едем дальше!
Прайминг GLM-5 в CC: id сессии, тайминги и контекст:
* g1: 2:53, 19.3% used;
* g2: 1:26, 19.5% used;
* g3: 1:20, 17.9% used;
Заметно медленее Opus и заметно меньше использование контекста!
Теперь к опенкоду и MiniMax:
* m1: 24s, 12% used;
* m2: 15s, 12% used;
* m3, 40s, 13$ used;
Заполнение контекста небольшое, но очень быстро, ходя одна сессия х2 по времени вышла.
Kimi K2.5, opencode:
* k1: 18.1s, 9% used;
* k2: 20.8s, 9% used;
* k3: 18.9s, 9% used;
Разброс таймингов минимальный, потребление контекста совсем скромное. И очень быстро!
Прайминг opus 4.6 в СС: id сессии, тайминг и контекст:
* o1: 53s, 35% used;
* o2: 57s, 36% used;
* o3: 40s, 31% used;
Довольно шустро и без разброса между сессиями.
Gemini 3 pro:
* все сессии оч быстро отработали (в гемини нету таймера, засекать время неудобно - но тайминги буквально 15-20), и затраты контекста на прайминг в 3-4%; при миллионе контекста это не такой фактор; сессии маркируем gm1-3;
Референсный gpt-5.2 high, в кодексе:
* c1: 1:41, 10% used;
* c2: 2:18, 12% used;
* c3: 2:16, 12% used;
Не быстро, потребление контекста небольшое.
👉 Краткое наблюдение: разброс в использовании контекста даже в одинаковых упряжках наверное что то означает. Время работы моделей тоже весьма разное.
Вы обратили внимание - я идентифицирую сессии работы агента/модели буковкой и цифрой, для понятности - сессий много, чтобы не запутаться в них
🟢 Ок, двигаемся дальше!
@deksden_notes
#ddeval #feb2026eval
С опусом из антигравити возникла сразу же проблема: гугл запросил верификацию моего вьетнамского аккаунта с подпиской на год. Слухи о некотором закручивании гаек, видимо, были небеспочвенными. Верифицировал через смс на телефон через онлайнсим, завел аккаунт, авторизовался, прокинул в VibeProxy для подключения в СС. Ок - едем дальше!
Прайминг GLM-5 в CC: id сессии, тайминги и контекст:
* g1: 2:53, 19.3% used;
* g2: 1:26, 19.5% used;
* g3: 1:20, 17.9% used;
Заметно медленее Opus и заметно меньше использование контекста!
Теперь к опенкоду и MiniMax:
* m1: 24s, 12% used;
* m2: 15s, 12% used;
* m3, 40s, 13$ used;
Заполнение контекста небольшое, но очень быстро, ходя одна сессия х2 по времени вышла.
Kimi K2.5, opencode:
* k1: 18.1s, 9% used;
* k2: 20.8s, 9% used;
* k3: 18.9s, 9% used;
Разброс таймингов минимальный, потребление контекста совсем скромное. И очень быстро!
Прайминг opus 4.6 в СС: id сессии, тайминг и контекст:
* o1: 53s, 35% used;
* o2: 57s, 36% used;
* o3: 40s, 31% used;
Довольно шустро и без разброса между сессиями.
Gemini 3 pro:
* все сессии оч быстро отработали (в гемини нету таймера, засекать время неудобно - но тайминги буквально 15-20), и затраты контекста на прайминг в 3-4%; при миллионе контекста это не такой фактор; сессии маркируем gm1-3;
Референсный gpt-5.2 high, в кодексе:
* c1: 1:41, 10% used;
* c2: 2:18, 12% used;
* c3: 2:16, 12% used;
Не быстро, потребление контекста небольшое.
👉 Краткое наблюдение: разброс в использовании контекста даже в одинаковых упряжках наверное что то означает. Время работы моделей тоже весьма разное.
Вы обратили внимание - я идентифицирую сессии работы агента/модели буковкой и цифрой, для понятности - сессий много, чтобы не запутаться в них
🟢 Ок, двигаемся дальше!
@deksden_notes
✍4🔥4❤2