DEKSDEN notes

⚪️ Опенсорс на нашем канале

Помимо того, что я кидаю линки на всякие github проекты, которые встречаю в процессе, я отдельно выделю:
• на канале я поддерживаю опенсорс подписчиков
• любой автор опенсорс проекта обращается ко мне в личку @deksden и получает репост презентации своего проекта в канал
• я не вношу никаких правок в посты автора - as is, чтобы без мнений и искажений
• это, конечно, бесплатно
• не забываем ставить тег #opensource в постах, чтобы было легко найти

Я еще каталог составлю, наверное, из проектов которые здесь анонсировались! Будет за тегом #opensource - ищите по нему!

@deksden_notes

🔥8❤3👍2🙏2

777 viewsedited 16:37

DEKSDEN notes

⚪️ Каталог #OpenSource от подписчиков

▶️ Вот в этот пост кратко соберем ранее случившиеся анонсы

• Agent Sessions : https://t.me/deksden_notes/333 by @jazzyalex (несколько релизов уже вышло!)

• Manta : https://t.me/deksden_notes/108 by @makosst
• Port-Selector: https://t.me/deksden_notes/340 by @startup_life_ru @pismenny
• CCBox : https://t.me/deksden_notes/485 by @itbaron
• opencode-hashline — точные правки кода для AI-агентов : https://t.me/deksden_notes/489
• Agentic-workflow для GitHub Copilot : https://t.me/deksden_notes/513
• AIFace — «эмоции» для LLM-агента : https://t.me/deksden_notes/514

——

И немного скиллов: https://t.me/deksden_notes/387

И большая презентация скиллов : https://t.me/deksden_notes/488 by @itbaron

——

Прошу не забывать ставить звездочки ⭐️ на гитхабе, писать фидбэк и кидать issues

@deksden_notes

DEKSDEN notes

Agent Sessions 2.9.1 — история CLI-агентов с нормальным поиском, навигацией и usage tracking (native macOS, open source).

https://jazzyalex.github.io/agent-sessions/

Если вы работаете с CLI-агентами, вы знаете боль: сессии огромные, а через неделю уже не…

👍5❤4🔥1

759 viewsedited 16:56

DEKSDEN notes

Forwarded from Aleksei

ccbox -- TUI-менеджер сессий кодинг-агентов

Rust-приложение для терминала, которое индексирует и показывает локальные сессии Codex CLI, Claude Code и Gemini CLI в едином интерфейсе.

Что делает:
- Браузер проектов и сессий с поиском и фильтрацией по движку
- Таймлайн сессии: промпты, tool calls, результаты, контекст -- все в хронологическом порядке
- Статистика: токены, длительность, использование инструментов, apply_patch changes
- Fork/resume сессии Codex с произвольного места в таймлайне
- Запуск новых сессий (Pipes/TTY режимы) с attach/detach
- CLI-режим для скриптов: ccbox projects, ccbox sessions, ccbox history
- Self-update через GitHub Releases
- Агент-скилл для Codex/Claude/Gemini -- агент сам может инспектировать свои прошлые сессии

Стек: Rust, Ratatui, SQLite. Работает на macOS, Linux, Windows.

Установка:
brew tap diskd-ai/ccbox && brew install ccbox

GitHub: https://github.com/diskd-ai/ccbox
Лицензия: MIT

#opensource

GitHub

GitHub - diskd-ai/ccbox: ccbox: Remote control to manage Codex/Claude/Gemini/Opencode agent sessions

ccbox: Remote control to manage Codex/Claude/Gemini/Opencode agent sessions - diskd-ai/ccbox

1🔥15❤4

744 views17:12

DEKSDEN notes

⚪️ О стоимости и скорости инференса

Вот такие проекты появляются

На графике - это Llama 8B

x10 быстрее и x20 дешевле B200

17k tps

Просто закатали модель в кремний

Почитать тут:
🔗 https://taalas.com/the-path-to-ubiquitous-ai/

С таким подходами можно ожидать оркестраторов, которые будут ваншотить SaaS целиком после смены спеки за минуты, а не часы

@deksden_notes

🔥6🤯6❤2😱2

717 views19:45

DEKSDEN notes

⚪️ Replit Animation

Когда тебя отстранили от разработки за то, что ты пару раз сносил базу на проде, и пришлось устроится к дизайнерам

А если без шуток - прикольно когда мультимодальные способности у агентов прорисовываются. Такой агентный Remotion

Работает так: на вкладке App просим "animated video about ..." или "Animation" в селекторе чего делать

Пример как оно делает в комментах. С одного скриншота и промпта "сделай мне анимацию про dd-flow, оркестратор. прилагаю скрин"

Анимация - это тоже приложение выходит))

☝️ Кстати - вот интересный сайтик кто Remotion пользует, в комментах к анонсу встретил - пусть тут до кучи будет:

🔗 https://remotion-bits.dev/

@deksden_notes

👍1

817 viewsedited 21:13

DEKSDEN notes

Forwarded from Aleksei

#opensource

diskd-ai/skills -- коллекция скиллов для кодинг-агентов

Когда работаешь с AI-агентами каждый день, накапливается экспертиза: как правильно вызывать API, как структурировать код-ревью, как не терять время на повторяющиеся ошибки. Мы упаковали это в открытые скиллы, которые ставятся одной командой.

Совместимость: Claude Code, Cursor, Cline, Copilot, Codex, Windsurf, Gemini и ещё 10+ агентов через skills.sh.

Установка любого скилла:
npx skills add diskd-ai/<repo> --skill <name> --global --yes

---
API-интеграции -- готовые паттерны для работы с провайдерами:

- claude-api -- Anthropic Messages API, tool use, vision, streaming, prompt caching, extended thinking
- openai-api -- Chat Completions, function calling, DALL-E, Whisper, Assistants API, fine-tuning
- gemini-api -- мультимодальный ввод (изображения, видео, аудио, PDF), thinking, structured outputs, Veo/Lyria
- groq-api -- ультрабыстрый инференс, Whisper, Llama Guard, tool use
- together-api -- open-source модели, FLUX, Stable Diffusion, Whisper, fine-tuning, reranking
- cerebras-api -- быстрый инференс, reasoning models с thinking tokens, structured outputs
- perplexity-api -- Sonar модели с real-time web search и цитатами, deep research
- nebius-api -- Token Factory, OpenAI-совместимый API, батчи, файн-тюнинг, кастомные модели

Инструменты разработки:

- code-review -- структурированное ревью с severity-метками, файл+строка, вердикт. Работает с GitHub PR (gh) и GitLab MR (glab)
- design-doc -- генерация TRD/RFC/ADR/спецификаций по запросу
- prompting -- инженерия промптов: few-shot, chain-of-thought, role prompting, structured outputs
- redmine-cli -- управление задачами Redmine из агента: создание, редактирование, комментарии, связи
- tilt-config -- Tiltfile, docker_build, live_update, k8s_resource, Helm/Compose воркфлоу
- assemblyai-cli -- транскрипция аудио/видео в текст/srt/vtt с диаризацией спикеров

Прочее:

- clarify -- декомпозиция и уточнение задач из трекера (использует redmine-cli, design-doc) перед началом работы на задачей
- human-interface-guidelines-1992 -- аудит десктопных UI по классическим гайдлайнам Apple 1992 года (меню, диалоги, Balloon Help, accessibility)

---
ccbox + ccbox-insights -- отдельная история

ccbox -- это TUI для просмотра сессий кодинг-агентов (Claude, Codex, Gemini, OpenCode). Показывает проекты, таймлайны, историю вызовов инструментов.

А вот ccbox-insights -- это то, ради чего всё затевалось изначально, но пошло немного дальше.

Знаете, что при разработке с агентами до 30% времени может уходить на ненужную работу? Агент пробует путь, ошибается, пробует снова, пользователь поправляет -- и так по кругу.

ccbox-insights анализирует неудачные сессии и извлекает уроки:

- Находит повторяющиеся паттерны ошибок (невалидные аргументы, отсутствующие файлы, rejected действия, таймауты)
- Классифицирует сбои по таксономии из 12 категорий (invalid_input, path_not_found, permission_denied, wrong_tool_scope...)
- Оценивает исход сессии и сигналы удовлетворённости пользователя
- Генерирует готовые к вставке инструкции для AGENTS.md (проектные) и глобальных настроек агента

По сути, это post-mortem для AI-агентов. Запускаешь после рабочего дня, получаешь конкретные правила, вставляешь в конфиг -- и завтра агент уже не повторяет вчерашних ошибок.

Установка:
npx skills add diskd-ai/ccbox --skill ccbox-insights --global --yes

GitHub: github.com/diskd-ai/ccbox
Каталог всех скиллов: skills.sh/diskd-ai

200+ установок, 16 скиллов, всё MIT.

GitHub

GitHub - diskd-ai/ccbox: ccbox: Remote control to manage Codex/Claude/Gemini/Opencode agent sessions

ccbox: Remote control to manage Codex/Claude/Gemini/Opencode agent sessions - diskd-ai/ccbox

1🔥17❤8❤‍🔥2

1.27K views17:01

DEKSDEN notes

Forwarded from iz zi

opencode-hashline — точные правки кода для AI-агентов

Классическая проблема кодинг-агентов: модель видит файл, хочет поправить строку — и промахивается. str_replace ломается на дублирующихся блоках, diff-патчи съезжают после правок.

Плагин для OpenCode, который решает это в лоб.

Каждая строка файла получает детерминированный хэш-тег:


#HL 1:a3f|function hello() {
#HL 2:f1c|  return "world";
#HL 3:0e7|}

Агент говорит не "замени вот этот кусок" — а "замени строку `2:f1c`". Точно. Без неоднозначностей.

Бенчмарк (60 фикстур React-кода):
hashline — 60/60 (100%)
str_replace — 58/60, 4 неоднозначных случая

Под капотом:
— FNV-1a хэш от индекса + содержимого строки
— Адаптивная длина хэша (2–4 hex-символа)
— LRU-кэш аннотированных файлов
— Хуки OpenCode: аннотирует чтение, стирает префиксы перед записью
— Кастомный tool hashline_edit — правки по хэш-референсам без old_string

Оверхед ~40% по токенам. Для файла в 200 строк — ~600 токенов. В 200K-контексте незаметно.


npm install -g opencode-hashline

GitHub: https://github.com/izzzzzi/opencode-hashline

PR приветствуются.

#opensource

👍13❤5👻1

809 views03:04

DEKSDEN notes

⚪️ Гугл хейт

Теперь Гуглу пришла светлая мысль решить проблемы с инференсом баном пользователей. Их, видимо, Антропик покусал. Если у вас по OAuth как то использовался гугл аккаунт кроме антигравити - почти 100% что вас забанили. Бан только для антигравити/гемини cli. Остальные сервисы работают.

Итак, они забанили всех, у кото паттерны использования отличались от антигравити. А это openCode, openClaw и прочие OAuth использования подписки. Тьма хейта! Ultra подписчики негодуют - почему все работало, а потом - срау бан. Зачем делать легкую OAuth авторизацию чтобы потом всех банить?

Конечно, прислать предупреждение они не смогли - а сразу забанили. Довольно дурацкое и глупое решение.

Вот примеры обсуждений:
• https://x.com/vickykansal/status/2025767895331123680?s=20
• https://x.com/steipete/status/2025743825126273066?s=20
• https://x.com/testingcatalog/status/2025851133667721351?s=20
• негодование про лимиты: https://x.com/wholyv/status/2025818414275813708?s=20
• и еще про лимиты: https://x.com/Ra1kshit/status/2025315463564328983?s=20

Спикеры гугла говорят о том, что проблему думают как решить. Пока предложенио обладателям платных аккаунтов писать на поддержку

🔗 Поддержка: https://t.co/PUpdZJhINl

В общем, подождем развития ситуации. У меня 2 аккаунта забанили, на которых CLIproxyAPI работал, кстати! Так что я в теме )))

——

Upd 1️⃣ : Гугол начинает шевелится под натиском хейта - обещаны некие анонсы по ситуации!

https://x.com/JackWoth98/status/2026073355833782589?s=20

@deksden_notes

X (formerly Twitter)

Vikas Kansal (@vikaskansalHQ) on X

@steipete If you’re a Pro/Ultra member, you can get support here: https://t.co/PUpdZJhINl.

More context below and this does not effect rest of your features on the Pro/Ultra plan or your Google account.
https://t.co/7t3UcjuegQ

🔥5🤬4💩2🌚2😢1

779 viewsedited 12:21

DEKSDEN notes

⚪️ Minimax Fast

Интересная тенденция - запускать fast сервисы инференса. Вспоминается opus fast за х6 цену и codex-spark

Вот и киты подтягиваются - minimax highspeed

Не уверен что интересно, но развитие кажется интересным

@deksden_notes

❤3

688 views18:38

DEKSDEN notes

⚪️ Очередная статья на Хабре

... в популярном там стиле хейта ИИ-разработки и некоторого ИИ-скепсиса:

🔗 https://habr.com/ru/articles/995640/

Рекомендуется к прочтению для понимания диспозиции. ЛУчшее возражение ИИ-скептикам это практика.

Интересно пробежаться по статье, посмотреть на проблемы и подумать как в своих флоу эти проблемы отрабатываются

@deksden_notes

Хабр

Почему план «заменить разработчиков ИИ» превращается в техдолг и кадровый кризис

Статья: компиляция нескольких исследований середины-конца 2025 года, на них ведут ссылки Морбо в студии Преамбула В 2023–2024 годах менеджерам в корпорациях активно продавали идею, что большие...

😁5👍3

719 views20:32

DEKSDEN notes

⚪️ Gemini CLI + 3.1

Мне на один аккаунт таки раскатали (AI Pro подписка). Два других аккаунта забанены (возможно, пока).

Не прошло и недели! Это, конечно, охренеть как долго.

Ну - хоть норм сделаем эвал с новой Гемини! затестим чего и как, - хотя ожидания невеликие испытываю

@deksden_notes

👍4❤2

688 views20:53

DEKSDEN notes

⚪️ DISTILgate ! ~~Антропики, китай и Маск~~

Прикольно. Тут антропики подняли шум что киты дистилят клода в промышленных масштабах. Что, впрочем, довольно очевидно любому, кто разговорит китайца.

🔗 https://x.com/elonmusk/status/2026012296607154494?s=20

Ну и Маск тролит Антропиков, что и их права на данные тоже не абсолютные

Забавно (ц)

——

Upd 1️⃣ : не затихли еще пердыдущие бурления говн про антропиков (с баном опенкода и клешни, с банами за oauth, с изменениями tos, и прочим), как эти новые публичные заявления про "industrial-scale distillation attacks" вызвали очередную волну хейта:

https://x.com/TheAhmadOsman/status/2026043533853888657?s=20

https://x.com/TommyFalkowski/status/2026007460805304595?s=20

https://x.com/deredleritt3r/status/2026029169419706543?s=20

https://x.com/HKydlicek/status/2026006007990690098?s=20

https://x.com/chribjel/status/2026011903630192962?s=20

Конечно, особенно забавно выглядит факт, что антропики были пойманы на пиратстве книг для обучения нейронки и оштрафованы на $1.5B. А можно украсть сворованное?

...

Это все твиты/треды с десятками тысяч просмотров и сотнями лайков.

——

Upd 2️⃣ : Текущий шитсторм получил имя собственное - DISTIL gate

@deksden_notes

X (formerly Twitter)

Elon Musk (@elonmusk) on X

@tetsuoai Banger 🤣🤣

How dare they steal the stuff Anthropic stole from human coders??

😁12

694 viewsedited 22:09

DEKSDEN notes

⚪️ Февральский eval-2 (2) : тестируем QWEN 3.5 Plus

#ddeval #feb2026eval2

▶️ Напомню, что это эвал на широкий поиск issues не очень подходит для выводов о внимании моделей. Мы делаем общую приценочную оценку поведения и соотносим модели друг с другом. Сами полученные цифры можно считать условными попугаями, они важны только относительно цифр другой модели/агента.
Для тестирования внимания/цепкости моделей будем делать другой эвал - по выеденным фокусам, возможно, несколько профилей с разными фокусами.

Ранее проводимые эвалы доступны по тегам #ddeval #feb2026eval и #52vs53

План этого эвала предполагал доп тестирование свежего Qwen 3.5 Plus против уже проверенных атлетов:

- OpenCode → zai-coding-plan/glm-5,
- Droid → kimi-k2.5 / thinking,
- Droid → minimax-m2.5 / medium,
- Сodex → gpt-5.2 / high,
- ну и сам пациент, Qwen cli → coder-model (qwen 3.5 plus)

Заодно посмотрим, сохранится ли относительная картинка в сравнении с прошлым эвалом #feb2026eval . Семплинг всех моделей ставим на @3.

Запускаем! После пары часов, потраты лимитов и нескольких падений разных упряжек по форматам JSON ответов (и фиксов) - все довели до результата.

Тайминги и потрата токенов получились такие:
* glm-5: 220-240s, а вот подсчет токенов скромный, опенкод насчитал до 1m токенов в каждом семпле (отметим, что с подсчетом токенов у опенкода есть вопросики);
* kimi k2.5: 100-145s всего, и только 1-1.2m токенов;
* minimax m2.5: 260-270 секунд, и 3.2-3.7m токенов;
* gpt-5.2: тратит по 1000-1100 секунд на флоу (прайминг+ревью), и 19-20m токенов;
* наконец, новый qwen 3.5 plus: 520-800s, и от 1.2 до 6.6m токенов

Разброс показателей существенный! Еще и счетчики особо не отлажены в разных упряжках - может tokens не совсем адекватно считается, привожу их справочно - с этим вопросом надо дополнительно разибраться.

Теперь цифирки кто и чего нашел

* glm-5: нашла 21, 12 подтвержденных, 11 уникальных
* kimi k2.5: нашла 36, но всего 13 подтверждено, 11 уникальных
* minimax m2.5: нашла 23, 12 подтвердились, все 12 уникальные
* gpt 5.2 нашла 26 issues, 26/26 подтверждено, 20 уникальных
* qwen 3.5 : нашел 28, 11 подтверждено, 7 уникальных

И расклад по приоритетам в подтвержденным находкам такой (p0-p3, p4 не классифицировано ни одной):

glm-5: 12 - 0 | 4 | 5 | 3
k2.5: 13 - 0 | 4 | 8 | 1
m2.5: 12 - 1 | 2 | 3 | 6
gpt-5.2: 26 - 2 | 8 | 8 | 8
q3.5: 11 - 0 | 0 | 3 | 8

▶️ Выводы: берем gpt-5.2 как бейзлайн фронтира, она уверенно смотрит issues медленно, но находит неплохо. Китайские модели будут послабее при широком поиске, на таких скромных семплингах результаты плавают, и сложно сказать кто умнее. Однако Qwen 3.5 выглядит слабее kimi / minimax / glm, что немного удивительно, ведь qwen весьма авторитетная лаба. Но цифры сами за себя говорят!

👉 Завершаем с этим этапом эвала и переходим к следующему

@deksden_notes

🔥5👍4❤2

624 viewsedited 04:31

DEKSDEN notes

⚪️ Февральский eval-2 (1): dd-review

#ddeval #feb2026eval2

Февраль выдался урожайным месяцем! Всякого вышло масса - только успевай тестировать! Вот и не успеваю))

Так как я зае- устал руками гонять эвалы, а планов на тесты наросовалось много, возникла острая необходимость автоматизации. Поэтому потрачено несколько дней, эвал автоматизирован. Что сделал: был препарирован dd-flow, вытащен движок флоу в отдельную систему, образовано несколько служебных флоу:
* review: ревью по заданному набору фокусов
* dedupe: дедупликация найденных issues и фильтр уникальных, кросслинк дубликатов (это чтобы все не верифицировать тотально по несколько раз)
* verify: верификация новых уников, подтверждение что issue имеет место быть.

Так как issues получилось много, сделали небольшую базу под эту штуку и небольшой движок отчетов, чтобы легче делать срезы. Получившаяся системка гордо названа dd-review. Чтобы не рулить ею руками я первым приоритетом сделал cli и буду рулить ею через codex UI )) То есть промптами.

Маркируем находки (issues) через систему приоритетов Priority:
- p0: критический инцидент: эксплойт/брешь, утечка секретов, потеря/порча данных, детерминированный crash или hard-deadlock в обычном использовании
- p1: очень высокий риск для пользователей, серьёзная ошибка корректности/надёжности, опасная конкурентность/abort, сломанные инварианты состояния.
- p2: существенная проблема: заметные gaps корректности, крупные архитектурные/поддерживаемостные дефекты, значимая деградация производительности
- p3: средние дефект|ы: слабая наблюдаемость, проблемные edge cases, test gaps, smell’ы, которые пока не ломают систему напрямую.
- p4: минорные замечания: стиль, небольшие рефакторы, косметические улучшения документации.

Какие фокусы у ревью - придумал 10 профилей:

- correctness_invariants — корректность и инварианты
- type_safety — типобезопасность
- security_backend — безопасность backend/API/DB
- security_frontend — безопасность frontend/UI
- api_contracts_backend — контракты API и данных
- performance_memory — производительность и память
- concurrency_state — конкурентность и состояние
- maintainability_smells — поддерживаемость и code smells
- error_handling_reliability — обработка ошибок и надёжность
- logging_observability — логирование и наблюдаемость

Кому интересно - можно расписать фокусы поподробнее, но там нету космических технологий, простое описание по каким вопросам "трясти" кодовую базу. Широкое исследование берет ВСЕ указанные профили - конфиг называется предсказуемо focus_all.

Какие движки прикручены к dd-flow на текущий момент:

- codex_sdk: Codex CLI
- opencode_sdk: OpenCode
- claude_sdk: Claude Code через Agents SDK
- gemini_cli: Gemini CLI
- droid_cli: Droid CLI
- qwen_cli: Qwen CLI
- iflow_cli: iFlow CLI

Ассортимент движков отражает мои запасы подписок/аккаунтов в разных системах, где мне может потребоваться чего то гонять. В общем, для эвалов соорудил такую вот упряжку! Поря ее гонять)))

@deksden_notes

👍3

596 viewsedited 04:31

DEKSDEN notes

⚪️ Февральский eval-2 (3) : увеличиваем компьют!

#ddeval #feb2026eval2

Итак, следующий этап и план эксперимента: а насколько изменятся результаты, если мы увеличим компьют? То есть сделаем семплинг заметно побольше: текущий эвал был с @3, а если мы сравним gpt-5.2 с glm-5 на @12?

Мы увеличиваем количество "прогонов" ревью флоу (семплинг) до @12, и анализируем - чего там получится по статистике находок. Увеличится ли количество найденных находок более высоких приоритетов?

Приступаем! Итак, тайминги этого большого @12 прогона флоу были в диапазоне 100-150 секунд на каждый сэмпл, с вариацией до 270s.

После dedupe этапа (дедупликации issues) и верификации - посмотрим как постарался поработать glm-5!

Напомню про glm-5 в эвале @3: найдено 12, распределение p0-p3 : 0 | 4 | 5 | 3

В новом эвале @12 Всего было найдено 101 issues, из которых 24 verified, 25 partial. То есть коэффициент верификации примерно сохраняется.

Дальше verified / partial:
p0: 0 / 1
p1: 9 / 5
p2: 12 / 17
p3: 3 / 3

▶️ Выводы: вполне себе статистика улучшается. p0 почти нашли (частичный), довольно много p1 (и подтвержденных, и частичных) и p2. По мне - так неплохое увеличение статистики за х5 компьюта

▶️ Если сравнивать с gpt-5.2: 26 итого, распределение: 2 | 8 | 8 | 8. Видно, что глубины мышления таки не хватает, чтобы вытащить p0. Но дополнительный компьют позволяет "набить" достаточно более простых p1/p2/p3.

👉 Компьют заметно улучшает результат, но выше головы прыгнуть не позволяет.

Вроде бы это было понятно и заранее, но теперь видно предметно на цифирках

Ну и для полировки картинки текущего исследования нам бы дооценить Gemini 3.1 Pro в эвале. С автоматизацией это недолго! Приступим ...

@deksden_notes

👍6

636 viewsedited 04:32

DEKSDEN notes

⚪️ Февральский eval-2 (4): добавляем Gemini 3.1 в список

#ddeval #feb2026eval2

Итак, Gemini 3.1 в эвале. Благодаря тому что Гугол поздно, но все таки расчехлился с добавлением gemini 3.1 в cli, я могу нормально провести эвал в родной гугловской упряжке (первоначально были идеи тестить в дроиде, но там кончился лимит моей мелкой подписки).

Давайте пощупаем эту Gemini 3.1 Pro Preview. Условия стандартные, сэмплинг @3, родная упряжка Gemini Cli. Поехали!

Тайминги такие: от 150s до 350s. Приличный разбег

Чего нашлось: 11 всего, верифицировано 7, частично 4 (в принципе, 100%)

А вот распределение по приоритетности: verified / partial

p0: 0 / 0
p1: 0 / 0
p2: 3 / 1
p3: 3 / 0
p4: 1 / 3

Интересно, что это единственная модель, которая нашла зачем то p4, при этом не рассмотрев p0/p1 (которые очевидно есть).

▶️ Вывод: 3.1-Pro не впечатляет по находкам issues, ищет слабовато и не особо глубоко, но verify rate = 100% что о чем то да говорит.

🟢 Уф! На этом - все ))

@deksden_notes

👍12❤‍🔥1

644 viewsedited 04:33

DEKSDEN notes

⚪️ Февральский eval-2 (5): Gemini 3.1 Pro с компьютом

#ddeval #feb2026eval2

▶️ Ну вот не выдержал я, да. Что то совсем меня разочаровал результат Гемини на стандартном @3 эвале, мне казалось у Гемини потенциал больше. Подумалось что 3 запуска - это все таки маловато, надо попробовать увеличить компьют. Фронтиром видимо не станет, но потенциал надо покопать получше!

Да, для фронтирного gpt-5.2 не надо пробовать добавлять компьют - оно и на 3-х попытках норм работает.

👉 Но посмотреть насколько в Гугловского коня будет корм хочется. Неужели модель Гемини действительно вышла такой невыдающейся? Не хочется верить - все таки AI Studio - one love.

▶️ Запустим уже условно стандартный @12 семплинг при всех тех же условиях - родная упряжка, стандартный thinking. С автоматизацией и управлением dd-review через агента это стало сделать значительно проще, конечно - просим кодекс подготовить план эксперимента, он пишет, одобряем - и в путь!

Лимитов на 12 семплов не мне хватило, что тоже является признаком времени. Даже у гугла лимиты теперь не кажутся бесконечными. Приходится ограничиваться случившимися 9 семплами, что не х4, но хотя бы х3 - не хочу ждать ресета квоты до конца суток чтобы довести эксперимент.

Словив пару багов с кодексом (да, SDK виснет перед финальным ответом с SO, я вкрутил стандартный фоллбэк на агентный процесс со схемой определенной промптом а не параметром генерации и агентным фиксом в случае ошибок схемы).

▶️ В общем, прогон с 9 семплами прошел так: пара таймингов в районе 150 секунд, но в основном 250-300 секунд. Gemini 3.1 pro довольно шустрая!

Найдено: всего 31, из которых 22 verified и 9 partial. То есть опять 100% рейт на верификацию находок! Интересно, это явно признак неплохого качества размышлений, модель не глупая.

А что с распределением: тут, к сожалению, картина не особо поменялась (verified/partial):

p0: 0 / 0
p1: 0 / 1
p2: 3 / 1
p3: 9 / 1
p4: 2 / 0

▶️ Нда. p0/p1 особо не добавились. Видимо, модели не хватает внимания/глубины проработки материала при такой широкой постановке задачи. Будем тестить эту гипотезу на фокусных тестах, посмотрим как изменится перфоманс со снижением ширины задачи.

Пожалуй, сейчас Gemini 3.1 выглядит самым слабым звеном в фронтире. Жаль. Клозеды и Антропики явно имеют модели помощнее, во и случае, для целей ревью кода.

Отмечайте - что даже glm-5 нашла 9/5 issues категории p1. Китай нагнал фронтир? Причем, мне говорят в опенкоде у glm-5 не самый лучший перфоманс, надо добить работу в claude code. Нда.. Времена!

🟢 Ну вот пора уже успокоиться с этим эвалом ))

(ц) за сим мы и закруглимся!

@deksden_notes

❤14👍3🙏1

667 views10:22

DEKSDEN notes

⚪️ Что думаете об Эвалах?

Насколько интересна и полезна тема?

Anonymous Poll

43%

Очень интересна и полезна, развивай!

22%

Норм - почитать любопытно и кое что бывает полезным

21%

В принципе ок, читаю, но не особо актуально

13%

Не особо интересно, мне интересны другие темы

136 voters692 views16:01

DEKSDEN notes

⚪️ Claude Code - Remote Control

Супер фичу выкатывают Антропики! Такой кризис менеджмент по купированию Дистил-гейта, видимо)))

В общем, официальный Remote для СС. Можно начинать сессию локально и продолжить на телефоне! Omfg - это BIG.

Надеюсь, клозеды скопируют фичу

▶️ Конечно, только для платных пользователей с подпиской: Pro / Max. Китайской зайкой так порулить не выйдет.

🔗 https://code.claude.com/docs/en/remote-control

@deksden_notes

🔥11

794 viewsedited 20:47

DEKSDEN notes

⚪️ Remote tools for Agents, v.feb-2026

На всякий случай к релизу Антропиковского Remote control опубликую свою коллекцию тулов для удаленного управления агентами разного рода. Много опенсорса. Можно запилить себе удаленное управление

——

* VibeTunnel : Turn any browser into your terminal & command your agents on the go :
https://github.com/amantus-ai/vibetunnel
https://vibetunnel.sh/
* Road Runner : Easily sync code to a remote machine and run commands there. That's it:
https://github.com/rileyhilliard/rr
* Happy : Mobile and Web client for Codex and Claude Code, with realtime voice, encryption and fully featured :
https://github.com/slopus/happy
https://happy.engineering/docs/how-it-works/
* WebTMUX : Web-based terminal with tmux-specific features :
https://github.com/chrismccord/webtmux
* Outray OutRay is an open-source ngrok alternative that makes it easy to expose your local development server to the internet via secure tunnels :
https://outray.dev/
* Remoto: Remoto creates a secure tunnel between your terminal and your phone. When you run the CLI, it spawns a local shell session and connects to our relay server via WebSocket :
https://www.remoto.sh/
* Takopi: Takopi runs coding agents on your computer and bridges them to Telegram. Send tasks from anywhere, watch progress stream live, pick up when back at the terminal. Scale from quick one-offs to multi-project workflows with topics and parallel worktrees:
https://takopi.dev/tutorials/
* Ag3ntum: a general-purpose agent wwith security in mind (Secured CC shell with remote access via web :
https://github.com/extractumio/ag3ntum
* Agent Deck: Terminal session manager for AI coding agents. Built with Go + Bubble Tea:
https://github.com/asheshgoplani/agent-deck
* HAPI : Run official Claude Code / Codex / Gemini / OpenCode sessions locally and control them remotely through a Web / PWA / Telegram Mini App :
https://github.com/tiann/hapi
https://hapi.run/
* OpenChamber: Desktop and web interface for OpenCode AI agent :
https://github.com/btriapitsyn/openchamber
* The Companion : Web & Mobile UI for Claude Code & Codex . Launch sessions, stream responses, approve tools. All from your browser / mobile
https://github.com/The-Vibe-Company/companion
https://www.thecompanion.sh/
* Claude Code Telegram Bot : A powerful Telegram bot that provides remote access to Claude Code, enabling developers to interact with their projects from anywhere with full AI assistance and session persistence
https://github.com/RichardAtCT/claude-code-telegram
* TunnelAgent : Run AI coding agents on any remote machine over SSH. No remote installation, no permissions, no relay server — just sshfs + ssh
https://github.com/SmartAppsCo/tunnelagent
https://tunnelagent.dev/
* MobileCli : Stream Claude Code, Gemini CLI, and Codex to your phone. Approve tool calls, monitor progress — from anywhere.
https://www.mobilecli.app/
https://github.com/MobileCLI/mobilecli
* TouchGrass: Use Telegram as a remote controller for Claude Code, Codex, Kimi and Pi and more. Manage your code CLIs on the go.
https://github.com/tomtev/touchgrass
https://touchgrass.sh/
* Extendo Cli: Human-in-the-loop decisions for AI agents — structured approvals, reviews, and choices via mobile push notifications
https://github.com/egradman/extendo-cli

@deksden_notes

GitHub

GitHub - amantus-ai/vibetunnel: Turn any browser into your terminal & command your agents on the go.

Turn any browser into your terminal & command your agents on the go. - amantus-ai/vibetunnel

1👍13🔥3🤓2

746 views20:59

About

Blog

Apps

Platform