AI: Грешно не пробовать
53 subscribers
7 photos
15 links
Личный черновик о нейросетях, галлюцинациях и цифровом будущем. Пока без структуры
https://t.me/schors
Download Telegram
Первый скилл. Создан для codex с помощью codex. Мне мне не очень нравится. Ну уж пока какой есть.
Запускает gemini cli для review последних изменений

---
name: gemini-code-review
description: Review the current repository diff with Gemini using a custom diff-only prompt, save Gemini's raw output to a file, and return a normal Codex review after triaging Gemini's findings. Use when a us
er asks for a Gemini code review or wants a Gemini second opinion on current repo changes.
allowed-tools:
- multi_tool_use.parallel
- functions.exec_command
---

# Gemini Code Review

## Overview

Use Gemini CLI as a second reviewer, not the final reviewer. Codex prepares the diff, Gemini reviews only that diff, writes its raw answer to a file, then Codex reads that file and returns a normal code review
to the user.

Do not use Gemini's upstream /code-review extension for this skill. This skill must use the local helper script and a custom prompt so the review scope stays limited to the prepared diff.
....
Ой. codex делает автокомпакт. Это не очень хорошо
🚬 Вот и разговоры по делу пошли
Поменял у кодекса модель с gpt 5.4 extra high на gpt 5.3 medium. Стало заметно лучше. Класс
☝️ Одно важное замечание. У меня есть личная подписка Plus на chatGPT. А на Claude личной нет. Я не хочу подписываться на Claude и тратить эту подписку на работу, за которую мне не заплатят (доделываю ради интереса старые долги на уже прошлой работе). Но в целях саморазвития готов потратить свои уже оплаченны

👍 Но в процессе оказалось, что это довольно интересно — сравнивать. Это дало неимоверно много нового опыта
Оказывается я не включил каменты. Причём группу создал
🤷‍♂️ Результат пасхальных выходных

• Три дня убитого времени
• Отсутствие законченного результата
• Понимание, что надо вовремя останавливаться
• Некая философская мысль, которую надо потом развернуть — что-то надо делать самому, но иметь скилл интеграции этого в то, что делает AI
• Надо хорошо планировать задачи. Это помогает и тебе, и AI
• Отработал создание скиллов. Теперь я могу начать пробовать их создавать сам и смотреть на другие
• Нужно таки заставлять себя внимательно читать промпты, скиллы, улучшения, которые сделал AI и ревьюить часть кода не просто «ну что-то похожее». Это не просто слова. Это помогает пнуть AI в нужную сторону
• codex сырой как программа — дубли сообщений, непредсказуемый вывод, неследование промптам, дурацкий сендбокс
• codex делает автоочистку контекста по ходу, что делает его малопредсказуемым
• gpt+codex сильно проигрывает claude code. До почти бессмысленности
• gemini странный, ревью почти всегда пустой
• Сделал первый рабочий issue lifecycle. Ничего так даже. Но с постоянными ручными подтверждениями из скиллов запуска чего-либо — раздражает и смысл теряется
AI: Грешно не пробовать
🤷‍♂️ Результат пасхальных выходных • Три дня убитого времени • Отсутствие законченного результата • Понимание, что надо вовремя останавливаться • Некая философская мысль, которую надо потом развернуть — что-то надо делать самому, но иметь скилл интеграции…
🚩 После потраченных вхолостую выходных (с сидением за клавиатурой до 4 утра), вопрос красных линий встал остро. И я думаю это один из ключевых вопросов в принципе. То или иное решение которого помогает эффективно использовать AI
Новая модель Anthropic нашла тысячи уязвимостей в ОС и браузерах

В Anthropic утверждают, что новая, ещё не вышедшая модель Claude Mythos, за несколько дней нашла тысячи zero-day уязвимостей во всех основных операционных системах и браузерах. И всё это почти полностью автономно, без управления со стороны людей.

Примеры найденного Mythos:
— 27-летняя уязвимость в OpenBSD (одной из самых защищённых ОС в мире), позволяющая удалённо «уронить» любую машину простым подключением к ней
— 16-летняя уязвимость в FFmpeg (используется почти всем софтом для работы с видео) — в строке кода, которую автоматические тесты проверяли 5 миллионов раз и ни разу не поймали
— Цепочка уязвимостей в ядре Linux, позволяющая получить полный контроль над сервером

В Anthropic понимают, что AI уже способен находить и эксплуатировать уязвимости на уровне лучших специалистов. Скоро эти возможности будут у всех, включая тех, кто не собирается использовать их во благо.

Чтобы дать защитникам фору, Anthropic запустил инициативу Project Glasswing. Более 40 компаний получили доступ к Mythos Preview и 100 миллионов долларов в usage credits. В списке AWS, Apple, Google, Microsoft, NVIDIA и другие. Они смогут использовать Mythos для поиска и закрытия уязвимостей в собственной инфраструктуре до того, как модели такого уровня попадут в руки злоумышленников.

https://www.anthropic.com/glasswing
Что-то я никак не приспособлюсь к issue track. У нас вот есть условно "мысль". Мысль сделать "вот так". Это там "фишка" может быть, или вот сообщение об ошибке. И у "мысли" как-будто бы есть свой трек. "Изучить. Вопрос. Поправить концепт. Сделать ревью. Повторить. Если всё норм, начать составлять cолюшн дизайн. В итерации. Когда СД готов, план решения в итерации. По плану разбить сабтасочки. Дождаться выполнения. Посмотреть получился ли чеклист принятия работы. Итерация."

А вот сабтасочки имеют свой трек. План в итерации. Имплементация. Ревью с возвратом к плану поправки в итерации.

А ещё так же идёт и "продуктовая мысль". Которая производит фишки. И так далее
Многие инфлюенсеры и специалисты пишут, что не надо делать огромные AGENTS.md/CLAUDE.md. Boris Cherny, Andrej Karpathy. Куда не гляну — везде репы с гигантскими CLAUDE.md и скиллами. И все их рекомендуют и обмениваются. Я запутался

Да. Моё мнение, что файлы должны быть небольшими. Все эти несколько экранов "пиши мне как маменькиному цветочку" приводят к тому, что суть теряется в строгом tone of voice, Ну и прочие подробности так же
Открыл для себя Agent Client Protocol:
https://agentclientprotocol.com/get-started/introduction

Это типа Language Server, но для агентов

А ещё https://developers.openai.com/codex/app-server - это глубокая, но нестабильная, интеграция с codex

Зачем? Мне импонирует идея агентов, которые используют разные подписки. Тот же ревью или second look. Да, например Codex plugin for Claude Code сделан через app-server
🥃 Я тут написал красивый пост про сплит туннеллинг
https://t.me/usher2/4059

⚔️ Мне кажется это хороший повод для пытливых умов вооружиться взводами AI-агентов и наклепать всякого control plain для VPN. С аналитикой, тестами, PoC и даже MVP

🧪 Что требуется?
- Open Source, что-то типа MIT/Apache/BSD/Public domain/WTFPL, чтобы сервисы могли брать себе в коммерцию
- просто и коротко, должно проскакивать при плохой связи
- маршруты с весами и метками, чтобы например два VPN подключения могли ещё и отдавать приоритеты, или можно было спрашивать только отдельные маршруты
- сопутствующая информация, типа список меток. типа меш
- распространение точек взятия конфигов (откуда можно сейчас обновить актуальный конфиг для сервиса)
- подсказки по протоколам и точкам в этой сети, чтобы типа "Q: сейчас я с мобилки в МТС A: У тебя хорошо зайдёт outline на такие зоны подключений и xray/reality на такие зоны, а awg вообще не будет работать"
- придумайте сами
❤‍🔥3👎1😱1🤪1
Попытка изобразить грозу с помощью AI
https://www.facebook.com/peter.mordkovitch/posts/pfbid0uogEnB38uqNAi2oWJfxtaAYhJeDEyVur4iQioHEiDULgCFQ8ERPnaXafwvVfHAWwl

(c Днём Рождения, Алла Борисовна)
Forwarded from do...while...ai (Gregory is typing...)
Переключаемся с Claude Code на бесплатный чатбот от Макдака
😁3
Сбой в работе ChatGPT длится уже больше часа

Claude тоже падал, но поднялся быстрее.

https://status.openai.com/incidents/01KPNN2V2SMP3TAN3MCJK87W50
😁1😱1🤪1
https://x.com/TheAmolAvasare/status/2046724659039932830

Anthropic без объявления войны убрала Claude code из Pro подписки. Но в Twitter пишут, что это управляемый пранк... Шутники...
AI: Грешно не пробовать
Anthropic такой «у на всё тормозило, мы поправили и сделали отчёт»: https://x.com/claudedevs/status/2047371123185287223 Отчёт: https://www.anthropic.com/engineering/april-23-postmortem Потом почитаю
Три ключевые причины деградации

Регрессия в Agent SDK (Harness): Из-за ошибки в обновлении логики «планирования» (planning cycle), агент начал игнорировать часть контекста из предыдущих шагов. Это приводило к тому, что Claude «забывал», что он уже сделал, и начинал ходить по кругу.

Ошибка в конфигурации токенов (Context Window): В одной из версий Claude Code был неверно задан лимит токенов для краткосрочной памяти. Это заставляло систему слишком рано сжимать (summarize) историю диалога, из-за чего терялись важные технические детали кода.

Конфликт системных промптов: Было внесено изменение в промпт, отвечающий за использование инструментов (tool use), чтобы ускорить ответы. Однако это вызвало побочный эффект: модель стала слишком «ленивой» и пыталась выполнить сложные задачи за один шаг вместо последовательного исправления ошибок.

(c) Gemini
😁3😱1🤪1