Вайб-кодинг
40.2K subscribers
1.73K photos
669 videos
30 files
997 links
Авторский канал по ВАЙБ КОДИНГУ

Ссылка для друзей: https://t.me/+ll3pbl442dNkZmYy

Cотрудничество: @devmangx
По контенту: @agonycurse

РКН: https://clck.ru/3RRVfk
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Появился новый подход для RAG, который:

- уменьшает размер корпуса данных в 40 раз;
- снижает количество токенов на запрос в 3 раза;
- повышает релевантность векторного поиска в 2.3 раза.

И всё это в open-source. Читать подробности 😈
Please open Telegram to view this post
VIEW IN TELEGRAM
Microsoft выпустила waza — CLI-инструмент на Go для системной оценки качества Agent Skills.

Может быть полезен для повышения качества разработки агентов и построения бенчмарков.

исходники 🐀
Please open Telegram to view this post
VIEW IN TELEGRAM
Дай любому ИИ-агенту полный контроль над файлами Office: OfficeCLI 🤩

Создан специально для ИИ-агентов. Позволяет работать с документами Word, Excel и PowerPoint без установки офисного пакета, прямо из терминала. Поддерживаются создание, чтение и изменение файлов, что удобно для автоматизации.

После установки , агенты по типу Claude Code и Cursor, могут обрабатывать офисные файлы автоматически.
Типовые сценарии:

- пакетное изменение Excel-файлов через скрипты
- генерация Word-документов
- обработка презентаций PPT
- автоматизация без ручного открытия файлов

Бесплатный, с открытым исходным кодом, один бинарный файл.
Please open Telegram to view this post
VIEW IN TELEGRAM
Сохраняем в коллекцию MCP-инструментов: CodexSaver

Он выносит низкорисковые задачи из Codex в DeepSeek, оставляя дорогим моделям только принятие решений. В тестах на пяти задачах средняя экономия составила 48%, задержка — около 6 секунд.
This media is not supported in your browser
VIEW IN TELEGRAM
Исследователи нашли способ ускорить большие языковые модели в 8.5 раза? 🤓

Спекулятивное декодирование — довольно эффективный способ решить проблему узкого места одного токена в традиционном инференсе больших языковых моделей.

Сначала маленькая черновая модель генерирует несколько следующих токенов, затем большая модель проверяет их все сразу за один прямой проход.

Если токен на любой позиции оказывается неверным, сохраняется всё до него, после чего генерация продолжается с этой точки. Такой подход никогда не работает хуже обычного декодирования.

Но текущие черновые модели в спекулятивном декодировании всё ещё предсказывают токены по одному. Из-за этого сам этап черновой генерации становится узким местом, ограничивая ускорение в реальных сценариях примерно 2–3 разами.

DFlash — новая техника, которая заменяет авторегрессионную черновую модель на облегчённую блочную диффузионную модель, предсказывающую все токены параллельно за один проход.

Стоимость черновой генерации остаётся постоянной независимо от количества спекулятивно предсказываемых токенов.

Дополнительно черновая модель получает скрытые признаки из нескольких слоёв целевой модели, которые внедряются в каждый слой генерации черновика. Благодаря этому она делает заметно более точные предсказания по сравнению с моделью, работающей без такого контекста.

В демонстрации выше обычное декодирование работает со скоростью 48.5 токена в секунду. DFlash достигает 415 токенов в секунду на той же модели без какой-либо потери качества.

Техника уже интегрирована в vLLM, SGLang и Transformers, а модели для черновой генерации доступны на HuggingFace для Qwen3, Qwen3.5, Llama 3.1, Kimi-K2.5, gpt-oss и многих других моделей.

- репозиторий на GitHub

KV-кэширование — ещё одна обязательная техника для ускорения инференса больших языковых моделей. Вот об этом статья.
Please open Telegram to view this post
VIEW IN TELEGRAM
Слева - водяной знак, который GPT Image 2 встраивает в каждое сгенерированное изображение.
Справа - отпечаток SynthID, который Google встраивает в каждое изображение Nano Banana и Gemini.

Невидим для человеческого глаза. Добавляется во время генерации, а не постфактум. Спроектирован так, чтобы сохраняться после скриншотов, обрезки и сжатия.

Большинство юзеров не осознают, что их вывод помечается на уровне пикселей. Почти все крупные генераторы фоток маркируют контент, и эта метка сохраняется при любом дальнейшем распространении.

Это можно проверить самостоятельно. Content Credentials Verify обнаруживает C2PA-метаданные в изображениях OpenAI. Gemini определяет SynthID при прямой загрузке изображения.

btw: вот исследование, показывающее рабочий обход SynthID от Google на Nano Banana Pro
Думаю, для GPT скоро тоже сделают реверс-инжиниринг таких механизмов 😈
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Безопасники, это для вас: Daybreak

Daybreak объединяет самые мощные модели OpenAI, Codex и партнёров по безопасности, чтобы ускорить процессы киберзащиты и обеспечить непрерывную защиту ПО.

- Находите и устраняйте уязвимости
- Разгружайте накопившийся бэклог безопасности
- Автоматизируйте обнаружение, валидацию и реагирование на угрозы
Как вам такое: Zenbu.js — фреймворк для хакерского/модифицируемого софта

Идея была в том, чтобы можно было редактировать используемые приложения прямо через код-агентов. Из этого вырос Zenbu.js

Zenbu.js позволяет собирать десктоп-приложения, которые пользователь может менять уже после установки. Это достигается за счёт:

- поставки приложения с исходным кодом
- встроенной системы плагинов для расширения логики

npx create-zenbu-app@latest


Приложения на Zenbu.js работают по модели, где нет жёсткого разделения между продом и разработкой. Пользователь может менять приложение так же, как разработчик во время разработки.

Установка Zenbu.js-приложения по сути означает клонирование репозитория на локальную машину и запуск в режиме разработки. Любые изменения в этом клоне сразу отражаются в запущенном приложении через горячую перезагрузку.

Есть демо и документация в репозитории.
This media is not supported in your browser
VIEW IN TELEGRAM
Превращаем агентов в дизайн-исследователей: Lazyweb

Собирает 250 тыс. экранов рабочих приложений, чтобы искать готовые паттерны и опираться на лучшие решения при создании интерфейсов.

Легко подключается к Claude, Codex или Cursor через MCP. Можно собирать референсы и вручную.

Доступен бесплатно и без лимитов. 😃
Please open Telegram to view this post
VIEW IN TELEGRAM
В Codex добавили импорт из Claude / Claude Code – можно в один клик перенести проекты, диалоги и продолжить работу с того же места

https://chatgpt.com/codex/switch-to-codex/
This media is not supported in your browser
VIEW IN TELEGRAM
Новое в Claude Code: agent view – единый список всех ваших сессий

Теперь все активные агентские сессии видны на одном экране: что сейчас выполняется, что ждёт вашего ответа, а что уже завершено. На запрос агента можно ответить прямо из общего списка, без перехода в отдельную сессию.

Фича уже доступна на всех платных планах в формате research preview 👍

https://claude.com/blog/agent-view-in-claude-code
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Небольшой совет по OpenAI Codex:

Необязательно ограничиваться просмотром только одного трэда за раз.

Можно открыть сразу несколько полноценных окон параллельно и работать с несколькими задачами одновременно.

Команда /side позволяет форкнуть текущий диалог в отдельную ветку для временных уточнений или дополнительных вопросов, не засоряя основной контекст.

Также можно назначить хоткей для всплывающего окна Codex, чтобы быстро запускать новые задачи буквально в одно нажатие. 🫡
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Как заставить Claude работать, пока задача не будет доведена до конца?

Claude Code помогает с этим несколькими способами, включая одну функцию, которую недавно зарелизили: /goal

Задаёте условие завершения — и Claude продолжает работать, пока оно не будет выполнено:
/goal all tests in test/auth pass and the lint step is clean


Это цикл Ralph, встроенный в Claude Code. Каждый раз, когда Claude пытается остановиться, он сверяет ваше условие с текущим логом выполнения.

Не выполнено? Продолжает работать.
Выполнено? Получаете сводку «Goal achieved».

Также есть /loop, чтобы запускать Claude в цикле.
Отлично подходит для итеративного рефакторинга, зачистки кода или разгребания бэклога.

/schedule запускает Claude по расписанию.
Ночные прогоны тестов, утренний triage, еженедельная зачистка.

stop hook даёт программный контроль над тем, когда Claude разрешено завершить работу.
Запускайте свой набор тестов, дёргайте endpoint CI, ставьте любые условия, какие вам нужны.

Долгие автономные прогоны работают только в том случае, если Claude не приходится ждать вашего участия.
Для этого есть auto mode, который можно включить через Shift + Tab в CLI или через селектор режимов в десктопной версии.

Документация здесь 🏁

btw: в Codex тоже недавно добавили /goal
Please open Telegram to view this post
VIEW IN TELEGRAM
/goal - сейчас лучшая команда в Codex, Claude Code и Hermes.

Но большинство используют её не так. Они пишут: «не допусти ошибок». И просто надеются.

Снизу показана структура промпта для реальной задачи: чтобы ранжировать неопределённости перед действием, убивать scope creep и закрывать все незакрытые циклы, которые обычно оставляют другие промпты.

/goal prompt [структура ниже]

GOAL:
<один чёткий, измеримый результат; только одна задача>

CONTEXT:
<репозиторий / файлы / архитектура / текущее состояние>
<известные допущения, зависимости и релевантные предыдущие решения>

CONSTRAINTS:
<что нельзя изменять>
<обязательные стандарты / паттерны>
<запрещённые файлы / действия, если есть>

PRIORITY: (необязательно)
<наивысший приоритет>
<вторичный приоритет>
<третичный приоритет>

PLAN:
<сначала разобраться, потом действовать>
<перед нетривиальными изменениями пересказать своё понимание задачи>
<предпочитать минимально достаточные изменения вместо масштабных переписываний>

DONE WHEN:
<проверяемое состояние завершения>
<ожидаемое поведение сохранено или улучшено>

VERIFY:
<тесты / сборка / lint / typecheck / ручная валидация>
<указать, что не удалось проверить и почему>
<включить rollback-план или меры локализации для деструктивных либо high-risk изменений>

OUTPUT:
<краткое summary / документация / audit / результаты>
<изменённые файлы, ключевые решения, риски и дальнейшие шаги>

STOP RULES:
<останавливаться при неоднозначности или риске с высоким impact; не выдумывать архитектуру, поведение или требования>
<показывать неопределённости вместе с ранжированными вариантами с наибольшей уверенностью перед действием, а не задавать открытые уточняющие вопросы>
<не расширять scope после достижения цели>
8
This media is not supported in your browser
VIEW IN TELEGRAM
Теперь любой может создавать RL-среды для обучения. Для этого разработали скилл - RL_Envs_101

- Можно создавать среды в нескольких фреймворках, таких как OpenEnv, OpenReward, Verifiers, NemoGym и др
- в репозитории есть живые рабочие примеры сред, на которые может ссылаться ваш кодинг агент
- скилл изначально рассчитан на то, чтобы определить, какой тип модели вы обучаете, и уже с учётом этого создавать среду


ps. В создании RL-сред для обучения есть гораздо больше аспектов. Один из ключевых это данные, которые этот скилл напрямую не решает. Однако скилл помогает реализовывать инструменты, награды и другие компоненты RL-среды, упрощая переход от идеи к реализации и позволяя быстрее собирать решения на разных фреймворках.

Но это всё ещё очень ранняя версия работы и, скорее всего, сильно изменится.

Установка: $ npx skills add adithya-s-k/RL_Envs_101

btw: репо открыт для вклада в проект и предложений по улучшению. 😀
Please open Telegram to view this post
VIEW IN TELEGRAM
GPT Model Hub — подключайте мощные LLM к своему проекту за пару кликов.

MWS GPT Model Hub — облачный сервис MWS Cloud для работы с LLM без развёртывания собственной ML-инфраструктуры. Внутри — модели от DeepSeek, Google, Alibaba, Zhipu AI, BAAI и Kimi K2 Instruct от Moonshot AI.

Что удобно:

• ️️️️️️️️️️Быстрая интеграция в любые сервисы и пайплайны по OpenAI-совместимому интерфейсу.

• ️️️️️️️️️Понятная детализация расходов по проектам и командам.

Можно легко тестировать разные модели, собирать пайплайны и встраивать LLM в рабочие процессы без лишней сложности.

Если давно хотели попробовать LLM или внедрить их в продукт — сейчас отличный момент.

Кстати, до 15 июля снизили цены: входящие токены — до −95%, исходящие — до −80% — особенно выгодно для сценариев с большим контекстом.

👉 Попробовать
> Пока ты работаешь с языковыми моделями:
> обучаешь или дообучаешь свои модели,
> выбираешь модель под задачу,
> или пытаешься понять текущее состояние области,

почти неизбежно возникает вопрос:
как понять, что модель хорошая?

> Ответ — оценка качества. Она везде:
> лидерборды с рейтингами моделей,
> бенчмарки, которые якобы меряют рассуждения,
> знания, кодинг или математику,
> статьи с заявленными новыми лучшими результатами.

Но что такое оценка на самом деле?
И что она реально показывает?

Этот гайд от Hugging Face помогает во всём разобраться. 🌟
Please open Telegram to view this post
VIEW IN TELEGRAM