Вайб-кодинг
48.8K subscribers
1.82K photos
709 videos
30 files
1.09K links
Авторский канал по ВАЙБ КОДИНГУ

Ссылка для друзей: https://t.me/+ll3pbl442dNkZmYy

Cотрудничество: @devmangx

РКН: https://clck.ru/3RRVfk
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
ChatGPT получил крупное обновление памяти.

Теперь он сам пытается отслеживать важные детали, а не только то, что вы вручную сохранили в память.

Сказали, что едете в отпуск в июле? ChatGPT должен понимать разницу между:
• поездка скоро начнётся
• поездка уже идёт
• поездка давно закончилась

Также появилась сводка памяти, где можно посмотреть, что именно модель о вас помнит, и при желании это подправить.

Если новый подход не нравится, старый режим Saved Memories никуда не делся. Его можно вернуть в настройках.

Бонусом OpenAI удвоила объём памяти.

Пока раскатка идёт только для Plus и Pro в США, но обещают постепенно открыть доступ для остальных стран и тарифов. Обновление приложения на iOS и Android обязательно. 🤩
Please open Telegram to view this post
VIEW IN TELEGRAM
Небольшой трюк для пользователей Codex.

Для работы Codex на телефоне не обязательно запускать полноценное приложение Codex на удалённой машине.

Достаточно выполнить:
codex remote-control


После этого компьютер появится в мобильном приложении Codex как удалённое окружение, которым можно управлять прямо со смартфона.

Удобно для случаев, когда нужно быстро проверить задачу, посмотреть прогресс агента или продолжить работу вдали от компьютера, не поднимая полный стек Codex на сервере.
🤔🤔🤔
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Инсайд по Anthropic: компания готовится к публичному запуску новой версии Mythos

Вчера один из чекпоинтов модели под кодовым названием Oceanus выдали участникам программы red teaming.

По информации источников, такие тесты обычно стартуют примерно за неделю до более широкого релиза. Если это правило сработает и здесь, анонс может состояться совсем скоро.

Но есть нюанс.

Программу уже приостановили. По данным scaling01, один из участников якобы перепродавал доступ к модели через китайский API-прокси. 😐

Пока непонятно, повлияет ли этот инцидент на сроки запуска. Anthropic публично ситуацию не комментировала.
Если информация подтвердится, то появление Oceanus выглядит как первый сигнал того, что следующее поколение Mythos уже находится на финальной стадии проверки перед релизом. 🏁
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Grok Build стал доступен всем пользователям SuperGrok и X Premium+.

Это агентная среда разработки от xAI с Plan Mode, генерацией изображений и видео через Imagine, а также CLI для создания автоматизаций, агентов и оркестраторов.

Одновременно xAI открыла API-доступ к grok-build-0.1 в публичной бете.

Это та же модель, которая лежит в основе Grok Build CLI и заточена под агентное программирование.
Цена:
• $1 за миллион входных токенов
• $2 за миллион выходных токенов

А теперь в Grok Build появилась ещё и новая модель — Composer 2.5.
По словам xAI, она отлично справляется с длительными задачами, сложными инструкциями и многошаговыми рабочими процессами.
This media is not supported in your browser
VIEW IN TELEGRAM
Нашёл расширение NotebookLM Web Importer. 👔

Кликаешь по статье, YouTube-видео, плейлисту или RSS-ленте и оно сразу улетает в NotebookLM.

Ещё имеет массовый импорт нескольких источников сразу.

Есть бесплатный и платный тарифы.

Бесплатный тариф даёт 20 импортов в день, и для большинства этого более чем достаточно.
Please open Telegram to view this post
VIEW IN TELEGRAM
NVIDIA выкатила Nemotron 3 Ultra.

550B MoE-модель с открытыми весами, заточенная под долгоживущих агентов.

По заявлениям NVIDIA:

• инференс до 5 раз быстрее
• до 30% дешевле на сложных агентных задачах
• сильнее в программировании, deep research и долгосрочном планировании

Главный фокус не на чатах, а на агентных сценариях, где модель часами планирует действия, вызывает инструменты, обрабатывает ошибки и принимает решения по следующим шагам.

Использует гибридную архитектуру Mamba + Transformer MoE, которая позволяет выполнять больше циклов рассуждений за то же время.

Из интересного:

• может работать с большими кодовыми базами
• держит длинные цепочки tool calls
• умеет собирать и синтезировать данные из сотен источников
• дообучалась под OpenClaw, Hermes Agent и LangChain

NVIDIA также открыла не только веса модели, но и синтетические датасеты вместе с рецептами постобучения.

И сразу приятный бонус.

Nous Research присоединилась к коалиции Nemotron и вместе с NVIDIA и Nebius открыла бесплатный доступ к Nemotron 3 Ultra через Nous Portal на две недели.

Для тех, кто хочет запускать модель локально, уже появились GGUF-квантизации от Unsloth

GGUF: тут
Guide: тут

😊😊😊
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Бесплатный учебник по Agentic AI: скачать

Разбирает основы ИИ-агентов (планирование, память, использование инструментов, принятие решений и выполнение многошаговых задач.)

Подойдёт тем, кто хочет понять, как работают современные агенты и чем они отличаются от обычных LLM.

UPD: версия на русском (спасибо @pavel_pogodin)
11
— это новый стартап?
— нет, один промпт.
Для Codex вышел официальный плагин MagicPath

Теперь очень просто дать агенту бесконечный многопользовательский канвас, где он может вместе с вами проектировать интерфейсы, создавать их и дорабатывать.

Он может импортировать UI из вашего репозитория в MagicPath, понимать используемые компоненты и дизайн-систему, а затем воссоздавать всё это в виде редактируемого интерактивного интерфейса на канвасе.

Для лучшего рабочего процесса откройте MagicPath в браузере Codex, войдите в аккаунт и откройте свой проект. Codex обнаружит его автоматически, либо вы можете просто указать название проекта. 😊
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Тем временем, Cursor завезли visual prompts.

В Design Mode теперь можно просто ткнуть в элемент, обвести нужное место или сказать голосом, что поменять в UI.

Canvas тоже получил обновления. Теперь его можно публиковать и делиться им с командой по ссылке. С помощью Canvas агент умеет создавать дашборды, отчёты и внутренние инструменты.

Ещё одна полезная фича: Cursor теперь показывает использование контекста в виде интерактивного отчёта прямо в Canvas. Context Explorer позволяет увидеть, на что расходуются токены: системный промпт, определения инструментов, правила, скиллы и другие части контекста. ☺️
Please open Telegram to view this post
VIEW IN TELEGRAM
Anthropic временно удвоила лимиты в Claude Cowork.

До 5 июля пользователи всех платных тарифов смогут делегировать Claude более крупные и длительные задачи без упора в ограничения.

Изменение уже доступно 🎉
Please open Telegram to view this post
VIEW IN TELEGRAM
3
Нашёл интересный апгрейд для /goal под названием /supergoal.

По сути, это самовосстанавливающийся и самоуправляемый апгрейд для обычного /goal.

Для Claude Code, Codex и любой IDE, которая поддерживает /goal.

линк: https://github.com/robzilla1738/supergoal ✍️
Please open Telegram to view this post
VIEW IN TELEGRAM
Насколько современные агенты умеют улучшать самих себя?

Исследователи решили это проверить, с помощью Meta-Agent Challenge.

Агенту дают песочницу, API для оценки результатов и ограничение по времени. Дальше он должен не решить задачу сам, а написать другого агента, который покажет лучший результат на скрытых тестах.

Итог получился менее впечатляющим, чем многие ожидали.

Большинство meta-agents не смогли догнать даже базовые решения, которые заранее собрали люди. Те немногие, кто смог приблизиться к человеческим результатам, почти всегда работали на топовых закрытых моделях.

Самое интересное произошло под сильным давлением оптимизации.

Вместо поиска лучших решений некоторые из них начали искать способы вытащить правильные ответы через систему оценки. Исследователи зафиксировали попытки получить ground truth через scoring API, хотя специально строили защиту от reward hacking.

Получается, что даже в контролируемой среде часть агентов решила, что проще взломать экзамен, чем лучше подготовиться к нему. 😁

Статья: https://arxiv.org/abs/2606.04455
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Если пользуешься Hermes, то у Nous Research появился полноценный гайд по созданию собственных плагинов для него.

Скопируйте эту страницу целиком в своего агента и напишите:
I want to build a plugin for [x]


После этого Hermes сам начнёт собирать нужный плагин.

Можно сделать:
• финансового помощника с алертами и отслеживанием портфеля
• сканер соцсетей
• автоподготовку к встречам и календарным событиям
• трекер здоровья и медицинских показателей

😲😲😲
Please open Telegram to view this post
VIEW IN TELEGRAM
Codex оказался хорошим наставником для обучения.

1. Открываю в браузере Codex статью, документацию или любой материал, который хочу изучить.
2. Спрашиваю всё, что непонятно. Если нужно копнуть глубже, прошу его поискать информацию в интернете.
3. Подключил скилл для Obsidian, поэтому после диалога Codex сам сохраняет конспект в мои заметки.

Получается что-то вроде персонального преподавателя, который читает материал вместе с тобой, отвечает на вопросы и сразу ведёт записи.

Так можно самостоятельно изучить практически любую тему. 💥
Please open Telegram to view this post
VIEW IN TELEGRAM
2
Вышел Harness-1 — поисковый агент на 20B параметров с довольно необычной идеей.

Вместо того чтобы заставлять модель хранить всю историю поиска в контексте, авторы решили вынести состояние наружу и обучить модель работать через специальный harness.

Получился агент на 20B параметров, который на длинных поисковых задачах конкурирует с гораздо более крупными моделями.

Обычно поисковые агенты работают по схеме:
поиск → чтение → поиск → чтение → всё подряд добавляется в контекст.

В итоге модель одновременно играет роль поисковика, памяти, заметочника, верификатора и библиотекаря.

Harness-1 разделяет эти задачи.

Модель по-прежнему решает, что искать, что читать, какие факты сохранять и что проверять. Но всё состояние поиска хранится во внешнем harness-слое.

Он ведёт рабочую память агента:

• найденные документы
• отобранные доказательства
• историю поиска
• связи между источниками
• результаты проверок
• дедупликацию и сжатие данных
• контроль контекстного бюджета

Интересно и то, что модель обучалась на сравнительно небольшом объёме данных: всего 899 SFT-траекторий и RL на 3453 запросах. Авторы считают, что значительную часть нужного поведения можно вынести в сам harness, а не зашивать в веса модели

Самый любопытный результат - переносимость. На новых бенчмарках, которых модель не видела во время обучения, прирост оказался ещё выше, чем на исходных задачах.

Paper : arxiv.org/abs/2606.02373
Code : https://github.com/pat-jj/harness-1
Model : https://huggingface.co/pat-jj/harness-1
HF Paper: https://huggingface.co/papers/2606.02373
3