ChatGPTevelopment & Promptgramming
23 subscribers
204 photos
38 videos
50 files
393 links
#ChatGPT using development & Prompt based programming – new era of coding! 🥹
#ChatGPT #GPT4dev
Download Telegram
🤖 Cursor провели кодовый марафон среди AI-агентов на недели и получили миллионы строк кода среднего качества

Cursor провёл эксперимент: можно ли масштабировать длительное автономное программирование, просто добавляя больше агентов? Оказалось — да, но с оговорками.

Что удалось навайбкодить в ходе эксперимента:
- Веб-браузер с нуля — 1М+ строк кода за ~неделю
- Миграция Cursor с Solid на React, - агенты работали 3 недели, +266K строк добавлено, удалено 193K.
- Эмулятор Windows 7 — 14.6K коммитов, 1.2М строк (в процессе)
- Клон Excel — 12K коммитов, 1.6М строк (в процессе)

Плоская структура с равнозначными агентами провалилась, - 20 агентов работали как 2-3, остальные ждали разблокировки очереди.

Без иерархии агенты избегали сложных задач и делали только безопасные мелкие правки.
Когда у общества нет цветовой дифференциации штанов, то нет цели! А когда нет цели — нет будущего!


Решение — разделение ролей:
- Планировщики — исследуют код, создают задачи, могут порождать суб-планировщиков
- Воркеры, - пилят свою задачу до конца, потом пушат в репу
- Судьи, - решают, продолжать или повторять цикл

Главный инсайт по моделям:
Codex
отменяем. GPT-5.2 оказался значительно лучше для длительной автономной работы,- лучше держит фокус, точнее следует инструкциям, не дрейфует.
Opus 4.5 склонен останавливаться раньше и срезать углы, быстро возвращая управление человеку.

Интересно, что GPT-5.2 оказался лучшим планировщиком, чем GPT-5.1-codex, хотя последний специально обучен написанию кода.

Вайб-косяки:
На Hacker News заметили — браузер не компилируется у внешних пользователей, CI не проходит.
PR миграции Solid→React назвали «невозможным для ревью». Код описывают как «крайне хрупкий».

Ключевые выводы Cursor:
- Промпты важнее архитектуры и выбора модели
- Упрощение системы часто давало лучшие результаты
- Периодические «свежие старты» обязательны чтобы не сваливаться в дрейф
- Под разные роли лучше использовать разные модели

#Cursor #агенты #GPT #Opus #AgenticCoding
———
@tsingular
Microsoft обновил бесплатный курс по агентам

на русском языке

курс охватывает базу, шаблоны, RAG, вывод в продакшен, масштабирование и системы защиты.

#Microsoft #агенты #обучение
———
@tsingular
Forwarded from AI for Devs
Для любителей LeetCode и performance-задачек: Anthropic выложили в открытый доступ своё старое тестовое задание на оптимизацию производительности.

Это не алгоритмы и не структуры данных. Задача: жёсткая оптимизация ядра виртуальной машины, где результат измеряется напрямую в clock cycles.

Стартовая реализация работает за 147 734 такта. Дальше — только код и микрооптимизации.

Для ориентира, результаты моделей Anthropic:

* 1790 — Claude Opus 4.5 в обычной сессии
* 1579 — тот же Opus 4.5 после 2 часов оптимизаций
* 1487 — после 11.5 часов
* 1363 — лучший результат Opus 4.5 в улучшенном harness

Если опускаешься ниже 1487, предлагают прислать код и резюме 😉

Робот сочинит симфонию? Робот оптимизирует ядро виртуальной машины? А человек нах*й может мне...
Forwarded from AI for Devs
До появления ИИ-агентов для программирования у меня обычно было 2-3 пет-проекта, которые я с трудом мог закончить.

ИИ полностью изменил правила игры.

Теперь у меня их 15-20.
Как говориться elevate your game with AI - ну то есть пора уже дальше двигаться.

Кто смотрел мое видео как я на работе работаю и задачки закрываю одну за другой с AI, MCP, rulers, repo indexing и тп? Там я показал реальные практические примеры, которые закрывают 90% моих повседневных задач.

Но все это ограничено 1-2 сессиями с AI, где я, как бы контролирую файлы и процесс.

Все пошло дальше. Теперь инженер может запускать 20-50 сессий и агенты работают, каждый в свой git branch и потом все это собирается в pull request.

Я пока еще не приступил к такому, но это следующий шаг в разработке, уже без IDE.

Вот что почитать:
Gastown
Multi-Claude
Claude-flow

Это все будем разбирать на Surfalytics.

Даже уже сейчас вы может через tmux запускать агентов и контролировать план задача через OpenSpec.

PS при этом 98% моих коллег, а их явно очень много практически не используют базовые возможности. На их фоне я просто супер герой производительности, я уже думаю понижать скорость и просить AI помогать мне дозировать мою сверх производительность🙈

PPS: как видите Claude code сейчас number one для разработки.

А как у вас?
Forwarded from Клуб CDO (PostoplanBot)
Команда Cursor опубликовала практическое руководство по лучшим практикам работы с агентами при написании кода.

Агенты для программирования меняют то, как создаётся софт. Не потому, что они пишут код. А потому, что они меняют само понимание «хорошей инженерии»

Вот паттерны, которые стоит позаимствовать:

- Результаты работы агента зависят от трёх вещей: инструкций, инструментов и ваших промптов. Если результаты нестабильны, не спешите винить модель. Исправляйте harness.

- Самый большой рычаг эффективности — планирование всего, что хоть немного сложнее тривиального.
Пусть агент изучит кодовую базу, прояснит требования, составит план с указанием файлов и путей — и только потом приступает к выполнению.

- Не пытайтесь «допромптить» неверное направление. Откатитесь назад, уточните план, запустите заново. В итоге — более чистые диффы и меньше странных edge case’ов.

- Начинайте новый диалог, когда меняете задачу, агент повторяет ошибки или падает качество. Продолжайте текущий — когда вы итеративно работаете над одной и той же частью или дебажите то, что он только что сделал.

- Стандартизируйте использование агентов в команде: Rules — это постоянные ограничения проекта: команды, стиль, канонические примеры. Skills — это динамические рабочие процессы: повторяемые команды, хуки, долгоживущие циклы, интеграции.

https://cursor.com/blog/agent-best-practices
Там много классных AI штук появляется на рынке, что и не успеваешь за всем уследить, в Discord Surfalytics у нас даже есть специальные канал dev-boost-with-ai, где я собираю самое важное, что может повлиять на нашу работу.

Буквально на днях увидел про Clawbot. Судя по отзывам топ инструмент, который служит персональным ассистентом и живет на локальной машине (бесплатный и открытый).

Я хотел его попробовать для автоматизации создания и мониторинга задач в Jira, Notion, Asana. У меня всегда с этим проблема, я не создаю и не обновляю задачки.

А сегодня ребята скинули пост - From Clawdbot to Moltbot: How a C&D, Crypto Scammers, and 10 Seconds of Chaos Took Down the Internet's Hottest AI Project

Эта статья рассказывает о драматической истории проекта Clawdbot (теперь Moltbot) — самостоятельно размещаемого AI-ассистента, который за 72 часа пережил настоящий хаос.
Основные моменты:

Взлёт проекта
• Clawdbot набрал 60,800+ звёзд на GitHub за рекордно короткое время
• Это был AI-ассистент с "руками" — не просто чат, а инструмент, который реально выполнял действия (доступ к файлам, браузеру, командной строке)
• Поддерживал 50+ интеграций и работал через WhatsApp, Telegram, Slack, iMessage и другие платформы

Принудительный ребрендинг
• Anthropic (создатели Claude) потребовали сменить название из-за схожести "Clawd" с "Claude"
• Проект переименовали в Moltbot (от слова "molt" — линька у омаров, символ роста)

10 секунд хаоса
• При переименовании аккаунтов GitHub и X/Twitter основатель допустил ошибку
• Криптоскамеры перехватили старые аккаунты за ~10 секунд и начали рассылать мошеннические объявления
• Появились фейковые токены
$CLAWD на Solana с капитализацией до $16 млн, которые затем обрушились

Проблемы безопасности
• Исследователи обнаружили сотни публично доступных экземпляров Moltbot с открытыми учётными данными
• Через Shodan можно было найти API-ключи, токены ботов, историю переписок и возможность удалённого выполнения кода
• Демонстрация показала, как за 5 минут можно перехватить письма пользователя через prompt injection

Вопросы к Anthropic
• Многие пользователи Moltbot использовали Claude как основную модель, фактически продвигая продукт Anthropic
• Сообщество недоумевает: зачем компания преследует проект, который увеличивал продажи их подписок?

Выводы статьи:
История показывает хрупкость экосистемы AI и open-source проектов — один юридический запрос может запустить цепную реакцию из взломов, скамов и хаоса. Проект технически остаётся сильным, но репутационный ущерб огромен.

Будьте аккуратны с новыми инструментами.
А Antropic есть станица с курсами. Я сам не проходил, но дал задание сыну (13 лет)

AI Fluency for Students
Claude 101
Claude Code in Action

Раньше
у него был VSCode + KiloCode, и он создавал простые игры. Я ему настроил Claude Code в CLI, и он сказал ему намного удобней работать в командной строке, чем в VSCode. Для меня это было неожиданно. Мне вот неудобно в CLI работать, я же не вижу файлы, которые меняется. А для него эти файлы были шумом, он сфокусирован на конечном продукте, и всякие там js, css файлы это лишняя абстракция, которую он еще не знает. Я его похвалил, что он делает крутые успехи, ведь даже в этом канале мало кто использует Claude Code😝

Конечно возникает вопрос - как же так, отдать AI весь процесс создания, а самому только смотреть на input/output. Возможно так и будет скоро и новое поколение явно будет использовать AI по другому. Я ему помог нарисовать диаграмму карандашом, что у нас происходит и как можно через API генерить картинки при загрузке страницы. Дальше я хочу, чтобы он загрузил эту игру (продукт) в Netlify (хостинг) и добавь настоящий домен. Таким образом будет пример end-to-end продукта. Я в 8 классе играл в Sims, Fallout 2 и Commandos, а тут такое раздолье. Так же каждый вечер мы слушаем summary книг про компании и бизнес и мой главный point для детей, что важна дисциплина, фокус и consistency.

На подходе у нас Mini Reachy - open source робот (300 деталей), который умеет разговорить и видеть, обязательно напишу про него, когда соберем. Еще детям очень понравились проекты от Mark Robert - Crunch Labs.

Что касается меня, то я решил параллельно работать на Cursor и на Claude Code (CLI), чтобы не отставать от трендов.

PS Вот прям сейчас AI сэкономил мне 150$. На кухне выбило пробки и перестал работать фильтр и половину розеток. В щитке я включал/выключал все - не помогло. Уже думали завтра вызвать мастера. Я сфоткал свои розетки и щиток, рассказал симптомы и получил решение - на одной из розеток на кухне есть circuit breaker, я его нашел и нажал, все заработало! Электрики скоро без работы останутся! 😆

#дети #ai
Media is too big
VIEW IN TELEGRAM
Claude 4.6 Sonnet и сбой в Матрице

Короче это буквально я сегодня утром.
Есть у меня, кто не знает, бот, который анализирует логи каналов и каждое утро присылает саммари того, что обсуждали за сутки.
Делает это бесплатно, т.е. даром.
И всё было хорошо примерно год.
40+ каналов разных - все работало без сбоев.
И тут сегодня утром вдруг он начинает сыпать ошибками разметки ни с того ни с сего, - я его этот год вообще не трогал ни разу.

А работает он, надо сказать, на Антропике - Haiku модель.

Ну и я предположил, что в Матрице Антропике, видимо, что-то поменяли и готовят релиз, ну потому, что других причин то вроде нет.

И вот, - нате получите, распишитесь:

Anthropic выкатила новый Sonnet 4.6 — дефолтная модель для Free и Pro планов в claude.ai. Цена прежняя: $3/$15 за миллион токенов.

Ключевое:
Контекстное окно 1M токенов (бета)
В Claude Code пользователи предпочли Sonnet 4.6 вместо Sonnet 4.5 в 70% случаев
Даже против Opus 4.5 (фронтир от ноября 2025) — предпочтение в 59% случаев

Серьёзный прогресс в computer use — на OSWorld бенчмарке стабильный рост за 16 месяцев (полезно для OpenClaw)

Что улучшили:
- Кодинг: меньше overengineering, меньше «лени», лучшее следование инструкциям
- Меньше галлюцинаций и ложных заявлений об успехе
- Фронтенд-код и финансовый анализ — клиенты отмечают заметно более качественный визуал
- Устойчивость к prompt injection на уровне Opus 4.6

API: claude-sonnet-4-6, поддержка adaptive и extended thinking, context compaction (бета).

По сути Sonnet 4.6 закрывает задачи, для которых раньше нужен был Opus — но по цене Sonnet.

Matrix has you Neo

#AI #Claude #Anthropic #Sonnet #агенты
———
@tsingular
Forwarded from Agentic Engineer
Зачем делят AGENTS.md / CLAUDE.md на несколько файлов

TL;DR: AGENTS.md/CLAUDE.md дробят, чтобы сужать контекст, давать правила "по месту" (для конкретного модуля) и не упираться в лимиты - и OpenAI это прямо заложила в механику Codex.

1️⃣ Контекст "по месту", а не простыня на весь репо

Идея - держать базовые правила в корне, а узкие - рядом с кодом (сервис/пакет/папка). Тогда агент подтягивает то, что релевантно текущей директории. В Codex это оформлено как "цепочка инструкций": он собирает файлы от корня проекта до текущей папки, и файлы ближе к текущей директории "перекрывают" ранние.

2️⃣ Официально поддержанные override`s и приоритеты

Codex проверяет в каждой папке сначала AGENTS.override.md, потом AGENTS.md, и берёт максимум один файл на директорию. Это и есть "переопределение правил" без копипасты всего документа.

3️⃣ Лимит размера 🔜 проще дробить, чем раздувать один файл

В документации Codex явно сказано, что он прекращает добавлять инструкции, когда суммарный размер достигает лимита (по умолчанию 32 KiB) - и прямо рекомендует разносить инструкции по вложенным директориям, если упираетесь в кап.

👇👇👇

Как это делает OpenAI у себя

Про практику OpenAI есть публичный сигнал: в обзоре формата отмечают, что у OpenAI-организации "десятки AGENTS.md" по подкомпонентам, т.е. подход именно "много маленьких по месту", а не один общий.
Плюс, сама документация Codex описывает "слоение" инструкций: глобальные (~/.codex), репо-уровень (корень) и локальные overrides (подпапки).

〰️〰️〰️〰️〰️〰️〰️〰️

Дробление AGENTS.md/CLAUDE.md - это важный инженерный приём, который привнесёт тебе следующей пользы:

🟢меньше шума в контексте,
🟢правила применяются там, где нужно,
🟢проще сопровождать,
🟢не ловить silent-truncation на лимитах.

@data_engi

#openai #agents #hack #trix #ai #llm #dev
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
⚡️ Anthropic расширила возможности skill-creator.

Anthropic перенесла часть инженерной культуры: тестирование, бенчмаркинг и итеративность в процесс создания навыков и для этого теперь не нужно уметь писать код.

В skill-creator добавили автоматические тесты, бенчмарки и A/B-сравнения и теперь создатели навыков могут измерить, работает ли skill, до его запуска в продакшен.

🟡 Центральный инструмент - evals (автотесты качества).

Автор задает тестовые промпты и описывает, как выглядит нужный результат. Skill-creator запускает их параллельно: с навыком и без него.

Независимый агент-сравниватель оценивает результаты вслепую, не зная, какая версия перед ним, и сразу показывает, дает ли навык реальный прирост.

Внутренние тесты Anthropic: точность PDF-навыка выросла с 6/8 до 7/8, Excel-навыка - с 6/8 до полных 8/8.


Отдельный бенчмарк-режим дает детальную картину по каждому прогону: процент успешных тестов, время выполнения, расход токенов.

На примере PDF-навыка при работе с незаполняемыми формами и таблицами из многостраничных документов успешность выросла с 40 до 100% (при том же времени выполнения).


🟡Evals полезны и в долгосрочной перспективе.

Если базовая модель начинает проходить тесты без загруженного навыка - это сигнал о том, что навык уже есть в ее поведении и skill можно отключить. Результаты тестов хранятся локально и интегрируются в CI-системы.

🟡Обновление улучшило триггерную активацию.

Claude решает, когда подключить навык, исключительно по короткому текстовому описанию в системном промпте.

Skill-creator теперь анализирует эти описания против тестовых промптов и предлагает правки, снижающие и ложные срабатывания и пропуски.

По результатам внутреннего прогона триггеринг стал лучше на 5 из 6 публичных навыков.


Все обновления уже доступны в вебе и Cowork. Для Claude Code обновили плагин или вот он же - в репозитории, если ставить руками.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from NN
Разрабам в кремниевой долине начали платить токенами — айтишники просят бюджеты на постоянный запуск нейронок.

Затраты на ИИ для одного инженера оценивают в $100 тыс. в год. Токены составляют до 20% от общей стоимости содержания синьора. Взамен компании ожидают кратного роста продуктивности.

Ждем подписку на ChatGPT вместо ДМС?
Надо хотя бы что-то из этого прочесть! 😅
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Data&AI Insights
One_developer,_team_power_The_future_of_AI_driven_DevSecOps.html
229.4 KB
🔗 One developer, team power: The future of AI-driven DevSecOps

📖 tgf

📌 Будущее AI-driven DevSecOps: один разработчик как команда

Введение

Распространённое представление о том, что продвинутые AI-инструменты позволят инженерам обходиться без коллег, — ошибочно.
Искусственный интеллект действительно повышает планку того, чего может достичь один разработчик, но одновременно растут и требования к его знаниям.
Инженер, использующий AI для генерации инфраструктурного кода, по-прежнему должен оценивать его безопасность.
Тот, кто применяет AI для сканирования уязвимостей, обязан понимать бизнес-логику сканируемого продукта.
Чем больше задач берёт на себя AI, тем шире должен быть кругозор для проверки его результатов.

[Полное описание в прикрепленном файле]

#AI #DevOps #программирование
Forwarded from Data&AI Insights
Why_Agents_Need_Ontology.html
3.7 MB
🔗 Why Agents Need Ontology

📖 tgf

📌 Почему агентам нужна онтология

Введение

Современные AI-агенты сталкиваются с фундаментальной проблемой: они обрабатывают разрозненные данные из множества систем, но не понимают, как эти данные связаны между собой.
Большинство основателей ошибочно полагают, что онтология — это вопрос проектирования баз данных.
На деле это задача бизнес-моделирования.
Онтология — это перевод вашего бизнеса на язык, который агенты могут интерпретировать и использовать для рассуждений.
Без неё агенты обречены работать с изолированными фрагментами информации и неизбежно ломаться в реальных сценариях.

————————

Онтология vs схема vs модель данных

[Полное описание в прикрепленном файле]

#AI #бизнес #datamodeling
Forwarded from Data&AI Insights
У вас так же?