ChatGPTevelopment & Promptgramming
23 subscribers
204 photos
38 videos
50 files
393 links
#ChatGPT using development & Prompt based programming – new era of coding! 🥹
#ChatGPT #GPT4dev
Download Telegram
Forwarded from Data&AI Insights
ARC_AGI_3_A_New_Challenge_for_Frontier_Agentic_Intelligence.html
85.2 KB
🔗 ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

📖 tgf

📌 ARC-AGI-3: Новый бенчмарк для оценки агентного интеллекта

Суть исследования

ARC Prize Foundation представила ARC-AGI-3 — интерактивный бенчмарк нового поколения, предназначенный для оценки способности AI-агентов к адаптивному поведению в незнакомых средах.
Ключевой вывод исследования: современные передовые AI-системы (по состоянию на март 2026 года) решают менее 1% задач бенчмарка, тогда как люди справляются со 100% задач.
Этот разрыв демонстрирует фундаментальную разницу между человеческим общим интеллектом и возможностями существующих AI-систем в области исследования и адаптации.

————————

Дизайн бенчмарка

[Полное описание в прикрепленном файле]

#AI #исследования #машинноеобучение
Forwarded from Data&AI Insights
Агенты, которые работают руками: как Google меняет правила игры в разработке

Google выпустил инструмент, который переворачивает привычное представление об IDE. Google Antigravity — это не просто редактор кода с ИИ-помощником. Это платформа, где искусственный интеллект сам управляет процессом разработки, а человек выступает наблюдателем и наставником.

В центре этой системы три ключевых элемента. Правила задают агенту базовые ограничения и стиль работы. Навыки содержат готовые инструкции для конкретных задач. А рабочие процессы связывают всё это вместе, превращая разрозненные команды в цепочки автоматических действий.

Звучит как очередная красивая концепция, но давай разберёмся, что это реально даёт на практике. В статье на KDnuggets показан конкретный пример: настройка агента для проверки качества Python-кода. Создаётся правило PEP 8, готовится навык для генерации pytest-тестов, а затем всё это оборачивается в рабочий процесс под названием qa-check. Агент анализирует файл, находит баги, исправляет форматирование и сам пишет unit-тесты. Без участия человека. Без установки дополнительных инструментов.

Вот что меня зацепило больше всего. Для создания навыка не нужно уметь программировать. Достаточно написать инструкцию на понятном английском языке в формате чек-листа. То есть экспертиза в предметной области превращается в готовый к использованию модуль. Маркетолог может сделать навык для генерации SEO-контента. DevOps-инженер — для автоматизации деплоя. И все эти навыки переиспользуются от проекта к проекту.

Технически это решает серьёзную проблему контекстного истощения. Когда ИИ получает слишком много информации разом, он начинает путаться и тупить. Antigravity использует подход под названием progressive disclosure — загружает только то, что нужно для текущей задачи. Это снижает задержки и уменьшает стоимость операций.

Если отойти от технических деталей, суть в следующем. Мы привыкли к тому, что ИИ помогает человеку писать код быстрее. Antigravity делает шаг дальше — убирает человека из цикла выполнения рутинных задач. Человек остаётся на уровне архитектуры, стратегии и контроля качества решений. Это принципиально другой уровень абстракции в работе с интеллектуальными системами.

Конечно, есть и ограничения. Нужно железо для запуска локальных моделей и агентов. Сообщество пока только формируется. И грамотно описать навык — это тоже навык, который требует практики. Но направление движения очевидно. Инструменты типа Antigravity показывают, что будущее разработки — это не про то, как писать код быстрее. Это про то, как сделать так, чтобы код писался вообще без участия человека в операционной части.

Источник: https://www.kdnuggets.com/build-better-ai-agents-with-google-antigravity-skills-and-workflows

#AI #python #mlops
Forwarded from Data&AI Insights
Субагенты_в_agent_coding_что_это,_зачем_нужны_и_чем_отличаются_.html
9.9 MB
🔗 Субагенты в agent coding: что это, зачем нужны и чем отличаются в Cursor и Claude Code

📖 tgf

📌 Субагенты в agent coding: что это, зачем нужны и чем отличаются в Cursor и Claude Code

[Полное описание в прикрепленном файле]

#AI #программирование #технологии
Forwarded from Data&AI Insights
🔗 Andrej Karpathy on X: "LLM Knowledge Bases

✏️ LLM-базы знаний: личный подход Андрея Карпатого

Андрей Карпатый делится методологией использования больших языковых моделей для создания персональных баз знаний. По его словам, значительная часть потребления токенов сместилась от работы с кодом к манипуляции со знаниями — статьями, документами, изображениями.

————————

✏️ Архитектура системы

Система строится на трёх компонентах:

1. Raw-директория — хранилище исходных материалов: статьи, научные публикации, репозитории, датасеты, изображения
2. Скомпилированная wiki — набор .md файлов в структурированной директории
3. Интерфейс — Obsidian как IDE-фронтенд для просмотра данных, wiki и визуализаций

Перевод веб-статей в .md осуществляется через расширение Obsidian Web Clipper. Параллельно Карпатый использует горячую клавишу для скачивания связанных изображений локально — чтобы LLM имела к ним доступ.

————————

✏️ Компиляция и структурирование

LLM автоматически «компилирует» wiki из raw-данных:

⦁ Генерирует саммари всех документов
⦁ Создаёт обратные ссылки (backlinks) между файлами
⦁ Категоризирует данные по концептам
⦁ Пишет связные статьи и соединяет их ссылками

Ключевой принцип: автор практически не редактирует wiki вручную. Весь контент создаётся и поддерживается LLM.

————————

✏️ Q&A и масштабирование

При достижении определённого объёма (например, ~100 статей и ~400K слов) возможности резко возрастают:

⦁ Можно задавать сложные вопросы агенту
⦁ LLM самостоятельно «исследует» ответы, читая релевантные документы
⦁ Карпатый ожидал необходимости сложного RAG, но выяснил, что LLM хорошо справляется с автосозданием индексных файлов и саммари

————————

✏️ Форматы вывода

Результаты не ограничиваются текстом в терминале. LLM генерирует:

⦁ Markdown-файлы для wiki
⦁ Презентации в формате Marp
⦁ matplotlib-изображения
⦁ Потенциально любые визуальные форматы

Выводы часто «подшиваются» обратно в wiki, усиливая базу для будущих запросов. Так каждый запрос накапливается в системе.

————————

✏️ Линтинг и очистка

Карпатый запускает LLM-проверки «здоровья» wiki:

⦁ Поиск противоречивых данных
⦁ Заполнение пробелов (с поиском в вебе)
⦁ Выявление связей для новых статей
⦁ Повышение целостности данных

Модель также предлагает новые вопросы для исследования.

————————

✏️ Перспективы и риски

Направления развития:

⦁ Дополнительные CLI-инструменты (например, простая поисковая система поверх wiki)
⦁ Синтетическая генерация данных + fine-tuning — перенос знаний из wiki в веса модели вместо контекстного окна

Риски и ограничения:

⦁ Текущая реализация — «хаки» из скриптов, а не готовый продукт
⦁ Эффективность при масштабировании за пределы ~400K слов не проверена
⦁ Зависимость от конкретных инструментов (Obsidian, Marp)

Карпатый отмечает потребность в полноценном продукте вместо коллекции скриптов — потенциально огромная ниша для новых инструментов.

https://x.com/karpathy/status/2039805659525644595

📖 tgf

#llm #datascience
Forwarded from Data&AI Insights
⚡️ Вышел Cursor 3.0

Обновление получилось достаточно масштабным. Стартап понемногу уходит от идеи AI-IDE к формату полноценного оркестратора агентов. Итак, что нового:

1. Теперь можно запускать неограниченное количество агентов одновременно – локально, по SSH или в облаке. Агенты работают параллельно, и результаты работы видны прямо в интерфейсе.

2. Редактор остается доступным для ручного вмешательства, но теперь открывается отдельно сбоку, и не является центральной частью процесса (см. видео). Вместо этого главную роль теперь играет Agent Window – окно для агентов с историей разговоров слева. Здесь можно быстро просматривать изменения, одобрять diff'ы и добавлять контекст. По сути, это и есть главное обновление: переход от редактирования кода к ревью работы агентов.

3. Можно быстро перемещать агентов из локальной среды в облако и обратно. Например: вы что-то редактировали локально -> захотели уйти и закрыть ноутбук -> моментально перенесли агента в облако -> процесс продолжается даже после завершения локального сеанса.

Чтобы попроовать, обновляйте Cursor и переходите на новый интерфейс с помощью Cmd+Shift+P -> Agents Window

https://cursor.com/blog/cursor-3
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from #N/A
За два выходных дня при помощи Claude Code CLI через терминал на телефоне написано 6 000 строк закоммиченного кода (~220К символов). По факту больше - между коммитами много что переделывается, рефакторится и выбрасывается. Протестировано 34 гипотезы.

Совершенно разные области экспертизы (Data engineering, Quantitative research, Trading infrastructure).

Claude оценивает это в 7-11 рабочих дней синьор разработчика. Зная себя, потратил бы точно больше.

Не могу привести пруфов, что весь код полезный и продуктивный - очевидно, можно и миллион строк за час наслопить. Но в рамках моей песочницы всё это реально важно и ценно.

* * *

Если в лоб поделить 7 на 3, может показаться, что агенты ускоряют работу в два раза. Просто смешно. Моих когнитивных ресурсов хватило бы максимум на 10% подобной работы. А если учесть, что Я не в каждые выходные могу фул потратить на разработку, то и все 5%.

* * *

К чему Я веду: личный сервер, подписка на проагента, чуть заморочиться с CLI и вот вы уже машина по переработке ваших бредовых идей в выводы почему они бредовые.
Forwarded from Agentic Engineer
Open-source книга про архитектуру безопасных AI-агентов.

Когда будет время и желание, посмотри:

🟢 покритикуй по делу
🟢 полайкай и репостни посты:
🔘 хабр
🔘 linkedin
🔘 dev.to
🔘 medium
🟢 и накинь звёздочку в репо GitHub ⭐️

Сама книга в mkdocs на github pages, читать удобно с любых устройств, агент codex достойно справился с вёрсткой

#ai #agents #architecture #agentic #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from tl;dr data
Claude Certified Architect

У Anthropic появилась сертификация.

Сертификация Claude Certified Architect - Foundations подтверждает, что специалист способен принимать обоснованные решения о компромиссах при внедрении реальных решений на базе Claude.
Экзамен проверяет базовые знания по Claude Code, Claude Agent SDK, Claude API и Model Context Protocol (MCP) - основным технологиям для создания production-приложений с Claude.

Так же на GitHub есть русскоязычный гайд для подготовки.
Выглядит как не плохой вариант разобраться с Claude Code.
Ну и сертификат не будет лишним.

@tldr_data
Forwarded from tl;dr data
Один из самых внятных бесплатных курсов по AI coding agents

opencode.school - 14 уроков, 7 практических проектов, без регистрации.

Я сам ежедневно использую Claude Code. Но зависеть от одного провайдера готовы не все.

OpenCode - open-source альтернатива, которая работает с 75+ моделями: Claude, GPT, Gemini или локальные модели на вашей машине.

Чем курс отличается:

Вы учитесь прямо внутри инструмента.
Копируете промпты в OpenCode, и он ведёт вас по шагам, параллельно синхронизируя прогресс с сайтом.

Покрывает весь базовый слой: установка, права доступа, кастомные команды, плагины, multi-agent сценарии.

В конце курса, прикладные проекты:
сборка сайтов, автоматизация браузера.

Если вы хотели разобраться с AI-агентами, но откладывали из-за непонятного старта, то это один из самых понятных способов начать.

@tldr_data
Forwarded from Denis
#whois Всем привет, меня зовут Денис. Долго был Девелопером, потом перешел на менеджерский путь (ТимЛид, ПМ, Деливери Менеджер сейчас). Решил немного вернуться к инженирингу недавно - сегодня как раз пришел результат экзамена. Теперь, я Сертифайд Клод Соулюшн Акитект https://verify.skilljar.com/c/2ohrunmz98g2
Forwarded from Denis
Claude_Certified_Architect_–_Foundations_Certification_Exam_Guide.pdf
569.5 KB
По просьбе Егора скину материалы для подготовки - на самом деле и для само-обучения, чтобы стать умнее и твой CLAUDE.MD стал "самым лучшим", ну и там много про то, как оптимальнее токены тратить. В аттаче официальный гайд для экзамена
Forwarded from Denis
https://x.com/hooeem/status/2033198345045336559

Это пропты, который закидываешь в Клод, он тебе сначала рассказывает все, а потом задает вопросы. Промты адаптивные - сначала спрашивает твой уровень
Forwarded from Denis
И в целом могу посоветовать официальные курсы - там помимо очевидных вещей бывают и интересные моменты и лайфхаки https://anthropic.skilljar.com
Forwarded from Egor
Если кто-то сможет выделить местечко под прохождение архитект сертификации. Буду рад
Forwarded from Egor
У меня все курсы закрыты