AI for Devs

⚡️ Anthropic представили Cowork — упрощённый агентный режим для задач не связанных с кодом

Ключевое отличие Cowork от обычного чата — доступ к файловой системе. Ты даёшь Claude папку, и дальше он может читать, править и создавать файлы сам: разложить загрузки, собрать таблицу расходов из скриншотов, сделать черновик отчёта из разрозненных заметок.

Для продвинутых сценариев Cowork умеет:
— использовать существующие коннекторы к внешним данным
— применять встроенные skills для документов и презентаций
— работать вместе с Claude в браузере (например, для задач с веб-доступом)

Интересная деталь — модель взаимодействия. Задачи можно ставить параллельно, не дожидаясь завершения предыдущей, и дополнять их по ходу.

При этом Anthropic довольно честно проговаривают риски. Агент может выполнять разрушительные действия (вплоть до удаления файлов), если его об этом попросить. Плюс остаётся классическая проблема prompt injection — особенно при работе с интернет-контентом.

@ai_for_devs

🔥24👍16❤6👏1

5.71K views21:32

AI for Devs

"Я слышала на него работает 30 ИИ-агентов"

😁88👍10🔥10☃1

25.3K views18:42

AI for Devs

В Cursor научились запускать сотни автономных ИИ-агентов, которые неделями пишут код над одним проектом.

Агенты сгенерировали больше 1 млн строк кода и взялись за задачи уровня «написать браузер с нуля» и «переписать крупный кодбейс с Solid на React». Рабочей оказалась схема с разделением ролей: одни агенты планируют задачи, другие просто выполняют их.

Лучше всего себя показал GPT-5.2 — стабильнее держит контекст и реже «плывет» на длинной дистанции.

Заапрувили бы такой PR?)

UPD: LGTM :D

1🤯48👍21🔥9😁7❤2🤩2

6.35K viewsedited 09:02

AI for Devs

⚡️ OpenCode – самый быстрорастущий AI-агент для кодинга

Проект вырос с нуля до 650 тысяч активных пользователей в месяц и 50 тысяч звёзд на GitHub.

Сейчас бесплатно доступны GLM-4.7, Grok Code Fast 1, MiniMax M2.1 и Big Pickle. Может понадобиться иностранный IP.

Ключевая ставка OpenCode — не на собственную ИИ-модель, а на гибкость. Агент изначально поддерживает любые AI-модели и провайдеров, остаётся полностью открытым и не требует регистрации или карты для старта.

@ai_for_devs

👍43🔥13⚡6❤2😭2🤩1

6.35K views15:34

AI for Devs

🦙 Claude Code теперь работает с локальными open-source моделями

Ollama v0.14+ получила совместимость с Anthropic Messages API. Благодаря этому Claude Code можно запускать с любыми моделями из Ollama — локально или через Ollama Cloud.

Поддерживаются streaming, tool calling, system prompts и vision. Достаточно указать Ollama как base URL — код менять не нужно.

Рекомендуются модели с контекстом от 64k токенов (gpt-oss:20b, qwen-coder, glm-4.7).

@ai_for_devs

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍40🔥11❤5

6.59K views16:27

AI for Devs

До появления ИИ-агентов для программирования у меня обычно было 2-3 пет-проекта, которые я с трудом мог закончить.

ИИ полностью изменил правила игры.

Теперь у меня их 15-20.

😁109😭14👍9💯9❤1⚡1🤯1

5.65K views13:46

AI for Devs

⚡️ В англоязычном интернете активно обсуждают возможный скорый выход GPT-5.3

Что сейчас известно из утечек и наблюдений:

— Модель фигурирует под кодовым названием Garlic, GPT-5.2 называют промежуточным чекпоинтом этой же версии модели

— Обсуждается скорость до ~2 000 токенов/с для агентного кодинга благодаря партнёрству OpenAI с Cerebras. Для сравнения: Claude Code с моделью Opus 4.5 работает примерно на уровне 100 токенов в секунду

— Новые модели ожидают увидеть сначала на DesignArena под кодовыми именами, как это было ранее с другими моделями незадолго до релиза

@ai_for_devs

👍23🤯19🔥9❤3⚡2

5.75K views17:40

AI for Devs

🤓 Anthropic опубликовали исследование "The Assistant Axis": попытку формально описать и стабилизировать «характер» больших языковых моделей

Работа опирается на анализ внутренних нейронных активаций в нескольких open-weights моделях.

Ключевая идея: ассистент — это не абстрактная роль, а конкретная персона в пространстве других возможных персонажей модели. И у этой персоны есть измеримая координата.

Коротко по основным результатам:

🟣 У моделей есть общее «пространство персон». Исследователи извлекли 275 архетипов (редактор, аналитик, шут, оракул и т.д.) из Gemma 2 27B, Qwen 3 32B и Llama 3.3 70B и показали, что различия между ними хорошо укладываются в низкоразмерную структуру.

🟣 Главная ось этого пространства — «Assistant Axis». Первая главная компонента почти полностью соответствует степени «ассистентности» поведения. На одном конце — консультанты, аналитики и оценщики. На другом — мистические, художественные и радикально не-ассистентские роли.

🟣 Эта ось существует ещё до post-training. Assistant Axis обнаруживается уже в base-моделях. Она связана с человеческими архетипами вроде терапевта или коуча, а post-training лишь фиксирует модель в одной области этого спектра.

🟣 Смещение вдоль оси причинно меняет поведение. Если искусственно увести активации от Assistant Axis, модель охотнее принимает альтернативные идентичности, выдумывает биографии и меняет стиль речи. Смещение к оси делает её устойчивой к role-play и persona-jailbreak атакам.

🟣 «Мягкое» ограничение активаций работает. Метод activation capping — ограничение выходов за нормальный диапазон по Assistant Axis — снижает долю вредных ответов примерно на 50% без деградации бенчмарков.

🟣 Persona drift возникает сам по себе. В длинных диалогах без атак модели естественно «сползают» от ассистента. Кодинг удерживает их на оси, а терапевтические и философские разговоры систематически уводят в сторону.

🟣 Уход от ассистента коррелирует с риском. Чем дальше активации от Assistant Axis, тем выше вероятность опасных ответов: подкрепления бредовых убеждений, эмоциональной зависимости, поддержки саморазрушительных идей.

TL;DR: «Ассистент» — это конкретное направление в LLM, которое можно измерять, отслеживать и аккуратно стабилизировать.

@ai_for_devs

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍17🔥8❤5

7.02K views12:50

AI for Devs

Для любителей LeetCode и performance-задачек: Anthropic выложили в открытый доступ своё старое тестовое задание на оптимизацию производительности.

Это не алгоритмы и не структуры данных. Задача: жёсткая оптимизация ядра виртуальной машины, где результат измеряется напрямую в clock cycles.

Стартовая реализация работает за 147 734 такта. Дальше — только код и микрооптимизации.

Для ориентира, результаты моделей Anthropic:

* 1790 — Claude Opus 4.5 в обычной сессии
* 1579 — тот же Opus 4.5 после 2 часов оптимизаций
* 1487 — после 11.5 часов
* 1363 — лучший результат Opus 4.5 в улучшенном harness

Если опускаешься ниже 1487, предлагают прислать код и резюме 😉

Робот сочинит симфонию? Робот оптимизирует ядро виртуальной машины? А человек нах*й может мне...

GitHub

GitHub - anthropics/original_performance_takehome: Anthropic's original performance take-home, now open for you to try!

Anthropic's original performance take-home, now open for you to try! - anthropics/original_performance_takehome

1🔥20😁16👍7❤3🤯2

7.86K views14:19

AI for Devs

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

ChatGPT в 2060 ищет человека, который заставил его считать до миллиона по одному.

1😁82🤣28👍5🔥5😭2💯1

8.02K views13:12

AI for Devs

0:59

This media is not supported in your browser

VIEW IN TELEGRAM

🇨🇳 Похоже, началась неделя релизов китайских моделей

Вчера обновили Qwen3-Max-Thinking, но без особо серьёзных новвоведений. А сегодня первой громко отметилась Kimi K2.5.

Модель дообучили на ~15 трлн визуально-текстовых токенов, она изначально мультимодальная и без разделения «текст отдельно, картинки отдельно». Основной упор — код, в том числе с визуальным контекстом: image/video-to-code, визуальный дебаг, восстановление интерфейсов по скринкастам.

В инженерных задачах K2.5 тестируют на SWE-Bench (включая multilingual) и внутренних end-to-end сценариях — сборка, рефакторинг, отладка.

Отдельно показали Agent Swarm: модель сама оркестрирует до 100 субагентов и до 1 500 инструментальных шагов, что даёт ускорение до 4.5× по времени выполнения.

@ai_for_devs

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥36👍11❤5⚡5🤩3

5.41K views08:18

AI for Devs

Перекличка. Сколько % кода за вас пишет AI в ПРОДАКШЕНЕ?

Anonymous Poll

👍15😱9🔥6🤣5❤1

2.37K voters6.5K views15:40

AI for Devs

В 2020 году, ещё до ChatGPT, OpenAI и Johns Hopkins опубликовали работу Scaling Laws for Neural Language Models.

В ней показали, что качество LLM предсказуемо растёт по степенному закону, если синхронно масштабировать три вещи: размер модели, объём данных и вычисления.

Причём эффект держался на диапазоне в несколько порядков — это и назвали compute-efficient frontier.

Казалось бы, из этого можно сделать простой вывод: «достаточно больше данных и GPU и всё продолжит улучшаться». Формально – да. Практически – нет. Данные конечны, стоимость обучения растёт быстрее ценности, а выигрыш от очередного масштабирования всё чаще выражается в процентах, а не в решении задач нового уровня.

Суцкевер (cооснователь OpenAI) в своём недавнем интервью тоже про это упоминал. Хорошее, посмотрите кто не видел.

@ai_for_devs

👍27❤6🔥5💯3

5.64K views14:51

AI for Devs

🥳

Claude Sonnet 5. Релиз близко

В логах Vertex AI засветился идентификатор claude-sonnet-5@20260203. Такие ID обычно появляются за несколько дней до релиза.

Инфлюенсеры и инсайдеры в X вангуют на следующее:
* Показатели по SWE-Bench — 82.1% (у Claude Opus 4.5 сейчас 80.9%)
* Цены останутся прежними: $3 за 1M входных токенов и $15 за 1M выходных
* Контекст — 1 млн токенов (у Sonnet 4.5 был доступен контекст в 1 млн токенов, но в beta-режиме)

Если релиз состоится на этой неделе, то Anthropic отлично держит темп: новые Sonnet выходят примерно раз в 4 месяца, а Opus — раз в полгода.

@ai_for_devs

Please open Telegram to view this post

VIEW IN TELEGRAM

5🔥32👍19❤6⚡5🤩2

4.94K views07:52

About

Blog

Apps

Platform