⚡️ Anthropic представили Cowork — упрощённый агентный режим для задач не связанных с кодом
Ключевое отличие Cowork от обычного чата — доступ к файловой системе. Ты даёшь Claude папку, и дальше он может читать, править и создавать файлы сам: разложить загрузки, собрать таблицу расходов из скриншотов, сделать черновик отчёта из разрозненных заметок.
Для продвинутых сценариев Cowork умеет:
— использовать существующие коннекторы к внешним данным
— применять встроенные skills для документов и презентаций
— работать вместе с Claude в браузере (например, для задач с веб-доступом)
Интересная деталь — модель взаимодействия. Задачи можно ставить параллельно, не дожидаясь завершения предыдущей, и дополнять их по ходу.
При этом Anthropic довольно честно проговаривают риски. Агент может выполнять разрушительные действия (вплоть до удаления файлов), если его об этом попросить. Плюс остаётся классическая проблема prompt injection — особенно при работе с интернет-контентом.
@ai_for_devs
Ключевое отличие Cowork от обычного чата — доступ к файловой системе. Ты даёшь Claude папку, и дальше он может читать, править и создавать файлы сам: разложить загрузки, собрать таблицу расходов из скриншотов, сделать черновик отчёта из разрозненных заметок.
Для продвинутых сценариев Cowork умеет:
— использовать существующие коннекторы к внешним данным
— применять встроенные skills для документов и презентаций
— работать вместе с Claude в браузере (например, для задач с веб-доступом)
Интересная деталь — модель взаимодействия. Задачи можно ставить параллельно, не дожидаясь завершения предыдущей, и дополнять их по ходу.
При этом Anthropic довольно честно проговаривают риски. Агент может выполнять разрушительные действия (вплоть до удаления файлов), если его об этом попросить. Плюс остаётся классическая проблема prompt injection — особенно при работе с интернет-контентом.
@ai_for_devs
🔥24👍16❤6👏1
В Cursor научились запускать сотни автономных ИИ-агентов, которые неделями пишут код над одним проектом.
Агенты сгенерировали больше 1 млн строк кода и взялись за задачи уровня «написать браузер с нуля» и «переписать крупный кодбейс с Solid на React». Рабочей оказалась схема с разделением ролей: одни агенты планируют задачи, другие просто выполняют их.
Лучше всего себя показал GPT-5.2 — стабильнее держит контекст и реже «плывет» на длинной дистанции.
Заапрувили бы такой PR?)
UPD: LGTM :D
Агенты сгенерировали больше 1 млн строк кода и взялись за задачи уровня «написать браузер с нуля» и «переписать крупный кодбейс с Solid на React». Рабочей оказалась схема с разделением ролей: одни агенты планируют задачи, другие просто выполняют их.
Лучше всего себя показал GPT-5.2 — стабильнее держит контекст и реже «плывет» на длинной дистанции.
Заапрувили бы такой PR?)
UPD: LGTM :D
1🤯48👍21🔥9😁7❤2🤩2
⚡️ OpenCode – самый быстрорастущий AI-агент для кодинга
Проект вырос с нуля до 650 тысяч активных пользователей в месяц и 50 тысяч звёзд на GitHub.
Сейчас бесплатно доступны GLM-4.7, Grok Code Fast 1, MiniMax M2.1 и Big Pickle. Может понадобиться иностранный IP.
Ключевая ставка OpenCode — не на собственную ИИ-модель, а на гибкость. Агент изначально поддерживает любые AI-модели и провайдеров, остаётся полностью открытым и не требует регистрации или карты для старта.
@ai_for_devs
Проект вырос с нуля до 650 тысяч активных пользователей в месяц и 50 тысяч звёзд на GitHub.
Сейчас бесплатно доступны GLM-4.7, Grok Code Fast 1, MiniMax M2.1 и Big Pickle. Может понадобиться иностранный IP.
Ключевая ставка OpenCode — не на собственную ИИ-модель, а на гибкость. Агент изначально поддерживает любые AI-модели и провайдеров, остаётся полностью открытым и не требует регистрации или карты для старта.
@ai_for_devs
👍43🔥13⚡6❤2😭2🤩1
Ollama v0.14+ получила совместимость с Anthropic Messages API. Благодаря этому Claude Code можно запускать с любыми моделями из Ollama — локально или через Ollama Cloud.
Поддерживаются streaming, tool calling, system prompts и vision. Достаточно указать Ollama как base URL — код менять не нужно.
Рекомендуются модели с контекстом от 64k токенов (gpt-oss:20b, qwen-coder, glm-4.7).
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍40🔥11❤5
До появления ИИ-агентов для программирования у меня обычно было 2-3 пет-проекта, которые я с трудом мог закончить.
ИИ полностью изменил правила игры.
Теперь у меня их 15-20.
ИИ полностью изменил правила игры.
😁109😭14👍9💯9❤1⚡1🤯1
⚡️ В англоязычном интернете активно обсуждают возможный скорый выход GPT-5.3
Что сейчас известно из утечек и наблюдений:
— Модель фигурирует под кодовым названием Garlic, GPT-5.2 называют промежуточным чекпоинтом этой же версии модели
— Обсуждается скорость до ~2 000 токенов/с для агентного кодинга благодаря партнёрству OpenAI с Cerebras. Для сравнения: Claude Code с моделью Opus 4.5 работает примерно на уровне 100 токенов в секунду
— Новые модели ожидают увидеть сначала на DesignArena под кодовыми именами, как это было ранее с другими моделями незадолго до релиза
@ai_for_devs
Что сейчас известно из утечек и наблюдений:
— Модель фигурирует под кодовым названием Garlic, GPT-5.2 называют промежуточным чекпоинтом этой же версии модели
— Обсуждается скорость до ~2 000 токенов/с для агентного кодинга благодаря партнёрству OpenAI с Cerebras. Для сравнения: Claude Code с моделью Opus 4.5 работает примерно на уровне 100 токенов в секунду
— Новые модели ожидают увидеть сначала на DesignArena под кодовыми именами, как это было ранее с другими моделями незадолго до релиза
@ai_for_devs
👍23🤯19🔥9❤3⚡2
🤓 Anthropic опубликовали исследование "The Assistant Axis": попытку формально описать и стабилизировать «характер» больших языковых моделей
Работа опирается на анализ внутренних нейронных активаций в нескольких open-weights моделях.
Ключевая идея: ассистент — это не абстрактная роль, а конкретная персона в пространстве других возможных персонажей модели. И у этой персоны есть измеримая координата.
TL;DR: «Ассистент» — это конкретное направление в LLM, которое можно измерять, отслеживать и аккуратно стабилизировать.
@ai_for_devs
Работа опирается на анализ внутренних нейронных активаций в нескольких open-weights моделях.
Ключевая идея: ассистент — это не абстрактная роль, а конкретная персона в пространстве других возможных персонажей модели. И у этой персоны есть измеримая координата.
Коротко по основным результатам:🟣 У моделей есть общее «пространство персон». Исследователи извлекли 275 архетипов (редактор, аналитик, шут, оракул и т.д.) из Gemma 2 27B, Qwen 3 32B и Llama 3.3 70B и показали, что различия между ними хорошо укладываются в низкоразмерную структуру.🟣 Главная ось этого пространства — «Assistant Axis». Первая главная компонента почти полностью соответствует степени «ассистентности» поведения. На одном конце — консультанты, аналитики и оценщики. На другом — мистические, художественные и радикально не-ассистентские роли.🟣 Эта ось существует ещё до post-training. Assistant Axis обнаруживается уже в base-моделях. Она связана с человеческими архетипами вроде терапевта или коуча, а post-training лишь фиксирует модель в одной области этого спектра.🟣 Смещение вдоль оси причинно меняет поведение. Если искусственно увести активации от Assistant Axis, модель охотнее принимает альтернативные идентичности, выдумывает биографии и меняет стиль речи. Смещение к оси делает её устойчивой к role-play и persona-jailbreak атакам.🟣 «Мягкое» ограничение активаций работает. Метод activation capping — ограничение выходов за нормальный диапазон по Assistant Axis — снижает долю вредных ответов примерно на 50% без деградации бенчмарков.🟣 Persona drift возникает сам по себе. В длинных диалогах без атак модели естественно «сползают» от ассистента. Кодинг удерживает их на оси, а терапевтические и философские разговоры систематически уводят в сторону.🟣 Уход от ассистента коррелирует с риском. Чем дальше активации от Assistant Axis, тем выше вероятность опасных ответов: подкрепления бредовых убеждений, эмоциональной зависимости, поддержки саморазрушительных идей.
TL;DR: «Ассистент» — это конкретное направление в LLM, которое можно измерять, отслеживать и аккуратно стабилизировать.
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍17🔥8❤5
Для любителей LeetCode и performance-задачек: Anthropic выложили в открытый доступ своё старое тестовое задание на оптимизацию производительности.
Это не алгоритмы и не структуры данных. Задача: жёсткая оптимизация ядра виртуальной машины, где результат измеряется напрямую в clock cycles.
Стартовая реализация работает за 147 734 такта. Дальше — только код и микрооптимизации.
Для ориентира, результаты моделей Anthropic:
* 1790 — Claude Opus 4.5 в обычной сессии
* 1579 — тот же Opus 4.5 после 2 часов оптимизаций
* 1487 — после 11.5 часов
* 1363 — лучший результат Opus 4.5 в улучшенном harness
Если опускаешься ниже 1487, предлагают прислать код и резюме 😉
Робот сочинит симфонию? Робот оптимизирует ядро виртуальной машины? А человек нах*й может мне...
Это не алгоритмы и не структуры данных. Задача: жёсткая оптимизация ядра виртуальной машины, где результат измеряется напрямую в clock cycles.
Стартовая реализация работает за 147 734 такта. Дальше — только код и микрооптимизации.
Для ориентира, результаты моделей Anthropic:
* 1790 — Claude Opus 4.5 в обычной сессии
* 1579 — тот же Opus 4.5 после 2 часов оптимизаций
* 1487 — после 11.5 часов
* 1363 — лучший результат Opus 4.5 в улучшенном harness
Если опускаешься ниже 1487, предлагают прислать код и резюме 😉
Робот сочинит симфонию? Робот оптимизирует ядро виртуальной машины? А человек нах*й может мне...
GitHub
GitHub - anthropics/original_performance_takehome: Anthropic's original performance take-home, now open for you to try!
Anthropic's original performance take-home, now open for you to try! - anthropics/original_performance_takehome
1🔥20😁16👍7❤3🤯2
This media is not supported in your browser
VIEW IN TELEGRAM
ChatGPT в 2060 ищет человека, который заставил его считать до миллиона по одному.
1😁82🤣28👍5🔥5😭2💯1
This media is not supported in your browser
VIEW IN TELEGRAM
Вчера обновили
Qwen3-Max-Thinking, но без особо серьёзных новвоведений. А сегодня первой громко отметилась Kimi K2.5.Модель дообучили на ~15 трлн визуально-текстовых токенов, она изначально мультимодальная и без разделения «текст отдельно, картинки отдельно». Основной упор — код, в том числе с визуальным контекстом:
image/video-to-code, визуальный дебаг, восстановление интерфейсов по скринкастам.В инженерных задачах K2.5 тестируют на SWE-Bench (включая multilingual) и внутренних end-to-end сценариях — сборка, рефакторинг, отладка.
Отдельно показали Agent Swarm: модель сама оркестрирует до 100 субагентов и до 1 500 инструментальных шагов, что даёт ускорение до 4.5× по времени выполнения.
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥36👍11❤5⚡5🤩3
Перекличка. Сколько % кода за вас пишет AI в ПРОДАКШЕНЕ?
Anonymous Poll
12%
0%
14%
<10%
8%
от 10% до 30%
6%
от 30% до 50%
6%
от 50% до 70%
8%
от 70% до 90%
7%
>90%
10%
100%
28%
Посмотреть результат
👍15😱9🔥6🤣5❤1
В 2020 году, ещё до ChatGPT, OpenAI и Johns Hopkins опубликовали работу Scaling Laws for Neural Language Models.
В ней показали, что качество LLM предсказуемо растёт по степенному закону, если синхронно масштабировать три вещи: размер модели, объём данных и вычисления.
Причём эффект держался на диапазоне в несколько порядков — это и назвали compute-efficient frontier.
Казалось бы, из этого можно сделать простой вывод: «достаточно больше данных и GPU и всё продолжит улучшаться». Формально – да. Практически – нет. Данные конечны, стоимость обучения растёт быстрее ценности, а выигрыш от очередного масштабирования всё чаще выражается в процентах, а не в решении задач нового уровня.
Суцкевер (cооснователь OpenAI) в своём недавнем интервью тоже про это упоминал. Хорошее, посмотрите кто не видел.
@ai_for_devs
В ней показали, что качество LLM предсказуемо растёт по степенному закону, если синхронно масштабировать три вещи: размер модели, объём данных и вычисления.
Причём эффект держался на диапазоне в несколько порядков — это и назвали compute-efficient frontier.
Казалось бы, из этого можно сделать простой вывод: «достаточно больше данных и GPU и всё продолжит улучшаться». Формально – да. Практически – нет. Данные конечны, стоимость обучения растёт быстрее ценности, а выигрыш от очередного масштабирования всё чаще выражается в процентах, а не в решении задач нового уровня.
Суцкевер (cооснователь OpenAI) в своём недавнем интервью тоже про это упоминал. Хорошее, посмотрите кто не видел.
@ai_for_devs
👍27❤6🔥5💯3
В логах Vertex AI засветился идентификатор
claude-sonnet-5@20260203. Такие ID обычно появляются за несколько дней до релиза.Инфлюенсеры и инсайдеры в X вангуют на следующее:
* Показатели по SWE-Bench — 82.1% (у Claude Opus 4.5 сейчас 80.9%)
* Цены останутся прежними: $3 за 1M входных токенов и $15 за 1M выходных
* Контекст — 1 млн токенов (у Sonnet 4.5 был доступен контекст в 1 млн токенов, но в beta-режиме)
Если релиз состоится на этой неделе, то Anthropic отлично держит темп: новые Sonnet выходят примерно раз в 4 месяца, а Opus — раз в полгода.
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥32👍19❤6⚡5🤩2