AI for Devs

"Я слышала на него работает 30 ИИ-агентов"

😁88👍10🔥10☃1

25.3K views18:42

В Cursor научились запускать сотни автономных ИИ-агентов, которые неделями пишут код над одним проектом.

Агенты сгенерировали больше 1 млн строк кода и взялись за задачи уровня «написать браузер с нуля» и «переписать крупный кодбейс с Solid на React». Рабочей оказалась схема с разделением ролей: одни агенты планируют задачи, другие просто выполняют их.

Лучше всего себя показал GPT-5.2 — стабильнее держит контекст и реже «плывет» на длинной дистанции.

Заапрувили бы такой PR?)

UPD: LGTM :D

1🤯48👍21🔥9😁7❤2🤩2

6.35K viewsedited 09:02

AI for Devs

⚡️ OpenCode – самый быстрорастущий AI-агент для кодинга

Проект вырос с нуля до 650 тысяч активных пользователей в месяц и 50 тысяч звёзд на GitHub.

Сейчас бесплатно доступны GLM-4.7, Grok Code Fast 1, MiniMax M2.1 и Big Pickle. Может понадобиться иностранный IP.

Ключевая ставка OpenCode — не на собственную ИИ-модель, а на гибкость. Агент изначально поддерживает любые AI-модели и провайдеров, остаётся полностью открытым и не требует регистрации или карты для старта.

@ai_for_devs

👍43🔥13⚡6❤2😭2🤩1

6.35K views15:34

AI for Devs

🦙 Claude Code теперь работает с локальными open-source моделями

Ollama v0.14+ получила совместимость с Anthropic Messages API. Благодаря этому Claude Code можно запускать с любыми моделями из Ollama — локально или через Ollama Cloud.

Поддерживаются streaming, tool calling, system prompts и vision. Достаточно указать Ollama как base URL — код менять не нужно.

Рекомендуются модели с контекстом от 64k токенов (gpt-oss:20b, qwen-coder, glm-4.7).

@ai_for_devs

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍40🔥11❤5

6.59K views16:27

AI for Devs

До появления ИИ-агентов для программирования у меня обычно было 2-3 пет-проекта, которые я с трудом мог закончить.

ИИ полностью изменил правила игры.

Теперь у меня их 15-20.

😁109😭14👍9💯9❤1⚡1🤯1

5.65K views13:46

AI for Devs

⚡️ В англоязычном интернете активно обсуждают возможный скорый выход GPT-5.3

Что сейчас известно из утечек и наблюдений:

— Модель фигурирует под кодовым названием Garlic, GPT-5.2 называют промежуточным чекпоинтом этой же версии модели

— Обсуждается скорость до ~2 000 токенов/с для агентного кодинга благодаря партнёрству OpenAI с Cerebras. Для сравнения: Claude Code с моделью Opus 4.5 работает примерно на уровне 100 токенов в секунду

— Новые модели ожидают увидеть сначала на DesignArena под кодовыми именами, как это было ранее с другими моделями незадолго до релиза

@ai_for_devs

👍23🤯19🔥9❤3⚡2

5.75K views17:40

AI for Devs

🤓 Anthropic опубликовали исследование "The Assistant Axis": попытку формально описать и стабилизировать «характер» больших языковых моделей

Работа опирается на анализ внутренних нейронных активаций в нескольких open-weights моделях.

Ключевая идея: ассистент — это не абстрактная роль, а конкретная персона в пространстве других возможных персонажей модели. И у этой персоны есть измеримая координата.

Коротко по основным результатам:

🟣 У моделей есть общее «пространство персон». Исследователи извлекли 275 архетипов (редактор, аналитик, шут, оракул и т.д.) из Gemma 2 27B, Qwen 3 32B и Llama 3.3 70B и показали, что различия между ними хорошо укладываются в низкоразмерную структуру.

🟣 Главная ось этого пространства — «Assistant Axis». Первая главная компонента почти полностью соответствует степени «ассистентности» поведения. На одном конце — консультанты, аналитики и оценщики. На другом — мистические, художественные и радикально не-ассистентские роли.

🟣 Эта ось существует ещё до post-training. Assistant Axis обнаруживается уже в base-моделях. Она связана с человеческими архетипами вроде терапевта или коуча, а post-training лишь фиксирует модель в одной области этого спектра.

🟣 Смещение вдоль оси причинно меняет поведение. Если искусственно увести активации от Assistant Axis, модель охотнее принимает альтернативные идентичности, выдумывает биографии и меняет стиль речи. Смещение к оси делает её устойчивой к role-play и persona-jailbreak атакам.

🟣 «Мягкое» ограничение активаций работает. Метод activation capping — ограничение выходов за нормальный диапазон по Assistant Axis — снижает долю вредных ответов примерно на 50% без деградации бенчмарков.

🟣 Persona drift возникает сам по себе. В длинных диалогах без атак модели естественно «сползают» от ассистента. Кодинг удерживает их на оси, а терапевтические и философские разговоры систематически уводят в сторону.

🟣 Уход от ассистента коррелирует с риском. Чем дальше активации от Assistant Axis, тем выше вероятность опасных ответов: подкрепления бредовых убеждений, эмоциональной зависимости, поддержки саморазрушительных идей.

TL;DR: «Ассистент» — это конкретное направление в LLM, которое можно измерять, отслеживать и аккуратно стабилизировать.

@ai_for_devs

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍17🔥8❤5

7.02K views12:50

AI for Devs

Для любителей LeetCode и performance-задачек: Anthropic выложили в открытый доступ своё старое тестовое задание на оптимизацию производительности.

Это не алгоритмы и не структуры данных. Задача: жёсткая оптимизация ядра виртуальной машины, где результат измеряется напрямую в clock cycles.

Стартовая реализация работает за 147 734 такта. Дальше — только код и микрооптимизации.

Для ориентира, результаты моделей Anthropic:

* 1790 — Claude Opus 4.5 в обычной сессии
* 1579 — тот же Opus 4.5 после 2 часов оптимизаций
* 1487 — после 11.5 часов
* 1363 — лучший результат Opus 4.5 в улучшенном harness

Если опускаешься ниже 1487, предлагают прислать код и резюме 😉

Робот сочинит симфонию? Робот оптимизирует ядро виртуальной машины? А человек нах*й может мне...

GitHub

GitHub - anthropics/original_performance_takehome: Anthropic's original performance take-home, now open for you to try!

Anthropic's original performance take-home, now open for you to try! - anthropics/original_performance_takehome

1🔥20😁16👍7❤3🤯2

7.86K views14:19

AI for Devs

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

ChatGPT в 2060 ищет человека, который заставил его считать до миллиона по одному.

1😁82🤣28👍5🔥5😭2💯1

8.02K views13:12

AI for Devs

0:59

This media is not supported in your browser

VIEW IN TELEGRAM

🇨🇳 Похоже, началась неделя релизов китайских моделей

Вчера обновили Qwen3-Max-Thinking, но без особо серьёзных новвоведений. А сегодня первой громко отметилась Kimi K2.5.

Модель дообучили на ~15 трлн визуально-текстовых токенов, она изначально мультимодальная и без разделения «текст отдельно, картинки отдельно». Основной упор — код, в том числе с визуальным контекстом: image/video-to-code, визуальный дебаг, восстановление интерфейсов по скринкастам.

В инженерных задачах K2.5 тестируют на SWE-Bench (включая multilingual) и внутренних end-to-end сценариях — сборка, рефакторинг, отладка.

Отдельно показали Agent Swarm: модель сама оркестрирует до 100 субагентов и до 1 500 инструментальных шагов, что даёт ускорение до 4.5× по времени выполнения.

@ai_for_devs

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥36👍11❤5⚡5🤩3

5.41K views08:18

AI for Devs

Перекличка. Сколько % кода за вас пишет AI в ПРОДАКШЕНЕ?

Anonymous Poll

👍15😱9🔥6🤣5❤1

2.37K voters6.5K views15:40

AI for Devs

В 2020 году, ещё до ChatGPT, OpenAI и Johns Hopkins опубликовали работу Scaling Laws for Neural Language Models.

В ней показали, что качество LLM предсказуемо растёт по степенному закону, если синхронно масштабировать три вещи: размер модели, объём данных и вычисления.

Причём эффект держался на диапазоне в несколько порядков — это и назвали compute-efficient frontier.

Казалось бы, из этого можно сделать простой вывод: «достаточно больше данных и GPU и всё продолжит улучшаться». Формально – да. Практически – нет. Данные конечны, стоимость обучения растёт быстрее ценности, а выигрыш от очередного масштабирования всё чаще выражается в процентах, а не в решении задач нового уровня.

Суцкевер (cооснователь OpenAI) в своём недавнем интервью тоже про это упоминал. Хорошее, посмотрите кто не видел.

@ai_for_devs

👍27❤6🔥5💯3

5.64K views14:51

AI for Devs

🥳

Claude Sonnet 5. Релиз близко

В логах Vertex AI засветился идентификатор claude-sonnet-5@20260203. Такие ID обычно появляются за несколько дней до релиза.

Инфлюенсеры и инсайдеры в X вангуют на следующее:
* Показатели по SWE-Bench — 82.1% (у Claude Opus 4.5 сейчас 80.9%)
* Цены останутся прежними: $3 за 1M входных токенов и $15 за 1M выходных
* Контекст — 1 млн токенов (у Sonnet 4.5 был доступен контекст в 1 млн токенов, но в beta-режиме)

Если релиз состоится на этой неделе, то Anthropic отлично держит темп: новые Sonnet выходят примерно раз в 4 месяца, а Opus — раз в полгода.

@ai_for_devs

Please open Telegram to view this post

VIEW IN TELEGRAM

5🔥32👍19❤6⚡5🤩2

4.94K views07:52

Вчера ночью OpenAI выкатили десктопное приложение Codex под macOS. Linux и Windows, как обычно, обещают позже. Atlas, к слову, так и не добрался до других платформ)) А прошло почти три месяца.

Я в основном пишу код в IDE, а агентов гоняю из терминала. Поэтому было интересно потыкать Codex вне CLI.

Понравилось. Визуальный доступ к Skills и настройкам агента заметно проще, дерево диалогов читается лучше и привычнее (как в старом добром ChatGPT).

Есть часть IDE-фишек: коммит, запуск проекта, просмотр диффа и встроенный терминал. Для всего, что сложнее, предлагают открыть IDE.

Также добавили планирование автоматизаций, пока что в beta режиме. Можно ставить фоновые задачи по расписанию, например регулярные CI-проверки, суммаризация коммитов для дейлика!!, апдейт ченджлога и так далее.

Для Free и Go тарифов временно открыли бесплатный доступ, остальным удвоили лимиты на два месяца. Неплохой повод наконец попробовать Codex, если вы всё еще не.

@ai_for_devs

1👍25🔥12🙏6❤5🤩1

4.24K views07:19

AI for Devs

🇨🇳 Китайцы зарелизили Qwen3-Coder-Next

В основе 80B MoE-модель для агентного кодинга и локального использования.

Активных параметров всего 3B, немного, но по агентным бенчмаркам она показывает уровень моделей с 10–20× большим количеством активных параметров.

Контекст — 256K, можно запускать локально, понадобится 46 ГБ ОЗУ/видеопамяти/unified памяти (85 ГБ для 8-бит).

Моделька на Hugging Face.

@ai_for_devs

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

2👍29🔥11🤩6❤3⚡2

4.41K views17:47

About

Blog

Apps

Platform