Composer 2.5 от Cursor: качество Opus 4.7 и GPT-5.5 в 10 раз дешевле
Cursor удивили. Они выпустили очередного Composer, но если предыдущие версии были довольно слабые, то сейчас это уже можно назвать полноценным фронтиром.
cursor.com/blog/composer-2-5
Бенчмарки:
– SWE-Bench Multilingual: 79.8% (Opus 4.7: 80.5%, GPT-5.5: 77.8%).
– Terminal-Bench 2.0: 69.3% (Opus 4.7: 69.4%, GPT-5.5: 82.7%).
– CursorBench v3.1: 63.2% (Opus 4.7 max: 64.8%, GPT-5.5 default: 59.2%)
При этом стоит модель всего $0.50 за млн input / $2.50 за млн output. Это в 10 раз дешевле опуса. Fast-тариф стоит чуть дороже ($3.00 input / $15.00 output), но все равно дешевле Opus, примерно как Claude Sonnet 4.6. Единственное: публичного API нет, только внутри Cursor, CLI и веб.
Что касается внутрянки:
– Модель основана на Kimi K2.5 от Moonshot AI (как и Composer 2)
– Но базовые веса составили лишь 15% от потраченного компьюта, все остальное – кастомный RL и дообучение
– Из интересных приемов использовали Targeted RL with textual feedback. В классическом RL модель получает одну награду за весь ответ целиком, и непонятно, где именно она ошиблась. Cursor же делают так: когда модель делает локальную ошибку (например, вызывает несуществующий инструмент), прямо в это место вставляется подсказка, и веса как бы подталкиваются в сторону того, как модель повела бы себя с этой подсказкой.
Кстати, одновременно Cursor анонсировали следующую модель, которую они тренируют с нуля, используя в 10 раз больше компьюта, чем на Composer 2.5, на кластере Colossus 2 совместно с xAI. Конец 2026 года в AI-кодинге будет очень интересным.
Cursor удивили. Они выпустили очередного Composer, но если предыдущие версии были довольно слабые, то сейчас это уже можно назвать полноценным фронтиром.
cursor.com/blog/composer-2-5
Бенчмарки:
– SWE-Bench Multilingual: 79.8% (Opus 4.7: 80.5%, GPT-5.5: 77.8%).
– Terminal-Bench 2.0: 69.3% (Opus 4.7: 69.4%, GPT-5.5: 82.7%).
– CursorBench v3.1: 63.2% (Opus 4.7 max: 64.8%, GPT-5.5 default: 59.2%)
При этом стоит модель всего $0.50 за млн input / $2.50 за млн output. Это в 10 раз дешевле опуса. Fast-тариф стоит чуть дороже ($3.00 input / $15.00 output), но все равно дешевле Opus, примерно как Claude Sonnet 4.6. Единственное: публичного API нет, только внутри Cursor, CLI и веб.
Что касается внутрянки:
– Модель основана на Kimi K2.5 от Moonshot AI (как и Composer 2)
– Но базовые веса составили лишь 15% от потраченного компьюта, все остальное – кастомный RL и дообучение
– Из интересных приемов использовали Targeted RL with textual feedback. В классическом RL модель получает одну награду за весь ответ целиком, и непонятно, где именно она ошиблась. Cursor же делают так: когда модель делает локальную ошибку (например, вызывает несуществующий инструмент), прямо в это место вставляется подсказка, и веса как бы подталкиваются в сторону того, как модель повела бы себя с этой подсказкой.
Кстати, одновременно Cursor анонсировали следующую модель, которую они тренируют с нуля, используя в 10 раз больше компьюта, чем на Composer 2.5, на кластере Colossus 2 совместно с xAI. Конец 2026 года в AI-кодинге будет очень интересным.
❤125👍52😁18⚡10🔥6 3🤯1
Бизнесмен Потанин на ЦИПР точно сформулировал, как на самом деле устроен промышленный ИИ: не как автономная система, а как инструмент, который усиливает человека.
Он отдельно подчеркнул, что оператор остается в центре процесса и вмешивается при выходе за критические параметры. То есть речь не про «замену людей», а про ускорение принятия решений и снижение ошибок там, где цена ошибки — миллиарды.
И, пожалуй, самая важная мысль: ИИ начинает работать не тогда, когда он самый умный, а тогда, когда он встроен в конкретный процесс и дает измеримый результат. В случае «Норникеля» это уже десятки миллиардов потенциального эффекта. По ссылке - конкретнее
Он отдельно подчеркнул, что оператор остается в центре процесса и вмешивается при выходе за критические параметры. То есть речь не про «замену людей», а про ускорение принятия решений и снижение ошибок там, где цена ошибки — миллиарды.
И, пожалуй, самая важная мысль: ИИ начинает работать не тогда, когда он самый умный, а тогда, когда он встроен в конкретный процесс и дает измеримый результат. В случае «Норникеля» это уже десятки миллиардов потенциального эффекта. По ссылке - конкретнее
😁95🤨40❤18👍17🗿11🔥3🤝2🤔1🤯1
Андрей Карпаты теперь работает в Anthropic
Вот это настоящий удар по конкурентам, а не эти ваши модельки
Личное обновление: я присоединился к Anthropic. Думаю, следующие несколько лет на фронтире LLM будут особенно формирующими. Я очень рад присоединиться к команде и вернуться к R&D. Я по‑прежнему очень увлечен образованием и планирую в свое время снова заняться этой деятельностью.
Вот это настоящий удар по конкурентам, а не эти ваши модельки
1👍264🔥109❤34🤯18😁13🗿6 6💯4🕊2 2🤩1
Итак, Google I/O. Основные релизы:
1️⃣ Gemini 3.5 Flash. По бенчмаркам обходит Gemini 3.1 Pro в кодинге, агентных задачах и на мультимодальности, при этом выдает скорость чуть меньше 300 токенов в секунду: это заметно быстрее GPT-5.4 mini и Claude Haiku, и примерно в 4 раза быстрее Opus, Sonnet и GPT-5.5. На презентации также показывали версию, выдающую почти 1500 токенов в секунду. Цена тоже намного доступнее Pro версий, GPT и Opus.
Gemini 3.5 Pro пообещали выпустить в следующем месяце. Gemini 3.5 Flash уже можно попробовать в Antigravity.
2️⃣ Gemini Omni. Как написали Google, это "первый шаг на пути к моделям, которые могут генерировать что угодно из чего угодно". В текущей версии Omni ограничена генерацией видео. На входе может быть текст, изображения, видео и голос, на выходе вы получаете видео. Качество генераций – конкурентоспособное, физика не страдает, фотореалистичность на уровне. Попробовать можно в приложении Gemini.
3️⃣ Antigravity 2.0. Добавили: всякие возможности для оркестрации параллельных агентов и субагентов, фоновые задачи, нативную поддержку голосовых команд. Выпустили Antigravity CLI (на замену Gemini CLI) и Antigravity SDK для создания кастомных агентов. На презентации показали, как система собрала рабочую операционку, на которой можно запустить Doom. На это понадобилось менее 12 часов, 96 агентов и менее 1 тысячи долларов.
4️⃣ Ну и по мелочи:
– полностью обновили интерфейс Gemini App, теперь ответы больше похоже на интерактивные страницы;
– для подписчиков AI Plus, Pro и Ultra добавили Daily Brief: персонализированный дайджест дня на основе Gmail, Календаря и задач;
– для Ultra теперь предлагают Gemini Spark: личного агента, который работает постоянно даже при выключенном ноутбуке и выполняет за вас задачи. Пока что интеграции только с инструментами Google, но обещают скоро добавить и другие;
– подписка Google AI Ultra теперь стартует от $100/месяц (раньше было от $250), а тариф за $250 подешевел до $200 без урезания возможностей и лимитов;
– анонсировали умные очки и новые ноутбуки Googlebooks.
Gemini 3.5 Pro пообещали выпустить в следующем месяце. Gemini 3.5 Flash уже можно попробовать в Antigravity.
– полностью обновили интерфейс Gemini App, теперь ответы больше похоже на интерактивные страницы;
– для подписчиков AI Plus, Pro и Ultra добавили Daily Brief: персонализированный дайджест дня на основе Gmail, Календаря и задач;
– для Ultra теперь предлагают Gemini Spark: личного агента, который работает постоянно даже при выключенном ноутбуке и выполняет за вас задачи. Пока что интеграции только с инструментами Google, но обещают скоро добавить и другие;
– подписка Google AI Ultra теперь стартует от $100/месяц (раньше было от $250), а тариф за $250 подешевел до $200 без урезания возможностей и лимитов;
– анонсировали умные очки и новые ноутбуки Googlebooks.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤90👍45🔥20⚡7
Используете LLM, но не понимаете, как именно модель формирует ответы?
Часто работа с моделями сводится к подбору промптов. Но без понимания механики генерации текста сложно объяснить ошибки, контролировать результат и применять модели в реальных задачах.
На открытом уроке разберём:
✔️ как устроены Transformers
✔️ как модель выбирает слова на каждом шаге как работает генерация текста
✔️ покажем, как развернуть LLM локально, протестировать через API и использовать контекст документов для построения прикладных решений.
Урок проходит в преддверии старта курса «LLM-инженер». Если вы хотите применять модели осознанно, а не на уровне экспериментов — подключайтесь.
🗓 Встречаемся 20 мая в 20:00 МСК. Регистрация открыта: https://otus.pw/wdxbZ/
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
Часто работа с моделями сводится к подбору промптов. Но без понимания механики генерации текста сложно объяснить ошибки, контролировать результат и применять модели в реальных задачах.
На открытом уроке разберём:
✔️ как устроены Transformers
✔️ как модель выбирает слова на каждом шаге как работает генерация текста
✔️ покажем, как развернуть LLM локально, протестировать через API и использовать контекст документов для построения прикладных решений.
Урок проходит в преддверии старта курса «LLM-инженер». Если вы хотите применять модели осознанно, а не на уровне экспериментов — подключайтесь.
🗓 Встречаемся 20 мая в 20:00 МСК. Регистрация открыта: https://otus.pw/wdxbZ/
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
🤨23🗿18😁5❤4👍3🤯2
Внезапно выяснилось, что основатель DeepMind Демис Хассабис имеет долю в Anthropic
Financial Times провели расследование, и оказалось, что он был одним из первых так называемых «ангельских» инвесторов стартапа и вкладывался в компанию тайно.
Теперь же Демис и Амодеи – чуть не главные конкуренты друг друга.
Несмотря на это, напоминаем, что недавно Google подписали соглашение об инвестициях в Anthropic на $10 млрд. Возможно, как раз под влиянием Хассабиса?
Financial Times провели расследование, и оказалось, что он был одним из первых так называемых «ангельских» инвесторов стартапа и вкладывался в компанию тайно.
Теперь же Демис и Амодеи – чуть не главные конкуренты друг друга.
Несмотря на это, напоминаем, что недавно Google подписали соглашение об инвестициях в Anthropic на $10 млрд. Возможно, как раз под влиянием Хассабиса?
😁137👍18🤯9❤5😎4🔥2
В 2026 году желания просто “войти в ИТ” уже недостаточно
На фоне развития ИИ и растущей конкуренции, базовые требования становятся выше. Директор по росту, аналитике и монетизации экосистемы Т-Банка Владимир Абазов, номинант рейтинга Forbes 30 до 30, считает, что первым делом начинающим аналитикам все равно придется качать так называемые hard skills — статистику, математику, Python и SQL. Искусственный интеллект действительно упрощает вход в профессию, однако техническая база остается основой.
При этом работодатели все чаще смотрят не только на стек, но и на мотивацию человека. По словам Абазова, “горящие глаза” и интерес к решению задач становятся отдельным преимуществом — именно такие специалисты чаще предлагают нестандартные идеи и быстрее растут внутри компаний. А коммуникация — не менее важный навык. Рутину постепенно забирает ИИ, но умение договариваться, выстраивать нетворкинг и задавать правильные вопросы экспертам остается критически важным. И, наконец, аналитикам все чаще нужно понимать бизнес-контекст: не просто решать задачу, а видеть, как это влияет на пользователя и монетизацию продукта.
Таким образом, главный навык аналитика будущего — это не только код
На фоне развития ИИ и растущей конкуренции, базовые требования становятся выше. Директор по росту, аналитике и монетизации экосистемы Т-Банка Владимир Абазов, номинант рейтинга Forbes 30 до 30, считает, что первым делом начинающим аналитикам все равно придется качать так называемые hard skills — статистику, математику, Python и SQL. Искусственный интеллект действительно упрощает вход в профессию, однако техническая база остается основой.
При этом работодатели все чаще смотрят не только на стек, но и на мотивацию человека. По словам Абазова, “горящие глаза” и интерес к решению задач становятся отдельным преимуществом — именно такие специалисты чаще предлагают нестандартные идеи и быстрее растут внутри компаний. А коммуникация — не менее важный навык. Рутину постепенно забирает ИИ, но умение договариваться, выстраивать нетворкинг и задавать правильные вопросы экспертам остается критически важным. И, наконец, аналитикам все чаще нужно понимать бизнес-контекст: не просто решать задачу, а видеть, как это влияет на пользователя и монетизацию продукта.
Таким образом, главный навык аналитика будущего — это не только код
😁45❤18 16🗿7💯3🎄2🔥1🤯1🤨1
Сэм Альтман предложил каждому стартапу в YCombinator 2 миллиона долларов в токенах за долю в компании
Скорее всего, рассчитывать на такую щедрость (aka почти безлимитный Codex) можно будет примерно за 7% акций: около того обычно берет сам YCombinator.
Но, очевидно, акции стартапов для Альтмана не главное. В первую очередь он хочет повысить популярность Codex и привязать молодые компании к своей экосистеме. Ведь у кого энтерпрайз – тот и победил, а конкурировать за этот рынок с Anthropic не так уж и просто.
Скорее всего, рассчитывать на такую щедрость (aka почти безлимитный Codex) можно будет примерно за 7% акций: около того обычно берет сам YCombinator.
Но, очевидно, акции стартапов для Альтмана не главное. В первую очередь он хочет повысить популярность Codex и привязать молодые компании к своей экосистеме. Ведь у кого энтерпрайз – тот и победил, а конкурировать за этот рынок с Anthropic не так уж и просто.
«Мне любопытно посмотреть, что будет с tokenmaxxing стартапами: как они будут работать внутри и какие продукты смогут создать» – написал Альтман.
2😁97❤22🔥19 8👌3❤🔥2
Создатель механизма внимания Йошуа Бенджио предложил новую архитектуру для нейросетей
Вместе с исследователями из лабы KAIST и Нью-Йоркского университета он анонсировал GRAM – Generative Recursive reAsoning Models.
Ученые уже давно экспериментируют с так называемыми Recursive Reasoning Models. Идея в том, что в отличие от привычных ризонинг моделей они рассуждают не с помощью генерации дополнительных токенов, а как бы про себя, в пространстве внутренних состояний, которые итеративно уточняются, улучшая ответ.
Преимущество в теории очевидно: можно делать сотни шагов рассуждения без раздувания контекста. Но до этой работы такие модели были детерминированы, то есть при одинаковом входе всегда шли по одному и тому же пути и приходили к единственному ответу.
Почему это проблема? Потому что случайность – это источник креативного рассуждения самого по себе. В обычных ризонерах она есть, и это открывает путь к исследованию альтернатив и масштабированию через параллельный перебор. Нет случайности – нет возможности попробовать иначе, и это тупиковое развитие.
Заслуга GRAM как раз в том, что это первая в своем классе стохастичная модель. На каждом шаге рекурсии модель вычисляет детерминированный шаг – куда двигаться дальше – и добавляет к нему стохастический сдвиг. Среднее этого сдвига задает направление, а дисперсия – степень исследования. Чем сложнее задача, тем шире модель разбрасывает траектории. Затем из множества таких траекторий с помощью реворд модели выбирается лучшая.
На ARC-AGI GRAM набирает 52%, это примерно уровень GPT-5.2. А еще модель просто отлично играет в судоку.
https://ahn-ml.github.io/gram-website/
Вместе с исследователями из лабы KAIST и Нью-Йоркского университета он анонсировал GRAM – Generative Recursive reAsoning Models.
Ученые уже давно экспериментируют с так называемыми Recursive Reasoning Models. Идея в том, что в отличие от привычных ризонинг моделей они рассуждают не с помощью генерации дополнительных токенов, а как бы про себя, в пространстве внутренних состояний, которые итеративно уточняются, улучшая ответ.
Преимущество в теории очевидно: можно делать сотни шагов рассуждения без раздувания контекста. Но до этой работы такие модели были детерминированы, то есть при одинаковом входе всегда шли по одному и тому же пути и приходили к единственному ответу.
Почему это проблема? Потому что случайность – это источник креативного рассуждения самого по себе. В обычных ризонерах она есть, и это открывает путь к исследованию альтернатив и масштабированию через параллельный перебор. Нет случайности – нет возможности попробовать иначе, и это тупиковое развитие.
Заслуга GRAM как раз в том, что это первая в своем классе стохастичная модель. На каждом шаге рекурсии модель вычисляет детерминированный шаг – куда двигаться дальше – и добавляет к нему стохастический сдвиг. Среднее этого сдвига задает направление, а дисперсия – степень исследования. Чем сложнее задача, тем шире модель разбрасывает траектории. Затем из множества таких траекторий с помощью реворд модели выбирается лучшая.
На ARC-AGI GRAM набирает 52%, это примерно уровень GPT-5.2. А еще модель просто отлично играет в судоку.
https://ahn-ml.github.io/gram-website/
2❤123🤯41👍30❤🔥8🔥7⚡3🤔3