Forwarded from Spectr | Все об IT и разработке
Розыгрыш билета «Бизнес» на Ural Digital Weekend 2025 от Spectr
Накануне Ural Digital Weekend решили провести розыгрыш билета категории «Бизнес» среди подписчиков от лица организаторов, компании Spectr.
Напомним, что Spectr — IT-компания, которая занимается разработкой и внедрением сложных цифровых продуктов и фокусируется на автоматизации бизнес-планирования и IBP-процессов.
Итак, про розыгрыш.
Правила предельно простые
1) Подписаться на канал Spectr (https://t.me/spectr_offical) и канал Ural Digital Weekend (https://t.me/ural_digital_weekend)
2) Нажать кнопку Участвовать :)
3) Можно пригласить своих друзей (увеличивает шансы на победу)
Итогу будут подведены 16 июля в 20:00 мск.
Победитель получит промокод на бесплатное оформление билета «Бизнес»!
Подписывайтесь на наши каналы и принимайте участие!
Участников: 18
Призовых мест: 1
Дата розыгрыша: 20:00, 16.07.2025 MSK (2 дня)
Накануне Ural Digital Weekend решили провести розыгрыш билета категории «Бизнес» среди подписчиков от лица организаторов, компании Spectr.
Напомним, что Spectr — IT-компания, которая занимается разработкой и внедрением сложных цифровых продуктов и фокусируется на автоматизации бизнес-планирования и IBP-процессов.
Итак, про розыгрыш.
Правила предельно простые
1) Подписаться на канал Spectr (https://t.me/spectr_offical) и канал Ural Digital Weekend (https://t.me/ural_digital_weekend)
2) Нажать кнопку Участвовать :)
3) Можно пригласить своих друзей (увеличивает шансы на победу)
Итогу будут подведены 16 июля в 20:00 мск.
Победитель получит промокод на бесплатное оформление билета «Бизнес»!
Подписывайтесь на наши каналы и принимайте участие!
Участников: 18
Призовых мест: 1
Дата розыгрыша: 20:00, 16.07.2025 MSK (2 дня)
🚀 Перезапускаем канал: теперь это канал-комьюнити про практическое применение ИИ в разработке
Не пугайтесь: это всё тот же канал. Просто мир и IT‑индустрия меняются, и мы с ними. Если вы следите за нами, вы знаете: мы перезапускаем образовательные активности Spectr и обновляем формат — теперь фокус на практическом применении ИИ в разработке и этот канал — часть обновления.
Что будет:
— применение LLM и агентов в коде и процессах;
— кейсы из практики: что сработало, что нет;
— разбор инструментов: Cursor, MCP, LangChain и других;
— анонсы вебинаров и практикумов;
— новости из мира ИИ;
— ответы на ваши вопросы.
Кстати, уже открыли регистрацию на курс о применении ИИ для разработчиков. Параллельно готовим серию онлайн‑стримов — про применение искусственного интеллекта и живые кейсы.
Если тема вам близка — оставайтесь и включите уведомления. Если нет — без обид, можно отписаться.
Не пугайтесь: это всё тот же канал. Просто мир и IT‑индустрия меняются, и мы с ними. Если вы следите за нами, вы знаете: мы перезапускаем образовательные активности Spectr и обновляем формат — теперь фокус на практическом применении ИИ в разработке и этот канал — часть обновления.
Что будет:
— применение LLM и агентов в коде и процессах;
— кейсы из практики: что сработало, что нет;
— разбор инструментов: Cursor, MCP, LangChain и других;
— анонсы вебинаров и практикумов;
— новости из мира ИИ;
— ответы на ваши вопросы.
Кстати, уже открыли регистрацию на курс о применении ИИ для разработчиков. Параллельно готовим серию онлайн‑стримов — про применение искусственного интеллекта и живые кейсы.
Если тема вам близка — оставайтесь и включите уведомления. Если нет — без обид, можно отписаться.
digital-spectr.ru
Курс по ИИ для разработчиков — вайб-кодинг и AI-driven подход от Spectr
Курс про вайб-кодинг и AI-driven подходу для инженеров, которые хотят начать системно применять искусственный интеллект в работе и существенно повысить свою продуктивность и ценность для команды
👍3👎1
О, Anthropic завезли LLM‑разработчикам маленькое чудо
Anthropic выкатили Structured outputs: теперь Sonnet 4.5 и Opus 4.1 могут гарантированно возвращать JSON, который строго соответствует вашей схеме.
Что это меняет на практике:
— меньше промпт‑костылей вроде «ответь строго в JSON, вот пример»;
— нет рандомных запятых и комментариев, из‑за которых всё падает при парсинге ответа;
— проще строить над моделью агенты и пайплайны, где каждый шаг ждёт ровно свой формат;
— код вокруг LLM худеет: меньше обвязки, ретраев и ручных проверок.
Если вы тянете данные из текста или картинок, крутите multi‑agent‑архитектуры или зовёте внешние API через tools — это апдейт из серии «включить и забыть».
Подробнее — в блоге Anthropic и в доках:
— блог: https://www.claude.com/blog/structured-outputs-on-the-claude-developer-platform
— доки: https://docs.claude.com/en/docs/build-with-claude/structured-outputs
Anthropic выкатили Structured outputs: теперь Sonnet 4.5 и Opus 4.1 могут гарантированно возвращать JSON, который строго соответствует вашей схеме.
Что это меняет на практике:
— меньше промпт‑костылей вроде «ответь строго в JSON, вот пример»;
— нет рандомных запятых и комментариев, из‑за которых всё падает при парсинге ответа;
— проще строить над моделью агенты и пайплайны, где каждый шаг ждёт ровно свой формат;
— код вокруг LLM худеет: меньше обвязки, ретраев и ручных проверок.
Если вы тянете данные из текста или картинок, крутите multi‑agent‑архитектуры или зовёте внешние API через tools — это апдейт из серии «включить и забыть».
Подробнее — в блоге Anthropic и в доках:
— блог: https://www.claude.com/blog/structured-outputs-on-the-claude-developer-platform
— доки: https://docs.claude.com/en/docs/build-with-claude/structured-outputs
Claude
Structured outputs on the Claude Developer Platform | Claude
Structured outputs on the Claude Developer Platform guarantee API responses match your JSON schemas and tool definitions. Now in public beta for Sonnet 4.5 and Opus 4.1, this feature eliminates parsing errors and failed tool calls for production applications.
Вебинар «ИИ в жизни фронтенд-разработчика»
Разберём, как фронтендеру выжать из ИИ максимум пользы в реальных задачах.
Спикер: Александр Широчкин — руководитель направления разработки в Т1 и автор телеграм-канала «Саня об IT».
🗓 Когда: 26 ноября в 13:00 мск
📍 Где: онлайн
Что будет на вебинаре:
— как изменились нейросети за последние годы и что это значит для фронтенда;
— как Александр использует ИИ в работе руководителя разработки и инженера;
— особенности безопасного использования популярных нейросетей при работе в крупных ИТ-компаниях;
— какие подходы и инструменты хочет попробовать, но пока не дошли руки.
В конце вебинара можно будет задать Александру вопросы про ИИ, фронтенд и карьеру разработчика. Если тема откликается — приходите с живыми задачами
Участие — бесплатно. Регистрация — ПО ССЫЛКЕ
AI и разработка | Spectr
Разберём, как фронтендеру выжать из ИИ максимум пользы в реальных задачах.
Спикер: Александр Широчкин — руководитель направления разработки в Т1 и автор телеграм-канала «Саня об IT».
Что будет на вебинаре:
— как изменились нейросети за последние годы и что это значит для фронтенда;
— как Александр использует ИИ в работе руководителя разработки и инженера;
— особенности безопасного использования популярных нейросетей при работе в крупных ИТ-компаниях;
— какие подходы и инструменты хочет попробовать, но пока не дошли руки.
В конце вебинара можно будет задать Александру вопросы про ИИ, фронтенд и карьеру разработчика. Если тема откликается — приходите с живыми задачами
Участие — бесплатно. Регистрация — ПО ССЫЛКЕ
AI и разработка | Spectr
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
Новые Open source‑модели от Сбера для разработчиков
Сбер выкатил две новые GigaChat‑модели с открытыми весами — и это хорошая новость, если вы любите локальный ИИ и русский язык «из коробки».
Что вышло:
- GigaChat 3 Lightning — компактная MoE‑модель: ~10B параметров, из них ~1,8B активных на шаг. Подходит для локального запуска на ноутбуке и быстрых экспериментов.
- GigaChat 3 Ultra Preview (702B-A36B) — флагман на 702 млрд параметров, при инференсе задействует ~36 млрд (около 5%). Обучена с нуля на собственном датасете, без дообучения западных моделей.
Чем это полезно разработчику?
- Нативный русский: модель училась с нуля, понимает морфологию, контекст и культурные реалии, а не просто «дотюнена» на русском корпусе.
- Локальный запуск: Lightning рассчитана на запуск на личных машинах и даёт быстрый отклик — удобно для прототипирования и частичного офлайна.
- Большой pretrain‑корпус: под Ultra собрали ~14 трлн токенов — это влияет на обобщающую способность и качество кода/текста.
- Фокус на грамотности: команда отдельно вычитывала тексты, чтобы модель писала по‑русски чисто и структурно, без типичных «артефактов».
Если хотите глубже разобрать архитектуру, данные и бенчмарки, посмотрите исходную статью на Хабре: GigaChat 3 Ultra Preview — тяжёлый open source
Мы пока не тестировали, но планируем :)
Сбер выкатил две новые GigaChat‑модели с открытыми весами — и это хорошая новость, если вы любите локальный ИИ и русский язык «из коробки».
Что вышло:
- GigaChat 3 Lightning — компактная MoE‑модель: ~10B параметров, из них ~1,8B активных на шаг. Подходит для локального запуска на ноутбуке и быстрых экспериментов.
- GigaChat 3 Ultra Preview (702B-A36B) — флагман на 702 млрд параметров, при инференсе задействует ~36 млрд (около 5%). Обучена с нуля на собственном датасете, без дообучения западных моделей.
Чем это полезно разработчику?
- Нативный русский: модель училась с нуля, понимает морфологию, контекст и культурные реалии, а не просто «дотюнена» на русском корпусе.
- Локальный запуск: Lightning рассчитана на запуск на личных машинах и даёт быстрый отклик — удобно для прототипирования и частичного офлайна.
- Большой pretrain‑корпус: под Ultra собрали ~14 трлн токенов — это влияет на обобщающую способность и качество кода/текста.
- Фокус на грамотности: команда отдельно вычитывала тексты, чтобы модель писала по‑русски чисто и структурно, без типичных «артефактов».
Если хотите глубже разобрать архитектуру, данные и бенчмарки, посмотрите исходную статью на Хабре: GigaChat 3 Ultra Preview — тяжёлый open source
Мы пока не тестировали, но планируем :)
Хабр
GigaChat 3 Ultra Preview — тяжёлый open source
Салют, Хабр! Последний год выдался насыщенным: выпуск линейки GigaChat 2, которая может вас слышать, смотреть видео и даже понимать мемы; добавление функции Reasoning в наш Web ( giga.chat ); первое...
👍3
AI и разработка | Кейсы, грабли и ИИ...
Вебинар «ИИ в жизни фронтенд-разработчика» Разберём, как фронтендеру выжать из ИИ максимум пользы в реальных задачах. Спикер: Александр Широчкин — руководитель направления разработки в Т1 и автор телеграм-канала «Саня об IT». 🗓 Когда: 26 ноября в 13:00…
Вебинар начинается вот-вот, в 13:00 МСК.
Присоединяйтесь по ссылке: https://vk.com/video-137384692_456239200
А если хотите получить рассылку с материалами и бонусами — рекомендуем предварительно зарегистрироваться по ссылке из поста.
Присоединяйтесь по ссылке: https://vk.com/video-137384692_456239200
А если хотите получить рассылку с материалами и бонусами — рекомендуем предварительно зарегистрироваться по ссылке из поста.
Мы начали! Вопросы можете оставлять под этим сообщением 🙂
Стрим: https://vk.com/video-137384692_456239200
Стрим: https://vk.com/video-137384692_456239200
AI и разработка | Кейсы, грабли и ИИ... pinned «Мы начали! Вопросы можете оставлять под этим сообщением 🙂 Стрим: https://vk.com/video-137384692_456239200»
AI и разработка | Кейсы, грабли и ИИ...
Вебинар «ИИ в жизни фронтенд-разработчика» Разберём, как фронтендеру выжать из ИИ максимум пользы в реальных задачах. Спикер: Александр Широчкин — руководитель направления разработки в Т1 и автор телеграм-канала «Саня об IT». 🗓 Когда: 26 ноября в 13:00…
Спасибо всем, кто пришел!
Записью вебинара поделимся дополнительно.
Будем рады вашей обратной связи и идеям тем для будущих вебинаров
Записью вебинара поделимся дополнительно.
Будем рады вашей обратной связи и идеям тем для будущих вебинаров
Forwarded from 4chan
This media is not supported in your browser
VIEW IN TELEGRAM
Знание разблокировано: теперь вы знаете, что происходит, когда вы задаёте ChatGPT тупой вопрос
👍2
Как разработчику использовать AI? Курс стартует уже через неделю!
AI уже умеет писать код, помогать с ревью, генерировать тесты и даже собирать прототипы. Но в продакшене без системного подхода это превращается в лотерею: сегодня повезло, завтра всё развалилось.
Мы запустили практический курс «AI-driven разработчик» — как встроить ИИ в свою работу так же естественно, как Git или код-ревью.
В курсе:
- много важной теории, основы LLM, работа с локальными моделями;
- много практики по работе с код-агентами (Cursor, Claude Code);
- разработка своего MCP и RAG;
- разработки агентов: LangChain / LangGraph, LlamaIndex.
9 недель, нагрузка 5–10 часов в неделю. Один сквозной проект от идеи до рабочего прототипа. Видеоуроки с практикой; домашки; групповые встречи и разборы с преподавателями; общий чат для консультаций .
Старт обучения — 15 декабря
🔥 По промокоду AI_IN_DEV — скидка 10% на любой тариф
Посмотреть программу и записаться
AI уже умеет писать код, помогать с ревью, генерировать тесты и даже собирать прототипы. Но в продакшене без системного подхода это превращается в лотерею: сегодня повезло, завтра всё развалилось.
Мы запустили практический курс «AI-driven разработчик» — как встроить ИИ в свою работу так же естественно, как Git или код-ревью.
В курсе:
- много важной теории, основы LLM, работа с локальными моделями;
- много практики по работе с код-агентами (Cursor, Claude Code);
- разработка своего MCP и RAG;
- разработки агентов: LangChain / LangGraph, LlamaIndex.
9 недель, нагрузка 5–10 часов в неделю. Один сквозной проект от идеи до рабочего прототипа. Видеоуроки с практикой; домашки; групповые встречи и разборы с преподавателями; общий чат для консультаций .
Старт обучения — 15 декабря
Посмотреть программу и записаться
Please open Telegram to view this post
VIEW IN TELEGRAM
digital-spectr.ru
Курс по ИИ для разработчиков — вайб-кодинг и AI-driven подход от Spectr
Курс про вайб-кодинг и AI-driven подходу для инженеров, которые хотят начать системно применять искусственный интеллект в работе и существенно повысить свою продуктивность и ценность для команды
AI и разработка | Кейсы, грабли и ИИ... pinned «Как разработчику использовать AI? Курс стартует уже через неделю! AI уже умеет писать код, помогать с ревью, генерировать тесты и даже собирать прототипы. Но в продакшене без системного подхода это превращается в лотерею: сегодня повезло, завтра всё развалилось.…»
Antigravity от Google — сильно отстает от Cursor по функционалу, но супер-сильный аргумент в его пользу — его ценовая политика.
На базовом платном тарифе (около 15$) лимиты на использование моделей (в том числе, топовых) обновляются каждые 5 часов.
При активной работе получается примерно так: 1-2 часа гоняешь на топовой Opus-4.5, потом еще ±час на Gemini-3 (High), пару часов отдыхаешь и так по кругу.
При этом, Cursor в режиме On-Demand биллинга выжирает около 10$ в час активной работы на Opus-4.5 🤬
На базовом платном тарифе (около 15$) лимиты на использование моделей (в том числе, топовых) обновляются каждые 5 часов.
При активной работе получается примерно так: 1-2 часа гоняешь на топовой Opus-4.5, потом еще ±час на Gemini-3 (High), пару часов отдыхаешь и так по кругу.
При этом, Cursor в режиме On-Demand биллинга выжирает около 10$ в час активной работы на Opus-4.5 🤬
Google Antigravity
Google Antigravity - Build the new way
Anthropic выпустила Claude Opus 4.6 — самую сильную модель в линейке
Что изменилось для разработчика:
— Агентный кодинг на новом уровне: модель планирует глубже, держит контекст дольше и сама ловит ошибки в коде. Лучший результат на Terminal-Bench 2.0.
— Контекст 1M токенов (бета). Первый Opus с таким окном. На тесте MRCR v2 набирает 76% против 18,5% у Sonnet 4.5 — качественный скачок в работе с большими кодовыми базами.
— Adaptive thinking: модель сама решает, когда включать глубокое рассуждение, а когда не тратить время. Плюс четыре уровня effort (low / medium / high / max) для контроля баланса скорости и качества.
— Context compaction: автоматическое сжатие контекста в длинных сессиях — агенты больше не упираются в лимит окна.
— Agent teams в Claude Code (превью): несколько агентов работают параллельно и координируются сами. Подходит для ревью и задач с большим объёмом чтения кода.
Цена та же: $5 / $25 за миллион токенов. Премиум-тариф для промптов свыше 200k.
Модель доступна в API (
Подробности → https://www.anthropic.com/news/claude-opus-4-6
Что изменилось для разработчика:
— Агентный кодинг на новом уровне: модель планирует глубже, держит контекст дольше и сама ловит ошибки в коде. Лучший результат на Terminal-Bench 2.0.
— Контекст 1M токенов (бета). Первый Opus с таким окном. На тесте MRCR v2 набирает 76% против 18,5% у Sonnet 4.5 — качественный скачок в работе с большими кодовыми базами.
— Adaptive thinking: модель сама решает, когда включать глубокое рассуждение, а когда не тратить время. Плюс четыре уровня effort (low / medium / high / max) для контроля баланса скорости и качества.
— Context compaction: автоматическое сжатие контекста в длинных сессиях — агенты больше не упираются в лимит окна.
— Agent teams в Claude Code (превью): несколько агентов работают параллельно и координируются сами. Подходит для ревью и задач с большим объёмом чтения кода.
Цена та же: $5 / $25 за миллион токенов. Премиум-тариф для промптов свыше 200k.
Модель доступна в API (
claude-opus-4-6), на claude.ai и облачных платформах.Подробности → https://www.anthropic.com/news/claude-opus-4-6
Anthropic
Introducing Claude Opus 4.6
We’re upgrading our smartest model. Across agentic coding, computer use, tool use, search, and finance, Opus 4.6 is an industry-leading model, often by wide margin.
OpenAI выкатила GPT-5.3-Codex
Что важно разработчику:
— Terminal-Bench 2.0: 77,3% (было 64% у GPT-5.2-Codex). При этом модель тратит меньше токенов, чем предшественники.
— OSWorld: 64,7% против 38,2% — почти двукратный рост в задачах на управление компьютером. Человеческий уровень — ~72%.
— Модель на 25% быстрее GPT-5.2-Codex.
— Интерактивная работа: можно подруливать агента прямо во время выполнения задачи — задавать вопросы, менять направление, не теряя контекст.
— Выход за пределы кода: презентации, таблицы, PRD, анализ данных, деплой — всё в одной модели. На GDPval (реальные рабочие задачи из 44 профессий) показывает результат на уровне GPT-5.2.
Отдельная история — кибербезопасность. Это первая модель OpenAI с рейтингом High по Preparedness Framework и первая, которую целенаправленно обучали находить уязвимости.
Забавный факт: GPT-5.3-Codex — первая модель, которая участвовала в собственном создании. Ранние версии дебажили свой же тренинг и помогали с деплоем.
Доступна в Codex app, CLI, IDE и вебе на платных планах ChatGPT. API — скоро.
Подробности → https://openai.com/index/introducing-gpt-5-3-codex/
Что важно разработчику:
— Terminal-Bench 2.0: 77,3% (было 64% у GPT-5.2-Codex). При этом модель тратит меньше токенов, чем предшественники.
— OSWorld: 64,7% против 38,2% — почти двукратный рост в задачах на управление компьютером. Человеческий уровень — ~72%.
— Модель на 25% быстрее GPT-5.2-Codex.
— Интерактивная работа: можно подруливать агента прямо во время выполнения задачи — задавать вопросы, менять направление, не теряя контекст.
— Выход за пределы кода: презентации, таблицы, PRD, анализ данных, деплой — всё в одной модели. На GDPval (реальные рабочие задачи из 44 профессий) показывает результат на уровне GPT-5.2.
Отдельная история — кибербезопасность. Это первая модель OpenAI с рейтингом High по Preparedness Framework и первая, которую целенаправленно обучали находить уязвимости.
Забавный факт: GPT-5.3-Codex — первая модель, которая участвовала в собственном создании. Ранние версии дебажили свой же тренинг и помогали с деплоем.
Доступна в Codex app, CLI, IDE и вебе на платных планах ChatGPT. API — скоро.
Подробности → https://openai.com/index/introducing-gpt-5-3-codex/
Openai
Introducing GPT-5.3-Codex
GPT-5.3-Codex is a Codex-native agent that pairs frontier coding performance with general reasoning to support long-horizon, real-world technical work.
Cursor выпустил Composer 1.5 — собственную кодинговую модель, вторую в линейке
Что под капотом:
— RL (reinforcement learning, обучение с подкреплением) масштабировали в 20 раз по сравнению с Composer 1. Объём пост-тренинга превысил объём самого претрейна — нетипичная пропорция.
— Thinking-модель с адаптивным рассуждением: на простых задачах думает минимально, на сложных — копает глубоко.
— Self-summarization: когда контекст заканчивается, модель сама сжимает историю и продолжает работу. Может срабатывать рекурсивно несколько раз подряд. Качество при этом не падает.
Из важного — цена. Composer 1.5 стоит $3,5 / $17,5 за миллион токенов (вход/выход). Для сравнения — GPT-5.3 Codex в Cursor обходится в $1,75 / $14. То есть Composer вдвое дороже на входе и на 25% дороже на выходе. Claude Opus 4.6 ещё дороже — $5 / $25, но это и другой класс модели.
При этом Cursor не публикует бенчмарки — только «внутренние тесты показывают рост, особенно на сложных задачах». Сравнить с GPT-5.3 Codex или Claude Opus 4.6 по цифрам пока невозможно. Придётся проверять руками.
Модель уже доступна в Cursor
Подробности → https://cursor.com/blog/composer-1-5
Что под капотом:
— RL (reinforcement learning, обучение с подкреплением) масштабировали в 20 раз по сравнению с Composer 1. Объём пост-тренинга превысил объём самого претрейна — нетипичная пропорция.
— Thinking-модель с адаптивным рассуждением: на простых задачах думает минимально, на сложных — копает глубоко.
— Self-summarization: когда контекст заканчивается, модель сама сжимает историю и продолжает работу. Может срабатывать рекурсивно несколько раз подряд. Качество при этом не падает.
Из важного — цена. Composer 1.5 стоит $3,5 / $17,5 за миллион токенов (вход/выход). Для сравнения — GPT-5.3 Codex в Cursor обходится в $1,75 / $14. То есть Composer вдвое дороже на входе и на 25% дороже на выходе. Claude Opus 4.6 ещё дороже — $5 / $25, но это и другой класс модели.
При этом Cursor не публикует бенчмарки — только «внутренние тесты показывают рост, особенно на сложных задачах». Сравнить с GPT-5.3 Codex или Claude Opus 4.6 по цифрам пока невозможно. Придётся проверять руками.
Модель уже доступна в Cursor
Подробности → https://cursor.com/blog/composer-1-5
Cursor
Introducing Composer 1.5 · Cursor
Improved reasoning over challenging coding tasks by scaling RL over 20x.
Ликбез про бенчмарки ИИ кодинг-агентов
Вендоры любят хвастаться «плюс X% на бенчмарке». Но запутаться в куче названий бенчмарков очень легко. Вот очень короткий гайд по актуальным бенчмаркам.
🤖 SWE-bench (https://www.swebench.com/) — модель получает реальный GitHub issue и должна сделать рабочий патч. Золотой стандарт для кодинг-агентов. SWE-bench Verified — 500 задач, которые инженеры проверили вручную.
Метрика — процент задач, где патч проходит тесты
🤖 Terminal-Bench (https://www.tbench.ai/) — задачи в реальном терминале: software engineering, сисадминирование, кибербезопасность, научные вычисления. Агент получает задание и работает в настоящем CLI-окружении. Топовые агенты набирают ~75% — значит, задачи действительно сложные.
Метрика — доля задач, где результат проходит автоматические тесты
🤖 LiveCodeBench (https://livecodebench.github.io/) — свежие задачи с LeetCode, AtCoder и Codeforces. Его регулярно обновляют, поэтому модель с меньшим шансом «видела» задачи при обучении. Хороший тест на свежесть.
Метрика — доля задач, которые прошли тесты
🤖 HumanEval (https://github.com/openai/human-eval) — 164 задачи: написать Python-функцию по docstring. Классика от OpenAI, но для топовых моделей уже простоват.
Метрика — доля задач, где первый ответ проходит юнит‑тесты
🤖 BigCodeBench (https://bigcode-bench.github.io/) — много задач с реальными библиотеками (pandas, torch, sklearn). Гораздо ближе к продовому коду, чем олимпиадные задачки.
Метрика — доля задач, которые прошли тесты
🤖 OSWorld (https://os-world.github.io/) — задачи с реальными десктопными и веб-приложениями. Агент должен кликать, печатать, переключаться между окнами и доводить задачу до результата. По сути, тест на «computer use» — может ли модель работать за компьютером как человек.
Метрика — доля задач, выполненных до конца корректно
🤖 MRCR v2 (https://huggingface.co/datasets/openai/mrcr) — бенчмарк от OpenAI на длинный контекст (до ~1M токенов). Модель получает синтетическую переписку, где один и тот же запрос повторяется 2, 4 или 8 раз. Задача — найти и вернуть конкретный экземпляр. Не про кодинг напрямую, но критически важен для агентов, которые работают с большими кодовыми базами и длинными контекстами.
Метрика — точность извлечения нужного фрагмента из длинного контекста
🤖 MMLU-Pro (https://github.com/TIGER-AI-Lab/MMLU-Pro) — 12 000+ вопросов по 14 областям: от математики и физики до права и экономики. Вариантов ответа не 4, а 10 — угадать сложнее, нужно реально рассуждать. На MMLU топовые модели уже упёрлись в потолок, а вот MMLU-Pro снова разделяет сильных и слабых.
Метрика — доля правильных ответов
Конечно, ни один бенчмарк не покажет эффективность модели именно на вашем проекте. Но как ориентир — помогает. На какой бенчмарк вы смотрите в первую очередь?
Канал — AI и разработка
Вендоры любят хвастаться «плюс X% на бенчмарке». Но запутаться в куче названий бенчмарков очень легко. Вот очень короткий гайд по актуальным бенчмаркам.
Метрика — процент задач, где патч проходит тесты
Метрика — доля задач, где результат проходит автоматические тесты
Метрика — доля задач, которые прошли тесты
Метрика — доля задач, где первый ответ проходит юнит‑тесты
Метрика — доля задач, которые прошли тесты
Метрика — доля задач, выполненных до конца корректно
Метрика — точность извлечения нужного фрагмента из длинного контекста
Метрика — доля правильных ответов
Конечно, ни один бенчмарк не покажет эффективность модели именно на вашем проекте. Но как ориентир — помогает. На какой бенчмарк вы смотрите в первую очередь?
Канал — AI и разработка
Please open Telegram to view this post
VIEW IN TELEGRAM
Terminal-Bench
A benchmark for terminal agents
👍2
Разработать решение на базе ИИ — это половина дела. Вторая половина — запустить его так, чтобы экономика сходилась. Эксплуатация LLM в продакшене — это GPU-серверы за миллионы рублей в месяц. И на каждом шаге — решение, которое меняет итоговый счёт: какую модель взять, как сконфигурировать железо, как масштабировать под нагрузку. Выбор модели, архитектуры и конфигурации GPU может изменить стоимость инфраструктуры на порядок — как в плюс, так и в минус.
На вебинаре разберём, из чего складывается стоимость инференса и какие решения при проектировании снижают бюджет на порядок.
🗓 13 марта, 12:00 мск, Пятница
💻 ОНЛАЙН
Что разберём:
— как устроен инференс LLM и какие способы оптимизации производительности существуют;
— из чего складывается стоимость эксплуатации LLM в продакшене;
— как выбор LLM-модели и конфигурации GPU меняет стоимость инфраструктуры на порядок;
— бенчмарки на реальном оборудовании: сравнение GPU в разных конфигурациях под нагрузкой;
— свой сервер и API: расчёт с ценами российских провайдеров, что выгодней.
Вебинар будет полезен для CTO, архитекторов, руководителей продуктов и разработчиков, которые строят LLM-решения и хотят понимать экономику их эксплуатации.
🔥 Зарегистрироваться на вебинар
На вебинаре разберём, из чего складывается стоимость инференса и какие решения при проектировании снижают бюджет на порядок.
🗓 13 марта, 12:00 мск, Пятница
💻 ОНЛАЙН
Что разберём:
— как устроен инференс LLM и какие способы оптимизации производительности существуют;
— из чего складывается стоимость эксплуатации LLM в продакшене;
— как выбор LLM-модели и конфигурации GPU меняет стоимость инфраструктуры на порядок;
— бенчмарки на реальном оборудовании: сравнение GPU в разных конфигурациях под нагрузкой;
— свой сервер и API: расчёт с ценами российских провайдеров, что выгодней.
Вебинар будет полезен для CTO, архитекторов, руководителей продуктов и разработчиков, которые строят LLM-решения и хотят понимать экономику их эксплуатации.
Please open Telegram to view this post
VIEW IN TELEGRAM
OpenAI выпустила GPT-5.4
Что важно:
— native computer use: модель управляет UI через скриншоты и клики. 75% на OSWorld — выше человека (72.4%);
— tool search: вместо загрузки всех определений инструментов в контекст модель сама находит нужный. Минус 47% токенов — критично для MCP;
— контекст до 1M токенов в API;
— /fast в Codex: 1.5x скорость генерации без потери качества;
— на 33% меньше фактических ошибок vs GPT-5.2.
Цена в API: $2.50/M input, $15/M output (GPT-5.2 — $1.75/$14). Дороже за токен, но модель расходует их экономнее.
GPT-5.2 Thinking уедет в Legacy 5 июня 2026.
https://openai.com/index/introducing-gpt-5-4/
Что важно:
— native computer use: модель управляет UI через скриншоты и клики. 75% на OSWorld — выше человека (72.4%);
— tool search: вместо загрузки всех определений инструментов в контекст модель сама находит нужный. Минус 47% токенов — критично для MCP;
— контекст до 1M токенов в API;
— /fast в Codex: 1.5x скорость генерации без потери качества;
— на 33% меньше фактических ошибок vs GPT-5.2.
Цена в API: $2.50/M input, $15/M output (GPT-5.2 — $1.75/$14). Дороже за токен, но модель расходует их экономнее.
GPT-5.2 Thinking уедет в Legacy 5 июня 2026.
https://openai.com/index/introducing-gpt-5-4/
Openai
Introducing GPT-5.4
Introducing GPT-5.4, OpenAI’s most most capable and efficient frontier model for professional work, with state-of-the-art coding, computer use, tool search, and 1M-token context.