AI и разработка | Кейсы, грабли и ИИ...

AI и разработка | Кейсы, грабли и ИИ... pinned «Мы начали! Вопросы можете оставлять под этим сообщением 🙂 Стрим: https://vk.com/video-137384692_456239200»

10:01

Вебинар «ИИ в жизни фронтенд-разработчика» Разберём, как фронтендеру выжать из ИИ максимум пользы в реальных задачах. Спикер: Александр Широчкин — руководитель направления разработки в Т1 и автор телеграм-канала «Саня об IT». 🗓 Когда: 26 ноября в 13:00…

Спасибо всем, кто пришел!

Записью вебинара поделимся дополнительно.

Будем рады вашей обратной связи и идеям тем для будущих вебинаров

150 views15:00

AI и разработка | Кейсы, грабли и ИИ...

Forwarded from 4chan

0:39

This media is not supported in your browser

VIEW IN TELEGRAM

Знание разблокировано: теперь вы знаете, что происходит, когда вы задаёте ChatGPT тупой вопрос

👍2

165 views17:38

AI и разработка | Кейсы, грабли и ИИ...

Как разработчику использовать AI? Курс стартует уже через неделю!

AI уже умеет писать код, помогать с ревью, генерировать тесты и даже собирать прототипы. Но в продакшене без системного подхода это превращается в лотерею: сегодня повезло, завтра всё развалилось.

Мы запустили практический курс «AI-driven разработчик» — как встроить ИИ в свою работу так же естественно, как Git или код-ревью.

В курсе:
- много важной теории, основы LLM, работа с локальными моделями;
- много практики по работе с код-агентами (Cursor, Claude Code);
- разработка своего MCP и RAG;
- разработки агентов: LangChain / LangGraph, LlamaIndex.

9 недель, нагрузка 5–10 часов в неделю. Один сквозной проект от идеи до рабочего прототипа. Видеоуроки с практикой; домашки; групповые встречи и разборы с преподавателями; общий чат для консультаций .

Старт обучения — 15 декабря
🔥 По промокоду AI_IN_DEV — скидка 10% на любой тариф

Посмотреть программу и записаться

Please open Telegram to view this post

VIEW IN TELEGRAM

digital-spectr.ru

Курс по ИИ для разработчиков — вайб-кодинг и AI-driven подход от Spectr

Курс про вайб-кодинг и AI-driven подходу для инженеров, которые хотят начать системно применять искусственный интеллект в работе и существенно повысить свою продуктивность и ценность для команды

180 views14:37

AI и разработка | Кейсы, грабли и ИИ...

AI и разработка | Кейсы, грабли и ИИ... pinned «Как разработчику использовать AI? Курс стартует уже через неделю! AI уже умеет писать код, помогать с ревью, генерировать тесты и даже собирать прототипы. Но в продакшене без системного подхода это превращается в лотерею: сегодня повезло, завтра всё развалилось.…»

14:38

AI и разработка | Кейсы, грабли и ИИ...

Antigravity от Google — сильно отстает от Cursor по функционалу, но супер-сильный аргумент в его пользу — его ценовая политика.

На базовом платном тарифе (около 15$) лимиты на использование моделей (в том числе, топовых) обновляются каждые 5 часов.
При активной работе получается примерно так: 1-2 часа гоняешь на топовой Opus-4.5, потом еще ±час на Gemini-3 (High), пару часов отдыхаешь и так по кругу.

При этом, Cursor в режиме On-Demand биллинга выжирает около 10$ в час активной работы на Opus-4.5 🤬

Google Antigravity

Google Antigravity - Build the new way

144 viewsedited 09:51

AI и разработка | Кейсы, грабли и ИИ...

Anthropic выпустила Claude Opus 4.6 — самую сильную модель в линейке

Что изменилось для разработчика:
— Агентный кодинг на новом уровне: модель планирует глубже, держит контекст дольше и сама ловит ошибки в коде. Лучший результат на Terminal-Bench 2.0.
— Контекст 1M токенов (бета). Первый Opus с таким окном. На тесте MRCR v2 набирает 76% против 18,5% у Sonnet 4.5 — качественный скачок в работе с большими кодовыми базами.
— Adaptive thinking: модель сама решает, когда включать глубокое рассуждение, а когда не тратить время. Плюс четыре уровня effort (low / medium / high / max) для контроля баланса скорости и качества.
— Context compaction: автоматическое сжатие контекста в длинных сессиях — агенты больше не упираются в лимит окна.
— Agent teams в Claude Code (превью): несколько агентов работают параллельно и координируются сами. Подходит для ревью и задач с большим объёмом чтения кода.

Цена та же: $5 / $25 за миллион токенов. Премиум-тариф для промптов свыше 200k.

Модель доступна в API (claude-opus-4-6), на claude.ai и облачных платформах.

Подробности → https://www.anthropic.com/news/claude-opus-4-6

Anthropic

Introducing Claude Opus 4.6

We’re upgrading our smartest model. Across agentic coding, computer use, tool use, search, and finance, Opus 4.6 is an industry-leading model, often by wide margin.

369 views18:03

AI и разработка | Кейсы, грабли и ИИ...

OpenAI выкатила GPT-5.3-Codex

Что важно разработчику:

— Terminal-Bench 2.0: 77,3% (было 64% у GPT-5.2-Codex). При этом модель тратит меньше токенов, чем предшественники.
— OSWorld: 64,7% против 38,2% — почти двукратный рост в задачах на управление компьютером. Человеческий уровень — ~72%.
— Модель на 25% быстрее GPT-5.2-Codex.
— Интерактивная работа: можно подруливать агента прямо во время выполнения задачи — задавать вопросы, менять направление, не теряя контекст.
— Выход за пределы кода: презентации, таблицы, PRD, анализ данных, деплой — всё в одной модели. На GDPval (реальные рабочие задачи из 44 профессий) показывает результат на уровне GPT-5.2.

Отдельная история — кибербезопасность. Это первая модель OpenAI с рейтингом High по Preparedness Framework и первая, которую целенаправленно обучали находить уязвимости.

Забавный факт: GPT-5.3-Codex — первая модель, которая участвовала в собственном создании. Ранние версии дебажили свой же тренинг и помогали с деплоем.

Доступна в Codex app, CLI, IDE и вебе на платных планах ChatGPT. API — скоро.

Подробности → https://openai.com/index/introducing-gpt-5-3-codex/

Openai

Introducing GPT-5.3-Codex

GPT-5.3-Codex is a Codex-native agent that pairs frontier coding performance with general reasoning to support long-horizon, real-world technical work.

462 views18:32

AI и разработка | Кейсы, грабли и ИИ...

Cursor выпустил Composer 1.5 — собственную кодинговую модель, вторую в линейке

Что под капотом:
— RL (reinforcement learning, обучение с подкреплением) масштабировали в 20 раз по сравнению с Composer 1. Объём пост-тренинга превысил объём самого претрейна — нетипичная пропорция.
— Thinking-модель с адаптивным рассуждением: на простых задачах думает минимально, на сложных — копает глубоко.
— Self-summarization: когда контекст заканчивается, модель сама сжимает историю и продолжает работу. Может срабатывать рекурсивно несколько раз подряд. Качество при этом не падает.

Из важного — цена. Composer 1.5 стоит $3,5 / $17,5 за миллион токенов (вход/выход). Для сравнения — GPT-5.3 Codex в Cursor обходится в $1,75 / $14. То есть Composer вдвое дороже на входе и на 25% дороже на выходе. Claude Opus 4.6 ещё дороже — $5 / $25, но это и другой класс модели.

При этом Cursor не публикует бенчмарки — только «внутренние тесты показывают рост, особенно на сложных задачах». Сравнить с GPT-5.3 Codex или Claude Opus 4.6 по цифрам пока невозможно. Придётся проверять руками.

Модель уже доступна в Cursor

Подробности → https://cursor.com/blog/composer-1-5

Cursor

Introducing Composer 1.5 · Cursor

Improved reasoning over challenging coding tasks by scaling RL over 20x.

186 views13:35

AI и разработка | Кейсы, грабли и ИИ...

Ликбез про бенчмарки ИИ кодинг-агентов

Вендоры любят хвастаться «плюс X% на бенчмарке». Но запутаться в куче названий бенчмарков очень легко. Вот очень короткий гайд по актуальным бенчмаркам.

🤖 SWE-bench (https://www.swebench.com/) — модель получает реальный GitHub issue и должна сделать рабочий патч. Золотой стандарт для кодинг-агентов. SWE-bench Verified — 500 задач, которые инженеры проверили вручную.
Метрика — процент задач, где патч проходит тесты

🤖 Terminal-Bench (https://www.tbench.ai/) — задачи в реальном терминале: software engineering, сисадминирование, кибербезопасность, научные вычисления. Агент получает задание и работает в настоящем CLI-окружении. Топовые агенты набирают ~75% — значит, задачи действительно сложные.
Метрика — доля задач, где результат проходит автоматические тесты

🤖 LiveCodeBench (https://livecodebench.github.io/) — свежие задачи с LeetCode, AtCoder и Codeforces. Его регулярно обновляют, поэтому модель с меньшим шансом «видела» задачи при обучении. Хороший тест на свежесть.
Метрика — доля задач, которые прошли тесты

🤖 HumanEval (https://github.com/openai/human-eval) — 164 задачи: написать Python-функцию по docstring. Классика от OpenAI, но для топовых моделей уже простоват.
Метрика — доля задач, где первый ответ проходит юнит‑тесты

🤖 BigCodeBench (https://bigcode-bench.github.io/) — много задач с реальными библиотеками (pandas, torch, sklearn). Гораздо ближе к продовому коду, чем олимпиадные задачки.
Метрика — доля задач, которые прошли тесты

🤖 OSWorld (https://os-world.github.io/) — задачи с реальными десктопными и веб-приложениями. Агент должен кликать, печатать, переключаться между окнами и доводить задачу до результата. По сути, тест на «computer use» — может ли модель работать за компьютером как человек.
Метрика — доля задач, выполненных до конца корректно

🤖 MRCR v2 (https://huggingface.co/datasets/openai/mrcr) — бенчмарк от OpenAI на длинный контекст (до ~1M токенов). Модель получает синтетическую переписку, где один и тот же запрос повторяется 2, 4 или 8 раз. Задача — найти и вернуть конкретный экземпляр. Не про кодинг напрямую, но критически важен для агентов, которые работают с большими кодовыми базами и длинными контекстами.
Метрика — точность извлечения нужного фрагмента из длинного контекста

🤖 MMLU-Pro (https://github.com/TIGER-AI-Lab/MMLU-Pro) — 12 000+ вопросов по 14 областям: от математики и физики до права и экономики. Вариантов ответа не 4, а 10 — угадать сложнее, нужно реально рассуждать. На MMLU топовые модели уже упёрлись в потолок, а вот MMLU-Pro снова разделяет сильных и слабых.
Метрика — доля правильных ответов

Конечно, ни один бенчмарк не покажет эффективность модели именно на вашем проекте. Но как ориентир — помогает. На какой бенчмарк вы смотрите в первую очередь?

Канал — AI и разработка

Please open Telegram to view this post

VIEW IN TELEGRAM

Terminal-Bench

A benchmark for terminal agents

👍2

196 views12:02

AI и разработка | Кейсы, грабли и ИИ...

Разработать решение на базе ИИ — это половина дела. Вторая половина — запустить его так, чтобы экономика сходилась. Эксплуатация LLM в продакшене — это GPU-серверы за миллионы рублей в месяц. И на каждом шаге — решение, которое меняет итоговый счёт: какую модель взять, как сконфигурировать железо, как масштабировать под нагрузку. Выбор модели, архитектуры и конфигурации GPU может изменить стоимость инфраструктуры на порядок — как в плюс, так и в минус.
На вебинаре разберём, из чего складывается стоимость инференса и какие решения при проектировании снижают бюджет на порядок.

🗓 13 марта, 12:00 мск, Пятница
💻 ОНЛАЙН

Что разберём:
— как устроен инференс LLM и какие способы оптимизации производительности существуют;
— из чего складывается стоимость эксплуатации LLM в продакшене;
— как выбор LLM-модели и конфигурации GPU меняет стоимость инфраструктуры на порядок;
— бенчмарки на реальном оборудовании: сравнение GPU в разных конфигурациях под нагрузкой;
— свой сервер и API: расчёт с ценами российских провайдеров, что выгодней.

Вебинар будет полезен для CTO, архитекторов, руководителей продуктов и разработчиков, которые строят LLM-решения и хотят понимать экономику их эксплуатации.

🔥 Зарегистрироваться на вебинар

Please open Telegram to view this post

VIEW IN TELEGRAM

232 views08:22

AI и разработка | Кейсы, грабли и ИИ...

Страшный сон вайб-кодера

75 views12:00

AI и разработка | Кейсы, грабли и ИИ...

OpenAI выпустила GPT-5.4

Что важно:
— native computer use: модель управляет UI через скриншоты и клики. 75% на OSWorld — выше человека (72.4%);
— tool search: вместо загрузки всех определений инструментов в контекст модель сама находит нужный. Минус 47% токенов — критично для MCP;
— контекст до 1M токенов в API;
— /fast в Codex: 1.5x скорость генерации без потери качества;
— на 33% меньше фактических ошибок vs GPT-5.2.

Цена в API: $2.50/M input, $15/M output (GPT-5.2 — $1.75/$14). Дороже за токен, но модель расходует их экономнее.

GPT-5.2 Thinking уедет в Legacy 5 июня 2026.

https://openai.com/index/introducing-gpt-5-4/

Openai

Introducing GPT-5.4

Introducing GPT-5.4, OpenAI’s most most capable and efficient frontier model for professional work, with state-of-the-art coding, computer use, tool search, and 1M-token context.

40 views18:56

About

Blog

Apps

Platform