AI и разработка | Кейсы, грабли и ИИ...
126 subscribers
39 photos
3 videos
20 links
Комьюнити о практическом применении ИИ в разработке.

LLM, агенты, Cursor, LangChain, кейсы, вебинары и вот это вот всё.

Про нас — https://spectr.dev/
Учиться — https://ai-academy.spectr.dev/

По сотрудничеству — в ЛС канала
Download Telegram
AI и разработка | Кейсы, грабли и ИИ... pinned «Мы начали! Вопросы можете оставлять под этим сообщением 🙂 Стрим: https://vk.com/video-137384692_456239200»
Forwarded from 4chan
This media is not supported in your browser
VIEW IN TELEGRAM
Знание разблокировано: теперь вы знаете, что происходит, когда вы задаёте ChatGPT тупой вопрос
👍2
Как разработчику использовать AI? Курс стартует уже через неделю!

AI уже умеет писать код, помогать с ревью, генерировать тесты и даже собирать прототипы. Но в продакшене без системного подхода это превращается в лотерею: сегодня повезло, завтра всё развалилось.

Мы запустили практический курс «AI-driven разработчик» — как встроить ИИ в свою работу так же естественно, как Git или код-ревью.

В курсе:
- много важной теории, основы LLM, работа с локальными моделями;
- много практики по работе с код-агентами (Cursor, Claude Code);
- разработка своего MCP и RAG;
- разработки агентов: LangChain / LangGraph, LlamaIndex.

9 недель, нагрузка 5–10 часов в неделю. Один сквозной проект от идеи до рабочего прототипа. Видеоуроки с практикой; домашки; групповые встречи и разборы с преподавателями; общий чат для консультаций .

Старт обучения — 15 декабря
🔥 По промокоду AI_IN_DEVскидка 10% на любой тариф

Посмотреть программу и записаться
Please open Telegram to view this post
VIEW IN TELEGRAM
AI и разработка | Кейсы, грабли и ИИ... pinned «Как разработчику использовать AI? Курс стартует уже через неделю! AI уже умеет писать код, помогать с ревью, генерировать тесты и даже собирать прототипы. Но в продакшене без системного подхода это превращается в лотерею: сегодня повезло, завтра всё развалилось.…»
Antigravity от Google — сильно отстает от Cursor по функционалу, но супер-сильный аргумент в его пользу — его ценовая политика.

На базовом платном тарифе (около 15$) лимиты на использование моделей (в том числе, топовых) обновляются каждые 5 часов.
При активной работе получается примерно так: 1-2 часа гоняешь на топовой Opus-4.5, потом еще ±час на Gemini-3 (High), пару часов отдыхаешь и так по кругу.

При этом, Cursor в режиме On-Demand биллинга выжирает около 10$ в час активной работы на Opus-4.5 🤬
Anthropic выпустила Claude Opus 4.6 — самую сильную модель в линейке

Что изменилось для разработчика:
— Агентный кодинг на новом уровне: модель планирует глубже, держит контекст дольше и сама ловит ошибки в коде. Лучший результат на Terminal-Bench 2.0.
— Контекст 1M токенов (бета). Первый Opus с таким окном. На тесте MRCR v2 набирает 76% против 18,5% у Sonnet 4.5 — качественный скачок в работе с большими кодовыми базами.
— Adaptive thinking: модель сама решает, когда включать глубокое рассуждение, а когда не тратить время. Плюс четыре уровня effort (low / medium / high / max) для контроля баланса скорости и качества.
— Context compaction: автоматическое сжатие контекста в длинных сессиях — агенты больше не упираются в лимит окна.
— Agent teams в Claude Code (превью): несколько агентов работают параллельно и координируются сами. Подходит для ревью и задач с большим объёмом чтения кода.

Цена та же: $5 / $25 за миллион токенов. Премиум-тариф для промптов свыше 200k.

Модель доступна в API (claude-opus-4-6), на claude.ai и облачных платформах.

Подробности → https://www.anthropic.com/news/claude-opus-4-6
OpenAI выкатила GPT-5.3-Codex

Что важно разработчику:

— Terminal-Bench 2.0: 77,3% (было 64% у GPT-5.2-Codex). При этом модель тратит меньше токенов, чем предшественники.
— OSWorld: 64,7% против 38,2% — почти двукратный рост в задачах на управление компьютером. Человеческий уровень — ~72%.
— Модель на 25% быстрее GPT-5.2-Codex.
— Интерактивная работа: можно подруливать агента прямо во время выполнения задачи — задавать вопросы, менять направление, не теряя контекст.
— Выход за пределы кода: презентации, таблицы, PRD, анализ данных, деплой — всё в одной модели. На GDPval (реальные рабочие задачи из 44 профессий) показывает результат на уровне GPT-5.2.

Отдельная история — кибербезопасность. Это первая модель OpenAI с рейтингом High по Preparedness Framework и первая, которую целенаправленно обучали находить уязвимости.

Забавный факт: GPT-5.3-Codex — первая модель, которая участвовала в собственном создании. Ранние версии дебажили свой же тренинг и помогали с деплоем.

Доступна в Codex app, CLI, IDE и вебе на платных планах ChatGPT. API — скоро.

Подробности → https://openai.com/index/introducing-gpt-5-3-codex/
Cursor выпустил Composer 1.5 — собственную кодинговую модель, вторую в линейке

Что под капотом:
— RL (reinforcement learning, обучение с подкреплением) масштабировали в 20 раз по сравнению с Composer 1. Объём пост-тренинга превысил объём самого претрейна — нетипичная пропорция.
— Thinking-модель с адаптивным рассуждением: на простых задачах думает минимально, на сложных — копает глубоко.
— Self-summarization: когда контекст заканчивается, модель сама сжимает историю и продолжает работу. Может срабатывать рекурсивно несколько раз подряд. Качество при этом не падает.

Из важного — цена. Composer 1.5 стоит $3,5 / $17,5 за миллион токенов (вход/выход). Для сравнения — GPT-5.3 Codex в Cursor обходится в $1,75 / $14. То есть Composer вдвое дороже на входе и на 25% дороже на выходе. Claude Opus 4.6 ещё дороже — $5 / $25, но это и другой класс модели.

При этом Cursor не публикует бенчмарки — только «внутренние тесты показывают рост, особенно на сложных задачах». Сравнить с GPT-5.3 Codex или Claude Opus 4.6 по цифрам пока невозможно. Придётся проверять руками.

Модель уже доступна в Cursor

Подробности → https://cursor.com/blog/composer-1-5
Ликбез про бенчмарки ИИ кодинг-агентов

Вендоры любят хвастаться «плюс X% на бенчмарке». Но запутаться в куче названий бенчмарков очень легко. Вот очень короткий гайд по актуальным бенчмаркам.

🤖 SWE-bench (https://www.swebench.com/) — модель получает реальный GitHub issue и должна сделать рабочий патч. Золотой стандарт для кодинг-агентов. SWE-bench Verified — 500 задач, которые инженеры проверили вручную.
Метрика — процент задач, где патч проходит тесты

🤖 Terminal-Bench (https://www.tbench.ai/) — задачи в реальном терминале: software engineering, сисадминирование, кибербезопасность, научные вычисления. Агент получает задание и работает в настоящем CLI-окружении. Топовые агенты набирают ~75% — значит, задачи действительно сложные.
Метрика — доля задач, где результат проходит автоматические тесты

🤖 LiveCodeBench (https://livecodebench.github.io/) — свежие задачи с LeetCode, AtCoder и Codeforces. Его регулярно обновляют, поэтому модель с меньшим шансом «видела» задачи при обучении. Хороший тест на свежесть.
Метрика — доля задач, которые прошли тесты

🤖 HumanEval (https://github.com/openai/human-eval) — 164 задачи: написать Python-функцию по docstring. Классика от OpenAI, но для топовых моделей уже простоват.
Метрика — доля задач, где первый ответ проходит юнит‑тесты

🤖 BigCodeBench (https://bigcode-bench.github.io/) — много задач с реальными библиотеками (pandas, torch, sklearn). Гораздо ближе к продовому коду, чем олимпиадные задачки.
Метрика — доля задач, которые прошли тесты

🤖 OSWorld (https://os-world.github.io/) — задачи с реальными десктопными и веб-приложениями. Агент должен кликать, печатать, переключаться между окнами и доводить задачу до результата. По сути, тест на «computer use» — может ли модель работать за компьютером как человек.
Метрика — доля задач, выполненных до конца корректно

🤖 MRCR v2 (https://huggingface.co/datasets/openai/mrcr) — бенчмарк от OpenAI на длинный контекст (до ~1M токенов). Модель получает синтетическую переписку, где один и тот же запрос повторяется 2, 4 или 8 раз. Задача — найти и вернуть конкретный экземпляр. Не про кодинг напрямую, но критически важен для агентов, которые работают с большими кодовыми базами и длинными контекстами.
Метрика — точность извлечения нужного фрагмента из длинного контекста

🤖 MMLU-Pro (https://github.com/TIGER-AI-Lab/MMLU-Pro) — 12 000+ вопросов по 14 областям: от математики и физики до права и экономики. Вариантов ответа не 4, а 10 — угадать сложнее, нужно реально рассуждать. На MMLU топовые модели уже упёрлись в потолок, а вот MMLU-Pro снова разделяет сильных и слабых.
Метрика — доля правильных ответов

Конечно, ни один бенчмарк не покажет эффективность модели именно на вашем проекте. Но как ориентир — помогает. На какой бенчмарк вы смотрите в первую очередь?

Канал — AI и разработка
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Разработать решение на базе ИИ — это половина дела. Вторая половина — запустить его так, чтобы экономика сходилась. Эксплуатация LLM в продакшене — это GPU-серверы за миллионы рублей в месяц. И на каждом шаге — решение, которое меняет итоговый счёт: какую модель взять, как сконфигурировать железо, как масштабировать под нагрузку. Выбор модели, архитектуры и конфигурации GPU может изменить стоимость инфраструктуры на порядок — как в плюс, так и в минус.
На вебинаре разберём, из чего складывается стоимость инференса и какие решения при проектировании снижают бюджет на порядок.

🗓 13 марта, 12:00 мск, Пятница
💻 ОНЛАЙН

Что разберём:
— как устроен инференс LLM и какие способы оптимизации производительности существуют;
— из чего складывается стоимость эксплуатации LLM в продакшене;
— как выбор LLM-модели и конфигурации GPU меняет стоимость инфраструктуры на порядок;
— бенчмарки на реальном оборудовании: сравнение GPU в разных конфигурациях под нагрузкой;
— свой сервер и API: расчёт с ценами российских провайдеров, что выгодней.

Вебинар будет полезен для CTO, архитекторов, руководителей продуктов и разработчиков, которые строят LLM-решения и хотят понимать экономику их эксплуатации.

🔥 Зарегистрироваться на вебинар
Please open Telegram to view this post
VIEW IN TELEGRAM
Страшный сон вайб-кодера
OpenAI выпустила GPT-5.4

Что важно:
— native computer use: модель управляет UI через скриншоты и клики. 75% на OSWorld — выше человека (72.4%);
— tool search: вместо загрузки всех определений инструментов в контекст модель сама находит нужный. Минус 47% токенов — критично для MCP;
— контекст до 1M токенов в API;
— /fast в Codex: 1.5x скорость генерации без потери качества;
— на 33% меньше фактических ошибок vs GPT-5.2.

Цена в API: $2.50/M input, $15/M output (GPT-5.2 — $1.75/$14). Дороже за токен, но модель расходует их экономнее.

GPT-5.2 Thinking уедет в Legacy 5 июня 2026.


https://openai.com/index/introducing-gpt-5-4/