AI и разработка | Кейсы, грабли и ИИ...
126 subscribers
39 photos
3 videos
20 links
Комьюнити о практическом применении ИИ в разработке.

LLM, агенты, Cursor, LangChain, кейсы, вебинары и вот это вот всё.

Про нас — https://spectr.dev/
Учиться — https://ai-academy.spectr.dev/

По сотрудничеству — в ЛС канала
Download Telegram
Бэкстейдж с нового «Подкаста-Подкаста»

Нашим гостем стал Кирилл Грищук — team lead в Core Services, «Авито».

Беседа лилась о карьерном и профессиональном росте инженера и другой актуалочке. Подробности на релизе.

Чтобы сгладить томительное ожидание, предлагаем насладиться другими выпусками П-П:

► № 1. Главное в сервисном и продуктовом ИТ-бизнесе | Сергей Костин | YouTube | VK Видео | ЯндексМузыка

► № 2. Путь из QA в SDET | Олег Пендрак | YouTube | VK Видео | ЯндексМузыка
👍3
Розыгрыш билета «Бизнес» на Ural Digital Weekend 2025 от Spectr

Накануне Ural Digital Weekend решили провести розыгрыш билета категории «Бизнес» среди подписчиков от лица организаторов, компании Spectr.

Напомним, что Spectr — IT-компания, которая занимается разработкой и внедрением сложных цифровых продуктов и фокусируется на автоматизации бизнес-планирования и IBP-процессов.

Итак, про розыгрыш.

Правила предельно простые
1) Подписаться на канал Spectr (https://t.me/spectr_offical) и канал Ural Digital Weekend (https://t.me/ural_digital_weekend)
2) Нажать кнопку Участвовать :)
3) Можно пригласить своих друзей (увеличивает шансы на победу)

Итогу будут подведены 16 июля в 20:00 мск.

Победитель получит промокод на бесплатное оформление билета «Бизнес»!

Подписывайтесь на наши каналы и принимайте участие!

Участников: 18
Призовых мест: 1
Дата розыгрыша: 20:00, 16.07.2025 MSK (2 дня)
🚀 Перезапускаем канал: теперь это канал-комьюнити про практическое применение ИИ в разработке

Не пугайтесь: это всё тот же канал. Просто мир и IT‑индустрия меняются, и мы с ними. Если вы следите за нами, вы знаете: мы перезапускаем образовательные активности Spectr и обновляем формат — теперь фокус на практическом применении ИИ в разработке и этот канал — часть обновления.

Что будет:
— применение LLM и агентов в коде и процессах;
— кейсы из практики: что сработало, что нет;
— разбор инструментов: Cursor, MCP, LangChain и других;
— анонсы вебинаров и практикумов;
— новости из мира ИИ;
— ответы на ваши вопросы.

Кстати, уже открыли регистрацию на курс о применении ИИ для разработчиков. Параллельно готовим серию онлайн‑стримов — про применение искусственного интеллекта и живые кейсы.

Если тема вам близка — оставайтесь и включите уведомления. Если нет — без обид, можно отписаться.
👍3👎1
О, Anthropic завезли LLM‑разработчикам маленькое чудо

Anthropic выкатили Structured outputs: теперь Sonnet 4.5 и Opus 4.1 могут гарантированно возвращать JSON, который строго соответствует вашей схеме.

Что это меняет на практике:
— меньше промпт‑костылей вроде «ответь строго в JSON, вот пример»;
— нет рандомных запятых и комментариев, из‑за которых всё падает при парсинге ответа;
— проще строить над моделью агенты и пайплайны, где каждый шаг ждёт ровно свой формат;
— код вокруг LLM худеет: меньше обвязки, ретраев и ручных проверок.

Если вы тянете данные из текста или картинок, крутите multi‑agent‑архитектуры или зовёте внешние API через tools — это апдейт из серии «включить и забыть».

Подробнее — в блоге Anthropic и в доках:
— блог: https://www.claude.com/blog/structured-outputs-on-the-claude-developer-platform
— доки: https://docs.claude.com/en/docs/build-with-claude/structured-outputs
Вебинар «ИИ в жизни фронтенд-разработчика»

Разберём, как фронтендеру выжать из ИИ максимум пользы в реальных задачах.

Спикер: Александр Широчкин — руководитель направления разработки в Т1 и автор телеграм-канала «Саня об IT».

🗓 Когда: 26 ноября в 13:00 мск
📍Где: онлайн

Что будет на вебинаре:
— как изменились нейросети за последние годы и что это значит для фронтенда;
— как Александр использует ИИ в работе руководителя разработки и инженера;
— особенности безопасного использования популярных нейросетей при работе в крупных ИТ-компаниях;
— какие подходы и инструменты хочет попробовать, но пока не дошли руки.

В конце вебинара можно будет задать Александру вопросы про ИИ, фронтенд и карьеру разработчика. Если тема откликается — приходите с живыми задачами

Участие — бесплатно. Регистрация — ПО ССЫЛКЕ

AI и разработка | Spectr
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
Новые Open source‑модели от Сбера для разработчиков

Сбер выкатил две новые GigaChat‑модели с открытыми весами — и это хорошая новость, если вы любите локальный ИИ и русский язык «из коробки».

Что вышло:
- GigaChat 3 Lightning — компактная MoE‑модель: ~10B параметров, из них ~1,8B активных на шаг. Подходит для локального запуска на ноутбуке и быстрых экспериментов.
- GigaChat 3 Ultra Preview (702B-A36B) — флагман на 702 млрд параметров, при инференсе задействует ~36 млрд (около 5%). Обучена с нуля на собственном датасете, без дообучения западных моделей.

Чем это полезно разработчику?
- Нативный русский: модель училась с нуля, понимает морфологию, контекст и культурные реалии, а не просто «дотюнена» на русском корпусе.
- Локальный запуск: Lightning рассчитана на запуск на личных машинах и даёт быстрый отклик — удобно для прототипирования и частичного офлайна.
- Большой pretrain‑корпус: под Ultra собрали ~14 трлн токенов — это влияет на обобщающую способность и качество кода/текста.
- Фокус на грамотности: команда отдельно вычитывала тексты, чтобы модель писала по‑русски чисто и структурно, без типичных «артефактов».

Если хотите глубже разобрать архитектуру, данные и бенчмарки, посмотрите исходную статью на Хабре: GigaChat 3 Ultra Preview — тяжёлый open source

Мы пока не тестировали, но планируем :)
👍3
Мы начали! Вопросы можете оставлять под этим сообщением 🙂

Стрим: https://vk.com/video-137384692_456239200
AI и разработка | Кейсы, грабли и ИИ... pinned «Мы начали! Вопросы можете оставлять под этим сообщением 🙂 Стрим: https://vk.com/video-137384692_456239200»
Forwarded from 4chan
This media is not supported in your browser
VIEW IN TELEGRAM
Знание разблокировано: теперь вы знаете, что происходит, когда вы задаёте ChatGPT тупой вопрос
👍2
Как разработчику использовать AI? Курс стартует уже через неделю!

AI уже умеет писать код, помогать с ревью, генерировать тесты и даже собирать прототипы. Но в продакшене без системного подхода это превращается в лотерею: сегодня повезло, завтра всё развалилось.

Мы запустили практический курс «AI-driven разработчик» — как встроить ИИ в свою работу так же естественно, как Git или код-ревью.

В курсе:
- много важной теории, основы LLM, работа с локальными моделями;
- много практики по работе с код-агентами (Cursor, Claude Code);
- разработка своего MCP и RAG;
- разработки агентов: LangChain / LangGraph, LlamaIndex.

9 недель, нагрузка 5–10 часов в неделю. Один сквозной проект от идеи до рабочего прототипа. Видеоуроки с практикой; домашки; групповые встречи и разборы с преподавателями; общий чат для консультаций .

Старт обучения — 15 декабря
🔥 По промокоду AI_IN_DEVскидка 10% на любой тариф

Посмотреть программу и записаться
Please open Telegram to view this post
VIEW IN TELEGRAM
AI и разработка | Кейсы, грабли и ИИ... pinned «Как разработчику использовать AI? Курс стартует уже через неделю! AI уже умеет писать код, помогать с ревью, генерировать тесты и даже собирать прототипы. Но в продакшене без системного подхода это превращается в лотерею: сегодня повезло, завтра всё развалилось.…»
Antigravity от Google — сильно отстает от Cursor по функционалу, но супер-сильный аргумент в его пользу — его ценовая политика.

На базовом платном тарифе (около 15$) лимиты на использование моделей (в том числе, топовых) обновляются каждые 5 часов.
При активной работе получается примерно так: 1-2 часа гоняешь на топовой Opus-4.5, потом еще ±час на Gemini-3 (High), пару часов отдыхаешь и так по кругу.

При этом, Cursor в режиме On-Demand биллинга выжирает около 10$ в час активной работы на Opus-4.5 🤬
Anthropic выпустила Claude Opus 4.6 — самую сильную модель в линейке

Что изменилось для разработчика:
— Агентный кодинг на новом уровне: модель планирует глубже, держит контекст дольше и сама ловит ошибки в коде. Лучший результат на Terminal-Bench 2.0.
— Контекст 1M токенов (бета). Первый Opus с таким окном. На тесте MRCR v2 набирает 76% против 18,5% у Sonnet 4.5 — качественный скачок в работе с большими кодовыми базами.
— Adaptive thinking: модель сама решает, когда включать глубокое рассуждение, а когда не тратить время. Плюс четыре уровня effort (low / medium / high / max) для контроля баланса скорости и качества.
— Context compaction: автоматическое сжатие контекста в длинных сессиях — агенты больше не упираются в лимит окна.
— Agent teams в Claude Code (превью): несколько агентов работают параллельно и координируются сами. Подходит для ревью и задач с большим объёмом чтения кода.

Цена та же: $5 / $25 за миллион токенов. Премиум-тариф для промптов свыше 200k.

Модель доступна в API (claude-opus-4-6), на claude.ai и облачных платформах.

Подробности → https://www.anthropic.com/news/claude-opus-4-6
OpenAI выкатила GPT-5.3-Codex

Что важно разработчику:

— Terminal-Bench 2.0: 77,3% (было 64% у GPT-5.2-Codex). При этом модель тратит меньше токенов, чем предшественники.
— OSWorld: 64,7% против 38,2% — почти двукратный рост в задачах на управление компьютером. Человеческий уровень — ~72%.
— Модель на 25% быстрее GPT-5.2-Codex.
— Интерактивная работа: можно подруливать агента прямо во время выполнения задачи — задавать вопросы, менять направление, не теряя контекст.
— Выход за пределы кода: презентации, таблицы, PRD, анализ данных, деплой — всё в одной модели. На GDPval (реальные рабочие задачи из 44 профессий) показывает результат на уровне GPT-5.2.

Отдельная история — кибербезопасность. Это первая модель OpenAI с рейтингом High по Preparedness Framework и первая, которую целенаправленно обучали находить уязвимости.

Забавный факт: GPT-5.3-Codex — первая модель, которая участвовала в собственном создании. Ранние версии дебажили свой же тренинг и помогали с деплоем.

Доступна в Codex app, CLI, IDE и вебе на платных планах ChatGPT. API — скоро.

Подробности → https://openai.com/index/introducing-gpt-5-3-codex/
Cursor выпустил Composer 1.5 — собственную кодинговую модель, вторую в линейке

Что под капотом:
— RL (reinforcement learning, обучение с подкреплением) масштабировали в 20 раз по сравнению с Composer 1. Объём пост-тренинга превысил объём самого претрейна — нетипичная пропорция.
— Thinking-модель с адаптивным рассуждением: на простых задачах думает минимально, на сложных — копает глубоко.
— Self-summarization: когда контекст заканчивается, модель сама сжимает историю и продолжает работу. Может срабатывать рекурсивно несколько раз подряд. Качество при этом не падает.

Из важного — цена. Composer 1.5 стоит $3,5 / $17,5 за миллион токенов (вход/выход). Для сравнения — GPT-5.3 Codex в Cursor обходится в $1,75 / $14. То есть Composer вдвое дороже на входе и на 25% дороже на выходе. Claude Opus 4.6 ещё дороже — $5 / $25, но это и другой класс модели.

При этом Cursor не публикует бенчмарки — только «внутренние тесты показывают рост, особенно на сложных задачах». Сравнить с GPT-5.3 Codex или Claude Opus 4.6 по цифрам пока невозможно. Придётся проверять руками.

Модель уже доступна в Cursor

Подробности → https://cursor.com/blog/composer-1-5
Ликбез про бенчмарки ИИ кодинг-агентов

Вендоры любят хвастаться «плюс X% на бенчмарке». Но запутаться в куче названий бенчмарков очень легко. Вот очень короткий гайд по актуальным бенчмаркам.

🤖 SWE-bench (https://www.swebench.com/) — модель получает реальный GitHub issue и должна сделать рабочий патч. Золотой стандарт для кодинг-агентов. SWE-bench Verified — 500 задач, которые инженеры проверили вручную.
Метрика — процент задач, где патч проходит тесты

🤖 Terminal-Bench (https://www.tbench.ai/) — задачи в реальном терминале: software engineering, сисадминирование, кибербезопасность, научные вычисления. Агент получает задание и работает в настоящем CLI-окружении. Топовые агенты набирают ~75% — значит, задачи действительно сложные.
Метрика — доля задач, где результат проходит автоматические тесты

🤖 LiveCodeBench (https://livecodebench.github.io/) — свежие задачи с LeetCode, AtCoder и Codeforces. Его регулярно обновляют, поэтому модель с меньшим шансом «видела» задачи при обучении. Хороший тест на свежесть.
Метрика — доля задач, которые прошли тесты

🤖 HumanEval (https://github.com/openai/human-eval) — 164 задачи: написать Python-функцию по docstring. Классика от OpenAI, но для топовых моделей уже простоват.
Метрика — доля задач, где первый ответ проходит юнит‑тесты

🤖 BigCodeBench (https://bigcode-bench.github.io/) — много задач с реальными библиотеками (pandas, torch, sklearn). Гораздо ближе к продовому коду, чем олимпиадные задачки.
Метрика — доля задач, которые прошли тесты

🤖 OSWorld (https://os-world.github.io/) — задачи с реальными десктопными и веб-приложениями. Агент должен кликать, печатать, переключаться между окнами и доводить задачу до результата. По сути, тест на «computer use» — может ли модель работать за компьютером как человек.
Метрика — доля задач, выполненных до конца корректно

🤖 MRCR v2 (https://huggingface.co/datasets/openai/mrcr) — бенчмарк от OpenAI на длинный контекст (до ~1M токенов). Модель получает синтетическую переписку, где один и тот же запрос повторяется 2, 4 или 8 раз. Задача — найти и вернуть конкретный экземпляр. Не про кодинг напрямую, но критически важен для агентов, которые работают с большими кодовыми базами и длинными контекстами.
Метрика — точность извлечения нужного фрагмента из длинного контекста

🤖 MMLU-Pro (https://github.com/TIGER-AI-Lab/MMLU-Pro) — 12 000+ вопросов по 14 областям: от математики и физики до права и экономики. Вариантов ответа не 4, а 10 — угадать сложнее, нужно реально рассуждать. На MMLU топовые модели уже упёрлись в потолок, а вот MMLU-Pro снова разделяет сильных и слабых.
Метрика — доля правильных ответов

Конечно, ни один бенчмарк не покажет эффективность модели именно на вашем проекте. Но как ориентир — помогает. На какой бенчмарк вы смотрите в первую очередь?

Канал — AI и разработка
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Разработать решение на базе ИИ — это половина дела. Вторая половина — запустить его так, чтобы экономика сходилась. Эксплуатация LLM в продакшене — это GPU-серверы за миллионы рублей в месяц. И на каждом шаге — решение, которое меняет итоговый счёт: какую модель взять, как сконфигурировать железо, как масштабировать под нагрузку. Выбор модели, архитектуры и конфигурации GPU может изменить стоимость инфраструктуры на порядок — как в плюс, так и в минус.
На вебинаре разберём, из чего складывается стоимость инференса и какие решения при проектировании снижают бюджет на порядок.

🗓 13 марта, 12:00 мск, Пятница
💻 ОНЛАЙН

Что разберём:
— как устроен инференс LLM и какие способы оптимизации производительности существуют;
— из чего складывается стоимость эксплуатации LLM в продакшене;
— как выбор LLM-модели и конфигурации GPU меняет стоимость инфраструктуры на порядок;
— бенчмарки на реальном оборудовании: сравнение GPU в разных конфигурациях под нагрузкой;
— свой сервер и API: расчёт с ценами российских провайдеров, что выгодней.

Вебинар будет полезен для CTO, архитекторов, руководителей продуктов и разработчиков, которые строят LLM-решения и хотят понимать экономику их эксплуатации.

🔥 Зарегистрироваться на вебинар
Please open Telegram to view this post
VIEW IN TELEGRAM