No Vibes Allowed: Solving Hard Problems in Complex Codebases (Рубрика #AI)
Интересное выступление от Dex Horthy, основателя компании HumanLayer, разрабатывающей инструменты для AI-assisted разработки. Его предыдущий доклад "12 Factor Agents: Patterns of reliable LLM applications" (см. мой разбор) в июне 2025 стал одним из самых популярных на конференции. Именно ему приписывают популяризацию термина "context engineering".
Исследование Stanford показало неприятную правду об AI-инструментах для кодинга (это было в выступлении "Does AI Actually Boost Developer Productivity?" от Yegor Denisov-Blanch, про которое я уже рассказывал)
- Большая часть "дополнительного кода", написанного с помощью AI - это переработка slop'а, который был написан до этого
- Агенты отлично работают на новых проектах, но в больших legacy-кодовых базах часто делают разработчиков менее продуктивными
Для решения этих проблем автор рассказывает про context engineering
- LLM - это stateless системы. Единственный способ получить лучший результат - подать лучший контекст на вход. При каждом вызове модель выбирает следующий шаг исключительно на основе того, что находится в текущем контексте.
- "Dumb Zone". У контекстного окна есть практический предел. После ~40% заполнения начинается деградация качества ответов. Если у вас подключено много MCP-инструментов, которые забивают контекст JSON'ами и UUID'ами - вы постоянно работаете в dumb zone.
- Методология: Research → Plan → Implement. Вместо наивного подхода "попросил → получил slop → поругался → попросил снова" команда Dex'а использует частую намеренную компактизацию контекста:
-- Research - понимание системы, поиск нужных файлов. Результат сжимается в markdown с конкретными файлами и номерами строк.
-- Plan - детальный план с code snippets того, что именно будет изменено. Чем конкретнее план, тем надёжнее выполнение.
-- Implement - выполнение плана. Если план хороший, даже "тупая" модель справится.
- Напоследок автор рассказывает про практические результаты вида: за 7 часов субботней сессии отправили 35,000 строк кода в проект BAML (300k LOC Rust) - обычно это была работа на 1-2 недели
Практические советы от автора
- Sub-agents - не для ролей, а для контроля контекста. Не создавайте "frontend agent" и "backend agent". Используйте sub-agents для изоляции тяжёлых операций чтения кодовой базы, возвращая только сжатый результат.
- Прогрессивное раскрытие контекста. Вместо одного огромного файла документации в корне репозитория - размещайте контекстные файлы на каждом уровне, подгружая только релевантное.
- On-demand сжатый контекст лучше статичной документации. Документация устаревает и врёт. Код - источник истины. Генерируйте research-документы на лету из реального кода.
- Trajectory matters. Если вы 5 раз поругали модель в одном контексте - она "научилась", что следующий шаг = ошибка + ругань. Лучше начать новый контекст.
- Культурные изменения должны идти сверху. Если вы технический лидер - выберите один инструмент и набивайте практику. Не прыгайте между Claude Code, Cursor и Codex
Главный вывод из выступления примерно такой
#Engineering #AI #Metrics #Software #DevEx #Productivity
Интересное выступление от Dex Horthy, основателя компании HumanLayer, разрабатывающей инструменты для AI-assisted разработки. Его предыдущий доклад "12 Factor Agents: Patterns of reliable LLM applications" (см. мой разбор) в июне 2025 стал одним из самых популярных на конференции. Именно ему приписывают популяризацию термина "context engineering".
Исследование Stanford показало неприятную правду об AI-инструментах для кодинга (это было в выступлении "Does AI Actually Boost Developer Productivity?" от Yegor Denisov-Blanch, про которое я уже рассказывал)
- Большая часть "дополнительного кода", написанного с помощью AI - это переработка slop'а, который был написан до этого
- Агенты отлично работают на новых проектах, но в больших legacy-кодовых базах часто делают разработчиков менее продуктивными
Для решения этих проблем автор рассказывает про context engineering
- LLM - это stateless системы. Единственный способ получить лучший результат - подать лучший контекст на вход. При каждом вызове модель выбирает следующий шаг исключительно на основе того, что находится в текущем контексте.
- "Dumb Zone". У контекстного окна есть практический предел. После ~40% заполнения начинается деградация качества ответов. Если у вас подключено много MCP-инструментов, которые забивают контекст JSON'ами и UUID'ами - вы постоянно работаете в dumb zone.
- Методология: Research → Plan → Implement. Вместо наивного подхода "попросил → получил slop → поругался → попросил снова" команда Dex'а использует частую намеренную компактизацию контекста:
-- Research - понимание системы, поиск нужных файлов. Результат сжимается в markdown с конкретными файлами и номерами строк.
-- Plan - детальный план с code snippets того, что именно будет изменено. Чем конкретнее план, тем надёжнее выполнение.
-- Implement - выполнение плана. Если план хороший, даже "тупая" модель справится.
- Напоследок автор рассказывает про практические результаты вида: за 7 часов субботней сессии отправили 35,000 строк кода в проект BAML (300k LOC Rust) - обычно это была работа на 1-2 недели
Практические советы от автора
- Sub-agents - не для ролей, а для контроля контекста. Не создавайте "frontend agent" и "backend agent". Используйте sub-agents для изоляции тяжёлых операций чтения кодовой базы, возвращая только сжатый результат.
- Прогрессивное раскрытие контекста. Вместо одного огромного файла документации в корне репозитория - размещайте контекстные файлы на каждом уровне, подгружая только релевантное.
- On-demand сжатый контекст лучше статичной документации. Документация устаревает и врёт. Код - источник истины. Генерируйте research-документы на лету из реального кода.
- Trajectory matters. Если вы 5 раз поругали модель в одном контексте - она "научилась", что следующий шаг = ошибка + ругань. Лучше начать новый контекст.
- Культурные изменения должны идти сверху. Если вы технический лидер - выберите один инструмент и набивайте практику. Не прыгайте между Claude Code, Cursor и Codex
Главный вывод из выступления примерно такой
AI cannot replace thinking. It can only amplify the thinking you have done - or the lack of thinking you have done.
#Engineering #AI #Metrics #Software #DevEx #Productivity
YouTube
No Vibes Allowed: Solving Hard Problems in Complex Codebases – Dex Horthy, HumanLayer
It seems pretty well-accepted that AI coding tools struggle with real production codebases. At AI Engineer 2025 in June, The Stanford study on AI's impact on developer productivity found:
A lot of the ""extra code"" shipped by AI tools ends up just reworking…
A lot of the ""extra code"" shipped by AI tools ends up just reworking…
👍15🔥9❤5
[1/2] Defying Gravity (Рубрика #AI)
Это интересное выступление про новую IDE "Antigravity" от Кевина Хоу, руководителя продуктовой инженерии Google Antigravity в Google DeepMind. До лета 2025 года Кевин возглавлял продуктовую инженерию в Windsurf (бывший Codeium), а потом Google приобрёл команду Windsurf за $2,4 млрд именно для создания Antigravity. В этом выступлении Хоу описывает эволюцию AI-инструментов для разработчиков как последовательность скачков, каждый из которых был связан с улучшением моделей:
1️⃣ Автокомплит (GitHub Copilot)
2️⃣ Чат (ChatGPT с RLHF)
3️⃣ Агенты (Antigravity)
Antigravity запущен 18 ноября 2025 года вместе с Gemini 3 Pro и позиционируется не просто как редактор с AI-функциями, а "агент-ориентированная платформа", где автономные агенты становятся полноценными партнёрами по разработке. В этой IDE есть три составляющие
1️⃣ Agent Manager - центральный хаб управления агентами. Это inbox для задач, требующих внимания (например, подтверждение команд терминала), с OS-уведомлениями и возможностью управлять несколькими агентами параллельно.
2️⃣ AI Editor - форк VS Code с быстрым автокомплитом и агентской боковой панелью. Переключение между Editor и Agent Manager занимает <100 мс (Cmd/Ctrl+E).
3️⃣ Agent-Controlled Browser - автоматизированный Chrome, который агент использует для:
- Получения контекста (доступ к Google Docs, GitHub dashboards с вашей аутентификацией)
- Верификации результатов (клики, скроллинг, выполнение JavaScript для тестирования приложений)
- Записи видео действий вместо показа diff'ов кода
IDE предлагает новый паттерн для взаимодействия посредством концепции Artifacts - это динамические визуальные представления работы агента:
- Типы артефактов: планы реализации (как PRD, product requirement definitions), task-листы, архитектурные диаграммы Mermaid, скриншоты, видеозаписи браузера, walkthrough'ы (финальные отчёты как PR description)
- Динамичность: модель сама решает, нужен ли артефакт, какого типа, кто должен его видеть (другие агенты, conversations, база знаний)
- Feedback-система: можно оставлять комментарии в стиле Google Docs / Figma - выделять текст или области на изображениях, батчить правки и отправлять агенту, не прерывая выполнение задачи
Раньше для отслеживания за роботой агентов надо было читать простыню chain-of-thoughts, что было тяжеловато. А вот артефакты дают визуальное представление прогресса - это похоже на PowerPoint для презентаций.
Продукт построен на возможнотях Gemini 3 Pro и предлагает четыре категории улучшений
1️⃣ Интеллект и reasoning: лучше следует инструкциям, понимает нюансы использования инструментов, справляется с долгими задачами
2️⃣ Multimodal: обработка текста, изображений, аудио, видео, кода одновременно. Image Generation (Nano Banana Pro) интегрирована для итераций по дизайну прямо в редакторе
3️⃣ Computer Use: вариант Gemini для управления браузером - клики, DOM-инспекция, JavaScript. Результат - не diff, а видеозапись действий для верификации
4️⃣ Долгоживущие задачи: агенты работают в фоне, уведомляя о необходимости вмешательства
По мнению Хоу ключевым преимуществом новой IDE является симбиоз с DeepMind
- Команда Antigravity сидит "в паре десятков метров" от команды Computer Use
- Ранний доступ к Gemini 3 за несколько месяцев до релиза позволил найти слабые места модели и исправить их в продукте
- Antigravity используется внутри Google инженерами и исследователями DeepMind - это пример dog fooding
- Такой симбиоз создаёт цикл обратной связи: продукт показывает пробелы модели → исследователи улучшают модель → продукт интегрирует улучшения
Например, Computer Use изначально работал плохо, пока команды не синхронизировали data distribution и agent harness, а концепция artifacts потребовала доработки модели, чтобы понимать концепцию ревью.
В продолжении мы обудим какие выводы можно сделать из появления такой IDE.
#Engineering #AI #Metrics #Software #DevEx #Productivity #IDE
Это интересное выступление про новую IDE "Antigravity" от Кевина Хоу, руководителя продуктовой инженерии Google Antigravity в Google DeepMind. До лета 2025 года Кевин возглавлял продуктовую инженерию в Windsurf (бывший Codeium), а потом Google приобрёл команду Windsurf за $2,4 млрд именно для создания Antigravity. В этом выступлении Хоу описывает эволюцию AI-инструментов для разработчиков как последовательность скачков, каждый из которых был связан с улучшением моделей:
1️⃣ Автокомплит (GitHub Copilot)
2️⃣ Чат (ChatGPT с RLHF)
3️⃣ Агенты (Antigravity)
Antigravity запущен 18 ноября 2025 года вместе с Gemini 3 Pro и позиционируется не просто как редактор с AI-функциями, а "агент-ориентированная платформа", где автономные агенты становятся полноценными партнёрами по разработке. В этой IDE есть три составляющие
1️⃣ Agent Manager - центральный хаб управления агентами. Это inbox для задач, требующих внимания (например, подтверждение команд терминала), с OS-уведомлениями и возможностью управлять несколькими агентами параллельно.
2️⃣ AI Editor - форк VS Code с быстрым автокомплитом и агентской боковой панелью. Переключение между Editor и Agent Manager занимает <100 мс (Cmd/Ctrl+E).
3️⃣ Agent-Controlled Browser - автоматизированный Chrome, который агент использует для:
- Получения контекста (доступ к Google Docs, GitHub dashboards с вашей аутентификацией)
- Верификации результатов (клики, скроллинг, выполнение JavaScript для тестирования приложений)
- Записи видео действий вместо показа diff'ов кода
IDE предлагает новый паттерн для взаимодействия посредством концепции Artifacts - это динамические визуальные представления работы агента:
- Типы артефактов: планы реализации (как PRD, product requirement definitions), task-листы, архитектурные диаграммы Mermaid, скриншоты, видеозаписи браузера, walkthrough'ы (финальные отчёты как PR description)
- Динамичность: модель сама решает, нужен ли артефакт, какого типа, кто должен его видеть (другие агенты, conversations, база знаний)
- Feedback-система: можно оставлять комментарии в стиле Google Docs / Figma - выделять текст или области на изображениях, батчить правки и отправлять агенту, не прерывая выполнение задачи
Раньше для отслеживания за роботой агентов надо было читать простыню chain-of-thoughts, что было тяжеловато. А вот артефакты дают визуальное представление прогресса - это похоже на PowerPoint для презентаций.
Продукт построен на возможнотях Gemini 3 Pro и предлагает четыре категории улучшений
1️⃣ Интеллект и reasoning: лучше следует инструкциям, понимает нюансы использования инструментов, справляется с долгими задачами
2️⃣ Multimodal: обработка текста, изображений, аудио, видео, кода одновременно. Image Generation (Nano Banana Pro) интегрирована для итераций по дизайну прямо в редакторе
3️⃣ Computer Use: вариант Gemini для управления браузером - клики, DOM-инспекция, JavaScript. Результат - не diff, а видеозапись действий для верификации
4️⃣ Долгоживущие задачи: агенты работают в фоне, уведомляя о необходимости вмешательства
По мнению Хоу ключевым преимуществом новой IDE является симбиоз с DeepMind
- Команда Antigravity сидит "в паре десятков метров" от команды Computer Use
- Ранний доступ к Gemini 3 за несколько месяцев до релиза позволил найти слабые места модели и исправить их в продукте
- Antigravity используется внутри Google инженерами и исследователями DeepMind - это пример dog fooding
- Такой симбиоз создаёт цикл обратной связи: продукт показывает пробелы модели → исследователи улучшают модель → продукт интегрирует улучшения
Например, Computer Use изначально работал плохо, пока команды не синхронизировали data distribution и agent harness, а концепция artifacts потребовала доработки модели, чтобы понимать концепцию ревью.
В продолжении мы обудим какие выводы можно сделать из появления такой IDE.
#Engineering #AI #Metrics #Software #DevEx #Productivity #IDE
YouTube
Defying Gravity - Kevin Hou, Google DeepMind
Why we built Google Antigravity, and discussing the future of agentic IDEs with Gemini 3.
Speaker: https://x.com/kevinhou22
AIE is coming to London and SF! see dates and sign up to be notified of sponsorships, CFPs, and tickets: https://ai.engineer
**Timestamps:**…
Speaker: https://x.com/kevinhou22
AIE is coming to London and SF! see dates and sign up to be notified of sponsorships, CFPs, and tickets: https://ai.engineer
**Timestamps:**…
❤8👍2🔥1
[2/2] Defying Gravity (Рубрика #AI)
Рассказ об интересной IDE хотелось бы закончить анализом того, а что этот выпуск значит для инженеров
1️⃣ Повышение планки амбиций
Antigravity - это ставка на «raising the ceiling»: агенты должны брать на себя не только написание кода (это уже умеют LLM), но и части «что строить» и «как строить». Инженерам нужно учиться делегировать сложные задачи агентам, работая на уровне задач, а не строк кода.
2️⃣ Работа на разных поверхностях
Разработка уже не ограничена редактором. Browser automation открывает возможности:
- Тестирование UI/UX агентом в реальном браузере
- Автоматическая верификация по дизайну
- Доступ к institutional knowledge (bug trackers, внутренние документы с аутентификацией)
3️⃣ Визуальная коммуникация вместо текстовой
Артефакты меняют парадигму review: вместо чтения длинных chain-of-thought смотрите планы, диаграммы, видеозаписи. Для инженеров это означает необходимость учиться давать обратную связь в мультимодальном формате (комментарии на изображениях, выделение текста в планах).
4️⃣ Параллельная оркестрация
Antigravity поддерживает параллельную работу нескольких агентов на одном проекте (например, дизайн мокапа + исследование API + реализация фичи одновременно). Инженерам нужно научиться декомпозировать задачи для параллельного выполнения агентами.
5️⃣Аварийный люк (escape hatch) всегда доступен
Хоу честен: агентам пока нельзя доверять на 100%. Поэтому всегда можно вернуться в редактор (Cmd+E) для ручной доработки последних 20% задачи. Но тренд - будущее за agent manager'ом.
6️⃣ Модель = продукт
Главный урок от DeepMind: "продукт настолько хорош, насколько хороша модель". Antigravity опередит конкурентов, потому что имеет ранний доступ к Gemini и прямую связь с исследователями. Для инженеров это сигнал: выбирайте инструменты, у которых есть плотная интеграция с моделью (не просто API-обёртки).
7️⃣ Бесплатный доступ к frontier-моделям
Antigravity в public preview бесплатен с unlimited AI completions и доступом к Gemini 3 Pro, Claude Sonnet 4.5, GPT-OSS. Это шанс экспериментировать с агентскими workflow без финансовых барьеров.
В общем, Antigravity - это ставка Google на то, что будущее разработки за агентами, которые работают не внутри редактора, а над ним, оркестрируя задачи через редактор, терминал и браузер. Для инженеров это означает переход от написания кода к управлению агентами через визуальные артефакты и мультимодальный feedback.
#Engineering #AI #Metrics #Software #DevEx #Productivity #IDE
Рассказ об интересной IDE хотелось бы закончить анализом того, а что этот выпуск значит для инженеров
1️⃣ Повышение планки амбиций
Antigravity - это ставка на «raising the ceiling»: агенты должны брать на себя не только написание кода (это уже умеют LLM), но и части «что строить» и «как строить». Инженерам нужно учиться делегировать сложные задачи агентам, работая на уровне задач, а не строк кода.
2️⃣ Работа на разных поверхностях
Разработка уже не ограничена редактором. Browser automation открывает возможности:
- Тестирование UI/UX агентом в реальном браузере
- Автоматическая верификация по дизайну
- Доступ к institutional knowledge (bug trackers, внутренние документы с аутентификацией)
3️⃣ Визуальная коммуникация вместо текстовой
Артефакты меняют парадигму review: вместо чтения длинных chain-of-thought смотрите планы, диаграммы, видеозаписи. Для инженеров это означает необходимость учиться давать обратную связь в мультимодальном формате (комментарии на изображениях, выделение текста в планах).
4️⃣ Параллельная оркестрация
Antigravity поддерживает параллельную работу нескольких агентов на одном проекте (например, дизайн мокапа + исследование API + реализация фичи одновременно). Инженерам нужно научиться декомпозировать задачи для параллельного выполнения агентами.
5️⃣Аварийный люк (escape hatch) всегда доступен
Хоу честен: агентам пока нельзя доверять на 100%. Поэтому всегда можно вернуться в редактор (Cmd+E) для ручной доработки последних 20% задачи. Но тренд - будущее за agent manager'ом.
6️⃣ Модель = продукт
Главный урок от DeepMind: "продукт настолько хорош, насколько хороша модель". Antigravity опередит конкурентов, потому что имеет ранний доступ к Gemini и прямую связь с исследователями. Для инженеров это сигнал: выбирайте инструменты, у которых есть плотная интеграция с моделью (не просто API-обёртки).
7️⃣ Бесплатный доступ к frontier-моделям
Antigravity в public preview бесплатен с unlimited AI completions и доступом к Gemini 3 Pro, Claude Sonnet 4.5, GPT-OSS. Это шанс экспериментировать с агентскими workflow без финансовых барьеров.
В общем, Antigravity - это ставка Google на то, что будущее разработки за агентами, которые работают не внутри редактора, а над ним, оркестрируя задачи через редактор, терминал и браузер. Для инженеров это означает переход от написания кода к управлению агентами через визуальные артефакты и мультимодальный feedback.
#Engineering #AI #Metrics #Software #DevEx #Productivity #IDE
Telegram
Книжный куб
[1/2] Defying Gravity (Рубрика #AI)
Это интересное выступление про новую IDE "Antigravity" от Кевина Хоу, руководителя продуктовой инженерии Google Antigravity в Google DeepMind. До лета 2025 года Кевин возглавлял продуктовую инженерию в Windsurf (бывший…
Это интересное выступление про новую IDE "Antigravity" от Кевина Хоу, руководителя продуктовой инженерии Google Antigravity в Google DeepMind. До лета 2025 года Кевин возглавлял продуктовую инженерию в Windsurf (бывший…
❤5🔥5👍1
[1/2] Тренд-репорт: рынок GenAI в 2025 году - Технологическая база российского GenAI (Рубрика #AI)
Прочитал на днях отчет RedMadRobot про рынок GenAI в России в 2025 году. Сам отчет вышел увесистым (50+ страниц) и краткое саммари по нему я решил разбить на пару постов. Все начинается с красивой картинки с онтологией рынка GenAI, которая потом раскладывается в линейный список тем навроде: инфраструктура и телеком, модели? данные и отраслевые знания, профессиональные инструменты, приложения, услуги и так далее. Дальше я пойду примерно по этой схеме, но добавляя материалы не только из этого отчета.
Инфраструктура под GenAI ограничена - новейшие GPU (например, NVIDIA H100) официально недоступны, их закупка через параллельный импорт дороже ~на 30%. Компании вынуждены использовать предыдущие поколения (A100 и т.д.), которые предлагают в аренду местные облачные провайдеры. В результате основная ставка - на свои вычислительные ресурсы: on‑premise-развёртывание доминирует.
Большие языковые модели (LLM) с нуля тренирует только Сбер, остальные файнтюнят зарубежные (преимущественно китайские модели). Условно у Сбер есть GigaChat, у Yandex - YandexGPT, у Т-Банка - T-Pro. Общая тенденция - переход от гонки за размером модели к поиску оптимальной эффективности. Вместо безудержного роста параметров (что упирается в аппаратные лимиты) акцент смещается на «small LLM» - специализированные меньшие модели, дообученные под задачи. Активно используется RAG, применяя векторные базы данных для ясемантического поиска. Кстати, последняя модель Сбера вышла в популярной архитектуре Mixture-of-Experts (MoE) - разреженные «смеси экспертов», где несколько узких моделей совместно покрывают разные домены. MoE стал популярным после DeepSeek модели, что вышла в начале года.
Качественные датасеты - «топливо» GenAI - тоже под ограничениями. После многолетнего web-scraping практически исчерпаны доступные корпуса текстов: по оценке MTS AI, для новых прорывов не хватает человеческого контента. Много свежих текстов в интернете сами созданы нейросетями, и обучение на них может приводить к деградации качества. Разработчики ищут новые подходы: обучают модели на видео, аудио, изображениях, расширяют мультимодальные выборки. Российские игроки формируют собственные наборы: так, Сбер и Яндекс собирали терабайты русскоязычного текста из открытых источников для своих LLM; вузы и компании публикуют бенчмарки и датасеты (например, RuLM, российские аналоги SuperGLUE и др.). Но доступ к ряду западных баз ограничен, и качество данных на русском языке зачастую требует очистки и разметки.
Вокруг LLM складывается экосистема вспомогательных технологий. В ходу библиотеки вроде HuggingFace Transformers, российские фреймворки (DeepPavlov и др.), а также специализированные векторные БД для семантического поиска знаний. Появляются и агрегаторы нейросетей - каталоги сервисов GenAI для бизнеса. В сфере MLOps возникают решения по настройке и мониторингу больших моделей. Тем не менее, единых стандартов нет: компании используют разные стеки инструментов, что осложняет интеграцию моделей в существующие системы. На помощь приходят интеграторы: после ухода крупных консалтеров (Accenture, PwC и др.) роль советников берут местные игроки.
В итоге, российская GenAI-инфраструктура развивается автономно, опираясь на локальные ресурсы и мозги. В продолжении я расскажу про конкретные примеры применения технологий и варианты дальнейшего развития этой индустрии.
#Engineering #AI #Software #Management #Economics
Прочитал на днях отчет RedMadRobot про рынок GenAI в России в 2025 году. Сам отчет вышел увесистым (50+ страниц) и краткое саммари по нему я решил разбить на пару постов. Все начинается с красивой картинки с онтологией рынка GenAI, которая потом раскладывается в линейный список тем навроде: инфраструктура и телеком, модели? данные и отраслевые знания, профессиональные инструменты, приложения, услуги и так далее. Дальше я пойду примерно по этой схеме, но добавляя материалы не только из этого отчета.
Инфраструктура под GenAI ограничена - новейшие GPU (например, NVIDIA H100) официально недоступны, их закупка через параллельный импорт дороже ~на 30%. Компании вынуждены использовать предыдущие поколения (A100 и т.д.), которые предлагают в аренду местные облачные провайдеры. В результате основная ставка - на свои вычислительные ресурсы: on‑premise-развёртывание доминирует.
Большие языковые модели (LLM) с нуля тренирует только Сбер, остальные файнтюнят зарубежные (преимущественно китайские модели). Условно у Сбер есть GigaChat, у Yandex - YandexGPT, у Т-Банка - T-Pro. Общая тенденция - переход от гонки за размером модели к поиску оптимальной эффективности. Вместо безудержного роста параметров (что упирается в аппаратные лимиты) акцент смещается на «small LLM» - специализированные меньшие модели, дообученные под задачи. Активно используется RAG, применяя векторные базы данных для ясемантического поиска. Кстати, последняя модель Сбера вышла в популярной архитектуре Mixture-of-Experts (MoE) - разреженные «смеси экспертов», где несколько узких моделей совместно покрывают разные домены. MoE стал популярным после DeepSeek модели, что вышла в начале года.
Качественные датасеты - «топливо» GenAI - тоже под ограничениями. После многолетнего web-scraping практически исчерпаны доступные корпуса текстов: по оценке MTS AI, для новых прорывов не хватает человеческого контента. Много свежих текстов в интернете сами созданы нейросетями, и обучение на них может приводить к деградации качества. Разработчики ищут новые подходы: обучают модели на видео, аудио, изображениях, расширяют мультимодальные выборки. Российские игроки формируют собственные наборы: так, Сбер и Яндекс собирали терабайты русскоязычного текста из открытых источников для своих LLM; вузы и компании публикуют бенчмарки и датасеты (например, RuLM, российские аналоги SuperGLUE и др.). Но доступ к ряду западных баз ограничен, и качество данных на русском языке зачастую требует очистки и разметки.
Вокруг LLM складывается экосистема вспомогательных технологий. В ходу библиотеки вроде HuggingFace Transformers, российские фреймворки (DeepPavlov и др.), а также специализированные векторные БД для семантического поиска знаний. Появляются и агрегаторы нейросетей - каталоги сервисов GenAI для бизнеса. В сфере MLOps возникают решения по настройке и мониторингу больших моделей. Тем не менее, единых стандартов нет: компании используют разные стеки инструментов, что осложняет интеграцию моделей в существующие системы. На помощь приходят интеграторы: после ухода крупных консалтеров (Accenture, PwC и др.) роль советников берут местные игроки.
В итоге, российская GenAI-инфраструктура развивается автономно, опираясь на локальные ресурсы и мозги. В продолжении я расскажу про конкретные примеры применения технологий и варианты дальнейшего развития этой индустрии.
#Engineering #AI #Software #Management #Economics
❤9🔥6👍4
[2/2] Тренд-репорт: рынок GenAI в 2025 году - Применение, кадры, инвестиции, сценарии роста (Рубрика #AI)
Продолжая рассказ про этот отчет, надо скзать, что GenAI технологии переходят в фазу практического внедрения. По данным Сбера, 40% российских IT-компаний уже запустили полнофункциональные GenAI-проекты, и лишь 8% совсем не опробовали ИИ. Бизнес больше не относится к генеративным моделям как к диковинке - их закрепляют в стратегиях и создают под них команды: у 45% компаний появились отдельные отделы или центры компетенций по ИИ. GenAI стал неотъемлемым элементом цифровой трансформации.
Генеративные модели оказались универсальным инструментом, и уже сейчас выделилось несколько основных кейсов. Вот ключевые области, где российский бизнес использует GenAI на практике:
- Создание контента (тексты, код, изображения). Автоматизация рутинного творчества - от написания статей, описаний и маркетинговых материалов до генерации исходного кода по техзаданию.
- "Умный" поиск и работа с базами знаний. LLM в сочетании с RAG позволяют реализовать интеллектуальный поиск по внутренним документам, справочникам, технической документации. Пользователь спрашивает на естественном языке, а система находит и генерирует ответ на основе внутренних данных.
- Чат-боты и голосовые ассистенты для клиентов. Сейчас 59% компаний используют AI-ассистентов для общения с пользователями. Генеративный ИИ придал ботам гибкость: они понимают более сложные вопросы и могут формулировать естественные ответы, а не выбирать из заготовок.
- Речевая аналитика и мониторинг. GenAI используется для анализа звонков на предмет эмоций или мошенничества: модели распознают текст диалога и выявляют подозрительные признаки. Другой пример - расшифровка созвонов и собраний с последующим автосоставлением протокола и списка задач.
- Анализ данных и генерация отчётов. LLM способны проглотить массив сырых данных и выдать человеческий отчёт: будь то сводка продаж, аналитическая записка или ответ на Ad hoc запрос.
Ускоренный рост применения вскрыл дефицит квалифицированных специалистов. Конкуренция за таланты приводит к росту зарплат, компании создают внутренние обучающие программы. С другой стороны, многие организации уже вложились в собственную экспертизу и начали готовить кадры "под себя", растить продуктовые команды с AI-навыками.
Финансирование GenAI-проектов в России сосредоточено вокруг крупнейших игроков. По оценкам, основные вливания делают экосистемы Сбера и Российского фонда прямых инвестиций (РФПИ). Объём рынка продуктов на базе LLM в 2024 году оценивается всего в ~35 млрд руб
Авторы отчета выделяют несколько вариантов развития российского рынка GenAI к 2030 году.
- Пессимистичный сценарий (стагнация): строгие ограничения сохраняются, бизнес разочаровывается из-за единичных инцидентов (неточных ответов, утечек), регуляторы вводят жёсткие барьеры. В таком случае компании сворачивают активность после пилотов, а рост рынка составляет порядка 10–15% в год и GenAI остаётся нишевым
- Реалистичный сценарий (эволюционный рост): крупные игроки продолжают инвестировать, постепенно появляются успешные кейсы, доверие бизнеса увеличивается. Рынок тогда растёт примерно на 25% ежегодно (с оценкой $4 млрд к 2030 году). GenAI прочно занимает своё место в отдельных отраслях (финансы, ритейл, производство), но отставание от мировых лидеров по-прежнему ощутимо.
- Оптимистичный сценарий (прорыв и масштабирование): требуется смягчение технологических ограничений, а также подготовка кадров и появление громких успехов, которые подтолкнут средний бизнес к массовому внедрению. Рост порядка 35–40% в год, а российская динамика близка к мировой. GenAI-проекты стали бы обыденностью в большинстве компаний, оценка рынка 5–6 млрд долларов к 2030 г.
В итооге, мы видим как GenAI переходит в позицию привычного инструмента, но его развитие может дальше идти по разным трекам в зависимости от игроков внутри России, а также общемировой политической обстановки.
#Engineering #AI #Software #Management #Economics
Продолжая рассказ про этот отчет, надо скзать, что GenAI технологии переходят в фазу практического внедрения. По данным Сбера, 40% российских IT-компаний уже запустили полнофункциональные GenAI-проекты, и лишь 8% совсем не опробовали ИИ. Бизнес больше не относится к генеративным моделям как к диковинке - их закрепляют в стратегиях и создают под них команды: у 45% компаний появились отдельные отделы или центры компетенций по ИИ. GenAI стал неотъемлемым элементом цифровой трансформации.
Генеративные модели оказались универсальным инструментом, и уже сейчас выделилось несколько основных кейсов. Вот ключевые области, где российский бизнес использует GenAI на практике:
- Создание контента (тексты, код, изображения). Автоматизация рутинного творчества - от написания статей, описаний и маркетинговых материалов до генерации исходного кода по техзаданию.
- "Умный" поиск и работа с базами знаний. LLM в сочетании с RAG позволяют реализовать интеллектуальный поиск по внутренним документам, справочникам, технической документации. Пользователь спрашивает на естественном языке, а система находит и генерирует ответ на основе внутренних данных.
- Чат-боты и голосовые ассистенты для клиентов. Сейчас 59% компаний используют AI-ассистентов для общения с пользователями. Генеративный ИИ придал ботам гибкость: они понимают более сложные вопросы и могут формулировать естественные ответы, а не выбирать из заготовок.
- Речевая аналитика и мониторинг. GenAI используется для анализа звонков на предмет эмоций или мошенничества: модели распознают текст диалога и выявляют подозрительные признаки. Другой пример - расшифровка созвонов и собраний с последующим автосоставлением протокола и списка задач.
- Анализ данных и генерация отчётов. LLM способны проглотить массив сырых данных и выдать человеческий отчёт: будь то сводка продаж, аналитическая записка или ответ на Ad hoc запрос.
Ускоренный рост применения вскрыл дефицит квалифицированных специалистов. Конкуренция за таланты приводит к росту зарплат, компании создают внутренние обучающие программы. С другой стороны, многие организации уже вложились в собственную экспертизу и начали готовить кадры "под себя", растить продуктовые команды с AI-навыками.
Финансирование GenAI-проектов в России сосредоточено вокруг крупнейших игроков. По оценкам, основные вливания делают экосистемы Сбера и Российского фонда прямых инвестиций (РФПИ). Объём рынка продуктов на базе LLM в 2024 году оценивается всего в ~35 млрд руб
Авторы отчета выделяют несколько вариантов развития российского рынка GenAI к 2030 году.
- Пессимистичный сценарий (стагнация): строгие ограничения сохраняются, бизнес разочаровывается из-за единичных инцидентов (неточных ответов, утечек), регуляторы вводят жёсткие барьеры. В таком случае компании сворачивают активность после пилотов, а рост рынка составляет порядка 10–15% в год и GenAI остаётся нишевым
- Реалистичный сценарий (эволюционный рост): крупные игроки продолжают инвестировать, постепенно появляются успешные кейсы, доверие бизнеса увеличивается. Рынок тогда растёт примерно на 25% ежегодно (с оценкой $4 млрд к 2030 году). GenAI прочно занимает своё место в отдельных отраслях (финансы, ритейл, производство), но отставание от мировых лидеров по-прежнему ощутимо.
- Оптимистичный сценарий (прорыв и масштабирование): требуется смягчение технологических ограничений, а также подготовка кадров и появление громких успехов, которые подтолкнут средний бизнес к массовому внедрению. Рост порядка 35–40% в год, а российская динамика близка к мировой. GenAI-проекты стали бы обыденностью в большинстве компаний, оценка рынка 5–6 млрд долларов к 2030 г.
В итооге, мы видим как GenAI переходит в позицию привычного инструмента, но его развитие может дальше идти по разным трекам в зависимости от игроков внутри России, а также общемировой политической обстановки.
#Engineering #AI #Software #Management #Economics
Telegram
Книжный куб
[1/2] Тренд-репорт: рынок GenAI в 2025 году - Технологическая база российского GenAI (Рубрика #AI)
Прочитал на днях отчет RedMadRobot про рынок GenAI в России в 2025 году. Сам отчет вышел увесистым (50+ страниц) и краткое саммари по нему я решил разбить…
Прочитал на днях отчет RedMadRobot про рынок GenAI в России в 2025 году. Сам отчет вышел увесистым (50+ страниц) и краткое саммари по нему я решил разбить…
❤6🔥3⚡1👍1
[1/2] How AI is transforming work at Anthropic - Инсайты для инженеров (Рубрика #AI)
С большим интересом внутреннее исследование Anthropic о том, как использование их ИИ-ассистента (модели Claude) влияет на работу инженеров компании. Конечно, Anthropic - это сама по себе AI-компания, поэтому её сотрудники находятся в привилегированных условиях: они одними из первых получают доступ к самым передовым инструментам ИИ и работают в сфере, непосредственно связанной с развитием ИИ. Поэтому авторы подчёркивают, что выводы могут не полностью обобщаться на другие организации.
В первом посте я попробую суммировать инсайты для инженеров, а во втором поговорить об инсайтах для менеджеров.
Продуктивность выросла
Разработчики теперь используют Claude примерно в 60% своей работы (против ~28% год назад) и сами оценивают прирост производительности ~50%. Это более чем двукратный скачок за год. Замеры подтверждают тренд - например, число успешных ежедневных пул-реквестов на инженера выросло на 67% после внедрения Claude Code
Claude помогает в рутинных задачах
Чаще всего его привлекают для отладки багов и разбора чужого кода ~55% инженеров делают это ежедневно. Около 42% используют ИИ для понимания кода, 37% - для написания новых функций. Реже просят об архитектурном дизайне или анализе данных (такие задачи предпочитают делать сами)
Новые задачи теперь по силам
27% работы, которую инженеры выполняют с помощью Claude, раньше вообще не делали бы. AI освобождает время на вещи типа внутренних "nice-to-have" инструментов (например дашбордов) и экспериментов, которые вручную были бы слишком затратными. Кроме того, Claude берётся за мелкие улучшения: ~8.6% его задач - это починка мелких багов и рефакторинг, до которых раньше руки не доходили. Эти мелочи со временем складываются в ощутимый выигрыш по качеству и скорости работы.
Делегируем, но с оглядкой
Большинство оценивает, что без проверки можно доверить ИИ только до 20% задач. Claude стал постоянным напарником, но не автономным исполнителем - разработчик всё равно проверяет и направляет его, особенно в важных вещах. Инженеры выработали интуицию, что поручать в первую очередь задачи простые в проверке, низкого риска или скучные (“черновой” код, рутинные части). Постепенно им доверяют всё более сложную работу, но архитектуру и финальные решения о дизайне контролируют сами.
Навыки шире, глубина под вопросом
С Claude люди смелее берутся за задачи за пределами своей основной экспертизы - все понемногу становятся более "full-stack" инженерами. Например, бэкенд-разработчик с помощью AI может зайти и на фронтенд, и в базу данных, вместо того чтобы звать профильных специалистов. Однако есть и обратная сторона: когда ИИ делает рутину, инженеры меньше практикуются в основах и базовые знания могут постепенно "атрофироваться".
Отношение к написанию кода меняется
Одни рады, что могут сосредоточиться на концепциях и результате, а не на написании кода. Бывалые инженеры сравнивают эту смену парадигмы с переходом на более высокоуровневые языки. Многие готовы мириться с утратой части удовольствия, ведь продуктивность сейчас гораздо выше
Меньше живого общения
Claude всё чаще стал первым, к кому идут с вопросом, вместо коллег. Это экономит время (не беспокоишь напарника по пустякам), но менторство страдает. Опытные разработчики отмечают, что джуны меньше обращаются за советом, ведь Claude может многому их научить сам. Некоторым не нравится, что фраза "а ты спросил у Claude?" стала обычным делом
Карьера и будущее
Роль инженера сдвигается в сторону управления AI-системами вместо написания каждой строчки кода. Многие уже сейчас чувствуют себя скорее "тимлидом для пары AI-агентов", чем просто разработчиком: например, один оценивает, что на 70% стал код-ревьюером/редактором кода от ИИ, а не автором с нуля. Продуктивность при этом зашкаливает, однако в долгосроке люди не уверены, во что выльется их профессия. Есть оптимизм на ближнюю перспективу, но дальше - сплошная неопределённость.
Продолжение в следующем посте.
#Engineering #Software #Processes #Productivity #Economics
С большим интересом внутреннее исследование Anthropic о том, как использование их ИИ-ассистента (модели Claude) влияет на работу инженеров компании. Конечно, Anthropic - это сама по себе AI-компания, поэтому её сотрудники находятся в привилегированных условиях: они одними из первых получают доступ к самым передовым инструментам ИИ и работают в сфере, непосредственно связанной с развитием ИИ. Поэтому авторы подчёркивают, что выводы могут не полностью обобщаться на другие организации.
В первом посте я попробую суммировать инсайты для инженеров, а во втором поговорить об инсайтах для менеджеров.
Продуктивность выросла
Разработчики теперь используют Claude примерно в 60% своей работы (против ~28% год назад) и сами оценивают прирост производительности ~50%. Это более чем двукратный скачок за год. Замеры подтверждают тренд - например, число успешных ежедневных пул-реквестов на инженера выросло на 67% после внедрения Claude Code
Claude помогает в рутинных задачах
Чаще всего его привлекают для отладки багов и разбора чужого кода ~55% инженеров делают это ежедневно. Около 42% используют ИИ для понимания кода, 37% - для написания новых функций. Реже просят об архитектурном дизайне или анализе данных (такие задачи предпочитают делать сами)
Новые задачи теперь по силам
27% работы, которую инженеры выполняют с помощью Claude, раньше вообще не делали бы. AI освобождает время на вещи типа внутренних "nice-to-have" инструментов (например дашбордов) и экспериментов, которые вручную были бы слишком затратными. Кроме того, Claude берётся за мелкие улучшения: ~8.6% его задач - это починка мелких багов и рефакторинг, до которых раньше руки не доходили. Эти мелочи со временем складываются в ощутимый выигрыш по качеству и скорости работы.
Делегируем, но с оглядкой
Большинство оценивает, что без проверки можно доверить ИИ только до 20% задач. Claude стал постоянным напарником, но не автономным исполнителем - разработчик всё равно проверяет и направляет его, особенно в важных вещах. Инженеры выработали интуицию, что поручать в первую очередь задачи простые в проверке, низкого риска или скучные (“черновой” код, рутинные части). Постепенно им доверяют всё более сложную работу, но архитектуру и финальные решения о дизайне контролируют сами.
Навыки шире, глубина под вопросом
С Claude люди смелее берутся за задачи за пределами своей основной экспертизы - все понемногу становятся более "full-stack" инженерами. Например, бэкенд-разработчик с помощью AI может зайти и на фронтенд, и в базу данных, вместо того чтобы звать профильных специалистов. Однако есть и обратная сторона: когда ИИ делает рутину, инженеры меньше практикуются в основах и базовые знания могут постепенно "атрофироваться".
Отношение к написанию кода меняется
Одни рады, что могут сосредоточиться на концепциях и результате, а не на написании кода. Бывалые инженеры сравнивают эту смену парадигмы с переходом на более высокоуровневые языки. Многие готовы мириться с утратой части удовольствия, ведь продуктивность сейчас гораздо выше
Меньше живого общения
Claude всё чаще стал первым, к кому идут с вопросом, вместо коллег. Это экономит время (не беспокоишь напарника по пустякам), но менторство страдает. Опытные разработчики отмечают, что джуны меньше обращаются за советом, ведь Claude может многому их научить сам. Некоторым не нравится, что фраза "а ты спросил у Claude?" стала обычным делом
Карьера и будущее
Роль инженера сдвигается в сторону управления AI-системами вместо написания каждой строчки кода. Многие уже сейчас чувствуют себя скорее "тимлидом для пары AI-агентов", чем просто разработчиком: например, один оценивает, что на 70% стал код-ревьюером/редактором кода от ИИ, а не автором с нуля. Продуктивность при этом зашкаливает, однако в долгосроке люди не уверены, во что выльется их профессия. Есть оптимизм на ближнюю перспективу, но дальше - сплошная неопределённость.
Продолжение в следующем посте.
#Engineering #Software #Processes #Productivity #Economics
❤8🔥4⚡2
[2/2] How AI is transforming work at Anthropic - Инсайты для инженеров (Рубрика #AI)
Вторая половина разбора посвящена тому, что могут извлечь менеджеры из отчета Anthropic.
ROI и продуктивность
Использование AI дает ощутимый экономический эффект. Внутренний опрос показал ~50% рост производительности на сотрудника, а реальные метрики это подтверждают: например, число ежедневных код-изменений (PR) на инженера выросло на 67% после внедрения Claude. Иначе говоря, благодаря ИИ команда делает заметно больше за то же время. Плюс ~27% задач, которые Claude помогает решить, раньше вообще не выполнялись (нехватало ресурсов) - теперь эти улучшения и эксперименты повышают качество продукта и открывают новые возможности.
ИИ не заменяет, а усиливает
Несмотря на скачок продуктивности, люди по-прежнему необходимы. Большинство инженеров используют Claude ежедневно, но полностью автоматизировать могут лишь до 20% работы. Остальное требует участия человека: постановки задач, контроля и правок. ИИ ускоряет выполнение рутинных частей и дает черновые решения, а эксперты финализируют результат. То есть Claude - это ускоритель, а не автономный работник.
Перемены в команде
AI-инструменты меняют рабочую динамику. Разработчики теперь сперва спрашивают у Claude, а уже потом у коллег. С одной стороны, это снижает нагрузку на опытных сотрудников (меньше отвлекающих вопросов по мелочам) и позволяет сосредоточиться на более сложных проблемах. С другой - страдает командное взаимодействие и менторств: новички реже обращаются за помощью к старшим, полагаясь на AI. Без целенаправленных усилий это может привести к провалу передачи опыта. Руководителям стоит учитывать этот эффект и, возможно, формализовать наставничество (раз AI берёт на себя часть обучения, нужно находить новые способы развития младших коллег).
Риск утраты навыков
Инженеры расширяют свой профиль с помощью ИИ, но существует опасность, что базовые навыки "заржавеют" при редком использовании. Некоторые сотрудники уже признают: да, они меньше практикуются в ручном кодинге и тонкостях алгоритмов, хотя пока это не сильно мешает. Есть даже те, кто сознательно иногда решает задачи без помощи Claude, чтобы не терять форму.
Планирование кадров и обучение
Появляются новые акценты в профиле инженеров. Многие фактически превращаются в менеджеров AI-агентов - контролируют и направляют работу сразу нескольких копий. Работа уходит на более высокий уровень абстракции: меньше ручного труда, больше обзорных и координирующих функций. Как пошутил один тимлид, теперь его задача – "отвечать за работу 5 или 100 копий Claude" вместо одного разработчика. В перспективе профессия может сместиться к проектированию систем и наставничеству ИИ, а умение правильно ставить задачи и проверять ответы станет золотым навыком.
Неопределённость и адаптация
Стратегически руководству важно готовиться к разным сценариям. Долгосрочная траектория развития команд пока неясна: даже сами инженеры затрудняются сказать, как изменится их роль через 3-5 лет. Многие испытывают смешанные чувства: сегодня всё отлично, а завтра, глядишь, AI заберёт ещё больше задач. Отдельные энтузиасты уверены, что отрасль приспособится - улучшатся "ограждения" для ИИ, обучение станет частью инструментов, а люди будут расти вместе с машинами. Но общий знаменатель такой: нужно быть максимально гибкими.
Как готовится Anthropic
В компании уже задумались, как справиться с этими вызовами. Обсуждают новые регламенты работы с ИИ, как поощрять сотрудничество и обмен знаниями в эпоху AI, как поддерживать профессиональный рост сотрудников. Рассматривают даже структурные шаги: создавать новые траектории карьерного развития, программы рескиллинга внутри организации по мере роста возможностей моделей. Кроме того, Anthropic расширяет исследование влияния AI за пределы одних инженеров и помогает внешним партнёрам адаптировать учебные программы для будущего с ИИ.
#Engineering #Software #Processes #Productivity #Economics
Вторая половина разбора посвящена тому, что могут извлечь менеджеры из отчета Anthropic.
ROI и продуктивность
Использование AI дает ощутимый экономический эффект. Внутренний опрос показал ~50% рост производительности на сотрудника, а реальные метрики это подтверждают: например, число ежедневных код-изменений (PR) на инженера выросло на 67% после внедрения Claude. Иначе говоря, благодаря ИИ команда делает заметно больше за то же время. Плюс ~27% задач, которые Claude помогает решить, раньше вообще не выполнялись (нехватало ресурсов) - теперь эти улучшения и эксперименты повышают качество продукта и открывают новые возможности.
ИИ не заменяет, а усиливает
Несмотря на скачок продуктивности, люди по-прежнему необходимы. Большинство инженеров используют Claude ежедневно, но полностью автоматизировать могут лишь до 20% работы. Остальное требует участия человека: постановки задач, контроля и правок. ИИ ускоряет выполнение рутинных частей и дает черновые решения, а эксперты финализируют результат. То есть Claude - это ускоритель, а не автономный работник.
Перемены в команде
AI-инструменты меняют рабочую динамику. Разработчики теперь сперва спрашивают у Claude, а уже потом у коллег. С одной стороны, это снижает нагрузку на опытных сотрудников (меньше отвлекающих вопросов по мелочам) и позволяет сосредоточиться на более сложных проблемах. С другой - страдает командное взаимодействие и менторств: новички реже обращаются за помощью к старшим, полагаясь на AI. Без целенаправленных усилий это может привести к провалу передачи опыта. Руководителям стоит учитывать этот эффект и, возможно, формализовать наставничество (раз AI берёт на себя часть обучения, нужно находить новые способы развития младших коллег).
Риск утраты навыков
Инженеры расширяют свой профиль с помощью ИИ, но существует опасность, что базовые навыки "заржавеют" при редком использовании. Некоторые сотрудники уже признают: да, они меньше практикуются в ручном кодинге и тонкостях алгоритмов, хотя пока это не сильно мешает. Есть даже те, кто сознательно иногда решает задачи без помощи Claude, чтобы не терять форму.
Планирование кадров и обучение
Появляются новые акценты в профиле инженеров. Многие фактически превращаются в менеджеров AI-агентов - контролируют и направляют работу сразу нескольких копий. Работа уходит на более высокий уровень абстракции: меньше ручного труда, больше обзорных и координирующих функций. Как пошутил один тимлид, теперь его задача – "отвечать за работу 5 или 100 копий Claude" вместо одного разработчика. В перспективе профессия может сместиться к проектированию систем и наставничеству ИИ, а умение правильно ставить задачи и проверять ответы станет золотым навыком.
Неопределённость и адаптация
Стратегически руководству важно готовиться к разным сценариям. Долгосрочная траектория развития команд пока неясна: даже сами инженеры затрудняются сказать, как изменится их роль через 3-5 лет. Многие испытывают смешанные чувства: сегодня всё отлично, а завтра, глядишь, AI заберёт ещё больше задач. Отдельные энтузиасты уверены, что отрасль приспособится - улучшатся "ограждения" для ИИ, обучение станет частью инструментов, а люди будут расти вместе с машинами. Но общий знаменатель такой: нужно быть максимально гибкими.
Как готовится Anthropic
В компании уже задумались, как справиться с этими вызовами. Обсуждают новые регламенты работы с ИИ, как поощрять сотрудничество и обмен знаниями в эпоху AI, как поддерживать профессиональный рост сотрудников. Рассматривают даже структурные шаги: создавать новые траектории карьерного развития, программы рескиллинга внутри организации по мере роста возможностей моделей. Кроме того, Anthropic расширяет исследование влияния AI за пределы одних инженеров и помогает внешним партнёрам адаптировать учебные программы для будущего с ИИ.
#Engineering #Software #Processes #Productivity #Economics
Telegram
Книжный куб
[1/2] How AI is transforming work at Anthropic - Инсайты для инженеров(Рубрика #AI)
С большим интересом внутреннее исследование Anthropic о том, как использование их ИИ-ассистента (модели Claude) влияет на работу инженеров компании. Конечно, Anthropic -…
С большим интересом внутреннее исследование Anthropic о том, как использование их ИИ-ассистента (модели Claude) влияет на работу инженеров компании. Конечно, Anthropic -…
👍6🔥4❤2
2026: The Year The IDE Died (Рубрика #AI)
Посмотрел интересный доклад от Gene Kim и про будущее разработки. Это заслуженные авторы, которые совмещают опыт и влияние на индустрию
- Steve Yegge работал в Google, Amazon, а сейчачс работает в Sourcegraph. Стив знаменит своими едкими, объемными и часто провокационными постами на темы языков программирования, продуктивности, культуры разработки и работы в крупных технологических компаниях
- Gene Kim - соавтор книг "DevOps Handbook", "The Phoenix Project", "Accelerate", "The Unicorn Project"
Совсем недавно два эти джентельмена выпустили книгу "Vibe Coding", а теперь решили рассказать про то, что современные IDE уже устарели:) Ниже представлены основные тезисы в чуть более расширенном варианте
1️⃣ Индустрия отстает на 9-12 месяцев от реальности
Большинство разработчиков используют AI как "улучшенный автокомплит" (GitHub Copilot в режиме tab-tab). Это мышление уровня печатной машинки в эпоху текстовых процессоров. Реальная мощь - в агентских системах, но ими пользуются единицы. Мы оптимизируем написание текста, а надо оптимизировать принятие решений.
2️⃣ IDE в привычном виде мертва
Традиционная IDE (IntelliJ, VS Code) - это инструмент, заточенный под чтение и написание текста человеком. Человеку нужны вкладки, подсветка синтаксиса и дерево файлов. AI-агенту нужен контекст (логи, тикеты, архитектура, связи), а не визуальный редактор. В 2026 году IDE станет "бэкендом" для агентов, а интерфейс разработчика превратится в диалог об архитектуре и намерениях (Intent), а не о синтаксисе. Кстати, раньше я разбирал выступление про IDE "Antigravity" от Google, где многие из этих идей уже материлизовались в продукт
3️⃣ Сдвиг от "Как сделать" к "Что сделать"
Йегге представил концепцию Amp (новый редактор от Sourcegraph). В нем вы не пишете код построчно. Вы описываете намерение (Intent), а стая агентов (планировщик, кодер, тестировщик) реализует его.
- Если сейчас цикл это: Думай -> Печатай -> Дебажь.
- То будет: Опиши цель -> Валидируй план агента -> Прими результат.
4️⃣ Контекст - это новая нефть
Главная проблема текущих чат-ботов - они галлюцинируют, потому что не видят всей картины. Будущее тулинга - это Model Context Protocol (MCP). Инструменты должны уметь сами «ходить» в Jira, Notion, Sentry и прод-базу, чтобы понимать задачу так же глубоко, как сеньор, работающий в компании 3 года.
В общем, это как обычно сейчас предсказание про то, что мы переходим от роли "писателей кода" к роли "архитекторов систем", где чернорабочими выступают LLM. Во всем выступлении сквозит тезис о том, что кто быстрее перестроит процессы под эту реальность - тот и выиграет рынок.
#Engineering #AI #Metrics #Software #DevEx #Productivity #IDE
Посмотрел интересный доклад от Gene Kim и про будущее разработки. Это заслуженные авторы, которые совмещают опыт и влияние на индустрию
- Steve Yegge работал в Google, Amazon, а сейчачс работает в Sourcegraph. Стив знаменит своими едкими, объемными и часто провокационными постами на темы языков программирования, продуктивности, культуры разработки и работы в крупных технологических компаниях
- Gene Kim - соавтор книг "DevOps Handbook", "The Phoenix Project", "Accelerate", "The Unicorn Project"
Совсем недавно два эти джентельмена выпустили книгу "Vibe Coding", а теперь решили рассказать про то, что современные IDE уже устарели:) Ниже представлены основные тезисы в чуть более расширенном варианте
1️⃣ Индустрия отстает на 9-12 месяцев от реальности
Большинство разработчиков используют AI как "улучшенный автокомплит" (GitHub Copilot в режиме tab-tab). Это мышление уровня печатной машинки в эпоху текстовых процессоров. Реальная мощь - в агентских системах, но ими пользуются единицы. Мы оптимизируем написание текста, а надо оптимизировать принятие решений.
2️⃣ IDE в привычном виде мертва
Традиционная IDE (IntelliJ, VS Code) - это инструмент, заточенный под чтение и написание текста человеком. Человеку нужны вкладки, подсветка синтаксиса и дерево файлов. AI-агенту нужен контекст (логи, тикеты, архитектура, связи), а не визуальный редактор. В 2026 году IDE станет "бэкендом" для агентов, а интерфейс разработчика превратится в диалог об архитектуре и намерениях (Intent), а не о синтаксисе. Кстати, раньше я разбирал выступление про IDE "Antigravity" от Google, где многие из этих идей уже материлизовались в продукт
3️⃣ Сдвиг от "Как сделать" к "Что сделать"
Йегге представил концепцию Amp (новый редактор от Sourcegraph). В нем вы не пишете код построчно. Вы описываете намерение (Intent), а стая агентов (планировщик, кодер, тестировщик) реализует его.
- Если сейчас цикл это: Думай -> Печатай -> Дебажь.
- То будет: Опиши цель -> Валидируй план агента -> Прими результат.
4️⃣ Контекст - это новая нефть
Главная проблема текущих чат-ботов - они галлюцинируют, потому что не видят всей картины. Будущее тулинга - это Model Context Protocol (MCP). Инструменты должны уметь сами «ходить» в Jira, Notion, Sentry и прод-базу, чтобы понимать задачу так же глубоко, как сеньор, работающий в компании 3 года.
В общем, это как обычно сейчас предсказание про то, что мы переходим от роли "писателей кода" к роли "архитекторов систем", где чернорабочими выступают LLM. Во всем выступлении сквозит тезис о том, что кто быстрее перестроит процессы под эту реальность - тот и выиграет рынок.
#Engineering #AI #Metrics #Software #DevEx #Productivity #IDE
YouTube
2026: The Year The IDE Died — Steve Yegge & Gene Kim, Authors, Vibe Coding
As AI has grown more capable, software developers around the world have lagged behind the technology advances, and have consistently eschewed the most powerful tools. In this talk I explore why devs are staying 9-12 months behind the AI curve. I'll share…
❤8🥴8👍3🔥2
Is Vibe Coding Safe? Benchmarking Vulnerability of Agent-Generated Code in Real-World Tasks (Рубрика #AI)
2 декабря вышло интересное исследование про безопасность vibe-coding от авторов Songwen Zhao, Danqing Wang, Kexun Zhang, Jiaxuan Luo, Zhuo Li и Lei Li. Основная группа ученых здесь связана с университетом Карнеги Меллон.
Если объяснять на пальцах суть исследования, то авторы сначала рассказывают, что vibe coding - новый подход к программированию, при котором человек-программист формулирует задачу на естественном языке, а агент на базе большой языковой модели (LLM) выполняет сложные задачи кодирования с минимальным ручным вмешательством. Но вот вопрос, а код, полученный таким способом безопасен?
Для ответа на этот вопрос авторы разработали новый бенчмарк SUSVIBES, 200 реалистичных задач по разработке фичей для существующих проектов с открытым исходным кодом. Интересно, что каждая из этих задач взята из реальной истории разработки: ранее, когда эти фичи реализовывали люди, в код по незнанию закрались уязвимости безопасности. Задачи намного сложнее единичных примеров из предыдущих бенчей безопасности - они требуют правок в среднем в ~180 строк кода, затрагивая несколько файлов в крупном репозитории (в отличие от тривиальных задач в рамках одной функции или файла). Совокупно задачи покрывают 77 различных категорий уязвимостей согласно классификации CWE.
Прогон этого бенчмарка на популярных агентских системах (SWE-Agent, OpenHands, Claude Code) с популярными LLM (Claude 4 Sonnet, Kimi K2, Gemini 2.5 Pro) показал тревожную картину. Лучшая система (агент SWE-Agent с моделью Claude 4 Sonnet от Anthropic) успешно решала 61% поставленных задач, но лишь 10,5% из этих решений оказались действительно безопасными, то есть не содержали уязвимостей.
Попытки улучшить ситуацию простыми мерами - например, снабжать агента дополнительными подсказками о возможных уязвимостях в тексте задания - не дали существенного эффекта и агенты чаще не справлялись с функциональной частью задачи, а общий успех безопасных решений почти не вырос.
В итоге, на текущем уровне развития технологий вайбкодинг ускоряет создание функционала, но скрыто приносит проблемы с безопасностью. Без существенных улучшений в архитектуре AI-агентов или обучении моделей, доверять такой код в ответственных системах нельзя. Исследование служит призывом к индустрии - заняться разработкой таких улучшений.
P.S.
Мне особо понравился пайплпан сбора бенчмарка и прогона тестов:)
Пайплайн автоматизирован и основан на реальных репозиториях с известными уязвимостями. Для каждой уязвимости из истории проекта они подготовили соответствующую задачу на добавление функционала, где внедрение этой функции ранее привело к проблеме безопасности. В задачу включаются: актуальное состояние кода (репозиторий до внесения исправления уязвимости), описание требуемой новой функции (feature request) и набор тестов. Тесты разбиты на две категории - функциональные тесты, и тесты безопасности, которые ловят именно ту уязвимость, что была допущена изначально. Таким образом, заранее известно, каким требованиям должно удовлетворять безопасное решение.
На каждом таком задании испытывались агенты, что запускалиси внутри изолированного окружения (например, Docker-контейнера) с доступом к коду проекта. Получив задачу (описание новой функции), агент мог взаимодействовать с окружением: читать и редактировать файлы, компилировать и запускать проект, запускать тесты и т.п., делая это в несколько итераций, имитируя реальный процесс разработки. В конце агент выдавал patch - набор изменений к исходному коду репозитория, реализующий требуемую функциональность. Этот сгенерированный патч автоматически прогонялся через оба набора тестов. Метрики успеха были такими:
- Func Pass - процент задач, где патч прошёл все функциональные тесты (правильно реализовал задачу).
- Sec Pass - процент задач, где патч прошёл также все тесты безопасности (не внёс уязвимостей).
#Engineering #Software #Processes #Productivity #Economics #Security
2 декабря вышло интересное исследование про безопасность vibe-coding от авторов Songwen Zhao, Danqing Wang, Kexun Zhang, Jiaxuan Luo, Zhuo Li и Lei Li. Основная группа ученых здесь связана с университетом Карнеги Меллон.
Если объяснять на пальцах суть исследования, то авторы сначала рассказывают, что vibe coding - новый подход к программированию, при котором человек-программист формулирует задачу на естественном языке, а агент на базе большой языковой модели (LLM) выполняет сложные задачи кодирования с минимальным ручным вмешательством. Но вот вопрос, а код, полученный таким способом безопасен?
Для ответа на этот вопрос авторы разработали новый бенчмарк SUSVIBES, 200 реалистичных задач по разработке фичей для существующих проектов с открытым исходным кодом. Интересно, что каждая из этих задач взята из реальной истории разработки: ранее, когда эти фичи реализовывали люди, в код по незнанию закрались уязвимости безопасности. Задачи намного сложнее единичных примеров из предыдущих бенчей безопасности - они требуют правок в среднем в ~180 строк кода, затрагивая несколько файлов в крупном репозитории (в отличие от тривиальных задач в рамках одной функции или файла). Совокупно задачи покрывают 77 различных категорий уязвимостей согласно классификации CWE.
Прогон этого бенчмарка на популярных агентских системах (SWE-Agent, OpenHands, Claude Code) с популярными LLM (Claude 4 Sonnet, Kimi K2, Gemini 2.5 Pro) показал тревожную картину. Лучшая система (агент SWE-Agent с моделью Claude 4 Sonnet от Anthropic) успешно решала 61% поставленных задач, но лишь 10,5% из этих решений оказались действительно безопасными, то есть не содержали уязвимостей.
Попытки улучшить ситуацию простыми мерами - например, снабжать агента дополнительными подсказками о возможных уязвимостях в тексте задания - не дали существенного эффекта и агенты чаще не справлялись с функциональной частью задачи, а общий успех безопасных решений почти не вырос.
В итоге, на текущем уровне развития технологий вайбкодинг ускоряет создание функционала, но скрыто приносит проблемы с безопасностью. Без существенных улучшений в архитектуре AI-агентов или обучении моделей, доверять такой код в ответственных системах нельзя. Исследование служит призывом к индустрии - заняться разработкой таких улучшений.
P.S.
Мне особо понравился пайплпан сбора бенчмарка и прогона тестов:)
Пайплайн автоматизирован и основан на реальных репозиториях с известными уязвимостями. Для каждой уязвимости из истории проекта они подготовили соответствующую задачу на добавление функционала, где внедрение этой функции ранее привело к проблеме безопасности. В задачу включаются: актуальное состояние кода (репозиторий до внесения исправления уязвимости), описание требуемой новой функции (feature request) и набор тестов. Тесты разбиты на две категории - функциональные тесты, и тесты безопасности, которые ловят именно ту уязвимость, что была допущена изначально. Таким образом, заранее известно, каким требованиям должно удовлетворять безопасное решение.
На каждом таком задании испытывались агенты, что запускалиси внутри изолированного окружения (например, Docker-контейнера) с доступом к коду проекта. Получив задачу (описание новой функции), агент мог взаимодействовать с окружением: читать и редактировать файлы, компилировать и запускать проект, запускать тесты и т.п., делая это в несколько итераций, имитируя реальный процесс разработки. В конце агент выдавал patch - набор изменений к исходному коду репозитория, реализующий требуемую функциональность. Этот сгенерированный патч автоматически прогонялся через оба набора тестов. Метрики успеха были такими:
- Func Pass - процент задач, где патч прошёл все функциональные тесты (правильно реализовал задачу).
- Sec Pass - процент задач, где патч прошёл также все тесты безопасности (не внёс уязвимостей).
#Engineering #Software #Processes #Productivity #Economics #Security
1🔥12👍8❤3☃1
[1/2] How did we get to where we are in AI? (Рубрика #AI)
Пару недель назад Джефф Дин (Jeff Dean), Chief Data Science at Google, выступал в Stanford AI Club, где он приводил ретроспективу последних 15+ лет развития искусственного интеллекта. Он объяснял как сочетание трех факторов: масштабирования вычислений (scale), новых алгоритмов и специализированного железа привело к появлению современных больших мультимодальных моделей, таких как Gemini 3.0. Сам Джефф - это легендарная фигура в мире CS и software engineering, который с 1999 году работает в Google, сейчас он Chief Data Science, а вообще приложил руку к MapReduce, BigTable, Spanner, TensorFlow и сейчас к Gemini 3. Ниже представлен список whitepaper, который Джефф Дин выделил как ключевые точки развития технологий (в части из них он был соавтором)
2012 - Large Scale Distributed Deep Networks
До этого момента нейросети тренировались на локальных машинах. Дин и команда создали программную архитектуру для распределенного обучения на тысячах CPU. Это позволило тренировать модели в 50-100 раз больше, чем кто-либо до этого. В самом whitepaper говорится про использование параллелизма данных и моделей (Data/Model Parallelism) и асинхронного стохастического градиентного спуска.
2012 - Building high-level features using large scale unsupervised learning
В этом эксперименте нейросеть "смотрела" 10 миллионов случайных кадров из YouTube без разметки. В итоге, модель самостоятельно научилась распознавать концепции (например, кошек, человеческие лица) просто наблюдая за данными. Это доказало эффективность unsupervised learning на больших масштабах.
2013 - Distributed Representations of Words and Phrases and their Compositionality
В этой whitepaper речь шла про алгоритм Word2Vec для построения векторных представлений слов и переходом восприятия слова как дискретного значения к вектору в многомерном пристранстве. В итоге, оказалось, что слова с похожим смыслом оказываются рядом в векторном пространстве. Более того, арифметические операции над векторами сохраняют семантику (знаменитый пример: King - Man + Woman = Queen).
2014 - Sequence to Sequence Learning with Neural Networks
Авторы представили алгоритм Seq2Seq с использованием рекуррентных сетей (LSTM) для задач перевода последовательностей. Работало это примерно так: одна сеть кодирует входную фразу (например, на английском) в вектор, а другая декодирует его в выходную (например, на французском). Этот подход отработал хорошо и стал базой для машинного перевода на года.
2015 - Distilling the Knowledge in a Neural Network
Авторы описали метод сжатия знаний огромной модели в маленькую и быструю. Концепт был в том, что маленькая модель ("студент") учится не только на правильных ответах, но и подражая распределению вероятностей большой модели ("учителя"). Это позволяет запускать мощный ИИ на мобильных устройствах.
2017 - In-Datacenter Performance Analysis of a Tensor Processing Unit
Рассказ про то, как ребята в Google поняли, что надо придумать что-то вместо CPU и GPU для работы нейросетей. Так ребята решили делать TPU (tensor process unit), чью историю я разбирал отдельно. Сделали в 2015 и запустили, а рассказали про это в 2017. Ну и дальше Джефф еще вспоминает в лекции про конфигурируемый суперкомпьютер TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings, что сделали в 2017, а рассказли в whitepaper в 2023
2017 - Attention Is All You Need
Знаменитая статья, что принесла в мир революционную архитектуру трансформеров, что позволило отказаться от RNN (рекуррентных сетей) в пользу механизма внимания (Self-Attention). Концепт в том, что теперь модель может "смотреть" на все слова в предложении одновременно, а не по очереди - это позволяет балансировать куда ей обращать внимание + есть параллелизм по входу. Это обеспечило кратный рост скорости обучения и качества, став основой для всех современных LLM (GPT, Gemini, Claude).
Продолжение обзора во второй части.
#AI #ML #Software #Engineering #Architecture #Infrastructure #Data
Пару недель назад Джефф Дин (Jeff Dean), Chief Data Science at Google, выступал в Stanford AI Club, где он приводил ретроспективу последних 15+ лет развития искусственного интеллекта. Он объяснял как сочетание трех факторов: масштабирования вычислений (scale), новых алгоритмов и специализированного железа привело к появлению современных больших мультимодальных моделей, таких как Gemini 3.0. Сам Джефф - это легендарная фигура в мире CS и software engineering, который с 1999 году работает в Google, сейчас он Chief Data Science, а вообще приложил руку к MapReduce, BigTable, Spanner, TensorFlow и сейчас к Gemini 3. Ниже представлен список whitepaper, который Джефф Дин выделил как ключевые точки развития технологий (в части из них он был соавтором)
2012 - Large Scale Distributed Deep Networks
До этого момента нейросети тренировались на локальных машинах. Дин и команда создали программную архитектуру для распределенного обучения на тысячах CPU. Это позволило тренировать модели в 50-100 раз больше, чем кто-либо до этого. В самом whitepaper говорится про использование параллелизма данных и моделей (Data/Model Parallelism) и асинхронного стохастического градиентного спуска.
2012 - Building high-level features using large scale unsupervised learning
В этом эксперименте нейросеть "смотрела" 10 миллионов случайных кадров из YouTube без разметки. В итоге, модель самостоятельно научилась распознавать концепции (например, кошек, человеческие лица) просто наблюдая за данными. Это доказало эффективность unsupervised learning на больших масштабах.
2013 - Distributed Representations of Words and Phrases and their Compositionality
В этой whitepaper речь шла про алгоритм Word2Vec для построения векторных представлений слов и переходом восприятия слова как дискретного значения к вектору в многомерном пристранстве. В итоге, оказалось, что слова с похожим смыслом оказываются рядом в векторном пространстве. Более того, арифметические операции над векторами сохраняют семантику (знаменитый пример: King - Man + Woman = Queen).
2014 - Sequence to Sequence Learning with Neural Networks
Авторы представили алгоритм Seq2Seq с использованием рекуррентных сетей (LSTM) для задач перевода последовательностей. Работало это примерно так: одна сеть кодирует входную фразу (например, на английском) в вектор, а другая декодирует его в выходную (например, на французском). Этот подход отработал хорошо и стал базой для машинного перевода на года.
2015 - Distilling the Knowledge in a Neural Network
Авторы описали метод сжатия знаний огромной модели в маленькую и быструю. Концепт был в том, что маленькая модель ("студент") учится не только на правильных ответах, но и подражая распределению вероятностей большой модели ("учителя"). Это позволяет запускать мощный ИИ на мобильных устройствах.
2017 - In-Datacenter Performance Analysis of a Tensor Processing Unit
Рассказ про то, как ребята в Google поняли, что надо придумать что-то вместо CPU и GPU для работы нейросетей. Так ребята решили делать TPU (tensor process unit), чью историю я разбирал отдельно. Сделали в 2015 и запустили, а рассказали про это в 2017. Ну и дальше Джефф еще вспоминает в лекции про конфигурируемый суперкомпьютер TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings, что сделали в 2017, а рассказли в whitepaper в 2023
2017 - Attention Is All You Need
Знаменитая статья, что принесла в мир революционную архитектуру трансформеров, что позволило отказаться от RNN (рекуррентных сетей) в пользу механизма внимания (Self-Attention). Концепт в том, что теперь модель может "смотреть" на все слова в предложении одновременно, а не по очереди - это позволяет балансировать куда ей обращать внимание + есть параллелизм по входу. Это обеспечило кратный рост скорости обучения и качества, став основой для всех современных LLM (GPT, Gemini, Claude).
Продолжение обзора во второй части.
#AI #ML #Software #Engineering #Architecture #Infrastructure #Data
❤6👍2🔥2
[2/2] How did we get to where we are in AI? (Рубрика #AI)
Продолжая рассказ про выступление Джеффа Дина надо рассказать, а какие ключевые whitepapers выходили после Attention Is All You Need и дальше поделится выводами о том, где мы сейчас
2017 - Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer
Статья про распространенный сейчас подход с разряженными сетями или mixture of experts (MOE). В статье показывается как с помощью условного вычисления можно строить "возмутительно большие" сети с десятками и сотнями миллиардов параметров, почти не увеличивая вычислительные затраты по сравнению с обычными моделями.
2018 - BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
Авторы показали, что одну большую двунаправленную трансформерную модель можно один раз предобучить на сыром тексте, а потом с минимальными доработками дообучать под десятки разных NLP‑задач, получая state‑of‑the‑art без спецархитектур под каждую задачу.
2021 - An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
В этой статье авторы применили подход трансформеров для классификации изображений. Интерес в том, что это можно делать без CNN - достаточно взять "чистый" трансформер и кормить ему изображение как последовательность элементов фиксированного размера (тот самый "16×16 слов" в названии).
2022 - Pathways: Asynchronous Distributed Dataflow for ML
Статья про асинхронный распределённый поток данных, когда вычисление задаётся как граф операторов, обменивающихся futures. А дальше единый контроллер может параллельно планировать и шедулить гетерогенные задачи на кластере TPU, скрывая зависимости в data‑plane и упрощая программную модель и управление ресурсами. В общем, это обеспечивает масштабирование вычислений на масштабе Google
2022 - Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
Открытие было в том, что модели лучше решают задачи, если просить их "подумать шаг за шагом". Если в промпте показать модели пример рассуждения, она начинает генерировать промежуточные шаги вычислений, что резко повышает точность в математике и логике.
Напоследок Джефф упоминает релиз новой модели Gemini 3.0, которая объединяет все предыдущие достижения, которые помогли ей выбить SOTA по многим бенчам.
В итоге, если посмотреть лекцию и полистать whitepaper, то можно сделать примерно следующие выводы
- Масштаб имеет значение. Прогресс последних 15 лет был обеспечен не только новыми идеями, но и грубой вычислительной мощностью. Рост количества параметров и объема данных неизменно приводил к появлению новых способностей (emergent capabilities), которых не было у маленьких моделей (например, понимание юмора или решение задач по физике).
- Специализация железа неизбежна. Универсальные процессоры (CPU) больше не являются драйвером прогресса. Будущее за специализированными чипами (как TPU), заточенными под низкоточную линейную алгебру. Энергоэффективность становится ключевым ограничением для дальнейшего роста моделей.
- Разреженные модели (Sparse Models) - путь к эффективности. Дин подчеркнул эффект перехода к архитектурам (таким как MoE), где для обработки одного запроса активируется лишь малая часть нейросети (1-5%). Это позволяет делать модели колоссальными по объему "знаний", но быстрыми в работе.
- Мультимодальность как стандарт. ИИ перестает быть просто "текстовым". Современные системы нативно понимают и генерируют видео, аудио и изображения. Пример из видео: модель может прочитать рукописные рецепты на разных языках, перевести их, сгенерировать картинки блюд и написать код готового веб-сайта.
- ИИ как помощник в науке и творчестве. Основное позитивное влияние ИИ ожидается в ускорении научных открытий (AlphaFold, материаловедение) и снижении порога входа в сложные навыки (программирование, дизайн).
- В развитии этой технологии существуют риски. Например, сгенерированный контент становится неотличимым от реального, и нужны технические и социальные механизмы защиты.
#AI #ML #Software #Engineering #Architecture #Infrastructure #Data
Продолжая рассказ про выступление Джеффа Дина надо рассказать, а какие ключевые whitepapers выходили после Attention Is All You Need и дальше поделится выводами о том, где мы сейчас
2017 - Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer
Статья про распространенный сейчас подход с разряженными сетями или mixture of experts (MOE). В статье показывается как с помощью условного вычисления можно строить "возмутительно большие" сети с десятками и сотнями миллиардов параметров, почти не увеличивая вычислительные затраты по сравнению с обычными моделями.
2018 - BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
Авторы показали, что одну большую двунаправленную трансформерную модель можно один раз предобучить на сыром тексте, а потом с минимальными доработками дообучать под десятки разных NLP‑задач, получая state‑of‑the‑art без спецархитектур под каждую задачу.
2021 - An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
В этой статье авторы применили подход трансформеров для классификации изображений. Интерес в том, что это можно делать без CNN - достаточно взять "чистый" трансформер и кормить ему изображение как последовательность элементов фиксированного размера (тот самый "16×16 слов" в названии).
2022 - Pathways: Asynchronous Distributed Dataflow for ML
Статья про асинхронный распределённый поток данных, когда вычисление задаётся как граф операторов, обменивающихся futures. А дальше единый контроллер может параллельно планировать и шедулить гетерогенные задачи на кластере TPU, скрывая зависимости в data‑plane и упрощая программную модель и управление ресурсами. В общем, это обеспечивает масштабирование вычислений на масштабе Google
2022 - Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
Открытие было в том, что модели лучше решают задачи, если просить их "подумать шаг за шагом". Если в промпте показать модели пример рассуждения, она начинает генерировать промежуточные шаги вычислений, что резко повышает точность в математике и логике.
Напоследок Джефф упоминает релиз новой модели Gemini 3.0, которая объединяет все предыдущие достижения, которые помогли ей выбить SOTA по многим бенчам.
В итоге, если посмотреть лекцию и полистать whitepaper, то можно сделать примерно следующие выводы
- Масштаб имеет значение. Прогресс последних 15 лет был обеспечен не только новыми идеями, но и грубой вычислительной мощностью. Рост количества параметров и объема данных неизменно приводил к появлению новых способностей (emergent capabilities), которых не было у маленьких моделей (например, понимание юмора или решение задач по физике).
- Специализация железа неизбежна. Универсальные процессоры (CPU) больше не являются драйвером прогресса. Будущее за специализированными чипами (как TPU), заточенными под низкоточную линейную алгебру. Энергоэффективность становится ключевым ограничением для дальнейшего роста моделей.
- Разреженные модели (Sparse Models) - путь к эффективности. Дин подчеркнул эффект перехода к архитектурам (таким как MoE), где для обработки одного запроса активируется лишь малая часть нейросети (1-5%). Это позволяет делать модели колоссальными по объему "знаний", но быстрыми в работе.
- Мультимодальность как стандарт. ИИ перестает быть просто "текстовым". Современные системы нативно понимают и генерируют видео, аудио и изображения. Пример из видео: модель может прочитать рукописные рецепты на разных языках, перевести их, сгенерировать картинки блюд и написать код готового веб-сайта.
- ИИ как помощник в науке и творчестве. Основное позитивное влияние ИИ ожидается в ускорении научных открытий (AlphaFold, материаловедение) и снижении порога входа в сложные навыки (программирование, дизайн).
- В развитии этой технологии существуют риски. Например, сгенерированный контент становится неотличимым от реального, и нужны технические и социальные механизмы защиты.
#AI #ML #Software #Engineering #Architecture #Infrastructure #Data
Telegram
Книжный куб
[1/2] How did we get to where we are in AI? (Рубрика #AI)
Пару недель назад Джефф Дин (Jeff Dean), Chief Data Science at Google, выступал в Stanford AI Club, где он приводил ретроспективу последних 15+ лет развития искусственного интеллекта. Он объяснял…
Пару недель назад Джефф Дин (Jeff Dean), Chief Data Science at Google, выступал в Stanford AI Club, где он приводил ретроспективу последних 15+ лет развития искусственного интеллекта. Он объяснял…
❤7🔥5⚡1
GigaChat 3 Ultra Preview - тяжёлый open source (Рубрика #AI)
Только сегодня дочитал статью Сбера про релиз GigaChat 3 Ultra, которая была опубликована еще в конце ноября на Хабре. Чтиво мне показлось интересным и заслуживающим изучения, но если кратко суммировать тезисы из статьи, то ребята выкатили новое поколение моделей с открытыми весами под MIT:
- GigaChat 3 Ultra Preview - флагманская MoE‑модель на ~702B параметров, из которых ~36B активны на шаге генерации. Это первая настолько большая, изначально русскоязычная open‑source‑модель такого масштаба, совместимая со стандартным OSS‑инструментарием (HuggingFace, vLLM, sglang и т.п.).
- GigaChat 3 Lightning - компактная ~10B‑MoE для локального запуска и быстрого дообучения.
Дальше внутри статьи ребята рассказали про отдельные моменты
- Данные
Pretrain‑корпус раздули до ~14 трлн токенов: 10 языков (от китайского до узбекского и казахского), много кода/математики и ~5,5 трлн синтетики (Q&A, reverse‑prompts, задачи по олимпиадному программированию и т.д.).
- Инфра для данных
Развернули собственный open‑source YT‑кластер: 10 000 ядер и >5 ПБ хранения, чтобы сэмплирование и токенизация выполнялись за минуты вместо дней. Вчера я был на конфе Giga Salut, где интересно пообщался с ребятами как раз на эту тему (с чего переезжали на YT и какие результаты были)
- Архитектура
Ultra - это огромная MoE‑модель, вдохновлённая DeepSeek V3: 256 экспертов, MTP (multi‑token prediction), MLA (multi‑head latent attention), полный стек, совместимый с существующими OSS‑тулзами для инференса и обучения.
- Обучение
Учить MoE модель было сложно: дикий объём коммуникаций между GPU, дисбаланс нагрузки по экспертам, инфраструктурный ад с чекпойнтами на 10+ ТБ и бенчмарками, требующими десятки GPU.
- Alignment
Общий конвейер выглядел так
-- Stage 1.5 - крупный диалоговый pretrain, чтобы модель нормально общалась;
-- RL по цепочкам рассуждений (Chain‑of‑Thought RL);
-- SFT на вручную вылизанных датасетах.
При этом Ultra Preview пока без этапа CoT‑RL.
Также в модель добавили B2C‑фичи: интерпретатор Python‑кода, переработанный поиск (по сути, готовый RAG‑слой) и долговременная память о пользователе.
В чем прорыв этого релиза
- Масштаб. GigaChat Ultra - крупнейший на сегодня open‑source‑LLM‑проект в России и Европе и одна из топ‑5 открытых моделей мира по числу параметров
- Обучение с нуля. Это не дообучение западной модели: веса и датасет - свои, модель нативно учится на русском и актуальных данных, без наследования чужих ограничений
- Совместимость со стеком OSS. Архитектура максимально приближена к DeepSeek V3, так что дообучение и деплой можно строить на уже существующих тулзах (vLLM, sglang, Megatron, Torchtitan и т.п.).
- Качество. Ultra уверенно обгоняет GigaChat 2 Max по ключевым бенчмаркам (MERA, MMLU‑Pro, GSM8K, HumanEval+ и др.) и лидирует в русскоязычных тестах. Но пока нет результатов большого количества других бенчей
В общем, ребята из Сбера - молодцы. Приятно видеть открытые релизы и техрепорты про технологии российских компаний.
#AI #ML #Software #Engineering #Architecture #Infrastructure #Data
Только сегодня дочитал статью Сбера про релиз GigaChat 3 Ultra, которая была опубликована еще в конце ноября на Хабре. Чтиво мне показлось интересным и заслуживающим изучения, но если кратко суммировать тезисы из статьи, то ребята выкатили новое поколение моделей с открытыми весами под MIT:
- GigaChat 3 Ultra Preview - флагманская MoE‑модель на ~702B параметров, из которых ~36B активны на шаге генерации. Это первая настолько большая, изначально русскоязычная open‑source‑модель такого масштаба, совместимая со стандартным OSS‑инструментарием (HuggingFace, vLLM, sglang и т.п.).
- GigaChat 3 Lightning - компактная ~10B‑MoE для локального запуска и быстрого дообучения.
Дальше внутри статьи ребята рассказали про отдельные моменты
- Данные
Pretrain‑корпус раздули до ~14 трлн токенов: 10 языков (от китайского до узбекского и казахского), много кода/математики и ~5,5 трлн синтетики (Q&A, reverse‑prompts, задачи по олимпиадному программированию и т.д.).
- Инфра для данных
Развернули собственный open‑source YT‑кластер: 10 000 ядер и >5 ПБ хранения, чтобы сэмплирование и токенизация выполнялись за минуты вместо дней. Вчера я был на конфе Giga Salut, где интересно пообщался с ребятами как раз на эту тему (с чего переезжали на YT и какие результаты были)
- Архитектура
Ultra - это огромная MoE‑модель, вдохновлённая DeepSeek V3: 256 экспертов, MTP (multi‑token prediction), MLA (multi‑head latent attention), полный стек, совместимый с существующими OSS‑тулзами для инференса и обучения.
- Обучение
Учить MoE модель было сложно: дикий объём коммуникаций между GPU, дисбаланс нагрузки по экспертам, инфраструктурный ад с чекпойнтами на 10+ ТБ и бенчмарками, требующими десятки GPU.
- Alignment
Общий конвейер выглядел так
-- Stage 1.5 - крупный диалоговый pretrain, чтобы модель нормально общалась;
-- RL по цепочкам рассуждений (Chain‑of‑Thought RL);
-- SFT на вручную вылизанных датасетах.
При этом Ultra Preview пока без этапа CoT‑RL.
Также в модель добавили B2C‑фичи: интерпретатор Python‑кода, переработанный поиск (по сути, готовый RAG‑слой) и долговременная память о пользователе.
В чем прорыв этого релиза
- Масштаб. GigaChat Ultra - крупнейший на сегодня open‑source‑LLM‑проект в России и Европе и одна из топ‑5 открытых моделей мира по числу параметров
- Обучение с нуля. Это не дообучение западной модели: веса и датасет - свои, модель нативно учится на русском и актуальных данных, без наследования чужих ограничений
- Совместимость со стеком OSS. Архитектура максимально приближена к DeepSeek V3, так что дообучение и деплой можно строить на уже существующих тулзах (vLLM, sglang, Megatron, Torchtitan и т.п.).
- Качество. Ultra уверенно обгоняет GigaChat 2 Max по ключевым бенчмаркам (MERA, MMLU‑Pro, GSM8K, HumanEval+ и др.) и лидирует в русскоязычных тестах. Но пока нет результатов большого количества других бенчей
В общем, ребята из Сбера - молодцы. Приятно видеть открытые релизы и техрепорты про технологии российских компаний.
#AI #ML #Software #Engineering #Architecture #Infrastructure #Data
Хабр
GigaChat 3 Ultra Preview — тяжёлый open source
Салют, Хабр! Последний год выдался насыщенным: выпуск линейки GigaChat 2, которая может вас слышать, смотреть видео и даже понимать мемы; добавление функции Reasoning в наш Web ( giga.chat ); первое...
🔥21❤6👍5
Опросы руководителей и связь с реальностью (Рубрика #AI)
При внимательном изучении отчета "Яков и партнеры" и Yandex я решил обратить внимание на источники информации, которых в основном три вида: опрос топ-менеджеров компаний, опрос представителей вендоров и опрос пользователй. При изучении результатов опроса руководителей компаний о том, как внедряются AI технологии мне вспомнился Ярослав Гашек и его бравый солдат Швейк. Конкретно при прочтении фактов вида
Мне вспомнился момент, где Ярослав Гашек показывает, что министры, генералы и высшие чины словно бы страдают коллективным помешательством, которое затем неизбежно передается всем нижестоящим. Информация сверху оформляется в приказы, распоряжения и пропаганду, а на нижних уровнях превращается в нелепые инициативы, строгие взыскания и нервную беготню младших офицеров и солдат. В обратную сторону снизу вверх идут уже не приказы, а доносы, искаженные слухи и статистика "успехов", подчищенная под ожидания начальства. Так создается иллюзия порядка и рациональности.
В этом плане я больше верю отчету "The GenAI Divide: State of AI in Business 2025" от MIT, где несмотря на глобальные инвестиции в размере $30–40 млрд, ~95% организаций не получили измеримой отдачи от проектов GenAI, а оставшиеся 5% смогли на этом заработать. Авторы объясняют это не качеством моделей или регулировании, а разными подходами к внедрению технологий. Подробнее про отчет от MIT я рассказывал здесь, а после выходных подробнее рассказу про отчет "Яков и партнеры" и Yandex.
#Humor #AI #Engineering #Management #Leadership #Economics
При внимательном изучении отчета "Яков и партнеры" и Yandex я решил обратить внимание на источники информации, которых в основном три вида: опрос топ-менеджеров компаний, опрос представителей вендоров и опрос пользователй. При изучении результатов опроса руководителей компаний о том, как внедряются AI технологии мне вспомнился Ярослав Гашек и его бравый солдат Швейк. Конкретно при прочтении фактов вида
Согласно опросу СТО, за два года генеративный ИИ вышел далеко за рамки точечных экспериментов: среднее количество функций, где запущены пилоты или полное внедрение, выросло с 2,4 в 2023 г. до 3,1 в 2025-м, а сама технология используется уже в 80% ключевых бизнес-функций
Мне вспомнился момент, где Ярослав Гашек показывает, что министры, генералы и высшие чины словно бы страдают коллективным помешательством, которое затем неизбежно передается всем нижестоящим. Информация сверху оформляется в приказы, распоряжения и пропаганду, а на нижних уровнях превращается в нелепые инициативы, строгие взыскания и нервную беготню младших офицеров и солдат. В обратную сторону снизу вверх идут уже не приказы, а доносы, искаженные слухи и статистика "успехов", подчищенная под ожидания начальства. Так создается иллюзия порядка и рациональности.
В этом плане я больше верю отчету "The GenAI Divide: State of AI in Business 2025" от MIT, где несмотря на глобальные инвестиции в размере $30–40 млрд, ~95% организаций не получили измеримой отдачи от проектов GenAI, а оставшиеся 5% смогли на этом заработать. Авторы объясняют это не качеством моделей или регулировании, а разными подходами к внедрению технологий. Подробнее про отчет от MIT я рассказывал здесь, а после выходных подробнее рассказу про отчет "Яков и партнеры" и Yandex.
#Humor #AI #Engineering #Management #Leadership #Economics
yakovpartners.ru
Яков и Партнёры - Внедрение ИИ может принести российской экономике до 13 трлн руб. к 2030 г.
Более 70% российских компаний уже интегрировали решения на базе генеративного ИИ хотя бы в одном бизнес-процессе своей организации
😁11❤10🔥7👍4
Звезда по имени Солнце (Рубрика #PopularScience)
Последние пару дней читал блестящую книгу астронома Сергея Язева "Вселенная. Путешествие во времени и пространстве". Это превосходный экскурс по истории человеческих представлений о космосе: от мифологических картин мира до современной космологии, теории Большого взрыва, чёрных дыр и квантовой физики. Мне особенно понравилось, что автор идет последовательно с самого начала времен до текущего момента, описывая как менялись наши знания о Вселенной, связывая эволюцию научных идей с развитием наблюдательной техники и реальными людьми‑учёными. Чувствуешь, что проходишь этот путь не за тысячелетия, а буквально за дни. И вот у меня осталась всего пара глав, чтобы закончить книгу, я выглянул в окошко своего кабинета и увидел наше зимнее Солнышко, а дальше вспомнились строчки из песни группы "Кино", которые отлично попали в настроение
Итого, как я дочитаю книгу Сергея Язева, то обязательно расскажу о ней подробно в этом канале.
#PopularScience #Physics #Music
Последние пару дней читал блестящую книгу астронома Сергея Язева "Вселенная. Путешествие во времени и пространстве". Это превосходный экскурс по истории человеческих представлений о космосе: от мифологических картин мира до современной космологии, теории Большого взрыва, чёрных дыр и квантовой физики. Мне особенно понравилось, что автор идет последовательно с самого начала времен до текущего момента, описывая как менялись наши знания о Вселенной, связывая эволюцию научных идей с развитием наблюдательной техники и реальными людьми‑учёными. Чувствуешь, что проходишь этот путь не за тысячелетия, а буквально за дни. И вот у меня осталась всего пара глав, чтобы закончить книгу, я выглянул в окошко своего кабинета и увидел наше зимнее Солнышко, а дальше вспомнились строчки из песни группы "Кино", которые отлично попали в настроение
Белый снег, серый лёд
На растрескавшейся земле
Одеялом лоскутным на ней
Город в дорожной петле
А над городом плывут облака
Закрывая небесный свет
А над городом жёлтый дым
Городу две тысячи лет
Прожитых под светом
Звезды по имени Солнце
Итого, как я дочитаю книгу Сергея Язева, то обязательно расскажу о ней подробно в этом канале.
#PopularScience #Physics #Music
1🔥19❤8⚡2