Тема доклада: О чем мы говорим, когда говорим об Observability
В докладе Иван разберет, что на практике означает Observability и почему классический стек из разрозненных инструментов (Prometheus, лог-агенты, трейсинг) перестаёт справляться с ростом сложности систем. Поговорим про три столпа — мониторинг, логгинг и трейсинг — и как объединение телеметрии в едином контексте помогает быстрее находить причины инцидентов и работать с SLO.
Разберём, как устроена Observability Platform в Яндексе: какие архитектурные решения позволяют работать с метриками, логами и трейсами в одной системе без ручной «склейки», и как выглядит пайплайн сбора и обработки телеметрии на базе OpenTelemetry.
Отдельно обсудим мониторинг AI/LLM-агентов: какие данные попадают в трейсы и как с помощью OpenTelemetry наблюдать поведение агентов — от латентности и ошибок до качества ответов.
Мероприятие пройдёт при поддержке Yandex Cloud Kazakhstan в их алматинском офисе на крыше.
Мест уже нет, но мы обязательно поделимся докладами с сообществом. Следите за новостями — скоро будем делать более масштабные митапы.
@DevOpsKaz
Please open Telegram to view this post
VIEW IN TELEGRAM
1 8 7 4 1
Мы в Core 24/7 провели независимое исследование — и создали гайд, который поможет сориентироваться на рынке облачных провайдеров (отечественных и зарубежных). Заходите, смотрите, сохраняйте в закладки
Руководство интерактивное — можно выбрать для сравнения 2 или более провайдера или сразу все.
Что внутри:
Core 24/7 — сертифицированный партнёр AWS, Azure, GCP, Yandex Cloud, VK Cloud и Oracle Cloud в Казахстане. Мы помогаем бизнесу выбрать облако под их задачу, мигрировать и настроить с максимальной эффективностью.
@DevOpsKaz
Please open Telegram to view this post
VIEW IN TELEGRAM
1 6 4 3 3
Мероприятие пройдёт при поддержке Yandex Cloud Kazakhstan в их алматинском офисе на крыше. Ждем по адресу 3 апреля к 17:00.
Первый спикер — Мирас Байгашев, «Ingress умер, да здравствует Gateway API»
Второй спикер — Абдухаликов Асир, «CNI в Kubernetes, ценность Cilium и как с ним работать»
Третий спикер — Иван Кабанов, «О чем мы говорим, когда говорим об Observability»
17:00-17:30 — регистрация гостей + кофе-брейк
17:30-18:10 — спикер 1 + вопросы
18:10-18:50 — спикер 2 + вопросы
18:50-19:30 — спикер 3 + вопросы
19:30-21:00 — афтепати на крыше с пиццей
@DevOpsKaz
Please open Telegram to view this post
VIEW IN TELEGRAM
1 7 4 4 2
Не устаем повторять, что масштабирование — это не только про инфру, но и про культуру. OpenAI удалось выжить в период взрывного роста благодаря:
Когда ChatGPT стал популярным, OpenAI столкнулась с проблемой: их система мониторинга на базе Prometheus начала давать сбои под весом миллиардов временных рядов (time series).
Что предприняла компания:
@DevOpsKaz
Please open Telegram to view this post
VIEW IN TELEGRAM
1 6 3 3 2
Из беты вышел уже популярный open-source инструмент, который представляет собой «тонкую обертку» для Terraform. Terragrunt помогает масштабировать управление IaC, делая код более чистым, поддерживаемым и соответствующим принципу DRY.
Это набор готовых инструментов для систем с CI/CD. Tekton помогает строить, тестировать и развертывать в облаках или on-premise. Работает внутри кластеров Kubernetes и не нуждается в физическом сервере.
Последствия прошлой атаки все еще ощущаются. Технологические гиганты подвергаются атаке со стороны компрометированного Trivy GitHub Action. На днях злоумышленники похитили исходный код компании Cisco.
@DevOpsKaz
Please open Telegram to view this post
VIEW IN TELEGRAM
Компания Core 24/7 — лидер в сфере DevOps-аутсорсинга Средней Азии. Мы растем, и для развития первой линии технической поддержки ищем начинающих специалистов. Прокачаетесь на практике — и двери в DevOps станут открыты.
Алматы, офис
Заработная плата: до 200 000 тг.
Можно без опыта
График: сменный (1/3, с 8:00 до 20:00)
Испытательный срок: 3 месяца
• Регистрация и обработка обращений пользователей в системе заявок
• Разрешение инцидентов и поддержка пользователей по регламентам
• Подготовка и ведение документации: инструкции для решения проблем
• Мониторинг дашбордов и управление алертами для выявления критических изменений
• Обработка запросов, эскалация критических инцидентов при необходимости
• Своевременная реакция в чатах и обратная связь клиентам в течение 15 минут
• Базовые знания ОС Linux и администрирования IT-инфраструктуры
• Умение работать в стрессовых ситуациях и принимать решения
• Грамотная устная и письменная речь
• Готовность к сменному графику работы
• Умение быстро находить информацию для решения задач (google, stack overflow, chatgpt)
• Желание обучаться и развиваться
• Техническое образование (высшее, средне-специальное или среднее).
• Опыт работы с GitLab/GitHub CI/CD
• Знания AWS, Ansible или Kubernetes
• Навыки настройки SSL и работы с сетевым оборудованием
• Обучение с нуля и постоянное наставничество
• Программы повышения квалификации в сфере SRE/DevOps
• Сертификацию по ключевым направлениям (Kubernetes, AWS, Red Hat и др.)
• Компенсацию за тренажерный зал
• Премии за успешную работу
• Регулярные тимбилдинги
• Возможности для профессионального и карьерного роста
Если вы хотите расти в ИТ и стать частью команды профессионалов, отправляйте свое резюме. Мы ждем вас!
Писать сюда:
Please open Telegram to view this post
VIEW IN TELEGRAM
2 7 4 4 3 3 2
Мы знаем, что многие мечтают о self-hosted платформе для алертов и командного общения специально для DevOps/SRE-команд. Готовые решения (Mattermost, Matrix, Gotify, ntfy) требуют слишком много инфраструктуры, либо не дают ACK (подтверждения), либо приходится переписывать ботов под себя.
Представляем Pusk — работает на своём сервере, без внешних зависимостей.
Особенности:
Pusk сам определяет способ доставки: webhook, relay или очередь getUpdates. Работает и без внешнего интернета. Единственное исключение — Web Push.
В итоге получился алертинг с ламповым чатиком: принял webhook, показал дежурному, дал нажать ACK, коллега принял. Один бинарник, без внешних сервисов, частично совместим с Telegram Bot API (13 методов из 80+).
Пользуйтесь и делитесь с коллегами
@DevOpsKaz
Please open Telegram to view this post
VIEW IN TELEGRAM
1 6 3 2 2
Уже в третий раз AppSecFest собирает в одном зале инженеров, DevSecOps-практиков, разработчиков и лидеров IT, чтобы говорить о реальных вызовах безопасности и находить решения, которые работают в продакшене.
Что вас ждет:
@DevOpsKaz
Please open Telegram to view this post
VIEW IN TELEGRAM
1 4 4 3
Компания Диасофт собрала CTO, DevOps-инженеров и операционных директоров — и спросила: что работает, что нет, и в кого превращается инженер. Вот ключевые мысли.
А вот что на эту тему думает Ильяс Мустафин, СТО JetFinance:
Как только речь заходит о том, что мы строим, где границы системы и на какие компромиссы готовы идти, преимущество ИИ быстро тает. Чем дешевле становится написание кода, тем ниже порог на принятие решений. Фичи начинают добавляться не потому что они нужны, а потому что это быстро сделать.
ИИ съедает всю случайную сложность реализации, но суть задачи и выбор архитектуры никуда не исчезает. Наоборот она становится заметнее и дороже. Потому что вариантов стало больше, а последствия плохих решений наступают быстрее.
И это уже видно в работе. Команды легко генерируют новые фичи, потому что «это легко автоматизировать». А через месяц выясняется, что поддерживать никто толком не готов. Техдолг растет так же быстро, как и объем кода.
@DevOpsKaz
Please open Telegram to view this post
VIEW IN TELEGRAM
1 6 3 2 2
3 апреля мы провели четвертый митап в рамках инициативы Cloud Native — готовы поделиться докладами с вами.
Фото с мероприятия здесь.
Следите за новостями — следующий митап уже скоро.
@DevOpsKaz
Please open Telegram to view this post
VIEW IN TELEGRAM
1 15 7 5 2 1
У HashiCorp Vault есть фундаментальная проблема, о которой редко говорят вслух: администратор может прочитать любой секрет, к которому имеет доступ хоть кто-то ещё. Да, есть аудит-логи. Но только если за ними следят, и только если их не выключили.
Казалось бы, решение простое — хранить конфигурацию доступов в Git, проводить ревью и применять через CI/CD. На практике это иллюзия безопасности:
Всегда есть один человек или один сервис, компрометация которого даёт полный доступ.
Вот как работает подход:
В итоге: ни у CI, ни у «администратора» нет привилегированного доступа снаружи. Изменить конфигурацию можно только через коммит с кворумом валидных подписей.
@DevOpsKaz
Please open Telegram to view this post
VIEW IN TELEGRAM
1 7 4 3 3
Группы взаимосвязанных подов теперь трактуются как единая сущность —
workload-aware preemption. Если один под из ML-задачи вытесняется, вся группа либо держится, либо уходит вместе. Больше не будет ситуации, когда половина distributed training job висит без ресурсов и жжёт деньги.Группу подов теперь можно разместить внутри одного топологического домена, заданного общим лейблом. Критично для задач, где латентность между нодами влияет на время обучения.
Из новых alpha-фич: видимость доступности ресурсов через
ResourcePoolStatusRequest — наконец можно узнать, сколько GPU свободно, без парсинга ResourceClaims по всем неймспейсам. Плюс поддержка списков атрибутов: драйвер теперь может описать устройство с несколькими PCIe-корнями, а не только скалярными значениями.Новая фича запрещает шедулинг пода на ноды, где нет нужного CSI-драйвера. Ни одна stateful-нагрузка не попадёт на ноду, которая не сможет примонтировать нужный том.
Фича
HPAScaleToZero, которая ждала своего часа с Kubernetes v1.16, в v1.36 включается по умолчанию. Staging и тестовые окружения теперь можно гасить полностью, без idle-подов.Kubelet переходит на ephemeral-токены для аутентификации при pull-е образов вместо статических секретов — короткоживущие, автоматически ротируются, привязаны к identity пода.
Полный разбор 20 новых alpha-фич — у Palark
@DevOpsKaz
Please open Telegram to view this post
VIEW IN TELEGRAM
1 4 3 2
Стартовали продажи билетов на ежегодную ИТ-конференцию beetech conf 2026, которая объединит представителей технологического сообщества со всего Казахстана. Мероприятие соберет разработчиков, инженеров и специалистов, заинтересованных в развитии современных технологий и обмене практическим опытом.
В программе 24 доклада:
Среди спикеров представители геймифицированного фитнес-стартапа Hero’s Journey, американской компании Riot Games, а также крупных ИТ-компаний, включая Kolesa, Beeline Казахстан, QazCode и другие.
Организаторы также подготовили:
Стоимость участия будет увеличиваться — не упустите возможность купить дешевле.
Организаторы: QazCode, DAR Tech и Beeline.
@DevOpsKaz
Please open Telegram to view this post
VIEW IN TELEGRAM
1 4 2 2
Курс полностью практический: более 10 реальных заданий, где вы будете руками работать с сервисами AWS и в итоге соберёте полноценное облачное приложение. Единственное — обучение на английском языке.
Вот основные темы:
В конце — финальный проект. Подготовитесь к экзамену AWS Certified Developer – Associate и сможешь применять навыки на реальной работе.
Продолжительность — 10 недель
Старт: 13 апреля
@DevOpsKaz
Please open Telegram to view this post
VIEW IN TELEGRAM
1 14 4 2
Перевод DevOps инструментов на рельсы MCP — это мощный сдвиг, который превращает ИИ из «советчика» в полноценного оператора. Вместо того чтобы «скармливать» ИИ простые текстовые логи, мы даем ему прямой доступ к API через стандартизированный протокол.
DevOps MCP-стек:
Terraform MCP Server, Pulumi MCP Server, AWS MCP Server, Azure MCP Server, а также решение вроде Spacelift Intent для политико-ориентированных workflow. Всё это становится «единым мозгом» для изменений инфраструктуры вместо разрозненных скриптов.
GitHub MCP Server и GitLab MCP Server — чтобы агенты могли создавать pull request’ы, анализировать diff’ы, оставлять комментарии в пайплайнах и полностью замыкать процессы на GitOps.
Jenkins MCP Server, Azure DevOps MCP Server, ArgoCD MCP Server и FluxCD MCP Server. Пайплайны перестают быть «чёрными ящиками» и становятся доступными для запросов, анализа и исправлений напрямую через MCP.
Kubernetes MCP Server + Docker Hub MCP Server и Lens MCP Server. Теперь ИИ-агент может самостоятельно проверить поды, откатить деплоймент или отладить падающий сервис — без необходимости рыскать по пяти разным дашбордам.
Prometheus MCP Server, Grafana MCP Server, Datadog MCP Server. Вы переходите от вопроса «где ссылка на дашборд?» к запросу «объясни, почему выросла latency после последнего деплоя, и свяжи это с конкретным PR».
HashiCorp Vault MCP Server (через HashiCorp-экосистему), Snyk MCP Server и Trivy MCP Server, Prowler MCP Server, Wiz MCP Server. Проверки безопасности становятся первоклассными вызываемыми инструментами в каждом workflow, а не запоздалым дополнением.
Общий принцип для всего стека: выносите каждую возможность в виде MCP Server → объединяете их в единый согласованный интерфейс агентов → позволяете ИИ взять на себя рутинную интеграционную логику, чтобы люди могли сосредоточиться на архитектуре, надёжности и безопасности.
@DevOpsKaz
Please open Telegram to view this post
VIEW IN TELEGRAM
1 9 5 3 2
29 апреля эксперты Yandex Cloud расскажут о том, как перенести CRM, 1С, сайты и базы данных в облако быстро, легко и без лишних затрат.
В программе мероприятия:
Мероприятие будет полезно владельцам бизнеса, ИТ-руководителям, 1С-специалистам, разработчикам, фрилансерам и интеграторам.
Участие бесплатное по предварительной регистрации по ссылке.
@DevOpsKaz
Please open Telegram to view this post
VIEW IN TELEGRAM
1 6 6 3
Да, именно 7.0 — после 6.19 Линус просто устал считать большие цифры и решил «сбросить счётчик». Длинные номера версий его утомляют. Новая версия — это 15 624 патча от 2477 разработчиков (патч весит 56 МБ). Теперь ядро будет использоваться в Ubuntu 26.04 LTS.
Самое важное в обновлении:
Линус в релиз-ноте пошутил, что ИИ теперь активно помогает находить странные баги — и это, похоже, новая норма.
@DevOpsKaz
Please open Telegram to view this post
VIEW IN TELEGRAM
Бизнес-ужин в Алматы | 30 апреля в 19:00
IT-инфраструктура для ML и AI в Fintech
Компания Servercore приглашает разработчиков, IT-специалистов и руководителей бизнеса на закрытый бизнес-ужин. Эксперты расскажут, как безопасно строить инфраструктуру в облаке и подбирать эффективные решения для AI-платформ.
➡️ Регистрируйтесь по ссылке: https://srv.cr/v8ylg
Участники смогут обсудить:
▪️ Безопасное построение инфраструктуры для Fintech-компаний в облаке Servercore
▪️ Практический опыт подбора IT-инфраструктуры для B2B AI-платформы (кейс LexARE)
▪️ Возможности партнерской программы Servercore
После официальной части — Networking & бизнес-ужин. Неформальное общение с экспертами и обмен опытом.
⚠️ Не забудьте зарегистрироваться заранее, количество мест ограничено. Участие возможно только после прохождения модерации.
IT-инфраструктура для ML и AI в Fintech
Компания Servercore приглашает разработчиков, IT-специалистов и руководителей бизнеса на закрытый бизнес-ужин. Эксперты расскажут, как безопасно строить инфраструктуру в облаке и подбирать эффективные решения для AI-платформ.
➡️ Регистрируйтесь по ссылке: https://srv.cr/v8ylg
Участники смогут обсудить:
▪️ Безопасное построение инфраструктуры для Fintech-компаний в облаке Servercore
▪️ Практический опыт подбора IT-инфраструктуры для B2B AI-платформы (кейс LexARE)
▪️ Возможности партнерской программы Servercore
После официальной части — Networking & бизнес-ужин. Неформальное общение с экспертами и обмен опытом.
⚠️ Не забудьте зарегистрироваться заранее, количество мест ограничено. Участие возможно только после прохождения модерации.
1 3 2 2 2
Подъехали записи докладов с европейского KubeCon — 408 видео в этом плейлисте на YouTube. Всё самое горячее, важное и интересное. Есть короткие и длинные выступления.
Также есть записи с мероприятий:
Сохраняйте в закладки, возвращайтесь к посту при необходимости и делитесь с коллегами
У кого английский не очень, можно смотреть с синхронным переводом Яндекс.Браузера.
@DevOpsKaz
Please open Telegram to view this post
VIEW IN TELEGRAM
1 6 3 2
Современная инфраструктура сводится к одной ключевой идее — пайплайнам. Но то, что течёт через эти пайплайны и как они управляются, определяет разницу между парадигмами, будь то CI/CD, GitOps или MLOps.
- Фокус: доставка кода приложения
- Поток: write → build → test → deploy
- Развёртывание: пайплайн сам пушит изменения в окружения
- Цель: быстрые, надёжные и повторяемые релизы
- Фокус: инфраструктура и развёртывания через Git
- Поток: Git как единственный источник истины → декларативные манифесты → авто-синхронизация с кластером
- Развёртывание: операторы (Argo CD / Flux CD) вытягивают желаемое состояние из Git и применяют его к кластеру
- Цель: согласованность, полная аудитируемость, автоматическое обнаружение дрифта
- Фокус: полный жизненный цикл машинного обучения
- Поток: данные → инженерия признаков → обучение → оценка → развёртывание → переобучение
- Развёртывание: модель пакетируется и выкатывается через пайплайны (batch-задачи, REST/gRPC API или стриминговые сервисы)
- Цель: воспроизводимость экспериментов, стабильность качества модели, непрерывное улучшение
Что на самом деле меняется? Мы последовательно переходим от пайплайнов кода → к пайплайнам инфраструктуры → и пайплайнам данных + моделей. А дальше уже появляются новые уровни: AIOps, LLMOps и т.д. Каждый следующий слой добавляет сложности, но основа остаётся прежней — это всё те же пайплайны.
@DevOpsKaz
Please open Telegram to view this post
VIEW IN TELEGRAM
1 11 4 3 2
Все мы сталкивались с такой ситуацией: кластер «под завязку», на СХД нет свободных портов, SAN — point-to-point (без коммутаторов), любое изменение рискует вырубить прод. А бизнес и начальство требует 100% доступности. Особенно болезненно, когда документация скудная, а хосты могут внезапно «не увидеть» LUN.
Решаем за 5 шагов (универсально для VMware, oVirt, KVM и др.):
Полная инвентаризация, метрики (реальное потребление CPU/RAM/IOPS), карта зависимостей, точки отказа, проверка бэкапов.
Вводим FC-коммутаторы, dual-fabric, зонинг по WWPN (best practice IBM), добавляем хосты для возврата N+1.
Временно переносим нагрузку или отключаем тестовые стенды, чтобы было место для живой миграции. Цель — 15–20% буфера + N+1.
- Разворачиваем и настраиваем FC-коммутаторы
- По одному хосту: переводим в сервисный режим → мигрируем ВМ → перекоммутируем SAN → проверяем пути и LUN → возвращаем в кластер
- Всё тестируем на пилотном хосте заранее
Обновляем схему, CMDB, алерты на «красную зону» заполнения.
Как результат — бесшовное масштабирование без даунтайма, отказоустойчивость и возможность планового обслуживания.
@DevOpsKaz
Please open Telegram to view this post
VIEW IN TELEGRAM
1 3 2 2 2 1