DevOps Portal | Linux
13.3K subscribers
893 photos
114 videos
10 files
909 links
Присоединяйтесь к нашему каналу и погрузитесь в мир DevOps

Связь: @devmangx

РКН: https://clck.ru/3P8kFH
Download Telegram
Разработчики часто разворачивают приложения вроде NGINX в Kubernetes.

Но при этом им приходится писать множество YAML-манифестов, таких как:

Deployments, Services, Ingress и ConfigMaps.

Управлять всем этим бывает довольно сложно.

KRO (Kubernetes Resource Orchestrator) решает эту проблему с помощью переиспользуемых шаблонов, называемых ResourceGroups.

Разработчику достаточно указать простые параметры — например, имя приложения, количество реплик или тег образа — и KRO автоматически создаст все необходимые ресурсы Kubernetes.

Вот как это работает:

- Вы создаёте определение ResourceGroup, которое объединяет несколько Kubernetes-ресурсов в один шаблон.
- Контроллер KRO отслеживает такие инстансы и автоматически провиженит все связанные ресурсы в правильном порядке.
- Он управляет зависимостями между ресурсами, гарантируя корректную последовательность их создания.

В отличие от Helm или Kustomize, KRO работает напрямую на уровне Kubernetes API, что упрощает управление ресурсами и интеграцию с GitOps-пайплайнами.

Репозиторий GitHub: https://github.com/kubernetes-sigs/kro

👉 DevOps Portal
Please open Telegram to view this post
VIEW IN TELEGRAM
8
Этот исследование показывает, как авторы использовали динамическое разбиение MIG для разделения крупных GPU, таких как NVIDIA A100/H100, на несколько изолированных слайсов, чтобы множество небольших задач могли эффективно шарить один GPU

Читать тут

👉 DevOps Portal
Please open Telegram to view this post
VIEW IN TELEGRAM
5
Какие инструменты ускоряют запуск продуктов и упрощают разработку ↗️

Узнайте на GoCloud 2026

9 апреля команда Cloud.ru проводит большую ИТ-конференцию про облака и ИИ.

В этот раз отдельный трек посвящен разработке и инструментам, которые снижают нагрузку на команду:
▶️автоматизация в эпоху ИИ

▶️DevOps-инструменты в облаке

▶️эффективные среды для разработки, CI/CD и обучения

▶️DevOps- и SRE-агенты

▶️защита cloud native приложений

▶️и другие доклады


Также будут отдельные треки про ИИ, облачную инфраструктуру и работу с данными. И самое крутое – практические воркшопы: берите ноутбук и решайте прикладные задачи под руководством экспертов Cloud.ru.

Где и когда:
9 апреля в Москве и онлайн

👉Не пропустите👈
Please open Telegram to view this post
VIEW IN TELEGRAM
Когда начинаешь разбираться в архитектуре Istio,

часто всплывает такой вопрос про SPOF 👇

Является ли ztunnel единой точкой отказа (single point of failure)?

Что произойдёт, если ztunnel упадёт на ноде?

Вот ответ.

Поскольку ztunnel запускается как один pod на каждую ноду, может показаться, что это SPOF.

Если ztunnel падает, трафик к pod’ам на конкретной ноде будет затронут.

Однако pod’ы на других нодах не пострадают.

На каждой ноде есть свой здоровый экземпляр ztunnel.

Поскольку ztunnel развёрнут как DaemonSet, Kubernetes автоматически перезапустит его — так же, как и любой другой pod из daemonset.

Так является ли ztunnel SPOF? Конечно, нет.

Архитектура изначально предполагает, что ноды могут падать — это нормально для распределённых систем.

Восстановление обрабатывается автоматически самим Kubernetes.

Понимание таких архитектурных паттернов помогает проектировать более надёжные системы и уверенно отвечать на подобные вопросы во время внедрения

👉 DevOps Portal
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Выкатили новую фичу в kubectx после 2 млн скачиваний с момента последнего релиза (это было 1,5 года назад):

Теперь можно создавать shell-сессии, привязанные к конкретному k8s-кластеру. Это защищает от случайной работы не с тем кластером, когда вы меняете дефолтный контекст глобально.

$ brew upgrade kubectx


👉 DevOps Portal
Please open Telegram to view this post
VIEW IN TELEGRAM
3
Kubernetes – это  база, если вы про enterprise
Свежее совместное исследование TAdviser и команды контейнерной платформы «Штурвал» “State of Enterprise Kubernetes 2026” показало:

- 60% крупных компаний уже используют Kubernetes в продакшене, а еще 15% — планируют внедрение
- Российские контейнерные решения по распространению почти догоняют open-source (33% против 54%), иностранные продукты используют всего 10%
- 73% компаний разворачивают контейнерные платформы поверх существующей виртуализации. Стандартом де-факто остается VMware (62%)
- Главными барьерами внедрения остаются дефицит кадров и компетенций 

Kubernetes становится новым стандартом инфраструктуры, а не опцией, и вот почему:


- Сontainer-first перестал быть трендом и становится дефолтом в разработке
- Импортозамещение подталкивает пересобирать стек
- Бизнесу проще выкатывать обновления и масштабироваться 

Kubernetes не воспринимается как способ экономии. Это в первую очередь новая культура разработки и инструмент, ускоряющий вывод продуктов на рынок. И 51% опрошенных планирует расширять использование K8s-платформ в ближайшие 2-3 года. 

👉 DevOps Portal
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥3👍1
Если вы работали с Kubernetes, то наверняка видели pod в статусе Pending и задавались вопросом, что сломалось. Ситуация частая, но не всегда понятно, как её дебажить.

В статье разбираются основные причины: нехватка ресурсов, проблемы с node selector’ами, биндингом PVC, taints и ресурсными квотами. Есть конкретные kubectl команды и примеры из реальной практики.

Бен Ример сделал удобный гайд – подойдёт и для обучения, и как шпаргалка при troubleshooting проблем с Kubernetes scheduling.

Читайте тут ✌️

👉 DevOps Portal
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Эта статья объясняет, как эффективно обрабатывать миллионы событий eBPF в секунду, не прожигая CPU, используя трёхступенчатую funnel-архитектуру для фильтрации и агрегации

Читайте тут

👉 DevOps Portal
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1
Сетевые основы 101: Как работает маршрутизация трафика

Знаете ли вы, что компьютеры могут обмениваться данными только с соседями (участниками одной подсети)? Но как тогда мы передаём пакеты через Интернет? Именно здесь вступает в игру маршрутизация.

Узнайте больше: https://labs.iximiuz.com/challenges/networking-configure-basic-routing

👉 DevOps Portal
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍2
Docker 101: как подтягивать образы из разных реестров

Формат имени образа (он же reference) у меня занял какое-то время, чтобы в нём разобраться, когда только начинал с Docker. Скорее всего потому, что в одном имени сразу зашито:

Registry
Repository
Tag и digest


Подробнее: https://labs.iximiuz.com/challenges/docker-pull-container-images

👉 DevOps Portal
Please open Telegram to view this post
VIEW IN TELEGRAM
6
Docker 101: docker save <image>

Если вы запускаете эту команду впервые, её вывод может слегка сбить с толку: вместо ожидаемых rootfs и конфигурационного файла, в tar-архиве вы увидите index-файл и набор непонятных blob-ов.

Этот формат называется OCI Image Layout — это стандартизированная структура каталогов на диске для хранения и передачи контейнерных образов. Но не пугайтесь – выглядит (и звучит) сложнее, чем есть на самом деле.

Как только вы поймёте, как это устроено, вы сможете легко в нём ориентироваться, а ваши навыки анализа образов выйдут на совершенно другой уровень.

Разберитесь, как распутать структуру OCI Image Layout, решив эту практичесую задачу:
https://labs.iximiuz.com/challenges/inspect-oci-image-layout

👉 DevOps Portal
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥65
Linux совет дня

Чтобы скопировать последние команды из терминала без номеров строк:

fc -ln


Чисто, удобно для копирования, читабельно

👉 DevOps Portal
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍3
Планирование GPU-ресурсов в Kubernetes сейчас становится важным навыком

Вот почему 👇

Большинство организаций либо экспериментируют, либо уже запускают ML-нагрузки в Kubernetes.

Как DevOps-инженеры, вы должны понимать, как настраивать и управлять GPU-ресурсами.

Вот простой гайд по настройке GPU-ноды с использованием NVIDIA GPU Operator.

К концу этой статьи у вас будет чёткое понимание:

- зачем нужен GPU Operator в Kubernetes
- как установить NVIDIA GPU Operator в Kubernetes-кластер
- как проверить, видит ли Kubernetes GPU
- как задеплоить реальную GPU-нагрузку, чтобы провалидировать весь стек

Если честно, всё не так сложно, как кажется, когда понимаешь базу.

Даже если у вас нет доступа к GPU, просто изучите материал, чтобы разобраться, как это работает.

Прочитать можно здесь: https://devopscube.com/setup-gpu-operator-kubernetes/

👉 DevOps Portal
Please open Telegram to view this post
VIEW IN TELEGRAM
3
Как установить приватный npm-пакет в Dockerfile, не засветив учётные данные

Недавние инциденты в цепочке поставок сделали этот заголовок двусмысленным, но я хотел поговорить про build-секреты и о том, как не зашить их случайно внутрь контейнерных образов:
https://labs.iximiuz.com/challenges/docker-build-using-secrets-private-npm-package

👉 DevOps Portal
Please open Telegram to view this post
VIEW IN TELEGRAM
5
CronJob Guardian отслеживает Kubernetes CronJob’ы с использованием механизма dead-man’s switch, ведёт SLA-мониторинг (успешность выполнения и регрессии по длительности), обеспечивает умные алерты через Slack / PagerDuty / webhook / email, а также предоставляет встроенный веб-дашборд с графиками и экспортом метрик.

https://github.com/iLLeniumStudios/cronjob-guardian

👉 DevOps Portal
Please open Telegram to view this post
VIEW IN TELEGRAM
5
Все мониторят поды, но никто не следит за этим критически важным компонентом.

Но как только кластер Kubernetes падает,

внезапно etcd становится самым важным элементом в твоём сетапе.

Это потому, что etcd — это мозг Kubernetes.

Каждый deployment, secret, configmap и node хранятся в etcd в виде данных.

Вот что многие неправильно понимают:

напрямую с etcd общается только API server.

Поэтому если с etcd возникают проблемы, кластер перестаёт принимать любые изменения. Ты не сможешь ни задеплоить, ни отскейлить, ни обновить ничего.

Даже сейчас многие инженеры допускают базовые ошибки при работе с etcd.

Они не делают регулярные бэкапы. Запускают etcd на одном диске с ОС. Или игнорируют проблемы с задержками в распределённых конфигурациях.

В продакшене etcd должен работать на быстрых SSD, изолированно от других нагрузок. Бэкапы должны быть автоматизированы.

Бэкап и восстановление etcd подробно разобраны в этом гайде

Прочитать можно здесь: https://devopscube.com/backup-etcd-restore-kubernetes/

👉 DevOps Portal
Please open Telegram to view this post
VIEW IN TELEGRAM
2
AWS DevOps Agent доступен!

31 марта 2026 года AWS DevOps Agent стал общедоступным

Он умеет:

→ Генерировать CI/CD пайплайны
→ Дебажить фейлы при деплое
→ Предлагать изменения в инфраструктуре
→ Анализировать логи и инциденты
→ Помогать с Terraform и CloudFormation
→ Рекомендовать оптимизацию затрат
→ Объяснять проблемы в архитектуре AWS

По сути, это как будто у тебя внутри AWS появился джуниор DevOps-инженер.

Источник: https://aws.amazon.com/devops-agent/

👉 DevOps Portal
Please open Telegram to view this post
VIEW IN TELEGRAM
👍162👀2
Что значит засквошить образ контейнера? 🤔

Когда вы пишете Dockerfile для образа, важно следить, чтобы случайно не добавлять мусорные слои, которые содержат большую часть или даже все файлы, а затем удаляются на верхних слоях.

Однако иногда приходится работать с уже собранными образами, где нет возможности изменить Dockerfile. Такие образы могут содержать мусорные слои и даже случайно запечённые учётные данные, которые формально удалены на верхних слоях.

Сквошинг образа контейнера — это крайняя мера, позволяющая очистить мусор и удалить случайно добавленные файлы.

Практика: https://labs.iximiuz.com/challenges/squash-bloated-container-image

👉 DevOps Portal
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21
Я большой фанат ArgoCD и использования его для управления приложениями в Kubernetes в рамках подхода GitOps. Если вы уже крутите ArgoCD, то ручное обновление тегов образов в репозитории после каждого CI-билда – это вроде бы мелочь, но со временем превращается в нудную рутину

ArgoCD Image Updater закрывает эту боль: он отслеживает ваш container registry и автоматически триггерит деплои.

Особенно актуален свежий релиз v1.1.1 – в нём появился подход на базе CRD, который нормально работает с multisource-приложениями в ArgoCD. Раньше, в версиях на аннотациях, такого не было. Это вполне практичное обновление для команд, использующих Helm-чарты с вынесенными values-репозиториями.

Alexy Pulivelil показывает полный сетап на EKS, включая подводные камни с write-back методами, лимитами registry и стратегиями обновления. Рекомендую посмотреть, если используете ArgoCD

https://alexypulivelil.medium.com/stop-manually-editing-gitops-files-argocd-image-updater-on-kubernetes-0aa44bc9abbf

👉 DevOps Portal
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍4
🚨 Обнаружена уязвимость высокой критичности CVE (CVE-2026-4342) в ingress-nginx.

Данная уязвимость позволяет внедрять конфигурацию и потенциально выполнять произвольный код во всех версиях ниже v1.13.9, v1.14.5 и v1.15.1.

Поскольку ingress-nginx переведён в статус EOL (End of Life), пользователям настоятельно рекомендуется как можно скорее обновиться и выполнить миграцию.

Подробности: https://github.com/kubernetes/kubernetes/issues/137893

👉 DevOps Portal
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍3
Почему pod’ы DaemonSet игнорируют cordon?

Когда вы выполняете kubectl cordon, Kubernetes помечает ноду таинтом:
node.kubernetes.io/unschedulable:NoSchedule.


Планировщик видит этот taint и перестаёт размещать на ноде новые podы.

Но если посмотреть на ваш logging agent или CNI plugin, запущенный как DaemonSet, он всё равно продолжает работать

Почему?

Потому что контроллер DaemonSet автоматически добавляет каждому pod toleration:
node.kubernetes.io/unschedulable:NoSchedule.


Благодаря этому podы DaemonSet игнорируют taint, выставленный cordon

И это сделано намеренно, потому что DaemonSet используются для критичных системных компонентов, таких как:

- сборщики логов
- агенты мониторинга
- CNI-плагины

Эти компоненты должны работать на каждой ноде, даже во время обслуживания.

Если они остановятся, вы потеряете наблюдаемость и сетевую связность на этих нодах.

Если хотите глубже разобраться в taints и tolerations, прочитайте следующий гайд:

Читать здесь: https://courses.devopscube.com/courses/certified-kubernetes-administrator-course/lectures/55659898

👉 DevOps Portal
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63🔥3