DevOps&SRE Library
19.4K subscribers
435 photos
2 videos
2 files
5.35K links
Библиотека статей по теме DevOps и SRE.

Реклама: @ostinostin
Контент: @mxssl

РКН: https://www.gosuslugi.ru/snet/67704b536aa9672b963777b3
Download Telegram
How we reduced core unit boot time from hours to minutes

We investigated why firmware updates were causing our core servers to take four hours to reboot.


https://blog.cloudflare.com/optimizing-core-unit-boot-time
Сколько облаков нужно компании?

Обычно всё начинается с одного. Потом появляются отдельные сервисы, резервные мощности, требования по отказоустойчивости, безопасности, импортозамещению — и внезапно инфраструктура оказывается разбросана по нескольким площадкам.

В этот момент возникает вопрос: как всем этим управлять без зоопарка инструментов и десятка подрядчиков?

RCloud by 3data — мультиоблачная платформа, которая помогает объединить облачные и инфраструктурные сервисы в одной среде. Подходит для миграции в облако, построения гибридной инфраструктуры, резервирования критичных систем и масштабирования ресурсов.

Что особенно интересно:

— инженеры помогают проектировать архитектуру под реальные требования бизнеса, а не просто выдают виртуальные машины;
— можно комбинировать разные инфраструктурные сценарии в рамках одной платформы;
— вопросы решаются с техническими специалистами, которые понимают разницу между «не работает» и «горит прод уже сейчас».

А ещё команда RCloud ведёт канал, где разбирает темы облачной инфраструктуры, ИБ, отказоустойчивости и практические кейсы из мира Enterprise IT.

Если тема облаков, гибридной инфраструктуры и эксплуатации сервисов вам близка — рекомендуем заглянуть.
Sitar-agent: Building a reliable dynamic configuration sidecar at scale

How Airbnb built a Kubernetes sidecar to deliver dynamic configuration reliably at scale.


https://medium.com/airbnb-engineering/sitar-agent-building-a-reliable-dynamic-configuration-sidecar-at-scale-b7e00c152068
🔥24 июня в 20.00 мск. приглашаем на открытый урок: "Отказоустойчивый и высоко-доступный кластер RabbitMQ"

На вебинаре разберём практические подходы к созданию отказоустойчивой и высоко-доступной очереди сообщений для высоконагруженных систем.

📌 Что будет:
— Запуск и настройка кластера: Quorum Queues и Mirrored Queues (синхронная репликация)
— Синхронизация очередей и обеспечение согласованности
— Dead Letter Queue + правильные настройки durability
— Гарантии доставки для Producer: баланс между надёжностью и производительностью
— Asynchronous cluster-to-cluster message routing: Exchange Federation и Shovels

🎯 После вебинара вы сможете:
— Самостоятельно развернуть отказоустойчивый кластер RabbitMQ
— Настраивать Quorum Queues и Mirrored Queues под разные сценарии
— Правильно работать с Dead Letter Queues и гарантиями доставки
— Организовывать межкластерное взаимодействие сообщений
— Проектировать надёжные асинхронные коммуникации в микросервисной архитектуре

👉 Регистрация открыта: https://vk.cc/cYY8lL

Вебинар приурочен к старту курса «Высоконагруженные системы: архитектура и масштабирование».

🎁При покупке курса вы получите в подарок мини-курс по Kafka, который поможет подготовиться к собеседованию в бигтех

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2VtzquvUUgy
When failover isn't safe: Building high-availability PostgreSQL on Kubernetes

Gamedays are one of the most effective ways we proactively uncover gaps in our systems and processes. At Datadog, we regularly run a variety of gamedays to intentionally stress our platforms and learn how our systems and teams respond under real-world conditions. These exercises help us surface hidden vulnerabilities, strengthen our operational readiness, and continually raise the bar for our infrastructure.

During one such gameday, a simulated zonal failure introduced targeted disruptions in an availability zone on a staging environment by inducing network latency, which exposed a weakness in our PostgreSQL architecture. Several of our Kubernetes-based PostgreSQL clusters had primary or writer nodes running in the affected availability zone. As network latency spiked, those primaries could no longer communicate reliably with their replicas. Replication lag quickly grew, writes stalled, and applications began serving stale data. Because no replica was sufficiently up to date, failover wasn’t safe and the clusters were effectively stuck.

We rely on PostgreSQL as the backend database for many Datadog products, and this architecture has served us well under normal conditions. But the gameday revealed an uncomfortable truth: In the face of certain network failures, our setup prioritized availability over durability in ways that left us with no safe recovery path.

In practice, this meant the primary continued accepting writes even while replication to replicas was delayed due to elevated network latency. The system remained writable, but replication lag continued to grow, and replicas drifted further behind the primary. As a result, failover candidates could no longer be promoted safely without risking data loss. We were left with only one viable option: wait for latency to subside and for replicas to catch up.

We set out to fix this failure mode. Our goal was to make failover both automatic and safe, without compromising PostgreSQL’s performance characteristics more than necessary. To do this, we rearchitected our PostgreSQL deployment to use synchronous replication for failover candidates, coordinated by Patroni, an open source high-availability manager.

In this post, we’ll walk through how we redesigned our Kubernetes-based PostgreSQL clusters for failover safety, how we balanced durability against latency, and what we learned while validating this approach through benchmarking and failure testing.


https://www.datadoghq.com/blog/engineering/postgresql-ha-kubernetes
Как ноутбук Toshiba вырос в домашний распределённый кластер с дата-центром на несколько квартир? И что стало с ИИ-агентом, который положил прод (спойлер: повышен до автономной системы управления)?

Нам вот интересно. И об этом расскажут на юбилейном митапе Deckhouse User Community. А ещё вы узнаете о программе поддержки контрибьюторов и о том, как в ней участвовать.

Короче, идём. Кто с нами? Регистрация тут.
databow

A command-line tool for querying databases


https://github.com/columnar-tech/databow
Please open Telegram to view this post
VIEW IN TELEGRAM
epiq

Distributed terminal-native issue tracker backed by Git.


https://github.com/ljtn/epiq
🎇Главная идея DevSecOps: безопасность перестаёт тормозить разработку.

Вместо проверок «после релиза» всё встроено в пайплайн: код проходит SAST, контейнеры сканируются, инфраструктура проверяется на комплайенс. В итоге релизы выходят быстрее и при этом безопаснее.

Этому и учит курс DevSecOps от Академии Codeby на практике:

9 модулей, 48 занятий, 90% практики
Стек: Docker, Kubernetes, Terraform, Vault, Ansible, Prometheus
Финальный экзамен в стиле OSCP — только реальные задачи
Авторы — практики: внедрение Zero Trust, построение SOC, разработка DevSec-инструментов под Burp Suite

Инженеры, которые умеют встраивать безопасность в CI/CD, сегодня в дефиците на стыке ИБ и DevOps — компании поняли, что «сначала сделать, потом чинить» обходится дороже.

👉Старт потока — 6 июля.

Программа и регистрация

Бесплатная консультация — @CodebyAcademyBot
Please open Telegram to view this post
VIEW IN TELEGRAM
kage

kage (影, "shadow") clones a website into a folder you can browse offline, with every script stripped out. It opens each page in real headless Chrome, waits for the page to settle, snapshots the DOM a human would have seen, then deletes all the JavaScript and pulls the CSS, images, and fonts down to local paths. What lands on disk looks like the live site and runs no code.


https://github.com/tamnd/kage
В экспертный совет АОТ войдут девять специалистов, которые зададут вектор развития облачных технологий в России

Ассоциация АОТ — первая в России независимая некоммерческая организация в сфере облачных технологий, созданная Yandex Cloud, VK Cloud и «Флант», объявила набор в экспертный совет. В него приглашаются практики с экспертизой в Kubernetes, облачной инфраструктуре, платформенных решениях, DevOps и DevSecOps, безопасности, наблюдаемости, устойчивости систем, а также в применении ИИ в разработке.

Совет будет не просто консультационным органом — его участники получат реальные инструменты влияния на отрасль:
• формирование технологической повестки ассоциации;
• запуск и развитие отраслевых инициатив;
• валидация подходов и практик, которые затем будут тиражироваться в индустрии.

Кандидаты оцениваются по профессиональному опыту и готовности участвовать в проектах ассоциации на постоянной основе. Работа в совете строится на добровольных началах, без финансового вознаграждения. Итоговый состав будет объявлен в августе 2026 года.

Подать заявку или порекомендовать коллегу можно через форму на сайте.
How Nginx's New resolve Directive Finally Fixed Our Kubernetes 502s

There’s a particular kind of infrastructure bug that’s deeply annoying to debug: the kind that only appears when your cluster is under load. Everything runs fine in steady state. Then you push a release, or traffic spikes and your autoscaler kicks in, and suddenly you’re chasing 502s that resolve on their own a few minutes later. Your first instinct is to blame the app. Then the deployment. Then the cluster. Then yourself.

We hit exactly this pattern at Simon AI. The culprit turned out to be something fundamental about how nginx handles DNS — and fixing it properly required waiting for a feature that was finally open-sourced at the end of 2024.

Here’s what we found, what we tried, and how we solved it.


https://streamn-dad.medium.com/how-nginxs-new-resolve-directive-finally-fixed-our-kubernetes-502s-e32633804d33
Before You Implement KEDA, Do This First

A practical guide to building the technical-financial baseline that tells you whether autoscaling will actually save money — and how much.


https://medium.com/@gabriel.arins/before-you-implement-keda-do-this-first-6bd8950b36c0
Why Your CI/CD Pipeline Failures Still Need a Human — And How We're Changing That

How we built an intelligent 'finally task' that turns 170,000 lines of logs into a 10-line diagnosis in under 30 seconds.


https://medium.com/@happybhati/why-your-ci-cd-pipeline-failures-still-need-a-human-and-how-were-changing-that-6207a0964aac
Your SLOs Should Be Kubernetes Resources, Not Grafana Dashboards

How treating Service Level Objectives as declarative infrastructure changed the way I think about reliability.


https://medium.com/@dpac.gdm/your-slos-should-be-kubernetes-resources-not-grafana-dashboards-8d94820e2b32
Stateless ArgoCD for Bare-Metal Kubernetes

In this article we deploy ArgoCD in a bare-metal Kubernetes cluster built on Proxmox.


https://ruzhnikov.substack.com/p/stateless-argocd-for-bare-metal-kubernetes