DevOps&SRE Library
17.7K subscribers
470 photos
3 videos
2 files
4.73K links
Библиотека статей по теме DevOps и SRE.

Реклама: @ostinostin
Контент: @mxssl

РКН: https://knd.gov.ru/license?id=67704b536aa9672b963777b3&registryType=bloggersPermission
Download Telegram
Как защитить и восстановить инфраструктуру при атаках и сбоях? Практические решения от VK Cloud

5 августа в 15:00 мы проведем вебинар, где расскажем:

Как при при минимальных бюджетах достичь надежной защиты, устойчивости и обеспечить доступность корпоративных данных.
Как работает «Умное» резервное копирование.
Что делать с человеческим фактором и с аппаратными сбоями.

Кому будет полезно:

🔵Специалистам по ИБ
Будем разбираться с популярными и нетипичными сценариями атак: что можно сделать, чтобы минимизировать риски, а что делать, если инцидент все же произошел.

🔵 Архитекторам
Узнаете, на какие моменты обращать внимание при проектировании ИТ-инфраструктуры, чтобы потом не уходить в бесконечный рефакторинг.

🔵 Администраторам
Посмотрим, как быстрее понять, что система под атакой — не через час, а через минуты, и какие инструменты помогут автоматизировать восстановление данных и ИТ-инфраструктуры.


Зарегистрироваться
Please open Telegram to view this post
VIEW IN TELEGRAM
Deckhouse User Community meetup #2
21 августа | Москва


«Флант» приглашает на второй Deckhouse User Community meetup. Три доклада от практиков:

→ управление узлами кластера на всём их жизненном цикле с командой Deckhouse Core;
→ построение платформы обучения K8s на DKP CE с коллегами из КРОКа;
→ автоматизация архитектурного контроля и подход Architecture as Code с экспертами «ДОМ.РФ Технологии».

Регистрируйтесь, если интересны реальные кейсы работы с Kubernetes-платформами.
Continuous Promotion on Kubernetes with GitOps

This article will teach you how to continuously promote application releases between environments on Kubernetes using the GitOps approach.


https://piotrminkowski.com/2025/01/14/continuous-promotion-on-kubernetes-with-gitops
Managing Over 6,000 Self-Hosted Databases Without a DBA — How a Single Engineer Leveraged KubeBlocks to Make It Possible

https://medium.com/@apecloud.info/managing-over-6-000-self-hosted-databases-without-a-dba-how-a-single-engineer-leveraged-95143fdd5c8f
⁉️ Хотите научиться строить масштабируемые и отказоустойчивые решения на Kafka?

На открытом уроке «Архитектурные паттерны работы с Kafka: от простого к масштабируемому» 13 августа в 18:00 МСК мы разберем основные паттерны и архитектурные подходы для работы с Kafka в микросервисах. Вы освоите Event Sourcing и CQRS и узнаете, как правильно обрабатывать ошибки и гарантировать доставку сообщений.

Этот урок откроет перед вами новые возможности: вы научитесь строить архитектуру для обработки больших потоков данных и получите опыт работы с реальными кейсами.

➡️ Присоединяйтесь и получите скидку на большой курс «Apache Kafka»: https://vk.cc/cOk7qm

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2VtzqwRoyoP
После этого видео наконец разложил для себя по полочкам, чем отличаются SLI, SLO и SLA

А самое главное — для чего они нужны и команде, и пользователю, и бизнесу. Ребята из AviСast, подкаста Авито о насущных вопросах разработки, обсудили в новом выпуске опыт внедрения этих показателей в компании и инциденты из практики.

Если давно собирались начать работать с SLO, абсолютный рекоменд к просмотру на Youtube, VK Видео или Rutube.
🚀CI/CD: 90 минут от платформы до конвейера

Погружение в мир CI/CD, где за 90 минут мы разберём весь путь — от выбора платформы до настройки полного конвейера для автоматизации. Уникальная особенность вебинара: всего за 100 секунд вы увидите, как можно перейти от пустого проекта к работающей CI/CD-платформе. После этого мы подробно разберём каждый этап: создание пайплайнов, настройку тестирования, автоматический деплой, обработку ошибок и масштабирование.

На вебинаре вы узнаете:
- Как развернуть основу для CI/CD и увидеть работу автоматизированного конвейера.
- Пошаговый процесс создания конвейера: от разработки до развертывания.
- Подходы к проведению тестирования, Диптихи и обработка ошибок в CI/CD.
- Как автоматизировать обновления и минимизировать простои с помощью CI/CD.

Вебинар проходит в рамках курса "Инфраструктурная платформа на основе Kubernetes"

👉 Регистрация и подробности о курсе "Инфраструктурная платформа на основе Kubernetes" https://vk.cc/cOcbrN

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2VtzqxGk1kC
Более миллиона высоконагруженных операций в месяц в кластерах Kubernetes
 
Это — потребности PropTech-платформы от компании TrendTech, которые были полностью закрыты сервисом Managed Kubernetes от Selectel.
 
TrendTech — компания с особенными запросами: более 10 Тб контента, сложная система актуализации данных, множество внешних интеграций с застройщиками и большое количество микросервисов.
 
Гибридное решение на базе Managed Kubernetes от Selectel позволило:
🔹Обеспечить отказоустойчивость сервисов за счет кластеров с тремя мастер-нодами в разных сегментах пула
🔹Добиться моментального масштабирования с помощью автоскейлинга и гибкого управления вычислительными ресурсами
🔹Развернуть удобные изолированные окружения для восьми команд разработки
 
Переносите и вы проекты в отказоустойчивые и автомасштабируемые кластеры Managed Kubernetes от Selectel — миграция бесплатная: https://slc.tl/72tkx

Реклама. АО «Селектел», ИНН 7810962785, ERID: 2Vtzqws9VbF
A Quick(ish) Introduction to Tuning Postgres

Most guides to the finer aspects of managing databases like Postgres are… not great. The Postgres documentation is well-written, but it has too much information for most developers. On the other hand, most online Postgres optimization guides are essentially a repeated version of: “Run this command. Got it? Cool.” This should provide you with a relatively brief introduction to Postgres tuning, focusing on the most important knobs, while also describing how these knobs relate to Postgres’s overall functioning and internals.


https://byteofdev.com/posts/tuning-postgres-intro
Avoiding the ironies of automation

We're using AI to build an agentic product that works collaboratively with responders to improve incident investigations and resolve incidents faster. A bold claim, I know, and I think pretty impressive to land the word “agentic” so early on—I promise it’s the last time I use it.

After six months of digging into this, I’m convinced: AI in incident response won’t just be helpful—it’ll be essential. As more software is built with, and increasingly by, AI, responders will have less and less context about the systems they’re operating. That shrinking understanding—combined with the ever-growing volume of software—only increases the need for tools that can assist.

Done right, there's a huge upside in this approach too—faster incident resolution, reduced customer impact, and less cognitive burden on the folks putting out the fires.

But with more automation comes a new shape of risk—much of which is captured in Lisanne Bainbridge’s 1983 paper, Ironies of automation. In the paper, Bainbridge explains that automation meant to help can paradoxically make things harder. As routine tasks get automated, human skills fade from lack of practice, so when the system fails (and they will!), responders are left underprepared and out of context.

Working in tech companies, I’m yet to see these risks materialise seriously, but there are definite elements of truth here. Count the number of Kubernetes incidents where operators have no idea what’s happening and you’ll get the gist.


https://incident.io/building-with-ai/avoiding-the-ironies-of-automation
Practical Problems with Auto-Increment

In this post I'm going to demonstrate 2 reasons I will be avoiding auto-increment fields in Postgres and MySQL in future. I'm going to prefer using UUID fields unless I have a very good reason not to.


https://samwho.dev/blog/practical-problems-with-auto-increment
Choosing Between Count and For-Each

Terraform has two looping mechanisms for creating multiple resources, count and for_each. The count meta-argument has been around for a long time, but for_each is a relative newcomer (introduced in version 0.12). Each meta-argument allows you to create more than one resource or module with a single configuration block.


https://nedinthecloud.com/2022/01/27/choosing-between-count-and-for-each
The Art of Not Getting Woken Up for Nothing

Strategies from SRE leaders fighting noisy alerts in complex system.


https://rootly.com/blog/the-art-of-not-getting-woken-up-for-nothing
s3grep

s3grep is a parallel CLI tool for searching logs and unstructured content in Amazon S3 buckets. It supports .gz decompression, progress bars, and robust error handling—making it ideal for cloud-native log analysis.


https://github.com/dacort/s3grep
⚠️ Сбой в RAID5-массиве? Не нужно паниковать!

👉 Присоединяйтесь к открытому уроку 18 августа в 20:00 МСК и разберитесь, как правильно диагностировать и восстановить RAID5 после выхода из строя одного из дисков. Мы покажем, какие команды и утилиты помогут вам в этом процессе.

💪 Освойте методики работы с RAID5 и улучшите свои навыки восстановления данных. На вебинаре вы получите не только теоретическое, но и практическое понимание процессов восстановления.

Запишитесь на вебинар и получите индивидуальное предложение на курс «Administrator Linux. Professional».

👉 Для участия зарегистрируйтесь: https://vk.cc/cOcbKA

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2Vtzqv2KTKN