DevOps&SRE Library

How We Saved $1.22 Million Annually on GCP Costs in a Few Simple Steps

https://medium.com/@ofekatr1el/how-we-saved-1-22-million-annually-on-gcp-costs-in-a-few-simple-steps-3f99ba3ba0ae

2.5K views15:05

DevOps&SRE Library

🚂Linux тормозит? Сервер пыхтит, как паровоз? Пора разобраться с мониторингом!

Приходи на бесплатный вебинар по мониторингу в Linux — научим находить узкие места быстрее, чем sudo rm -rf / сломает систему!

Что разберём:
— top, htop, iotop — как читать эти графики и не паниковать
— Где искать проблемы: CPU, RAM, диски или сеть?
— Настраиваем Prometheus + Grafana — чтобы мониторинг был красивым, как мем с пингвином

После вебинара ты:
— Сможешь диагностировать лаги на сервере без шаманства
— Научишься визуализировать метрики, как настоящий DevOps-ниндзя
— Поймёшь, почему «у меня же всё работает» — не аргумент

Регистрируйся → напомним перед стартом: https://vk.cc/cOvipg

P.S. Если хочешь прокачаться в оптимизации веб-приложений от фронтенда до бэкенда, приходи на курс «Оптимизация производительности веб-приложений».

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2Vtzqws5Bz1

2.84K views16:04

DevOps&SRE Library

Inside Kubernetes Scheduler: What Really Happens Before Your Pod Lands on a Node

https://medium.com/@hmusicofficial27/inside-kubernetes-scheduler-what-really-happens-before-your-pod-lands-on-a-node-99e9aeb829a1

3.32K views07:03

DevOps&SRE Library

Обновление Service Desk 2.0. Как ELMA365 объединяет коммуникации, процессы и активы в одно решение

Управление ИТ-инфраструктурой превращается в хаос, если данные об активах разбросаны, коммуникация фрагментирована, а процессы линейны и медленны.
ELMA365 представляет Service Desk 2.0 — решение, где ключевые новинки работают как единый механизм.

- Общайтесь эффективно: встроенный чат прямо в заявке и интеллектуальная работа с email (сохранение цепочек, тем, получателей, вложений) исключают потерю контекста.
- Автоматизируйте рутину: QR-коды для заявок, автоматическая категоризация инцидентов/статей БЗ и шаблоны ответов экономят сотни часов.
- Оптимизируйте процессы: параллельные OLA-маршруты ускоряют сложные запросы, а блокировка выполнения заявки, если по ней есть незакрытые задачи, гарантирует качество.
- Централизуйте данные: универсальный импорт из Excel/внешних систем и глубокая интеграция с CMDB (Themisoft) создают единый источник правды об активах и конфигурациях.

Это не набор фич, а целостная среда для управления ИТ-услугами. Презентация этих и других новинок состоится на вебинаре 10+ новинок в ELMA365 Service Desk.

Узнайте, как построить управляемый и предсказуемый ИТ-сервис.
Дата: 14 августа, онлайн
Время: 11.00 МСК

Регистрация тут

2.44K views09:00

DevOps&SRE Library

Overcoming the downsides of mutating webhooks: Our journey to an alternative

UiPath Automation Suite has many services that communicate using FQDN (Fully Qualified Domain Name). As this suite operates on the premises of our customers, it provides them with the freedom to select their own FQDN. Often, the certificate required for their chosen FQDN is not signed by a known authority. To talk securely using the HTTPS protocol, all the services must trust the FQDN’s certificate. However, these services are owned by multiple teams. Asking each team to handle this individually is cumbersome and makes managing future certificate trust requests more challenging.

https://engineering.uipath.com/overcoming-the-downsides-of-mutating-webhooks-our-journey-to-an-alternative-5b0fbea83c59

2.4K views15:04

DevOps&SRE Library

Островок ищет Database-инженеров в DevOps-команду 🌴

ЗП: 300 000 - 400 000 рублей gross
Уровень: Middle+
Формат: полная удалёнка или гибрид

Островок — travel tech-компания, создающая платформы онлайн-бронирования отелей, авиабилетов и других услуг как для индивидуальных путешественников, так и для корпоративных клиентов и тревел-агентств.

Мы ищем инженера с бэкграундом в DevOps/SRE с уверенными навыками работы с базами данных.
Предстоит отвечать за инфраструктуру с точки зрения строек самих систем кластера: администрировать и поддерживать кластеры баз данных, оптимизировать производительность кластеров, настраивать механизмы их отказоустойчивости.

Что мы ждём от кандидата:

- опыт работы на схожей должности от 4 лет
- опыт администрирования и поддержки self-hosted кластеров баз данных (мы используем PostgreSQL)
- продвинутые навыки работы с Linux на уровне администратора
- опыт работы с Ansible (или его альтернативами, например — Puppet, Salt, Chef)
- опыт с Patroni / Stolon
- владение английским на уровне Intermediate (B1), в том числе разговорным

Будет плюсом:

- Опыт работы с Kafka, Aerospike

💫 Что мы предлагаем?

- Интересные проекты: создаём продукты для путешественников, тревел-агентов и отельеров по всему миру.
- Полную свободу для достижения результатов: гибкий график, удалёнка или офис — ты сам решаешь, где и когда работать.
- Нестандартный подход к работе и жажда нового, например, мы решаем некоторые задачи с помощью AI.
- Техническое комьюнити Ostrovok! Tech проводит митапы, хакатоны, участвует в конференциях и поддерживает даже самые смелые идеи.
- Профессиональное развитие: помогаем сотрудникам выступать на конференциях — от подачи заявки до подготовки презентации.
- Забота о самочувствии команды: с первого месяца работы у наших сотрудников есть ДМС и скидки в сервисе «Ясно».
- Внутренние программы адаптации и обучения, развития soft skills и лидерских навыков, подобранные индивидуально для каждого сотрудника.
- Частичную компенсацию участия во внешних тренингах и конференциях.
- Изучение английского языка: корпоративные групповые занятия, разговорные клубы и скидки на курсы Skyeng.
- Корпоративные цены на отели и другие тревел-услуги — чтобы наши сотрудники путешествовали чаще.
- Островок — аккредитованная IT-компания.

контакт для связи: @elizavetakopylova

2.89K views16:03

DevOps&SRE Library

Scaling Batch Jobs for Reliable and Efficient Processing

https://engineering.traderepublic.com/scaling-batch-jobs-for-reliable-and-efficient-processing-da6242cdb9f9

2.5K views07:02

DevOps&SRE Library

0:25

This media is not supported in your browser

VIEW IN TELEGRAM

ИТ-специалисты Петербурга, общий сбор

6 и 7 сентября пройдет ИТ-фестиваль «Сезон кода» для опытных разработчиков, ML-инженеров, архитекторов, специалистов по информационной безопасности и других ИТ-специалистов.

Спикеры из Т-Банка и других компаний зовут слушать доклады, обмениваться опытом и знакомиться с единомышленниками. Развлечения и музыка тоже будут.

В первый день:
— Разберетесь в архитектуре систем, надежности и работе с данными.
— Узнаете, как технологии помогают решать задачи клиентов и бизнеса.
— Поймете, как идеи становятся инструментами и продуктами.

Во второй день:
— Услышите про актуальные подходы к обеспечению информационной безопасности в разработке.
— Узнаете про backend-принципы, которые помогают работать эффективнее.
— Увидите, как работают LLM и куда все это движется.

Выбирайте один из дней или посетите оба. Встреча пройдет в новом ИТ-хабе Т-Технологий в Санкт-Петербурге.

Успейте зарегистрироваться до 5 сентября

3.33K views09:47

DevOps&SRE Library

Optimizing Distributed Tracing with Jaeger DaemonSet: A Comprehensive Guide to Log Collection

https://medium.datadriveninvestor.com/optimizing-distributed-tracing-with-jaeger-daemonset-a-comprehensive-guide-to-log-collection-1963cebee37

3.04K views15:06

DevOps&SRE Library

Submariner Lighthouse: Multi-Cluster Service Discovery for Kubernetes

https://dev.to/reoring/submariner-lighthouse-multi-cluster-service-discovery-for-kubernetes-4fj7

2.93K views07:05

DevOps&SRE Library

HAMi

HAMi, formerly known as 'k8s-vGPU-scheduler', is a Heterogeneous device management middleware for Kubernetes. It can manage different types of heterogeneous devices (like GPU, NPU, etc.), share heterogeneous devices among pods, make better scheduling decisions based on topology of devices and scheduling policies.

https://github.com/Project-HAMi/HAMi

2.74K views15:02

DevOps&SRE Library

From Linux Primitives to Kubernetes Security Contexts

In Kubernetes, containers typically start with root privileges.

This happens because, by default, container processes run as UID 0 unless overridden.

Kubernetes does not impose a non-root policy; it inherits whatever the image defines.

This isn't a bug, it's a design choice carried over from Docker.

While convenient during development, it introduces unnecessary risk in production environments.

If an attacker compromises the container, root access increases the likelihood of privilege escalation to the host.

The Kubernetes API offers several ways to restrict container privileges using the Security Context.

With it, you can control the user a container runs as, manage Linux capabilities, enforce read-only filesystems, and block privilege escalation.

However, despite its importance, Security Contexts are often misunderstood or misapplied.

Many teams discover these controls only after a security audit or scanner flags a running container.

The next steps are usually reactively patching the config, suppressing the warning and moving on.

Before we get into Kubernetes SecurityContexts, we need to understand what they're actually configuring under the hood.

https://learnkube.com/security-contexts

3.06K views07:04

DevOps&SRE Library

When PostgreSQL performance slows down, here is where to look first

https://stormatics.tech/blogs/when-postgresql-performance-slows-down-here-is-where-to-look-first

2.85K views15:04

DevOps&SRE Library

Terraformer: Reverse Engineering Infrastructure as Code

As infrastructure as code (IaC) becomes a foundational pillar of modern cloud-native and DevOps practices, tools that bridge the gap between existing infrastructure and code are increasingly valuable. One such powerful utility is Terraformer, an open-source tool developed by Google that helps users generate Terraform configurations from existing infrastructure resources. This article thoroughly explores Terraformer, including its architecture, use cases, benefits, challenges, and practical examples.

https://blog.stackademic.com/terraformer-reverse-engineering-infrastructure-as-code-a4542ab44ba9

2.92K views07:02

DevOps&SRE Library

Writing an internal Terraform provider from A to Z

We recently wrote a Terraform provider for an internal API at Typeform. This allowed us to manage mutable runtime data stored in an API through source files, with good change control, and a nice developer experience. Some of the steps were a little tricky, or required us to trawl through documentation, and I thought to myself: “I hope this is easier next time we do it!”

https://medium.com/typeforms-engineering-blog/writing-an-internal-terraform-provider-from-a-to-z-c5704a5f584b

3.6K views15:03

DevOps&SRE Library

Modern Kubernetes: Can we replace Helm?

For a long time, Kubernetes resource management has been synonymous with Helm.

There have been plenty of attempts to replace Helm and its templating miasma known as Charts. But those attempts never seem to stick, sometimes because they’re not different enough, or more often because the size and mass of the Helm ecosystem creates an inertia that’s hard to overcome.

This post explores how Yoke is trying to do the impossible: introducing Flights, a complete alternative to Helm Charts, while bringing Helm along for the ride.

https://yokecd.github.io/blog/posts/helm-compatibility

2.79K views07:02

DevOps&SRE Library

Hot-Patching Pods in Kubernetes 1.33: What Breaks, What Works, and How We’re Making It Usable

https://www.cloudbolt.io/blog/hot-patching-pods-in-kubernetes-1-33

2.52K views15:05

DevOps&SRE Library

Complete Guide: Using Kubernetes Secrets Store CSI Driver with HashiCorp Vault

https://engineering.clearroute.io/complete-guide-using-kubernetes-secrets-store-csi-driver-with-hashicorp-vault-1a6d104e9e5b

2.32K views07:05

DevOps&SRE Library

kubernetes-controller-sharding

Make Kubernetes controllers horizontally scalable by distributing reconciliation of API objects across multiple controller instances. Remove the limitation to have only a single active replica (leader) per controller.

https://github.com/timebertt/kubernetes-controller-sharding

2.25K views15:06

DevOps&SRE Library

Kwatcher

Kwatcher is a Kubernetes operator that:

1. Automatically creates a ConfigMap from data fetched from an external URL using a secured Secret,
2. Periodically polls the URL (based on refreshInterval),
3. Updates the ConfigMap when the data changes,
4. And automatically triggers pod redeployment via annotations in the related Deployments.

https://github.com/Berg-it/Kwatcher

2.04K views07:03

About

Blog

Apps

Platform