DevOps&SRE Library
17.8K subscribers
460 photos
4 videos
2 files
4.75K links
Библиотека статей по теме DevOps и SRE.

Реклама: @ostinostin
Контент: @mxssl

РКН: https://knd.gov.ru/license?id=67704b536aa9672b963777b3&registryType=bloggersPermission
Download Telegram
The Day of the RDS Multi-AZ Failover

On a fateful Friday evening on December 2019, when a few of us were looking forward to packing their bags and going home, we got an alert from the internal monitoring tool that the system has started throwing unusually high numbers of 5xx errors.

https://razorpay.com/blog/day-of-rds-multi-az-failover
Google Cloud vs AWS in 2021 (Comparing the Giants)

Today, we will be comparing two cloud giants, Google Cloud Platform and Amazon Web Services. We’ll be taking a deep dive into the products and services of each provider. Seeking to add clarity and simplify the process comparing these two cloud providers in order to make an informed decision.

https://kinsta.com/blog/google-cloud-vs-aws
Производительность распределенного хранилища: препродакшен тесты

У вас есть свежее распределенное хранилище. Кластер уже установлен и готов к вводу в продакшен. Самое время протестировать производительность. Такое тестирование проводится чтобы понять скорость работы хранилки на практике, оценить адекватность инсталляции и понять её максимальную производительности на старте. В этой статье я поделюсь методологией препродакшен тестирования.

https://alexzzz.ru/post/storage-preproduction-perf-test
The Next Gen Database Servers Powering Let's Encrypt

Dell’s PowerEdge R7525
CPU: 2x AMD EPYC 7542 - Total 64 cores / 128 threads
Memory: 2TB 3200MT/s
Storage: 24x 6.4TB Intel P4610, NVMe SSD, 3200/3200 MB/s read/write

https://letsencrypt.org/2021/01/21/next-gen-database-servers.html
chisel

Chisel is a fast TCP/UDP tunnel, transported over HTTP, secured via SSH. Single executable including both client and server. Written in Go (golang). Chisel is mainly useful for passing through firewalls, though it can also be used to provide a secure endpoint into your network.

https://github.com/jpillora/chisel
Campaigns

Sometimes it can take years to make a single-line code change.

https://kellysutton.com/2021/01/06/campaigns.html
please

Please is a cross-language build system with an emphasis on high performance, extensibility and reproducibility. It supports a number of popular languages and can automate nearly any aspect of your build process.

https://github.com/thought-machine/please
kubekey

Since v3.0.0, KubeSphere changes the ansible-based installer to the new installer called KubeKey that is developed in Go language. With KubeKey, you can install Kubernetes and KubeSphere separately or as a whole easily, efficiently and flexibly.

https://github.com/kubesphere/kubekey
May 30 SSL incident

Summary and key takeaways

- Two root certification authorities expired on May 30, 2020.
- Some of our customers experienced service outages for up to 1.5 hours (if they had outdated OpenSSL libraries), and others up to 3 hours (if they also had outdated certificate stores).
- The issue has been fully mitigated, and the service availability was restored for everyone. Although related to OpenSSL, HTTPS and PKI certificates, this was not a security incident.

https://www.algolia.com/blog/engineering/may-30-ssl-incident
97 things every SRE should know - Part 01

A few people I follow on twitter mentioned they’d contributed to 97 Things Every SRE Should Know. It’s a book full of short, 1-3 page chapters, focused on topics dear to an SREs heart. So i had no choice but to buy it. In an attempt to be more deliberate with my reading and what I’ve retained from the book I’ve decided to create some reading notes for future me. This post is broken down into a section per chapter.

https://www.unixdaemon.net/sysadmin/97-things-every-sre-01
This Is the Most Underappreciated Skill for SREs

https://www.blameless.com/blog/the-most-underappreciated-skill-for-sres
APPLE SILICON M1 AS-A-SERVICE

Scaleway has begun to offer cloud-based Apple Silicon-based Mac Minis.

https://www.scaleway.com/en/hello-m1
How to unit-test your helm charts with Golang

Learn how to write Golang unit tests for your Helm charts to keep quality high and make changes with confidence.

https://blog.heyal.co.uk/unit-testing-helm-charts
This SRE atempted to roll out an HAProxy config change. You won't believe what happened next...

https://about.gitlab.com/blog/2021/01/14/this-sre-attempted-to-roll-out-an-haproxy-change
Altair GraphQL Client

Altair is a beautiful feature-rich GraphQL Client IDE for all platforms.

https://github.com/imolorhe/altair
Kubernetes Readiness Probes - Examples & Common Pitfalls

https://loft.sh/blog/kubernetes-readiness-probes-examples-common-pitfalls
Forwarded from AWS Notes
Весёлый ролик от Corey Quinn не всем понятен, а весьма полезен. Потому далее расшифровка каждого пункта (моя версия).

💸 Managed NAT Gateway — популярная проблема, когда кажущиеся пустыми окружения жрут деньги из-за цены за NAT GW для private subnets.

💸 Amazon EBS — забытые неиспользуемые (не примонтированные) диски в разных аккаунтах жрут деньги, а в случае, если они Provisioned IOPS, то огромные деньги.

💸 Insecure S3 buckets - 450 independent "Security" researchers — в данном случае здесь, видимо, какая-то пародия на аудит безопасности, хотя при большом количестве данных расходы на S3 могут быть огромными. В помощь S3 Intelligent-Tiering и Amazon S3 Storage Lens.

💸 The Data Science team — так понимаю, команда резвящихся датасайенсистов стоит дорого.

💸 Cross AZ Data Transfer — малоприметная проблема пожирает незаметно деньги (и может большие), прикрытая общей уверенностью, что трафик внутри одного региона бесплатен.

💸 Your AWS Account Team — видимо шарж на команду AWS, которая лениво смотрит, как вы спонсируете их коктейли.

💸 RIs in the wrong region — про то, что Reserved Instances берутся на конкретный регион, иначе они просто проедают деньги. В помощь Savings Plans!

💸 CloudWatch Metrics и DataDog polling — одни из самых дорогих источников расходов на мониторинг, соревнующиеся в первенстве, кто дороже. Настраивайте нужные метрики с нужным интервалом. Как вариант – используйте Amazon Managed Prometheus.

💸 OverProvisioned IOPSEBS диски с IOPS-ами дорогое удовольствие, потому не стоит привычно "брать с запасом", а руководствоваться адекватными метриками.

💸 Infrastructure in us-west-1 — регион N.California географически совсем рядом с Oregon (us-west-2), однако ресурсы в N.California на 20+ процентов дороже.

💸 Deployed Amazon Macie — первая версия Macie была (есть) негуманно дорогая. Используйте вторую.

💸 Amazon Redshift — серьёзные вещи стоят серьёзные деньги и требуют серьёзного отношения.

💸 AWS Marketplace Vendors — поставленные из Marketplace продукты могут стоить (больших) денег – нужно не забывать отписываться от ставшего ненужным.

💸 Extra Snowball days — за каждый день свыше 10 включённых изначально, списываются деньги за пользование Snowball и это могут быть большие деньги (от десятков до сотен долларов в день).

💸 Business support on Developer accounts — план техподдержки Business стоит 100 долларов в месяц и привязан к конкретному аккаунту. Если это аккаунт для разработки, то по сравнению с Developer планом за 29$ в месяц в нём нет ничего, кроме дополнительных коктейлей для AWS Account Team выше.

💸 No expiry configured - CloudWatch logs everywhere — логи, которые никогда не удаляются, вечные ненужные бэкапы, ECR образы и куча всего другого ­­- всё это пожирает деньги. Даже если не самые большие, но умноженное на всегда получается бесконечно много. Настраивайте lifecycle policy для всего.

💸 Frequent Glacier Retrievals — получение данных из Glacier – дорогая операция, не нужно увлекаться, а лучше использовать S3 Intelligent Tier Archive, который теперь умеет сам складывать в Glacier и забирать оттуда бесплатно.

💸 EMR without Spot fleets — использование Spot fleets для EMR существенно экономит, стоит их использовать.

💸 Creds leaked on Github — не нужно публиковать свои ключи доступа на GitHub, это может стоить дорого.

💸 AWS Contracts Team — вот это я не расшифровал, буду признателен объяснению в комментариях. 


p.s. Хороший пост про 10 простых и очевидных способов уменьшить стоимость вашей AWS инфраструктуры есть и на русском:

https://aws.amazon.com/ru/blogs/rus/10-things-you-can-do-today-to-reduce-aws-costs/

#cost_optimization