I hate overtime
866 subscribers
129 photos
4 videos
54 files
961 links
Some DevOps, SRE and IT development stuff
Download Telegram
#shitcode
Как-то так получилось, что в очередной раз у нас фиаско, за которое пц стыдно.
Не смотря на то, что основная масса баз у нас -- это DBaaS(облачка), все же есть и пара своих инсталяций на VM. Ничего не предвещало беды, но тут завопили мониторы а-ля "братишки, у вас даунтайм". Выяснилось, что на одной из таких виртуалок закончилось место и базенка перестала обрабатывать транзакции. Где был мониторинг на диски? А не было его! Забыли(
Дальше-больше! Выяснилось, что система и данные лежали на одном диске, т.е. из-за объевшейся базы система не могла сделать практически ничего.
Ладно, диски увеличили, базу запустили и выяснили, что 90% содержимого не нужно. Совсем! Просто лень было написать крон-джоб что бы вычистить мусор.
Кароч, поцоны и поцонессы, мораль сей басни такова: мониторьте на всех уровнях, думайте сразу о ЖЦ данных и будет вам счастье!
"ООП-паттерны нужны только затем что бы быстро придумывать имена классам"(с)
Не успели еще постмортем отписать по предыдущему косяку, как у нас очередной факап!
Есть у нас хранилище, которое наполняют аж 2 "контура" ETL'ей. Первый наполняет стейджинг, второй льет уже, непосредственно, из стейджинга в хранилище. Сделано это было из-за того что в ажуре сильно дешевле купить несколько маленьких баз, чем одну большую, да и копаться в куче sql-хранимок было не охота.
Сегодня мы отследили, что etl'и стейджингового слоя не справляются(сатурация больше утилизации) и решили поскейлиться. Через пару часов полетели алерты с хранилища о том, что привышен лимит по числу коннектов к базенке. Оказалось, что поскейлив роботов стеджинга мы создали доп. нагрузку на второй "контур", который стал активнее ходить в базу. Все бы хорошо, но вот размер клиентских пулов на etl'ях не был явно задан из-за чего базенку буквально закидали коннектами.
Кароч, ребятишки, Майк Нейгард не херню пишет. Желательно не только прочитать, но и следовать
Тут, оказывается Xfce релизнулась: https://xfce.org/about/news/?post=1565568000 Первый раз за 4.5 года(Карл!). То, что мертво умереть не может)
История про то, как ребятки решили завезти K8s в телеком, с какими проблемами столкнулись и как порешали(спойлер: уперлись в сеть)
Открыл тут для себя диаграммы Исикавы. Оказалось, что очень удобно с помощью сабжа наглядно объяснять суть проблемы людям, не имеющим нужных компетенций, или не очень понимающим предметную область. Особенно, если софт-скилы не на высоте(как у меня😞)
Кароч хозяюшке на заметку)
Видео докладов SQA Days EU-1
https://www.youtube.com/playlist?list=PL_XScYmjXxkc2ObLlee3FG7GBqgTrwxIv

Презентации (и зеркало на Vimeo) доступны тут
https://sqadays.eu/en/program/57812
#devops
Тут парни из Авито на днях рассказывали про Live Site Review. Пошел погуглить про сабж, чет ничего особенно не нагуглилось, но нашел видосик как LSR делает Микрософт. Круто, интересно, хоть и щедро приправлено рекламой TFS
P.S. осторожно, шотландский английский))
Forwarded from oleg_log (Oleg Kovalov)
Красивый однострочный постмортем от Monzo.

TLDR: добавляя новые машины в кластер, убедись, что у них есть хоть какие-то данные. Ну и читай доку.

https://monzo.com/blog/2019/09/08/why-monzo-wasnt-working-on-july-29th

PS: однострочная причина фейла