Про интересный факап и траблшутинг.
Обратился клиент — у нас mysql реплика не работает. Вернее работает, но отстала всего лишь на 3 месяца.
На вопрос — а хули вы 3 месяца сидели, у вас же мониторинг есть?
Очевидный ответ — да, есть, но оно молчит.
Ладно, полез разбираться.
А там ошибки брынчат, как хуи в бидоне.
Ну это ладно, ошибка и ошибка, тут понятно что делать — НИЧЕГО.
Так как реплика используется чисто аналитиками на потыкать, игнорим эту ошибку через my.cfg. Быстрофикс.
✔ Для продуктовой реплики такое делать - НЕЛЬЗЯ!
Самый важный вопрос — какого хера мониторинг 3 месяца молчал?
Тут уже интереснее. Реплика заведена в prometheus, экспортеры есть, все дела.
Но из графаны сервер пропал, хотя год назад я ее точно там видел.
Думаем… Думаем… Смотрю графану, мониторится поле: replica_seconds_behind
Хм, лезу обратно на реплику, а там сроду нет mysql_exporter. Что же это тогда такое?
Копаем вглубь и видим, что node_exporter мониторит папку /tmp на наличие файликов .prom.
Ага… То есть метрики с mysql реплики собирает какой-то bash скрипт по крону, генерит текстовичок и отдает в prometheus.
Типа такого:
Да, оно прекрасно работало, до момента пока не вылезла ошибка: Cannot delete or update a parent row
Соответственно текстовый файл replica.prom получился в таком формате:
Ну а дальше prometheus такое распарсить не смог (он хочет циферки, а не буковки) и тихонечко вывел эту ноду из графаны и вообще отовсюду. Ну и аллерты в придачу. На что им тригериться если ноды нет нигде?
Прикол в том, что во время возникновения ошибки, поле Seconds_Behind_Master в mysql принимает значение Null, а не продолжает дальше считать на сколько отстала реплика.
ㅤ
А вот и bash скрипт, который собирал метрики:
Работа над ошибками проведена, инцидент разобран. Ни одна жопа на ретроспективе пока не пострадала, но возможно дело времени.
И всегда помни — если изобретаешь велосипед, всегда обрабатывай эксепшены!
tags: #devops #debug #bash #monitoring
—
🔔
Обратился клиент — у нас mysql реплика не работает. Вернее работает, но отстала всего лишь на 3 месяца.
На вопрос — а хули вы 3 месяца сидели, у вас же мониторинг есть?
Очевидный ответ — да, есть, но оно молчит.
Ладно, полез разбираться.
SHOW SLAVE STATUS\G;
А там ошибки брынчат, как хуи в бидоне.
Error 'Cannot delete or update a parent row: a foreign key constraint fails'
Ну это ладно, ошибка и ошибка, тут понятно что делать — НИЧЕГО.
Так как реплика используется чисто аналитиками на потыкать, игнорим эту ошибку через my.cfg. Быстрофикс.
✔ Для продуктовой реплики такое делать - НЕЛЬЗЯ!
Самый важный вопрос — какого хера мониторинг 3 месяца молчал?
Тут уже интереснее. Реплика заведена в prometheus, экспортеры есть, все дела.
Но из графаны сервер пропал, хотя год назад я ее точно там видел.
Думаем… Думаем… Смотрю графану, мониторится поле: replica_seconds_behind
Хм, лезу обратно на реплику, а там сроду нет mysql_exporter. Что же это тогда такое?
Копаем вглубь и видим, что node_exporter мониторит папку /tmp на наличие файликов .prom.
Ага… То есть метрики с mysql реплики собирает какой-то bash скрипт по крону, генерит текстовичок и отдает в prometheus.
Типа такого:
replica_slave_io_running{host="replica"} 1
replica_seconds_behind{host="replica"} 1234567
Да, оно прекрасно работало, до момента пока не вылезла ошибка: Cannot delete or update a parent row
Соответственно текстовый файл replica.prom получился в таком формате:
replica_slave_io_running{host="replica"} 1
replica_seconds_behind{host="replica"} Null
Ну а дальше prometheus такое распарсить не смог (он хочет циферки, а не буковки) и тихонечко вывел эту ноду из графаны и вообще отовсюду. Ну и аллерты в придачу. На что им тригериться если ноды нет нигде?
Прикол в том, что во время возникновения ошибки, поле Seconds_Behind_Master в mysql принимает значение Null, а не продолжает дальше считать на сколько отстала реплика.
ㅤ
А вот и bash скрипт, который собирал метрики:
#!/bin/bash
MAINDIR=/tmp
METRICS=rstatus.prom
HOST="replica"
SLAVE_IO_RUNNING=$(mysql -e 'SHOW SLAVE STATUS \G' | grep 'Slave_IO_Running'| awk '{print $2}')
SLAVE_SECONDS_BEHIND=$(mysql -e 'SHOW SLAVE STATUS \G' | grep 'Seconds_Behind_Master'| awk '{print $2}')
if [[ "$SLAVE_IO_RUNNING" == "Yes" ]]; then
J=1
echo 'replica_slave_io_running{host="'$HOST'"}' $J > $MAINDIR/$METRICS
else
J=0
echo 'replica_slave_io_running{host="'$HOST'"}' $J > $MAINDIR/$METRICS
fi
echo 'replica_seconds_behind{host="'$HOST'"}' $SLAVE_SECONDS_BEHIND >> $MAINDIR/$METRICS
Работа над ошибками проведена, инцидент разобран. Ни одна жопа на ретроспективе пока не пострадала, но возможно дело времени.
Как писать подобные экспортеры я накидывал в этом посте.
И всегда помни — если изобретаешь велосипед, всегда обрабатывай эксепшены!
tags: #devops #debug #bash #monitoring
—
🔔