привет.
меня зовут Сергей.
– в ит давно
– образование «инженер минус электрик», специальность 1001 «электрические станции»
– сисадмин, админ бд, разработчик, тимлид, пм, техдир, продакт, cpo
– энергетика, банки, добыча полезных ископаемых, производство электроники, купипродай, телеком и радио, платёжные системы, тревел, морские перевозки, мегакорпорации, стартапы, галеры, аутсорц, etc
больше инфы: https://www.plaxienko.com
рассказываю про инженерную (не только) культуру: продактам, программистам, девопсам, тестировщикам, дизайнерам, и просто любознательным.
• ЦДК ИПО
меня зовут Сергей.
– в ит давно
– образование «инженер минус электрик», специальность 1001 «электрические станции»
– сисадмин, админ бд, разработчик, тимлид, пм, техдир, продакт, cpo
– энергетика, банки, добыча полезных ископаемых, производство электроники, купипродай, телеком и радио, платёжные системы, тревел, морские перевозки, мегакорпорации, стартапы, галеры, аутсорц, etc
больше инфы: https://www.plaxienko.com
рассказываю про инженерную (не только) культуру: продактам, программистам, девопсам, тестировщикам, дизайнерам, и просто любознательным.
• ЦДК ИПО
про сроки
зимой 1986 года nasa запустила один из пяти шаттлов — «челленджер».
на 73 секунде шаттл взорвался.
семь астронавтов погибли, программа была приостановлена на тридцать два месяца.
причину выяснили — резиновый уплотнитель топливных баков не был рассчитан на низкую температуру эксплуатации.
все про это знали до запуска, но очень торопились.
стоило торопиться с такими-то последствиями, или можно было подождать?
в следующий раз, когда ваш продакт или кто повыше начнёт гнать с релизом в пятницу вечером, вспомните ему эту историю.
там резинка была, тут вечер пятницы.
там тридцать два месяца получилось, у вас сколько бессонных ночей будет?
🧠 нулевая терпимость к ошибкам
релизить в пятницу вечером плохая затея.
это все и так знают.
но не наложить вето на релиз, зная что могут быть проблемы, на фикс которых уйдёт неизвестно сколько времени — косяк.
• ЦДК ИПО
зимой 1986 года nasa запустила один из пяти шаттлов — «челленджер».
на 73 секунде шаттл взорвался.
семь астронавтов погибли, программа была приостановлена на тридцать два месяца.
причину выяснили — резиновый уплотнитель топливных баков не был рассчитан на низкую температуру эксплуатации.
все про это знали до запуска, но очень торопились.
стоило торопиться с такими-то последствиями, или можно было подождать?
в следующий раз, когда ваш продакт или кто повыше начнёт гнать с релизом в пятницу вечером, вспомните ему эту историю.
там резинка была, тут вечер пятницы.
там тридцать два месяца получилось, у вас сколько бессонных ночей будет?
🧠 нулевая терпимость к ошибкам
релизить в пятницу вечером плохая затея.
это все и так знают.
но не наложить вето на релиз, зная что могут быть проблемы, на фикс которых уйдёт неизвестно сколько времени — косяк.
• ЦДК ИПО
про сроки
в 1964 году выяснилось, что планеты нашей солнечной системы слетятся так, что одним аппаратом можно будет обсмотреть сразу четыре планеты.
экономия?
ещё какая!
но надо поторопиться.
пока бюджеты согласуют, пока то, сё, планеты уже по своим делам улетят.
инженеры JPL поторопились и смастерили два аппарата, вояджер один и вояджер два.
в 1977 году оба аппарата улетели, успешно.
все маневры прошли как по маслу.
фотки собрали миллионы лайков.
научной информации привалило — до сих пор потихоньку разгребают.
и самое крутое — аппараты до сих пор функционируют.
почти пятьдесят лет полёта.
просто вдумайтесь, что ваш код будет работать где-то очень далеко, где пинг не десять миллисекунд и это бесит, а почти сутки.
в одну сторону.
если что, исправить будет никак, это вам не сервер в дц удаленно перезагрузить через какой-нибудь kvm.
🧠 планируйте далеко
не факт, что ваше решение будет работать следующие даже пять лет.
но если вы сможете за те же ресурсы сделать устойчиво работоспособное решение на следующие пару лет — очень круто.
• ЦДК ИПО
в 1964 году выяснилось, что планеты нашей солнечной системы слетятся так, что одним аппаратом можно будет обсмотреть сразу четыре планеты.
экономия?
ещё какая!
но надо поторопиться.
пока бюджеты согласуют, пока то, сё, планеты уже по своим делам улетят.
инженеры JPL поторопились и смастерили два аппарата, вояджер один и вояджер два.
в 1977 году оба аппарата улетели, успешно.
все маневры прошли как по маслу.
фотки собрали миллионы лайков.
научной информации привалило — до сих пор потихоньку разгребают.
и самое крутое — аппараты до сих пор функционируют.
почти пятьдесят лет полёта.
просто вдумайтесь, что ваш код будет работать где-то очень далеко, где пинг не десять миллисекунд и это бесит, а почти сутки.
в одну сторону.
если что, исправить будет никак, это вам не сервер в дц удаленно перезагрузить через какой-нибудь kvm.
🧠 планируйте далеко
не факт, что ваше решение будет работать следующие даже пять лет.
но если вы сможете за те же ресурсы сделать устойчиво работоспособное решение на следующие пару лет — очень круто.
• ЦДК ИПО
про сроки
в 1957 году советский союз запустил первый космический спутник земли — спутник-1.
коллектив под руководством Сергея Павловича Королева, генерального конструктора, спроектировал и запустил р-7, с первым спутником.
это уже что-то невероятное, если попробовать представить исторический контекст тех лет.
первый транзистор сделали всего несколько лет назад.
не микросхему, а обычный транзистор неприличного по нынешним временам размера.
а тут целая ракета и спутник.
который всех напугал.
торопился тогда коллектив советских космических инженеров?
не то слово.
шла чудовищная гонка с сша, кто первый, того и тапки в ядерном паритете.
в 1957 году с двух космодромов было 125 запусков.
не все удачные, особенно с байконура.
тогда ещё не было никаких аджайлов и скрамов, но советские инженеры знали какие-то секретики итеративной работы.
запускали, внимательно анализировали ошибки, быстренько исправляли, запускали снова, и в конце концов всё получилось.
ещё раз — компьютеров толком ещё не было, все расчёты ручками, спешка чудовищная, переделывать надо и тут и там, и кроме всего прочего всё это в условиях строжайшей секретности.
на стэковерфлоу не спросишь — секретность, copilot'ов и чатжпт ещё не придумали, только сам и вместе с коллегами думай, решай, действуй.
🧠 исправляйте ошибки и пробуйте снова
аджайлы и канбаны придумали не вчера.
в прошлом многому можно научиться.
• ЦДК ИПО
в 1957 году советский союз запустил первый космический спутник земли — спутник-1.
коллектив под руководством Сергея Павловича Королева, генерального конструктора, спроектировал и запустил р-7, с первым спутником.
это уже что-то невероятное, если попробовать представить исторический контекст тех лет.
первый транзистор сделали всего несколько лет назад.
не микросхему, а обычный транзистор неприличного по нынешним временам размера.
а тут целая ракета и спутник.
который всех напугал.
торопился тогда коллектив советских космических инженеров?
не то слово.
шла чудовищная гонка с сша, кто первый, того и тапки в ядерном паритете.
в 1957 году с двух космодромов было 125 запусков.
не все удачные, особенно с байконура.
тогда ещё не было никаких аджайлов и скрамов, но советские инженеры знали какие-то секретики итеративной работы.
запускали, внимательно анализировали ошибки, быстренько исправляли, запускали снова, и в конце концов всё получилось.
ещё раз — компьютеров толком ещё не было, все расчёты ручками, спешка чудовищная, переделывать надо и тут и там, и кроме всего прочего всё это в условиях строжайшей секретности.
на стэковерфлоу не спросишь — секретность, copilot'ов и чатжпт ещё не придумали, только сам и вместе с коллегами думай, решай, действуй.
🧠 исправляйте ошибки и пробуйте снова
аджайлы и канбаны придумали не вчера.
в прошлом многому можно научиться.
• ЦДК ИПО
про качество
хрестоматийная история.
наверняка вы все её знаете, просто напомню.
в середине восьмидесятых аппарат лучевой терапии therac-25 убил как минимум трёх человек и изувечил неизвестно сколько ещё.
там всё было плохо, начиная от кривого пользовательского интерфейса и заканчивая отсутствием защиты на железячном уровне.
ещё были баги в софте, отвратное тестирование, и просто это эталон девиза «говняк, говняк, и в продакш!».
почитайте на досуге про то как делать пожалуйста не надо.
история хрестоматийная.
база.
🧠 учитесь на чужих ошибках
в инженерии (и не только) есть куча очень показательных историй.
не только для devops'ов или разработчиков, но и для тестировщиков, дизайнеров, аналитиков, техписов, поддержки, и так далее.
• ЦДК ИПО
хрестоматийная история.
наверняка вы все её знаете, просто напомню.
в середине восьмидесятых аппарат лучевой терапии therac-25 убил как минимум трёх человек и изувечил неизвестно сколько ещё.
там всё было плохо, начиная от кривого пользовательского интерфейса и заканчивая отсутствием защиты на железячном уровне.
ещё были баги в софте, отвратное тестирование, и просто это эталон девиза «говняк, говняк, и в продакш!».
почитайте на досуге про то как делать пожалуйста не надо.
история хрестоматийная.
база.
🧠 учитесь на чужих ошибках
в инженерии (и не только) есть куча очень показательных историй.
не только для devops'ов или разработчиков, но и для тестировщиков, дизайнеров, аналитиков, техписов, поддержки, и так далее.
• ЦДК ИПО
про качество
в 1981 году в гостинице Hyatt Regency обрушился внутренний переход второго этажа.
погибло 114 человек, 216 получили травмы различной тяжести.
причины выяснили — кто-то самый умный вместо крепления двух переходов на одну шпильку, повесил нижний переход на верхний через вторую шпильку.
потому что шпилек нужной длины не нашлось.
ну, то есть нашлось, но надо было ждать и всё такое, «давайте по-быстренькому сделаем и в продакш!».
на первый взгляд «чо такова та?», но в результате погибло караул сколько людей.
если бы кто-то знал школьную физику, и уж если бы посоветовался с коллективом, то беды можно было бы и избежать.
🧠 сомневайтесь
здраво сомневайтесь в своих решениях сложных задач.
возможно, вы что-то не предусмотрели.
• ЦДК ИПО
в 1981 году в гостинице Hyatt Regency обрушился внутренний переход второго этажа.
погибло 114 человек, 216 получили травмы различной тяжести.
причины выяснили — кто-то самый умный вместо крепления двух переходов на одну шпильку, повесил нижний переход на верхний через вторую шпильку.
потому что шпилек нужной длины не нашлось.
ну, то есть нашлось, но надо было ждать и всё такое, «давайте по-быстренькому сделаем и в продакш!».
на первый взгляд «чо такова та?», но в результате погибло караул сколько людей.
если бы кто-то знал школьную физику, и уж если бы посоветовался с коллективом, то беды можно было бы и избежать.
🧠 сомневайтесь
здраво сомневайтесь в своих решениях сложных задач.
возможно, вы что-то не предусмотрели.
• ЦДК ИПО
про качество
в июле 1970 года над атлантикой пропал ан-22, самый большой турбовинтовой самолёт в мире.
причины установить не смогли.
в декабре того же года другой ан-22 потерпел крушение в индии.
на этот раз причину установить смогли.
катастрофа случилась 19 декабря, а уже 7 января комиссия вынесла развернутое заключение.
[продолжение...] • ЦДК ИПО
в июле 1970 года над атлантикой пропал ан-22, самый большой турбовинтовой самолёт в мире.
причины установить не смогли.
в декабре того же года другой ан-22 потерпел крушение в индии.
на этот раз причину установить смогли.
катастрофа случилась 19 декабря, а уже 7 января комиссия вынесла развернутое заключение.
[продолжение...] • ЦДК ИПО
[...начало]
комиссия выяснила, что единственный на всю страну человек, который готовил только на один самолёт тридцать два винта, вместо пластикового ножа для обрезки облоя использовал обычный сапожный нож.
с ним было веселее и сподручнее, работа спорилась, и никто не жаловался.
только вот стальной нож оставлял небольшие, всего три десятых миллиметра, даже не надрезы, а царапины.
которые потом, при чудовищных нагрузках, разошлись на огромные трещины.
и убили тридцать девять человек в двух катастрофах.
вроде бы как тут про то, что в цепочке создания самолёта кто-то нарушил инструкцию.
это, очевидно, контраргументирует к тому, что инженерная культура не про людей, а про процессы, документы, разрешения, запреты, лна, и прочее, и прочее.
однако, замечу, что здесь всё таки про людей.
если бы этот умелец с сапожным ножом хотя бы предположил последствия своих гениальных улучшений, то наверняка задал бы себе или коллегам библейский вопрос «не фигню ли я делаю?».
в этой истории ещё важно обратить внимание на скорость, с которой комиссия установила все обстоятельства.
за меньше чем три недели не просто собрали обломки самолёта, не просто смогли найти причину катастрофы.
нашли этого человека и выяснили про нож.
когда в следующий раз ваши разработчики или девопсы будут в какой-нибудь графане искать багу две недели, вспомните им эту историю, там чуток всё таки посложнее было.
🧠 уточняйте у коллег
если вам кажется, что вы придумали гениальное решение банальной задачи, поинтересуйтесь, не фигню ли вы придумали.
• ЦДК ИПО
комиссия выяснила, что единственный на всю страну человек, который готовил только на один самолёт тридцать два винта, вместо пластикового ножа для обрезки облоя использовал обычный сапожный нож.
с ним было веселее и сподручнее, работа спорилась, и никто не жаловался.
только вот стальной нож оставлял небольшие, всего три десятых миллиметра, даже не надрезы, а царапины.
которые потом, при чудовищных нагрузках, разошлись на огромные трещины.
и убили тридцать девять человек в двух катастрофах.
вроде бы как тут про то, что в цепочке создания самолёта кто-то нарушил инструкцию.
это, очевидно, контраргументирует к тому, что инженерная культура не про людей, а про процессы, документы, разрешения, запреты, лна, и прочее, и прочее.
однако, замечу, что здесь всё таки про людей.
если бы этот умелец с сапожным ножом хотя бы предположил последствия своих гениальных улучшений, то наверняка задал бы себе или коллегам библейский вопрос «не фигню ли я делаю?».
в этой истории ещё важно обратить внимание на скорость, с которой комиссия установила все обстоятельства.
за меньше чем три недели не просто собрали обломки самолёта, не просто смогли найти причину катастрофы.
нашли этого человека и выяснили про нож.
когда в следующий раз ваши разработчики или девопсы будут в какой-нибудь графане искать багу две недели, вспомните им эту историю, там чуток всё таки посложнее было.
🧠 уточняйте у коллег
если вам кажется, что вы придумали гениальное решение банальной задачи, поинтересуйтесь, не фигню ли вы придумали.
• ЦДК ИПО
про бюджеты
возможно, вы помните историю прошлого года с апдейтом компании crowdstrike и синими экранами по всему миру.
яркая история была.
есть похожая.
в 1990 году в сети крупнейшей телефонной компании северной америки at&t произошла вполне обычная авария на одном из 114 узлов.
этот узел успешно восстановил свою работу, но нечаянно уложил все соседние узлы.
те тоже нечаянно уложили своих соседей, а потом и самого виновника.
работало ничего девять часов.
в те времена at&t в день обслуживала больше ста миллионов звонков.
семьдесят процентов всех звонков в сша.
и тут полный кирдык на девять часов.
прямые потери — больше шестидесяти миллионов долларов.
что-же это было?
атака северокорейских хакеров?
может быть кевин митник пошутил со своим bluebox’ом?
русские хакеры уронили валенок на главный пульт управления?
все проще.
в коде в секции if был использован оператор break.
который срабатывал как надо, но так как он был внутри секции while, то это «как надо» уложило каскадно все узлы всей сети.
почему эта история похожа на историю crowdstrike?
потому что простой в девять часов случился тоже после апдейта, который тоже тщательно протестировали.
и так же аккуратно вылили, но немножечко не до конца проверили.
кто-то не подумал про сетевой случай и не включил его в регресс.
🧠 — точно работает?
проверяйте сложные решения в максимально реалистичном окружении.
софт для узла связи at&t не проверяли на работоспособность в сети из нескольких узлов.
с crowdstrike'ом наверняка было похожее.
• ЦДК ИПО
возможно, вы помните историю прошлого года с апдейтом компании crowdstrike и синими экранами по всему миру.
яркая история была.
есть похожая.
в 1990 году в сети крупнейшей телефонной компании северной америки at&t произошла вполне обычная авария на одном из 114 узлов.
этот узел успешно восстановил свою работу, но нечаянно уложил все соседние узлы.
те тоже нечаянно уложили своих соседей, а потом и самого виновника.
работало ничего девять часов.
в те времена at&t в день обслуживала больше ста миллионов звонков.
семьдесят процентов всех звонков в сша.
и тут полный кирдык на девять часов.
прямые потери — больше шестидесяти миллионов долларов.
что-же это было?
атака северокорейских хакеров?
может быть кевин митник пошутил со своим bluebox’ом?
русские хакеры уронили валенок на главный пульт управления?
все проще.
в коде в секции if был использован оператор break.
который срабатывал как надо, но так как он был внутри секции while, то это «как надо» уложило каскадно все узлы всей сети.
почему эта история похожа на историю crowdstrike?
потому что простой в девять часов случился тоже после апдейта, который тоже тщательно протестировали.
и так же аккуратно вылили, но немножечко не до конца проверили.
кто-то не подумал про сетевой случай и не включил его в регресс.
🧠 — точно работает?
проверяйте сложные решения в максимально реалистичном окружении.
софт для узла связи at&t не проверяли на работоспособность в сети из нескольких узлов.
с crowdstrike'ом наверняка было похожее.
• ЦДК ИПО
про бюджеты
в 1991 году во время очередной дискотеки в аравии в сторону американской военной базы летела ракета.
базу защищал комплекс пво «пэтриот».
ракету успешно обнаруживают, определяют параметры её полёта, выпускают ракету перехвата, и... промахиваются.
результат — «керосинка», она же scud, попадает в казарму, 28 трупов.
что случилось?
если очень коротко — из-за конверсии параметров и из-за непрерывного времени работы накапливалась ошибка.
и ракета прилетала чуть-чуть не туда.
[продолжение...] • ЦДК ИПО
в 1991 году во время очередной дискотеки в аравии в сторону американской военной базы летела ракета.
базу защищал комплекс пво «пэтриот».
ракету успешно обнаруживают, определяют параметры её полёта, выпускают ракету перехвата, и... промахиваются.
результат — «керосинка», она же scud, попадает в казарму, 28 трупов.
что случилось?
если очень коротко — из-за конверсии параметров и из-за непрерывного времени работы накапливалась ошибка.
и ракета прилетала чуть-чуть не туда.
[продолжение...] • ЦДК ИПО
[...начало]
стоп! при чём здесь бюджет?
всё просто — на разработку пэтриота было сожжено больше восьми миллиардов долларов и двадцати лет.
спутник-1 быстрее сделали и успешно запустили.
наверняка в разработке участвовало много талантливых инженеров.
но вот незадача — в изначальных условиях было «чтобы избежать обнаружения, система должна быть спроектирована мобильной, и работать не более нескольких часов в одном месте».
в 1991 году конкретный комплекс работал больше ста часов непрерывно.
естественно, никому и в голову не пришло проверить какую-то там накапливающуюся ошибку.
🧠 а что если?
если в техзадании указано «работа не более двух часов непрерывно» или ещё какой-то потолок с подвохом, предполагайте, что потолок нечаянно может стать в сотни раз больше.
• ЦДК ИПО
стоп! при чём здесь бюджет?
всё просто — на разработку пэтриота было сожжено больше восьми миллиардов долларов и двадцати лет.
спутник-1 быстрее сделали и успешно запустили.
наверняка в разработке участвовало много талантливых инженеров.
но вот незадача — в изначальных условиях было «чтобы избежать обнаружения, система должна быть спроектирована мобильной, и работать не более нескольких часов в одном месте».
в 1991 году конкретный комплекс работал больше ста часов непрерывно.
естественно, никому и в голову не пришло проверить какую-то там накапливающуюся ошибку.
🧠 а что если?
если в техзадании указано «работа не более двух часов непрерывно» или ещё какой-то потолок с подвохом, предполагайте, что потолок нечаянно может стать в сотни раз больше.
• ЦДК ИПО