Эпизод №8. Управление инцидентами в большой компании

ITRadio

Большая компания – это компания, над которой не заходит солнце. Например, мировой агрегатор такси и доставки Uber.

В гостях как дома:

Карен Товмасян – Senior Engineer – Payments @ Uber и бессменный автор канала Человек и Машина.

О чём:

• Планируем выяснить, как всё-таки писать слово «инцидент»;
• Чем отличается инцидент от аварии, алёрта или бага;
• Что происходит в процессе починки, чем postmortem отличается от обычного отчёта от аварии;
• Всё это приправим небольшим количеством офигительных историй.

Полезные ссылки:

Мясные мировые инциденты, от которых я ору до сих пор:

Crowdstrike, который положил полмира и даже службу 911:
https://www.crowdstrike.com/wp-content/uploads/2024/08/Channel-File-291-Incident-Root-Cause-Analysis-08.06.2024.pdf

AWS Kinesis, или «Ребята, а что такое ulimit?»:
https://aws.amazon.com/message/11201

Как Linear потерял данные, хотя можно было чему-то научиться у GitLab:
https://linear.app/blog/linear-incident-on-jan-24th-2024
https://about.gitlab.com/blog/2017/02/10/postmortem-of-database-outage-of-january-31

Полезные материалы по управлению инцидентами и не только:

SRE Book первый, второй и третий:
https://sre.google/books

Что стоит обсуждать на ревью, а что нет:
https://surfingcomplexity.blog/2024/09/28/why-i-dont-like-discussing-action-items-during-incident-reviews

Доклад, который я буду рекламировать до пенсии и далее:
https://youtu.be/kSGiUGGu1aQ?si=gOV_BWVfAGrtOyaj

To listen to explicit episodes, sign in.

Stay up to date with this show

Sign in or sign up to follow shows, save episodes, and get the latest updates.

Select a country or region

Africa, Middle East, and India

Asia Pacific

Europe

Latin America and the Caribbean

The United States and Canada