1 hr 11 min

#17 Was können wir beim Incident Management von der Feuerwehr lernen‪?‬ Engineering Kiosk

    • Technology

Was haben die Methoden der Feuerwehr zur Bekämpfung von Großschadensereignissen mit dem Incident Management von IT-Systemen gemeinsam? 
Diese Frage klären wir in der folgenden Episode. Wolfgang, als Mitglied der freiwilligen Feuerwehr, gibt einen Einblick in das Prozedere, wenn die Feuerwehr ausrückt. Andy vergleicht dies mit dem Incident Management von Cloud-Systemen. Wir klären wie man den Schaden eines Incidents misst, was dies mit dem Vertrauen von Kunden zu tun hat, wie ordentliche Prävention aussehen kann und warum es dafür wenig Ruhm gibt, was man unter War- und Peacetime versteht, wie ein moderner “Schreiberling” aussieht, wie dreist Presseleute sein können und was eine kleine Konferenz in Kalifornien damit zu tun hat.
Bonus: Was Gartenschläuche und Stahl-Hochöfen damit zu tun haben und wieso Kaffee holen doch eine Strategie sein kann.

Feedback an stehtisch@engineeringkiosk.dev oder via Twitter an https://twitter.com/EngKiosk

LinksDatenverlust bei 1.500 Snapshots von Hetzner Cloud: https://www.golem.de/news/trotz-redundanz-datenverlust-bei-1-500-snapshots-von-hetzner-cloud-2204-164628.htmlCeph Storage: https://ceph.io/Inside the Longest Atlassian Outage of All Time: https://newsletter.pragmaticengineer.com/p/scoop-atlassianAtlassian stoppt den Verkauf von On-Premise Lizenzen: https://www.atlassian.com/migration/assess/journey-to-cloudauditd: https://linux.die.net/man/8/auditdrsyslog: https://www.rsyslog.com/Incident.io: https://incident.io/5-Why-Methode: https://de.wikipedia.org/wiki/5-Why-MethodePostmortem “Roblox Return to Service 10/28-10/31 2021”: https://blog.roblox.com/2022/01/roblox-return-to-service-10-28-10-31-2021/Postmortem “The Discovery of Apache ZooKeeper’s Poison Packet”: https://www.pagerduty.com/blog/the-discovery-of-apache-zookeepers-poison-packet/Postmortem “etcd: v3.5 data inconsistency”: https://github.com/etcd-io/etcd/blob/main/Documentation/postmortems/v3.5-data-inconsistency.mdPostmortem: “Gocardless: Incident review: API and Dashboard outage on 10 October 2017”: https://gocardless.com/blog/incident-review-api-and-dashboard-outage-on-10th-october/Postmortem: “Monzo,Outage, 29. July 2019”: https://monzo.com/blog/2019/09/08/why-monzo-wasnt-working-on-july-29thSammlung von verschiedenen Postmortems: https://github.com/danluu/post-mortemsOpsGenie: https://www.atlassian.com/de/software/opsgeniePagerDuty: https://www.pagerduty.com/Buch “Incident Management for Operations”: https://www.amazon.de/Incident-Management-Operations-Rob-Schnepp/dp/1491917628Sprungmarken(00:00:00) Intro
(00:01:21) Wie viel Feuerwehr-Leute gibt es in Deutschland?
(00:02:58) Was ist Incident Management im DevOps/Infrastruktur-Bereich
(00:07:33) Firmen-Interne Incidents können ebenfalls richtig teuer werden
(00:09:14) Wie wichtig ist Prävention und Monitoring?
(00:10:26) Wie agiert ein Unternehmen bei einem IT-Incident? Chaotische Hilfe
(00:12:33) Inwieweit kann ein IT-Incident mit einem Großschadensereignis verglichen werden?
(00:14:14) Was ist ein Großschadensereignis?
(00:15:57) Wie bekommen denn alle mit, dass ein Incident gerade eintritt? Und welche Strukturen sind notwendig?
(00:17:43) Wer übernimmt die Rolle des (Incident) Commanders?
(00:19:21) Was beinhaltet denn die Übernahme eines Incidents?
(00:21:23) Vergleich von der Übernahme eines Incidents zwischen der Feuerwehr und einem IT-System
(00:23:43) Strategie der Feuerwehr bei Incidents und Hierarchien
(00:26:14) Ist der Einsatzleiter ein aktiver Teil des Incidents? Und welche Rollen gibt es noch?
(00:30:09) Kommunikationsstrukturen in IT-Incidents
(00:33:01) Der aktuelle Atlassian-Incident
(00:34:44) Die Rollen von Logistik und Administration in der Feuerwehr und in der IT
(00:37:16) (Essens)-Logistik bei Remote-Incidents
(00:40:19) War-Rooms: Anti-Pattern oder Must-Have + Pro-Aktive Kommunikation
(00:43:26) War- und Peace-Time
(00:44:19) Incident Commander, Rollen und Rollen-Rotation im IT-Bereich
(00:45:53) Die Rol

Was haben die Methoden der Feuerwehr zur Bekämpfung von Großschadensereignissen mit dem Incident Management von IT-Systemen gemeinsam? 
Diese Frage klären wir in der folgenden Episode. Wolfgang, als Mitglied der freiwilligen Feuerwehr, gibt einen Einblick in das Prozedere, wenn die Feuerwehr ausrückt. Andy vergleicht dies mit dem Incident Management von Cloud-Systemen. Wir klären wie man den Schaden eines Incidents misst, was dies mit dem Vertrauen von Kunden zu tun hat, wie ordentliche Prävention aussehen kann und warum es dafür wenig Ruhm gibt, was man unter War- und Peacetime versteht, wie ein moderner “Schreiberling” aussieht, wie dreist Presseleute sein können und was eine kleine Konferenz in Kalifornien damit zu tun hat.
Bonus: Was Gartenschläuche und Stahl-Hochöfen damit zu tun haben und wieso Kaffee holen doch eine Strategie sein kann.

Feedback an stehtisch@engineeringkiosk.dev oder via Twitter an https://twitter.com/EngKiosk

LinksDatenverlust bei 1.500 Snapshots von Hetzner Cloud: https://www.golem.de/news/trotz-redundanz-datenverlust-bei-1-500-snapshots-von-hetzner-cloud-2204-164628.htmlCeph Storage: https://ceph.io/Inside the Longest Atlassian Outage of All Time: https://newsletter.pragmaticengineer.com/p/scoop-atlassianAtlassian stoppt den Verkauf von On-Premise Lizenzen: https://www.atlassian.com/migration/assess/journey-to-cloudauditd: https://linux.die.net/man/8/auditdrsyslog: https://www.rsyslog.com/Incident.io: https://incident.io/5-Why-Methode: https://de.wikipedia.org/wiki/5-Why-MethodePostmortem “Roblox Return to Service 10/28-10/31 2021”: https://blog.roblox.com/2022/01/roblox-return-to-service-10-28-10-31-2021/Postmortem “The Discovery of Apache ZooKeeper’s Poison Packet”: https://www.pagerduty.com/blog/the-discovery-of-apache-zookeepers-poison-packet/Postmortem “etcd: v3.5 data inconsistency”: https://github.com/etcd-io/etcd/blob/main/Documentation/postmortems/v3.5-data-inconsistency.mdPostmortem: “Gocardless: Incident review: API and Dashboard outage on 10 October 2017”: https://gocardless.com/blog/incident-review-api-and-dashboard-outage-on-10th-october/Postmortem: “Monzo,Outage, 29. July 2019”: https://monzo.com/blog/2019/09/08/why-monzo-wasnt-working-on-july-29thSammlung von verschiedenen Postmortems: https://github.com/danluu/post-mortemsOpsGenie: https://www.atlassian.com/de/software/opsgeniePagerDuty: https://www.pagerduty.com/Buch “Incident Management for Operations”: https://www.amazon.de/Incident-Management-Operations-Rob-Schnepp/dp/1491917628Sprungmarken(00:00:00) Intro
(00:01:21) Wie viel Feuerwehr-Leute gibt es in Deutschland?
(00:02:58) Was ist Incident Management im DevOps/Infrastruktur-Bereich
(00:07:33) Firmen-Interne Incidents können ebenfalls richtig teuer werden
(00:09:14) Wie wichtig ist Prävention und Monitoring?
(00:10:26) Wie agiert ein Unternehmen bei einem IT-Incident? Chaotische Hilfe
(00:12:33) Inwieweit kann ein IT-Incident mit einem Großschadensereignis verglichen werden?
(00:14:14) Was ist ein Großschadensereignis?
(00:15:57) Wie bekommen denn alle mit, dass ein Incident gerade eintritt? Und welche Strukturen sind notwendig?
(00:17:43) Wer übernimmt die Rolle des (Incident) Commanders?
(00:19:21) Was beinhaltet denn die Übernahme eines Incidents?
(00:21:23) Vergleich von der Übernahme eines Incidents zwischen der Feuerwehr und einem IT-System
(00:23:43) Strategie der Feuerwehr bei Incidents und Hierarchien
(00:26:14) Ist der Einsatzleiter ein aktiver Teil des Incidents? Und welche Rollen gibt es noch?
(00:30:09) Kommunikationsstrukturen in IT-Incidents
(00:33:01) Der aktuelle Atlassian-Incident
(00:34:44) Die Rollen von Logistik und Administration in der Feuerwehr und in der IT
(00:37:16) (Essens)-Logistik bei Remote-Incidents
(00:40:19) War-Rooms: Anti-Pattern oder Must-Have + Pro-Aktive Kommunikation
(00:43:26) War- und Peace-Time
(00:44:19) Incident Commander, Rollen und Rollen-Rotation im IT-Bereich
(00:45:53) Die Rol

1 hr 11 min

Top Podcasts In Technology

Lex Fridman Podcast
Lex Fridman
In Her Ellement
Boston Consulting Group BCG
All-In with Chamath, Jason, Sacks & Friedberg
All-In Podcast, LLC
Acquired
Ben Gilbert and David Rosenthal
Hard Fork
The New York Times
TED Radio Hour
NPR