59 min

#18 - Natalie Godec - Mettre AWS en PLS Tronche de Tech

    • Technologies

Rares sont ceux qui peuvent se vanter d’avoir “cassé” AWS 🏚️
Cette tech fait partie de ce club très fermé.

Cela fait plusieurs mois que Natalie et son équipe en ont ras-le-bol de gérer les incidents Kafka…
Kafka, c’est ce qu’on appelle un “message broker” ou “bus d’évènements”.

Pour faire simple, c’est un intermédiaire entre vos applis (vos “services”).

En gros, quand un service A veut parler à un service B, il a 2 choix :
- soit il lui parle en direct… Mais il faut que service B soit prêt et dispo.
- soit il envoie un message à Kafka, qui le garde au chaud, jusqu’à ce que le service B se décide à écouter

Bref.
C’est plein de vertus mais j’en parlerai une autre fois.
C’est surtout souvent TRÈS central dans l’infra.

Et quand ça tombe, plus personne ne peut se parler et donc… Ca pique.

Bon, maintenant revenons à nos moutons. 🐑

Natalie n’en peut plus de gérer elle-même son Kafka, qui lui fait des misères.

Alors elle décide de déléguer ça à Amazon, via leur offre Amazon “MSK” (”Manage Streaming for Kafka”).

”Je s’occupe de tout, tu s’occupes de rien.” te dit Jeff Bezos.

Et…
C’est plutôt vrai.

Pendant plusieurs mois, la vie est belle.

Jusqu’au jour où…
Il faut changer une simple configuration.
Un tout petit paramètre de rien du tout.

5 minutes plus tard, plus rien ne marche.
Kafka ne répond plus.
Impossible de se connecter, même avec ce bon vieux telnet 🤔

C’est le moment d’employer les grand moyens.
La fameuse “méthode devops”. 🪄

On redémarre.

Sauf que ben… ça redémarre pas.

Et comme c’est Amazon qui gère…
On peut pas faire grand chose d’autre. 🤷

Le cluster MSK est cassé.
Et bien sûr, toute la prod avec. 😱

Alors comment Natalie Godec s’est-elle sortie de cette situation ?

Vous le saurez en écoutant ce nouvel épisode de Tronche de Tech 🎙️

Un petit voyage dans le monde de l’infra à ne pas manquer !

Bonne écoute 🎙️

PS : dites-nous ce que vous pensez de l'épisode en commentaire (et surtout, abonnez-vous !)

-----------------------------------

Natalie Godec est Senior Cloud Architect chez Zencore.
Vous pouvez la retrouver sur :
- Twitter https://twitter.com/ouvessvit
- Youtube : https://www.youtube.com/channel/UCvrKGfYlJpAjdzT1qazyaiw
- Linkedin : https://www.linkedin.com/in/natalie-godec

L'article de blog sur l'incident MSK https://aws.plainenglish.io/how-we-broke-our-aws-msk-cluster-7b0a62ccbe53

---------------------------------

Je suis Mathieu Sanchez, CTO d'Acasi, et pour me suivre, c'est principalement sur Linkedin : https://www.linkedin.com/in/matsanchez/

Vous pouvez aussi suivre Tronche de Tech, sur vos réseaux favoris :
- Linkedin : https://www.linkedin.com/company/tronche-de-tech/
- Instagram : https://www.instagram.com/tronchedetech/
- TikTok : https://www.tiktok.com/@tronchedetech
- Twitter : https://twitter.com/TroncheDeTech

Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Rares sont ceux qui peuvent se vanter d’avoir “cassé” AWS 🏚️
Cette tech fait partie de ce club très fermé.

Cela fait plusieurs mois que Natalie et son équipe en ont ras-le-bol de gérer les incidents Kafka…
Kafka, c’est ce qu’on appelle un “message broker” ou “bus d’évènements”.

Pour faire simple, c’est un intermédiaire entre vos applis (vos “services”).

En gros, quand un service A veut parler à un service B, il a 2 choix :
- soit il lui parle en direct… Mais il faut que service B soit prêt et dispo.
- soit il envoie un message à Kafka, qui le garde au chaud, jusqu’à ce que le service B se décide à écouter

Bref.
C’est plein de vertus mais j’en parlerai une autre fois.
C’est surtout souvent TRÈS central dans l’infra.

Et quand ça tombe, plus personne ne peut se parler et donc… Ca pique.

Bon, maintenant revenons à nos moutons. 🐑

Natalie n’en peut plus de gérer elle-même son Kafka, qui lui fait des misères.

Alors elle décide de déléguer ça à Amazon, via leur offre Amazon “MSK” (”Manage Streaming for Kafka”).

”Je s’occupe de tout, tu s’occupes de rien.” te dit Jeff Bezos.

Et…
C’est plutôt vrai.

Pendant plusieurs mois, la vie est belle.

Jusqu’au jour où…
Il faut changer une simple configuration.
Un tout petit paramètre de rien du tout.

5 minutes plus tard, plus rien ne marche.
Kafka ne répond plus.
Impossible de se connecter, même avec ce bon vieux telnet 🤔

C’est le moment d’employer les grand moyens.
La fameuse “méthode devops”. 🪄

On redémarre.

Sauf que ben… ça redémarre pas.

Et comme c’est Amazon qui gère…
On peut pas faire grand chose d’autre. 🤷

Le cluster MSK est cassé.
Et bien sûr, toute la prod avec. 😱

Alors comment Natalie Godec s’est-elle sortie de cette situation ?

Vous le saurez en écoutant ce nouvel épisode de Tronche de Tech 🎙️

Un petit voyage dans le monde de l’infra à ne pas manquer !

Bonne écoute 🎙️

PS : dites-nous ce que vous pensez de l'épisode en commentaire (et surtout, abonnez-vous !)

-----------------------------------

Natalie Godec est Senior Cloud Architect chez Zencore.
Vous pouvez la retrouver sur :
- Twitter https://twitter.com/ouvessvit
- Youtube : https://www.youtube.com/channel/UCvrKGfYlJpAjdzT1qazyaiw
- Linkedin : https://www.linkedin.com/in/natalie-godec

L'article de blog sur l'incident MSK https://aws.plainenglish.io/how-we-broke-our-aws-msk-cluster-7b0a62ccbe53

---------------------------------

Je suis Mathieu Sanchez, CTO d'Acasi, et pour me suivre, c'est principalement sur Linkedin : https://www.linkedin.com/in/matsanchez/

Vous pouvez aussi suivre Tronche de Tech, sur vos réseaux favoris :
- Linkedin : https://www.linkedin.com/company/tronche-de-tech/
- Instagram : https://www.instagram.com/tronchedetech/
- TikTok : https://www.tiktok.com/@tronchedetech
- Twitter : https://twitter.com/TroncheDeTech

Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

59 min

Classement des podcasts dans Technologies

Underscore_
Micode
Tech&Co, la quotidienne
BFM Business
Acquired
Ben Gilbert and David Rosenthal
Comptoir IA 🎙️🧠🤖
Nicolas Guyon
The TED AI Show
TED
De quoi jme mail
BFM Business