DataWatch

Bertrand Fabre

🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en Data et particulièrement en Data Engineering.

  1. Snowflake Cortex avec Ferhat

    27 mai

    Snowflake Cortex avec Ferhat

    Automatiser la lecture de JSON avec Cortex + dbt sur Snowflake Dans cet épisode de DataWatch, on plonge dans un use case ultra concret de Data Engineering moderne : comment automatiser le flatten de JSON complexes dans Snowflake grâce à Cortex Code et dbt. Avec Ferhat Aouaghzene, consultant spécialisé Snowflake & dbt, on décortique une problématique que beaucoup d’équipes data rencontrent aujourd’hui : gérer des données semi-structurées massives issues d’API, avec des schémas imbriqués, des tableaux dans des tableaux et des pipelines qui deviennent vite ingérables à maintenir à la main. Plutôt que d’utiliser un LLM externe, Ferhat montre comment exploiter Cortex Code directement dans Snowflake pour : → Détecter automatiquement les colonnes VARIANT → Générer les flatten SQL → Créer toute l’arborescence dbt → Générer les modèles staging / intermediate / marts → Produire les YAML et les tests dbt → Compiler et exécuter le projet automatiquement Mais l’épisode va beaucoup plus loin qu’une simple démo technique. On parle aussi : • De l’avenir du métier de Data Engineer à l’ère des agents IA • Des limites des LLM dans des environnements critiques • D’idempotence et de qualité logicielle • De gouvernance data • De sécurité et de contrôle d’accès dans Snowflake • Et surtout de la bonne manière d’utiliser l’IA sans tomber dans le “vibe coding” Un épisode très concret pour comprendre comment l’IA peut réellement augmenter les équipes data quand elle est correctement cadrée. 👇 Dites-nous en commentaire : Est-ce que vous utilisez déjà des agents IA dans vos pipelines data ? Les ressources 👉 Ferhat sur Linkedin : https://www.linkedin.com/in/ferhat-aouaghzene-23a895217/ ➕ Medium : https://medium.com/@faouaghzene ➕ Github : https://github.com/FerAou/Snow_tips/tree/main/json_to_dbt 👉 Axel sur LinkedIn : https://www.linkedin.com/in/axel-mauroy-5699509a/ 👉 Bertrand sur LinkedIn : https://www.linkedin.com/in/bertrandfabre/ ➕ Insights : https://datayoka.com/insights ➕ Newsletter : https://datayoka.com/newsletter ➕ Formations : https://datayoka.com/formations ➕ Coaching individuel SQL/BigQuery/FinOps : https://datayoka.com/coaching Chapitres 00:00 Introduction & présentation de Ferhat 02:17 Le problème des JSON complexes dans Snowflake 06:13 Démo du skill Cortex Code pour générer un projet dbt 14:17 Snowflake + dbt Core + Cortex : comment tout s’intègre 18:04 Idempotence, automatisation et qualité des pipelines IA 31:55 L’avenir du métier de Data Engineer avec les agents IA #dataengineering #snowflake #dbt #cortex #genai #llm #datawatch

    41 min
  2. Google Next'26

    28 avr.

    Google Next'26

    Dans cet épisode, on revient à chaud sur Google Cloud Next’26, avec un filtre très clair : qu’est-ce qui compte vraiment pour les équipes data. Plutôt que d’énumérer les centaines d’annonces, on prend le temps de décortiquer les signaux forts. BigQuery continue de s’étendre, le Lakehouse se structure autour d’Iceberg, la gouvernance des données prend une nouvelle dimension… mais surtout, un changement de paradigme se dessine. Google ne pousse plus seulement de la GenAI “cosmétique”. La vraie bascule, c’est l’arrivée des agents. On parle ici de systèmes capables de comprendre un contexte, d’utiliser des outils, d’interagir avec les données et surtout d’agir. Et ça change tout : la qualité des données, leur accessibilité et leur gouvernance ne sont plus des sujets secondaires, ils deviennent critiques. On prend aussi du recul sur ce qui est réellement disponible aujourd’hui vs ce qui relève encore de la stratégie produit. Parce que derrière les annonces, il y a une direction très nette : une plateforme data pensée pour orchestrer des agents, pas juste alimenter des dashboards. Un épisode pour comprendre où va l’écosystème data côté Google, sans hype inutile, mais sans passer à côté des vraies évolutions. Les ressources 👉 Axel sur LinkedIn : https://www.linkedin.com/in/axel-mauroy-5699509a/ 👉 Bertrand sur LinkedIn : https://www.linkedin.com/in/bertrandfabre/ ➕ Formation pour diminuer vos coûts BigQuery : https://datayoka.com/formations/diminuer-vos-cots-bigquery ➕ Formation SQL sur BigQuery : https://datayoka.com/formations/formation-de-sql-avec-bigquery-distance ➕ Coaching individuel SQL/BigQuery/FinOps : https://datayoka.com/formations/coaching-individuel-en-sql-sur-bigquery ➕ Newsletter : https://datayoka.com/newsletter ➕ Blog : https://datayoka.com/blog Lien vers l’article : https://cloud.google.com/blog/topics/google-cloud-next/welcome-to-google-cloud-next26?hl=en Chapitres 00:00 Introduction & contexte de Google Next 02:30 Comment lire les annonces Google (produit vs stratégie) 07:30 BigQuery, Lakehouse et Iceberg : les évolutions clés 15:00 Data Catalog et gouvernance : un rôle qui change 22:00 Agents vs chatbots : le vrai tournant 30:00 Impact pour les équipes data

    34 min
  3. Les Data Contract sont insuffisants !

    13 avr.

    Les Data Contract sont insuffisants !

    Et si les Data Contracts devenaient insuffisant pour garantir la qualité et la compréhension des données ? Dans l’épisode, nous, Axel et Bertrand, parlons de la différence entre la forme des données et leur signification métier. Pour matérialiser cela, le concept d’Open Semantic Interchange (OSI) est abordé. On explique pourquoi les Data Contracts ne suffisent plus à eux seuls, et comment la couche sémantique devient un élément clé pour rendre les données réellement exploitables comme dans un contexte d’IA et d’agents autonomes. On donne également de notre vision terrain : - Pourquoi la sémantique devient centrale - Les limites actuelles des approches existantes - Ce que cela change concrètement pour les Data Engineers Dans cet épisode, on parle de : - Data contracts vs sémantique métier (forme vs fond) - Open Semantic Interchange (OSI) - Limites des semantic layers actuelles - Interopérabilité et dépendance aux outils - Impact sur les architectures Data modernes - Enjeux pour les agents IA et l’automatisation Les ressources 👉 Axel sur LinkedIn : https://www.linkedin.com/in/axel-mauroy-5699509a/ 👉 Bertrand sur LinkedIn : https://www.linkedin.com/in/bertrandfabre/ ➕ Formation pour diminuer vos coûts BigQuery : https://datayoka.com/formations/diminuer-vos-cots-bigquery ➕ Formation SQL sur BigQuery : https://datayoka.com/formations/formation-de-sql-avec-bigquery-distance ➕ Coaching individuel SQL/BigQuery/FinOps : https://datayoka.com/formations/coaching-individuel-en-sql-sur-bigquery ➕ Newsletter : https://datayoka.com/newsletter ➕ Blog : https://datayoka.com/blog Lien vers l’article : https://www.snowflake.com/content/snowflake-site/global/en/blog/open-semantic-interchanges-specs-finalized 00:00 Introduction & contexte de l’épisode 01:10 Data contracts : pourquoi ça ne suffit pas 04:30 Forme vs fond : comprendre la limite actuelle 07:20 Introduction à l’Open Semantic Interchange (OSI) 10:40 Pourquoi la sémantique devient critique 13:30 Limites des semantic layers actuelles 16:00 Dépendance aux outils & fragmentation 18:30 Interopérabilité des données : le vrai enjeu 21:00 Impact sur les architectures data modernes 23:30 OSI et futur des agents IA 26:00 Ce que ça change pour les Data Engineers 28:30 Conclusion & takeaways

    19 min
  4. L’IA nous remplacera-t-il sur GCP ?

    1 avr.

    L’IA nous remplacera-t-il sur GCP ?

    ☝️ Dans cet épisode Bertrand et Axel passent en revue les dernières nouveautés Data de Google Cloud, en mettant l’accent sur l’arrivée massive de l’IA dans les outils comme BigQuery. Ils parlent du Conversational Analytics, qui permet de générer des requêtes SQL en langage naturel, ainsi que les limites liées aux hallucinations et à la validation métier. La discussion aborde également l’émergence des data products comme fondation pour les agents IA, capables d’automatiser des workflows et de générer des insights de manière autonome. Enfin, ils évoquent les impacts pour les Data Engineers, entre automatisation, amélioration de la qualité des données, observabilité accrue et évolution des pratiques vers plus de gouvernance et de structuration. Les ressources 👉 Axel sur LinkedIn : https://www.linkedin.com/in/axel-mauroy-5699509a/ 👉 Bertrand sur LinkedIn : https://www.linkedin.com/in/bertrandfabre/ ➕ Formation pour diminuer vos coûts BigQuery : https://datayoka.com/formations/diminuer-vos-cots-bigquery ➕ Formation SQL sur BigQuery : https://datayoka.com/formations/formation-de-sql-avec-bigquery-distance ➕ Coaching individuel SQL/BigQuery/FinOps : https://datayoka.com/formations/coaching-individuel-en-sql-sur-bigquery ➕ Newsletter : https://datayoka.com/newsletter ➕ Blog : https://datayoka.com/blog Lien vers l’article : https://cloud.google.com/blog/products/data-analytics/whats-new-with-google-data-cloud/ Chapitres 00:00 Introduction & présentation de l’épisode 01:14 Conversational Analytics dans BigQuery (IA + SQL) 07:30 Data Products & Agents IA 12:45 Importance des métadonnées & Data Governance 15:30 Mise à jour des modèles & RAG 16:30 Debug Airflow avec Gemini 17:45 Recommandations BigQuery & optimisation des coûts 18:50 Multi-cloud & gestion des identités (Microsoft Entra ID) 21:30 Comparaison AWS vs GCP (vision terrain) 23:10 Cloud SQL pour l’IA & Feature Store 25:30 JDBC BigQuery (connectivité Java) 27:00 Conclusion & fin de l’épisode

    27 min
  5. Spécial dbt avec Victor Vaneecloo !

    20 janv.

    Spécial dbt avec Victor Vaneecloo !

    ☝️ Dans cet épisode, Axel Mauroy et Bertrand Fabre accueillent Victor Vaneecloo, Data Engineer expérimenté, pour échanger sur ses retours d’expérience autour de dbt (data build tool) et de ses usages en Data Engineering. Les ressources 👉 Victor sur LinkedIn : https://www.linkedin.com/in/baptiste-wlodarczyk/ ➕ rateIndex : https://rateindex.streamlit.app/ ➕ Newsletter : https://vaneec.tech/ ➕ Site : https://vvaneecloo.ghost.io/ 👉 Axel sur LinkedIn : https://www.linkedin.com/in/axel-mauroy-5699509a/ 👉 Bertrand sur LinkedIn : https://www.linkedin.com/in/bertrandfabre/ ➕ Formation SQL sur BigQuery de 3 jours : https://datayoka.com/formations/formation-de-sql-avec-bigquery-distance ➕ Newsletter : https://datayoka.notion.site/1355071b... ➕ Blog : https://datayoka.com/blog Liens vers les articles 1️⃣ https://vvaneecloo.ghost.io/supercharging-dbt-performance-working-at-scale-trade-offs-1-3/ 2️⃣ https://vvaneecloo.ghost.io/supercharging-dbt-why-dbt-your-orchestration-layer-one-app-not-two-2-3/ 3️⃣ https://vvaneecloo.ghost.io/supercharging-dbt-lets-build-a-production-ready-platform-with-dbt-airflow-3-3/ Chapitres 00:00 Introduction et présentation de l’invité 01:13 Comprendre DBT : définition et enjeux 03:22 Défis et pièges dans l’utilisation de DBT 05:37 Passage à l’échelle de DBT : aspects techniques et organisationnels 09:38 Intégration des modèles incrémentaux dans DBT 11:54 Le rôle de la gouvernance en data engineering 15:34 Intégration de DBT avec les outils d’orchestration 19:39 L’intérêt des monorepos 21:53 Simplifier l’orchestration des données avec Airflow et DBT 23:55 Gouvernance et visibilité dans la gestion des données 25:20 Les avantages du micro-batching 27:09 Présentation d’Elementary pour l’observabilité 29:23 Quand utiliser un traitement complet ou incrémental 31:14 Projets et outils futurs en data engineering

    38 min

À propos

🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en Data et particulièrement en Data Engineering.