DataWatch

Bertrand Fabre

0,0 (0)
Technologies
Toutes les 2 semaines

🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en Data et particulièrement en Data Engineering.

27 mai

Snowflake Cortex avec Ferhat

Automatiser la lecture de JSON avec Cortex + dbt sur Snowflake Dans cet épisode de DataWatch, on plonge dans un use case ultra concret de Data Engineering moderne : comment automatiser le flatten de JSON complexes dans Snowflake grâce à Cortex Code et dbt. Avec Ferhat Aouaghzene, consultant spécialisé Snowflake & dbt, on décortique une problématique que beaucoup d’équipes data rencontrent aujourd’hui : gérer des données semi-structurées massives issues d’API, avec des schémas imbriqués, des tableaux dans des tableaux et des pipelines qui deviennent vite ingérables à maintenir à la main. Plutôt que d’utiliser un LLM externe, Ferhat montre comment exploiter Cortex Code directement dans Snowflake pour : → Détecter automatiquement les colonnes VARIANT → Générer les flatten SQL → Créer toute l’arborescence dbt → Générer les modèles staging / intermediate / marts → Produire les YAML et les tests dbt → Compiler et exécuter le projet automatiquement Mais l’épisode va beaucoup plus loin qu’une simple démo technique. On parle aussi : • De l’avenir du métier de Data Engineer à l’ère des agents IA • Des limites des LLM dans des environnements critiques • D’idempotence et de qualité logicielle • De gouvernance data • De sécurité et de contrôle d’accès dans Snowflake • Et surtout de la bonne manière d’utiliser l’IA sans tomber dans le “vibe coding” Un épisode très concret pour comprendre comment l’IA peut réellement augmenter les équipes data quand elle est correctement cadrée. 👇 Dites-nous en commentaire : Est-ce que vous utilisez déjà des agents IA dans vos pipelines data ? Les ressources 👉 Ferhat sur Linkedin : https://www.linkedin.com/in/ferhat-aouaghzene-23a895217/ ➕ Medium : https://medium.com/@faouaghzene ➕ Github : https://github.com/FerAou/Snow_tips/tree/main/json_to_dbt 👉 Axel sur LinkedIn : https://www.linkedin.com/in/axel-mauroy-5699509a/ 👉 Bertrand sur LinkedIn : https://www.linkedin.com/in/bertrandfabre/ ➕ Insights : https://datayoka.com/insights ➕ Newsletter : https://datayoka.com/newsletter ➕ Formations : https://datayoka.com/formations ➕ Coaching individuel SQL/BigQuery/FinOps : https://datayoka.com/coaching Chapitres 00:00 Introduction & présentation de Ferhat 02:17 Le problème des JSON complexes dans Snowflake 06:13 Démo du skill Cortex Code pour générer un projet dbt 14:17 Snowflake + dbt Core + Cortex : comment tout s’intègre 18:04 Idempotence, automatisation et qualité des pipelines IA 31:55 L’avenir du métier de Data Engineer avec les agents IA #dataengineering #snowflake #dbt #cortex #genai #llm #datawatch

41 min
28 avr.

Google Next'26

Dans cet épisode, on revient à chaud sur Google Cloud Next’26, avec un filtre très clair : qu’est-ce qui compte vraiment pour les équipes data. Plutôt que d’énumérer les centaines d’annonces, on prend le temps de décortiquer les signaux forts. BigQuery continue de s’étendre, le Lakehouse se structure autour d’Iceberg, la gouvernance des données prend une nouvelle dimension… mais surtout, un changement de paradigme se dessine. Google ne pousse plus seulement de la GenAI “cosmétique”. La vraie bascule, c’est l’arrivée des agents. On parle ici de systèmes capables de comprendre un contexte, d’utiliser des outils, d’interagir avec les données et surtout d’agir. Et ça change tout : la qualité des données, leur accessibilité et leur gouvernance ne sont plus des sujets secondaires, ils deviennent critiques. On prend aussi du recul sur ce qui est réellement disponible aujourd’hui vs ce qui relève encore de la stratégie produit. Parce que derrière les annonces, il y a une direction très nette : une plateforme data pensée pour orchestrer des agents, pas juste alimenter des dashboards. Un épisode pour comprendre où va l’écosystème data côté Google, sans hype inutile, mais sans passer à côté des vraies évolutions. Les ressources 👉 Axel sur LinkedIn : https://www.linkedin.com/in/axel-mauroy-5699509a/ 👉 Bertrand sur LinkedIn : https://www.linkedin.com/in/bertrandfabre/ ➕ Formation pour diminuer vos coûts BigQuery : https://datayoka.com/formations/diminuer-vos-cots-bigquery ➕ Formation SQL sur BigQuery : https://datayoka.com/formations/formation-de-sql-avec-bigquery-distance ➕ Coaching individuel SQL/BigQuery/FinOps : https://datayoka.com/formations/coaching-individuel-en-sql-sur-bigquery ➕ Newsletter : https://datayoka.com/newsletter ➕ Blog : https://datayoka.com/blog Lien vers l’article : https://cloud.google.com/blog/topics/google-cloud-next/welcome-to-google-cloud-next26?hl=en Chapitres 00:00 Introduction & contexte de Google Next 02:30 Comment lire les annonces Google (produit vs stratégie) 07:30 BigQuery, Lakehouse et Iceberg : les évolutions clés 15:00 Data Catalog et gouvernance : un rôle qui change 22:00 Agents vs chatbots : le vrai tournant 30:00 Impact pour les équipes data

34 min
13 avr.

Les Data Contract sont insuffisants !

Et si les Data Contracts devenaient insuffisant pour garantir la qualité et la compréhension des données ? Dans l’épisode, nous, Axel et Bertrand, parlons de la différence entre la forme des données et leur signification métier. Pour matérialiser cela, le concept d’Open Semantic Interchange (OSI) est abordé. On explique pourquoi les Data Contracts ne suffisent plus à eux seuls, et comment la couche sémantique devient un élément clé pour rendre les données réellement exploitables comme dans un contexte d’IA et d’agents autonomes. On donne également de notre vision terrain : - Pourquoi la sémantique devient centrale - Les limites actuelles des approches existantes - Ce que cela change concrètement pour les Data Engineers Dans cet épisode, on parle de : - Data contracts vs sémantique métier (forme vs fond) - Open Semantic Interchange (OSI) - Limites des semantic layers actuelles - Interopérabilité et dépendance aux outils - Impact sur les architectures Data modernes - Enjeux pour les agents IA et l’automatisation Les ressources 👉 Axel sur LinkedIn : https://www.linkedin.com/in/axel-mauroy-5699509a/ 👉 Bertrand sur LinkedIn : https://www.linkedin.com/in/bertrandfabre/ ➕ Formation pour diminuer vos coûts BigQuery : https://datayoka.com/formations/diminuer-vos-cots-bigquery ➕ Formation SQL sur BigQuery : https://datayoka.com/formations/formation-de-sql-avec-bigquery-distance ➕ Coaching individuel SQL/BigQuery/FinOps : https://datayoka.com/formations/coaching-individuel-en-sql-sur-bigquery ➕ Newsletter : https://datayoka.com/newsletter ➕ Blog : https://datayoka.com/blog Lien vers l’article : https://www.snowflake.com/content/snowflake-site/global/en/blog/open-semantic-interchanges-specs-finalized 00:00 Introduction & contexte de l’épisode 01:10 Data contracts : pourquoi ça ne suffit pas 04:30 Forme vs fond : comprendre la limite actuelle 07:20 Introduction à l’Open Semantic Interchange (OSI) 10:40 Pourquoi la sémantique devient critique 13:30 Limites des semantic layers actuelles 16:00 Dépendance aux outils & fragmentation 18:30 Interopérabilité des données : le vrai enjeu 21:00 Impact sur les architectures data modernes 23:30 OSI et futur des agents IA 26:00 Ce que ça change pour les Data Engineers 28:30 Conclusion & takeaways

19 min
1 avr.

L’IA nous remplacera-t-il sur GCP ?

☝️ Dans cet épisode Bertrand et Axel passent en revue les dernières nouveautés Data de Google Cloud, en mettant l’accent sur l’arrivée massive de l’IA dans les outils comme BigQuery. Ils parlent du Conversational Analytics, qui permet de générer des requêtes SQL en langage naturel, ainsi que les limites liées aux hallucinations et à la validation métier. La discussion aborde également l’émergence des data products comme fondation pour les agents IA, capables d’automatiser des workflows et de générer des insights de manière autonome. Enfin, ils évoquent les impacts pour les Data Engineers, entre automatisation, amélioration de la qualité des données, observabilité accrue et évolution des pratiques vers plus de gouvernance et de structuration. Les ressources 👉 Axel sur LinkedIn : https://www.linkedin.com/in/axel-mauroy-5699509a/ 👉 Bertrand sur LinkedIn : https://www.linkedin.com/in/bertrandfabre/ ➕ Formation pour diminuer vos coûts BigQuery : https://datayoka.com/formations/diminuer-vos-cots-bigquery ➕ Formation SQL sur BigQuery : https://datayoka.com/formations/formation-de-sql-avec-bigquery-distance ➕ Coaching individuel SQL/BigQuery/FinOps : https://datayoka.com/formations/coaching-individuel-en-sql-sur-bigquery ➕ Newsletter : https://datayoka.com/newsletter ➕ Blog : https://datayoka.com/blog Lien vers l’article : https://cloud.google.com/blog/products/data-analytics/whats-new-with-google-data-cloud/ Chapitres 00:00 Introduction & présentation de l’épisode 01:14 Conversational Analytics dans BigQuery (IA + SQL) 07:30 Data Products & Agents IA 12:45 Importance des métadonnées & Data Governance 15:30 Mise à jour des modèles & RAG 16:30 Debug Airflow avec Gemini 17:45 Recommandations BigQuery & optimisation des coûts 18:50 Multi-cloud & gestion des identités (Microsoft Entra ID) 21:30 Comparaison AWS vs GCP (vision terrain) 23:10 Cloud SQL pour l’IA & Feature Store 25:30 JDBC BigQuery (connectivité Java) 27:00 Conclusion & fin de l’épisode

27 min
7 mars

Spark est-il devenu inutile ?

☝️ Dans cet épisode Bertrand et Axel discutent des tendances actuelles en matière de Data, en se concentrant sur une vidéo YouTube d’interview de Daniel Beach. Ils explorent le retour au vertical scaling, l'état du marché des outils de data, et l'évolution du rôle de Data Engineer à l'ère de l'IA. La conversation aborde également les défis liés au choix des outils dans un environnement saturé et les implications des modèles de Data Modeling traditionnels face à l'émergence de concepts comme le Data Mesh. Les ressources 👉 Axel sur LinkedIn : https://www.linkedin.com/in/axel-mauroy-5699509a/ 👉 Bertrand sur LinkedIn : https://www.linkedin.com/in/bertrandfabre/ ➕ Formation SQL sur BigQuery de 3 jours : https://datayoka.com/formations/formation-de-sql-avec-bigquery-distance ➕ Newsletter : https://datayoka.notion.site/1355071b... ➕ Blog : https://datayoka.com/blog Lien vers l’article : https://www.confessionsofadataguy.com/building-credible-data-systems-hoyt-emerson-on-the-full-data-stack/ Chapitres 00:00 - Introduction à l’épisode : tendances data et IA en 2026 00:27 - Retour au vertical scaling 08:02 - Impact de l’IA sur la gestion de projets Data en startup et grandes structures 13:52 - Vision d’un Data Engineer à l’ère de l’IA 23:27 - L’impact sur les modèles de Data Modeling 27:04 - Vers une transformation complète des pratiques Data avec l’IA

26 min
20 janv.

Spécial dbt avec Victor Vaneecloo !

☝️ Dans cet épisode, Axel Mauroy et Bertrand Fabre accueillent Victor Vaneecloo, Data Engineer expérimenté, pour échanger sur ses retours d’expérience autour de dbt (data build tool) et de ses usages en Data Engineering. Les ressources 👉 Victor sur LinkedIn : https://www.linkedin.com/in/baptiste-wlodarczyk/ ➕ rateIndex : https://rateindex.streamlit.app/ ➕ Newsletter : https://vaneec.tech/ ➕ Site : https://vvaneecloo.ghost.io/ 👉 Axel sur LinkedIn : https://www.linkedin.com/in/axel-mauroy-5699509a/ 👉 Bertrand sur LinkedIn : https://www.linkedin.com/in/bertrandfabre/ ➕ Formation SQL sur BigQuery de 3 jours : https://datayoka.com/formations/formation-de-sql-avec-bigquery-distance ➕ Newsletter : https://datayoka.notion.site/1355071b... ➕ Blog : https://datayoka.com/blog Liens vers les articles 1️⃣ https://vvaneecloo.ghost.io/supercharging-dbt-performance-working-at-scale-trade-offs-1-3/ 2️⃣ https://vvaneecloo.ghost.io/supercharging-dbt-why-dbt-your-orchestration-layer-one-app-not-two-2-3/ 3️⃣ https://vvaneecloo.ghost.io/supercharging-dbt-lets-build-a-production-ready-platform-with-dbt-airflow-3-3/ Chapitres 00:00 Introduction et présentation de l’invité 01:13 Comprendre DBT : définition et enjeux 03:22 Défis et pièges dans l’utilisation de DBT 05:37 Passage à l’échelle de DBT : aspects techniques et organisationnels 09:38 Intégration des modèles incrémentaux dans DBT 11:54 Le rôle de la gouvernance en data engineering 15:34 Intégration de DBT avec les outils d’orchestration 19:39 L’intérêt des monorepos 21:53 Simplifier l’orchestration des données avec Airflow et DBT 23:55 Gouvernance et visibilité dans la gestion des données 25:20 Les avantages du micro-batching 27:09 Présentation d’Elementary pour l’observabilité 29:23 Quand utiliser un traitement complet ou incrémental 31:14 Projets et outils futurs en data engineering

38 min
7 janv.

Databricks utilise Excel comme data source

☝️ Dans cet épisode, Axel Mauroy et Bertrand Fabre explorent les dernières avancées en ingénierie des données et en intelligence artificielle. Ils discutent des nouvelles fonctionnalités d'AWS S3 pour le stockage de vecteurs, de l'IDE Antigravity de Google, et de l'intégration d'Excel avec Databricks. Les hôtes partagent leurs réflexions sur l'impact de ces technologies sur le secteur et les défis potentiels qu'elles posent. 👉 Axel sur LinkedIn : https://www.linkedin.com/in/axel-mauroy-5699509a/ 👉 Bertrand sur LinkedIn : https://www.linkedin.com/in/bertrandfabre/ ➕ Newsletter de Bertrand : https://datayoka.notion.site/1355071ba1ca80189240d83808f5994d ➕ Blog de Bertrand : https://datayoka.com/blog 00:00:00 Introduction et présentation 00:03:00 AWS S3 et le stockage de vecteurs 00:09:00 Google Antigravity et l'expérience IA 00:15:00 Databricks et l'Intégration d'Excel 00:21:00 Conclusion et perspectives

24 min
2025-12-23

Décathlon déploie Polars en prod !

☝️ Dans cet épisode, Bertrand et Axel discutent de l'utilisation de Polars chez Decathlon, de la comparaison entre Polars et Spark, de Lance comme nouveau format de données, et de l'impact de l'IA sur l'observabilité des données avec Monte Carlo. Ils explorent comment ces outils et technologies peuvent optimiser le traitement des données et améliorer l'efficacité des équipes data. 👉 Axel sur LinkedIn : https://www.linkedin.com/in/axel-mauroy-5699509a/ 👉 Bertrand sur LinkedIn : https://www.linkedin.com/in/bertrandfabre/ ➕ Newsletter de Bertrand : https://datayoka.notion.site/1355071ba1ca80189240d83808f5994d ➕ Blog de Bertrand : https://datayoka.com/blog 00:00 Introduction et présentation des sujets 00:58 Utilisation de Polars chez Décathlon 08:48 Comparaison entre Polars et Spark 16:33 Lance : un nouveau format de données 27:54 Monte Carlo et l'IA pour l'observabilité

39 min

Tout afficher (55)

🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en Data et particulièrement en Data Engineering.

Créateur

Bertrand Fabre
Années d’activité

2024 - 2026
Épisodes

55
Classement

Tout public
Site Web de l’émission

DataWatch

DataWatch

Snowflake Cortex avec Ferhat

Google Next'26

Les Data Contract sont insuffisants !

L’IA nous remplacera-t-il sur GCP ?

Spark est-il devenu inutile ?

Spécial dbt avec Victor Vaneecloo !

Databricks utilise Excel comme data source

Décathlon déploie Polars en prod !

À propos

Informations

DataWatch

Épisodes

Snowflake Cortex avec Ferhat

Google Next'26

Les Data Contract sont insuffisants !

L’IA nous remplacera-t-il sur GCP ?

Spark est-il devenu inutile ?

Spécial dbt avec Victor Vaneecloo !

Databricks utilise Excel comme data source

Décathlon déploie Polars en prod !

À propos

Informations