Big Data Hebdo

Vincent Heuschling, Alexander Dejanovski, Jérôme Mainaud, Nicolas Steinmetz

Toute l'actualité du Bigdata et surtout de sa communauté francophone dans un podcast.

  1. 9H AGO

    Episode 227 : Starburst et Trino avec Victor Coustenoble

    Dans cet épisode du Big Data Hebdo, Vincent Heuschling et Nicolas Steinmetz accueillent Victor Coustenoble pour une discussion sur Trino, Starburst. Découvrez l'historique, les cas d'usage, et les différenciateurs de ces moteurs SQL distribués, ainsi que leur impact sur la fédération de données et la gouvernance. ## au menu : Historique de Trino et PrestoCas d'usage de Trino dans le monde réelDifférenciateurs de Starburst et TrinoArchitecture et déploiement de TrinoFédération de données et Data MeshIntégration avec cloud et on-premFonctionnalités avancées de StarburstContributions open source et communauté ## Chapitres 00:00 Introduction au Big Data Hebdo 01:18 Présentation de Victor Coustenoble et de Starburst 03:49 Comprendre Trino et son historique 12:12 Fonctionnement de Trino et cas d'usage 23:17 Clients et déploiement de Trino et Starburst 25:47 Gestion des connexions et du cache dans Starburst 28:50 Fonctionnalités premium de Starburst 30:35 Développements et contributions à Trino 32:48 Évaluation des alternatives à Snowflake et BigQuery 34:11 Déploiement hybride et souveraineté des données 35:57 Évolution du concept de Data Mesh 38:59 Préparation à l'ère agentique et intégration des data products ## Le BigdataHebdo Le BigdataHebdo est le podcast Francophone de la Data et de l'IA. Retrouvez plus de 200 épisodes https://bigdatahebdo.com Rejoignez la communauté sur le Slack https://join.slack.com/t/bigdatahebdo/shared_invite/zt-a931fdhj-8ICbl9dbsZZbTcze61rr~Q

    46 min
  2. FEB 20

    Episode 226 : Starlake.AI avec Hayssam Saleh

    Vincent Heuschling reçoit Hayssam Saleh, créateur de **Starlake**, une plateforme data open source française née de la factorisation de projets clients depuis 2017-2018. L'épisode intervient dans un contexte de consolidation du marché (rachat de DBT et de SQLMesh par Fivetran), qui invite à challenger les solutions établies. Starlake se distingue par une approche **entièrement déclarative** (YAML + SQL natif, sans Jinja) couvrant toute la chaîne data engineering : ingestion, transformation, orchestration et qualité des données. L'outil s'appuie sur les moteurs sous-jacents des plateformes cibles (Snowflake, BigQuery, Spark) et génère automatiquement les DAGs pour les orchestrateurs du marché (Airflow, Dagster, Snowflake Tasks). Parmi les fonctionnalités marquantes : le **data branching** (branches de données à la manière de Git), l'inférence automatique de schémas YAML à partir de fichiers sources, un **transpiler SQL** multi-plateformes, et l'extraction du lineage depuis du SQL brut sans annotation. L'intégration récente de **DuckLake** ouvre la voie à des architectures on-premise souveraines à coût maîtrisé (sous 300 €/mois sur OVH, Scaleway, Clever Cloud). Le modèle économique repose sur le support, la formation, et le consulting : Starlake s'installe dans le cloud du client, avec mise à jour automatique gérée par l'équipe, sans accès aux données. **Chapitres** **00:00:27** – Introduction : consolidation du marché data (rachat de DBT et SQLMesh par Fivetran) et présentation de l'épisode **00:03:13** – Hayssam et la genèse de Starlake : parcours Spark/Scala, POC à 4 000 formats de fichiers (2017-2018) **00:09:51** – Architecture et philosophie : load, transform, orchestration unifiés en déclaratif (YAML + SQL natif, pas de Jinja) **00:00:18:18** – Starlake vs DBT : différences philosophiques, composabilité, fonctionnalités 100 % open source **00:00:22:20** – Data branching, Starlake Labs (pipe syntax, transpiler SQL, lineage) et expérience développeur (DuckDB local, UI point-and-click) **00:36:35** – Modèle open source et économique : licence Apache, support, formation, marketplace cloud souveraine **00:43:42** – DuckLake : alternative on-premise/cloud souverain (OVH, Scaleway, Clever Cloud) et comment contribuer / démarrer **Le BigdataHebdo** Le BigdataHebdo est le podcast Francophone de la Data et de l'IA. Retrouvez plus de 200 épisodes https://bigdatahebdo.com Rejoignez la communauté sur le Slack https://join.slack.com/t/bigdatahebdo/shared_invite/zt-a931fdhj-8ICbl9dbsZZbTcze61rr~Q

    56 min

About

Toute l'actualité du Bigdata et surtout de sa communauté francophone dans un podcast.

You Might Also Like