Big Data Hebdo

Vincent Heuschling, Alexander Dejanovski, Jérôme Mainaud, Nicolas Steinmetz

5.0 (1)
Technology
Updated Monthly

Toute l'actualité du Bigdata et surtout de sa communauté francophone dans un podcast.

Jul 3

Episode 230 : Greycat avec Francois Fouquet

Assembler une base SQL, une base time series et une base vecteurs pour bâtir un jumeau numérique ? François Fouquet appelle ça un « Frankenstein » — et il a passé dix ans à s'en débarrasser. Dans cet épisode du Big Data Hebdo, le cofondateur de DataThings (Luxembourg) présente à Vincent Heuschling GreyCat : une seule technologie qui fusionne graphe, séries temporelles et vecteurs, avec son propre langage et un déploiement tenant dans un unique binaire — jusqu'au Raspberry Pi. Au fil de la discussion, trois cas d'usage spectaculaires : la grille électrique luxembourgeoise et ses 300 milliards de data points, les réseaux d'eau des Ardennes, et un jumeau de workflow juridique pour la Cour de justice européenne. Le tout à l'ère des LLM, avec du what if qui fork le graphe pour simuler des scénarios, des skills Claude exposés en MCP, et même du vibe coding pour anticiper les effets géopolitiques sur les marchés. Une conviction forte en fil rouge : garder ce qu'on sait déjà modéliser, et réserver l'IA à ce qu'elle fait de mieux — combler l'inconnu. Chapitres 00:00:00 Introduction et présentation de François Fouquet (DataThings) 00:03:30 Pourquoi le graphe ? En finir avec les systèmes « Frankenstein » 00:08:30 Le « What If » : forker le graphe pour simuler des scénarios 00:13:00 GreyCat : pourquoi un langage dédié plutôt qu'une librairie Python 00:21:00 Un monolithe simple à déployer, jusqu'au Raspberry Pi 00:23:30 Copper : le jumeau numérique de la grille électrique luxembourgeoise 00:30:30 Architecture share-nothing et frugalité mémoire 00:35:00 Les réseaux d'eau des Ardennes : GreyCat comme SDK de digital twins 00:37:30 La Cour de justice européenne : knowledge graph, RAG et MCP 00:43:30 Vibe coding : anticiper les effets géopolitiques sur les marchés 00:50:30 World Models, IA et data : la vision pour les 5 ans à venir 00:55:30 GreyCat en open source et l'épisode démo à venir Le Bigdata Hebdo Le Bigdata Hebdo est le podcast Francophone de la Data et de l'IA. Retrouvez plus de 200 épisodes sur https://bigdatahebdo.com Rejoignez la communauté sur le Slack https://join.slack.com/t/bigdatahebdo/shared_invite/zt-a931fdhj-8ICbl9dbsZZbTcze61rr~Q
May 22

Episode 229 : La fin de la récréation dans l'IA

Dans cet épisode On décortique les vraies tensions de l'IA en 2026 : la surchauffe des modèles, l'inflation des commits, les hallucinations, et pourquoi la productivité 10x est un mythe. Au menu : AI Slop → Qualité réelle Les projets open source (curl, Linux) reconnaissent enfin que la qualité des contributions IA s'améliore. L'explosion des commits (275M/semaine) Plus de volume != plus de valeur. Le vrai coût? La vérification humaine (invisible dans les P&L). Hallucinations LLM Claude 3.5: 25% | GPT-4o: 89% | DeepSeek: 96% Même les meilleurs modèles hallucinent. La supervision humaine reste non-négociable. Modèles ouverts vs propriétaires Qwen 3.6 (35B paramètres, sur laptop) rivalise avec Opus 4.7. La géopolitique jouera. Innovations pour réduire les coûts TurboQuant (Google) + Sub-Quadratic Sparse Attention = inférence moins coûteuse. Dremio racheté par SAP (fermeture T3 2026) Impact: culture open source vs écosystème propriétaire = choc attendu. Bonne nouvelle pour Starburst. Chapitres 00:00:00 - Intro00:03:23 - La fin de la récréation dans l'IA00:36:08 - Dremio racheté par SAP00:39:00 - Semantic Layers Le BigdataHebdo Le BigdataHebdo est le podcast Francophone de la Data et de l'IA. Retrouvez plus de 200 épisodes https://bigdatahebdo.com Rejoignez la communauté sur le Slack https://join.slack.com/t/bigdatahebdo/shared_invite/zt-a931fdhj-8ICbl9dbsZZbTcze61rr~Q
May 11

Episode 228 : Enregistrement à Devoxx Paris 2026

Cet épisode spécial du Big Data Hebdo, enregistré à Devoxx Paris, on donne la parole aux auditeurs ! On parle des dernières news de chez Clever Cloud avec quentin Adam, On parle aussi de ce que l'IA change dans nos vies de développeurs, avec notament le tout "as code" Jérôme nous fait part de ses aventures dans le monde java avec Schematron pour parser des factures electroniques... Stéphane Walter comme a son habitude nous relate les conférences auxquelles il a pu assister à Devoxx, avec notament des choses intéressantes du côté des objects connectés ## Le BigdataHebdo Le BigdataHebdo est le podcast Francophone de la Data et de l'IA. Retrouvez plus de 200 épisodes https://bigdatahebdo.com Rejoignez la communauté sur le Slack https://join.slack.com/t/bigdatahebdo/shared_invite/zt-a931fdhj-8ICbl9dbsZZbTcze61rr~Q
Mar 18

Episode 227 : Starburst et Trino avec Victor Coustenoble

Dans cet épisode du Big Data Hebdo, Vincent Heuschling et Nicolas Steinmetz accueillent Victor Coustenoble pour une discussion sur Trino, Starburst. Découvrez l'historique, les cas d'usage, et les différenciateurs de ces moteurs SQL distribués, ainsi que leur impact sur la fédération de données et la gouvernance. ## au menu : Historique de Trino et PrestoCas d'usage de Trino dans le monde réelDifférenciateurs de Starburst et TrinoArchitecture et déploiement de TrinoFédération de données et Data MeshIntégration avec cloud et on-premFonctionnalités avancées de StarburstContributions open source et communauté ## Chapitres 00:00 Introduction au Big Data Hebdo 01:18 Présentation de Victor Coustenoble et de Starburst 03:49 Comprendre Trino et son historique 12:12 Fonctionnement de Trino et cas d'usage 23:17 Clients et déploiement de Trino et Starburst 25:47 Gestion des connexions et du cache dans Starburst 28:50 Fonctionnalités premium de Starburst 30:35 Développements et contributions à Trino 32:48 Évaluation des alternatives à Snowflake et BigQuery 34:11 Déploiement hybride et souveraineté des données 35:57 Évolution du concept de Data Mesh 38:59 Préparation à l'ère agentique et intégration des data products ## Le BigdataHebdo Le BigdataHebdo est le podcast Francophone de la Data et de l'IA. Retrouvez plus de 200 épisodes https://bigdatahebdo.com Rejoignez la communauté sur le Slack https://join.slack.com/t/bigdatahebdo/shared_invite/zt-a931fdhj-8ICbl9dbsZZbTcze61rr~Q
Feb 20

Episode 226 : Starlake.AI avec Hayssam Saleh

Vincent Heuschling reçoit Hayssam Saleh, créateur de **Starlake**, une plateforme data open source française née de la factorisation de projets clients depuis 2017-2018. L'épisode intervient dans un contexte de consolidation du marché (rachat de DBT et de SQLMesh par Fivetran), qui invite à challenger les solutions établies. Starlake se distingue par une approche **entièrement déclarative** (YAML + SQL natif, sans Jinja) couvrant toute la chaîne data engineering : ingestion, transformation, orchestration et qualité des données. L'outil s'appuie sur les moteurs sous-jacents des plateformes cibles (Snowflake, BigQuery, Spark) et génère automatiquement les DAGs pour les orchestrateurs du marché (Airflow, Dagster, Snowflake Tasks). Parmi les fonctionnalités marquantes : le **data branching** (branches de données à la manière de Git), l'inférence automatique de schémas YAML à partir de fichiers sources, un **transpiler SQL** multi-plateformes, et l'extraction du lineage depuis du SQL brut sans annotation. L'intégration récente de **DuckLake** ouvre la voie à des architectures on-premise souveraines à coût maîtrisé (sous 300 €/mois sur OVH, Scaleway, Clever Cloud). Le modèle économique repose sur le support, la formation, et le consulting : Starlake s'installe dans le cloud du client, avec mise à jour automatique gérée par l'équipe, sans accès aux données. **Chapitres** **00:00:27** – Introduction : consolidation du marché data (rachat de DBT et SQLMesh par Fivetran) et présentation de l'épisode **00:03:13** – Hayssam et la genèse de Starlake : parcours Spark/Scala, POC à 4 000 formats de fichiers (2017-2018) **00:09:51** – Architecture et philosophie : load, transform, orchestration unifiés en déclaratif (YAML + SQL natif, pas de Jinja) **00:00:18:18** – Starlake vs DBT : différences philosophiques, composabilité, fonctionnalités 100 % open source **00:00:22:20** – Data branching, Starlake Labs (pipe syntax, transpiler SQL, lineage) et expérience développeur (DuckDB local, UI point-and-click) **00:36:35** – Modèle open source et économique : licence Apache, support, formation, marketplace cloud souveraine **00:43:42** – DuckLake : alternative on-premise/cloud souverain (OVH, Scaleway, Clever Cloud) et comment contribuer / démarrer **Le BigdataHebdo** Le BigdataHebdo est le podcast Francophone de la Data et de l'IA. Retrouvez plus de 200 épisodes https://bigdatahebdo.com Rejoignez la communauté sur le Slack https://join.slack.com/t/bigdatahebdo/shared_invite/zt-a931fdhj-8ICbl9dbsZZbTcze61rr~Q
11/04/2025

Episode 225 : La guerre des agents SDK

Dans cet épisode du BigData Hebdo, Vincent Heuschling et Paul Peton explorent les dernières annonces d'OpenAI, d’Anthropic et de Google concernant les agents AI et leur monétisation. Au programme les SDK, les workflows, etc... **A retenir dans cet épisode** - Les dernières annonces d'OpenAI, Anthropic, et Google. - Les agents ont de l’argent, il commencent à être monétisés. - OpenAI vise à concurrencer Google et l'App Store d'Apple. - Les SDK sont essentiels pour le développement d'agents AI. - La capacité de prise de décision des agents est cruciale pour leur efficacité. - La tarification des gros modèles AI est démesurée. - Les navigateurs AI soulèvent des questions éthiques. - La connectivité des agents est un enjeu majeur. **Le BigdataHebdo** Le BigdataHebdo est le podcast Francophone de la Data et de l'IA. Retrouvez plus de 200 épisodes https://bigdatahebdo.com Rejoignez la communauté sur le Slack https://join.slack.com/t/bigdatahebdo/shared_invite/zt-a931fdhj-8ICbl9dbsZZbTcze61rr~Q
10/28/2025

Episode 224 : Données non structurées et modern OCR

Dans cet épisode on explore les défis et les évolutions du RAG (Retrieval-Augmented Generation) dans le contexte de l'IA. L'équipe du Bigdata Hebdo discute des promesses des éditeurs, des difficultés rencontrées par les utilisateurs, et des mécanismes d'IA nécessaires pour traiter efficacement les documents. On parle des enjeux liés à l'OCR, au chunking, et à l'importance des modèles d'embeddings. 00:00 Introduction 03:06 La promesse des éditeurs 08:05 Comprendre le RAG et son fonctionnement 11:06 Difficultés liées à l'OCR et à l'extraction de données 19:05 Recommandations pour l'optimisation des documents 28:46 Mistral Document AI et ses fonctionnalités 33:49 Chunking et gestion des documents 40:55 Fine-tuning des modèles d'embeddings 43:00 Formats de documents et leur pérennité 47:23 Conclusion et perspectives Notes et ressources https://bigdatahebdo.com/podcast/episode-224-donnees-non-structurees-et-modern-ocr
10/16/2025

Episode 223 : Aerospike

Dans cet épisode du Big Data Hebdo, Vincent Heuschling et Nicolas Wlodarczyk discutent des caractéristiques et des avantages de la base de données NoSQL Aerospike. Nicolas partage son parcours dans le domaine de l'IT et explique comment Aerospike se distingue par sa rapidité et sa scalabilité, et sa capacité à optimiser les infrastructures. Chapitres 00:00:00 Introduction 00:01:42 Présentation d'Aerospike 00:21:03 Use-Cases 00:27:25 Réduction de l'Infrastructure et Efficacité 00:30:22 Intégration et Interopérabilité avec d'autres Systèmes 00:41:53 Modèles de Consommation et Licensing 00:49:12 Transactions et cohérence 00:58:43 Ressources Notes et ressources https://bigdatahebdo.com/podcast/episode-223-aerospike

See All (232)

Toute l'actualité du Bigdata et surtout de sa communauté francophone dans un podcast.

Creator

Vincent Heuschling, Alexander Dejanovski, Jérôme Mainaud, Nicolas Steinmetz
Years Active

2014 - 2026
Episodes

232
Rating

Explicit
Show Website

Big Data Hebdo

Technology

Technology

Updated Weekly
Technology

Technology

Updated Weekly
Technology

Technology

Updated Jun 30
Technology

Technology

Updated Semiweekly
News

News

Updated Daily
Technology

Technology

Updated Daily
News

News

Updated Semiweekly

Big Data Hebdo

Episode 230 : Greycat avec Francois Fouquet

Episode 229 : La fin de la récréation dans l'IA

Episode 228 : Enregistrement à Devoxx Paris 2026

Episode 227 : Starburst et Trino avec Victor Coustenoble

Episode 226 : Starlake.AI avec Hayssam Saleh

Episode 225 : La guerre des agents SDK

Episode 224 : Données non structurées et modern OCR

Episode 223 : Aerospike

About

Information

You Might Also Like

Big Data Hebdo

Episodes

Episode 230 : Greycat avec Francois Fouquet

Episode 229 : La fin de la récréation dans l'IA

Episode 228 : Enregistrement à Devoxx Paris 2026

Episode 227 : Starburst et Trino avec Victor Coustenoble

Episode 226 : Starlake.AI avec Hayssam Saleh

Episode 225 : La guerre des agents SDK

Episode 224 : Données non structurées et modern OCR

Episode 223 : Aerospike

About

Information

You Might Also Like