Decideo - Data Science, Big Data, Intelligence Augmentée

Philippe Nieuwbourg

Decideo est la communauté d'information et d'échange autour des outils et meilleures pratiques d'analyse de données (Machine Learning, Business Intelligence, Big Data, Science des Données, Entrepôts de données…). Véritable réseau social des professionnels de la donnée, Decideo est disponible en français www.decideo.fr et en espagnol www.decideo.com. Opinions d'experts, actualités, agenda, offres d'emploi, sont disponibles en ligne et sur les applications mobiles gratuites. Decideo is the leading user community of Business Intelligence, Data Science, Big Data and Analytics professionals. Decideo is a real social network of data driven economy, available in French www.decideo.fr, and Spanish www.decideo.com. User stories, best practices, news, software reviews, agenda, job board… are available online, and through podcast and mobile applications.

  1. #6.4 Observabilité : attitude et outils du data steward

    -5 J

    #6.4 Observabilité : attitude et outils du data steward

    L'observabilité : attitude et outil du data steward Observer vient de la racine latine observare, qui signifie « noter ou considérer », mais aussi « garder en sécurité ou protéger ». Quelle belle proximité avec la fonction de data steward ! Or aujourd'hui le rôle du data steward n'est plus simplement de se préoccuper de qualité des données, mais réellement de mettre en œuvre l'observabilité. Plutôt qu'un steward, il est plutôt d'ailleurs un contrôleur aérien de vos data. Il ne pilote pas mais surveille et organisme le trafic et reporte les incidents. À sa disposition, des outils d'observabilité, à chaque version plus complets, et demain des agents qui lui remonteront l'information. Mais avant même les outils, c'est cette attitude d'observation qu'il mettra en œuvre. Observer n'est pas faire ! Il est crucial qu'il le comprenne. Le data steward n'est pas là pour faire à la place des data owners et data consumers, mais pour apporter une supervision transverse des principes de gouvernance. C'est l'observabilité, et elle s'appuie sur les outils du même nom. Observer l'ensemble de la chaine de traitement de la donnée La data observability vise à donner une vision continue et intelligente de la « santé » des données : leur fraîcheur, leur volume, leur distribution (anomalies), les changements de schéma, les dépendances (data lineage), et la capacité à diagnostiquer rapidement les racines des incidents. On peut voir la data observability comme l'évolution du monitoring de données (alertes statiques) vers un système plus proactif, piloté par des métadonnées et des techniques analytiques. Une donnée circule ; le data steward en a une vision globale, au travers des métadonnées d'usage collectées automatiquement : les flux prévus ont-ils été honorés, l'usage des outils de sécurisation (data platform) est-il respecté, la cohérence est-elle maintenue d'un bout à l'autre du système. Dans une architecture centralisée, mais surtout dans une architecture fédéralisée autour de data products, sa mission de supervision des processus est indispensable. Si votre data mesh prévoit la mise en place de data contracts, le data steward supervisera leur exécution, et remontera les incidents. Observer plusieurs dimensions Initialement focalisé sur la qualité des données, le data steward voit ses missions évoluer. La qualité en reste le cœur, mais il lui revient d'observer l'ensemble des circulations de données. Son attention débute lors de l'entrée des données dans le système d'information. Il se préoccupera alors de vérifier que les contraintes de sécurité et de conformité des données sont respectées. Lors de chaque mouvement d'une donnée, il surveillera la traçabilité (le lineage). En cas d'alimentation d'outils d'IA, il s'assurera du respect des usages de la charte et de la règlementation. Qualité, conformité, sécurité et usages sont les principales dimensions de son action. Travaillant au plus proche des métiers, le data steward et ses outils d'observabilité permettront de remonter la température de la plateforme de données au comité de gouvernance. En cas de dérive d'un des indicateurs, il est susceptible de faire remonter l'incident pour arbitrage. Sifflet, Soda.ai… des startups qui montent Montecarlo, Acceldata, Bigeye, Validio, Metaplane, Sifflet, Soda, figurent parmi les principaux acteurs spécialisés de l'observabilité des données. Les grandes plateformes telles que Collibra, Datadog, New Relic, Splunk, Elastic, proposent également des fonctions ad hoc. Peu de solutions open source semblent disponibles à l'exception de OpenTelemetry, mais qui nécessite de gros efforts de développement. De l'observabilité des données à celle de l'IA L'IA est au service de l'observabilité, au travers des agents que les outils envoient pour capter les informations tout au long de la chaine de la donnée. Mais l'observabilité est également au service de l'IA car, tout comme les données, les modèles et usages de l'IA doivent respecter des règles de gouvernance, et donc être observés. Les meilleurs outils d'observabilité incluront donc des fonctions de suivi des modèles, de détection des biais, des discriminations, des hallucinations, des usages non éthiques ou non conformes à la politique ESG de l'entreprise. L'IA sera également mise à contribution pour détecter les usages non officiels, le shadow AI, le shadow BI, etc. Du data au AI steward Cela amènera naturellement notre data steward à élargir ses compétences. Il est passé du monitoring de la qualité à l'observabilité globale. Il passera également de la donnée à l'intelligence artificielle. Le Data & AI Steward, une fonction indispensable pour implémenter de manière pratique, et contrôler l'application des principes de gouvernance. En résumé, voici quelques idées pour comprendre comment évoluera en 2026 le marché des outils et techniques d'observabilité : -              Consolidation des plateformes On observe une tendance à intégrer les capacités de data observability dans des plateformes plus larges (analytique, gouvernance, monitoring général). Mais les solutions spécialisées et interopérables proposent plus de fonctionnalités. -              Approche « AI-driven observability » Les outils intègrent des algorithmes pour automatiser la détection d'anomalies, prévoir les incidents ou suggérer des correctifs dans les modèles d'IA. -              Bring-Your-Own Storage / backends interchangeables Permettre aux utilisateurs d'utiliser leurs propres lacs de données ou entrepôts comme stockage (plutôt que d'imposer un stockage « shadow ») pour réduire les silos. Attention cependant à la création de nouveaux silos qui ne respecteraient pas les règles de sécurité, de conformité et de gouvernance. -              Observabilité « pipelined » (observabilité de pipelines métadonnées vs télémétries classiques) La surveillance non seulement des résultats (données) mais du comportement des pipelines eux-mêmes (durée, erreurs, retards) devient centrale. -              Focus sur les coûts, l'évolutivité et le « data observability FinOps » À mesure que les volumes de données augmentent, les organisations veulent maîtriser le coût de surveillance (stockage, calcul, alertes). -              Extension vers l'observabilité des modèles/IA/ML Comme les pipelines de données alimentent de plus en plus des modèles ML/IA, l'observabilité s'étend vers le suivi des performances des modèles, la dérive, etc.

    7 min
  2. #6.2 Raffineur de données

    23 FÉVR.

    #6.2 Raffineur de données

    Raffineur de données : un métier indispensable à l'IA Imaginez que vous ayez conçu le meilleur moteur de voiture jamais fabriqué ! Efficient, puissant, économe, silencieux, non polluant… il a toutes les qualités, et vous allez révolutionner le monde du transport grâce à votre invention. Seul bémol, il nécessite pour fonctionner un carburant beaucoup plus pur que ce que l'on trouve aujourd'hui dans nos raffineries. Et ce carburant est indispensable à votre moteur révolutionnaire. Sans lui, votre invention n'est qu'un assemblage inutile de pièces de métal. C'est ce qui arrive aujourd'hui à la majorité des projets d'IA en entreprise. Les modèles sont surpuissants, mais restent de perpétuels adolescents face à la pauvreté des données à partir desquelles vous les alimentez. Vous n'avez pas investi suffisamment dans le raffinage de vos données. « Mais nous avons un data lake depuis plusieurs années ! », me répondrez-vous. Oui, certes, mais appelez-le plutôt un data débarras ! Vous y déversez des données brutes, sans les indexer, sans les référencer, sans les qualifier, sans les améliorer, sans les organiser… tout cela parce qu'un vendeur de data lake vous a convaincu qu'il contenait un Monsieur Propre qui allait se charger de tout. Reconnaissez que vous avez été bien naïf sur ce sujet… Et vous continuez d'ailleurs puisque vous avez cru cet autre vendeur qui vous a convaincu que l'intelligence artificielle elle-même allait savoir créer ses propres métadonnées, et rendre votre débarras miraculeusement aussi propre et documenté qu'un entrepôt de pièces détachées Airbus ! La donnée brute est devenue abondante, bon marché et disponible. Mais la donnée structurée, connectée, contextualisée, documentée, expliquée, celle qui permet l'automatisation réelle, la prédiction et la prise de décision, reste rare. Forcément, elle est plus couteuse et complexe à produire à partir de la donnée brute. Et surtout elle nécessite un effort humain… ce qui n'est pas à la mode en ces temps d'automatisation à outrance. Poursuivant notre analogie automobile, la donnée brute, c'est le pétrole sorti des gisements. La donnée raffinée, c'est le carburant, produit par les raffineries. Et plus votre modèle est avancé, plus le raffinage doit être poussé. Essayez de mettre du pétrole brut dans une voiture… ça marchera beaucoup moins bien. Car l'essence que vous utilisez est raffinée. Elle subit des procédés complexes pour : augmenter son indice d'octane, éliminer le soufre et les impuretés, ajuster sa volatilité, et améliorer sa combustion. Le raffinage nécessaire à vos modèles d'IA est encore plus complexe que la transformation de pétrole brut en essence. En matière de données, c'est exactement la même chose. Utilisez des données brutes dans un modèle, et les résultats seront standards, pas exceptionnels. Vous serez à la portée d'hallucinations et de biais, non pas dus au modèle, mais à vos données. Raffinez vos données et vos modèles pourront enfin s'y appuyer pour produire des résultats exceptionnels. La valeur n'est plus dans le modèle. Elle est dans la capacité à raffiner la donnée. Le raffineur est donc le métier le plus créateur de valeur dans la chaine de production de l'intelligence artificielle. Qui est-il ? Quelles sont ses compétences ? Quelles qualités sont nécessaires ? Je ne tomberai pas dans le piège d'inventer un nouveau métier de Data Refiner. Ce n'est pas le sujet. Tout le monde peut être ou devenir raffineur de données. Mais voici les compétences nécessaires : -              Premièrement une connaissance du métier est indispensable. Le raffineur peut donc venir directement du métier, ou être un analyste d'affaires qui se spécialiserait dans l'analyse des besoins en données des modèles d'IA. On évitera un raffineur venant du département informatique, à moins qu'il ne connaisse parfaitement le métier. -              Une compréhension étendue du concept de métadonnées est nécessaire. Décrire, expliquer, documenter, formaliser, structurer, organiser… cela passe par la création d'une ontologie, d'une couche sémantique commune. Toutes ces compétences sont souvent détenues par des professionnels du document électronique. Documentalistes et archivistes auront ici une carte à jouer. Et les graphes de connaissance n'ont déjà plus de secrets pour eux. -              Et finalement une aptitude à écouter, faire émerger des non-dits, et retranscrire des besoins. Encore une fois, l'analyste métier est à l'aise avec ce mode de fonctionnement. Oreille externe, il cherche à comprendre, à poser les questions, à faire émerger les besoins. Exprimer les attentes de préparation des données brutes pour alimenter les modèles d'IA me semble donc un projet d'analyse métier. Les parties prenantes sont les informaticiens en charge du projet IA, les métiers demandeurs et futurs utilisateurs, le département juridique ou le DPO pour évoquer les sujets réglementaires. Et les livrables sont le projet permettant le raffinage des données brutes en données exploitables par les meilleurs modèles d'IA. C'est une spécialisation à intégrer dans une formation sur l'analyse métier !

    6 min
  3. #6.1 Valorisation et monétisation : quelles différences ?

    17 FÉVR.

    #6.1 Valorisation et monétisation : quelles différences ?

    Différences entre valorisation et monétisation Collectées, stockées et analysées depuis tant d'années, les données sont enfin adultes. Il est maintenant temps de leur permettre d'accéder à leur indépendance financière. La prochaine décennie sera celle de la valorisation et de la monétisation des données. Le phénomène a déjà commencé, il y a plusieurs années. Au travers des réseaux sociaux, nos données ont pris de la valeur, même si elle ne nous est pas toujours attribuée. Des règlements ont conduit, en particulier en Europe, à encadrer un peu l'usage de nos données personnelles. Et les techniques comptables et financières (IAS/IFRS) abordent maintenant le sujet de leur valorisation. Valoriser, c'est donner une valeur Établir la valeur d'une donnée, c'est lui adosser un chiffre et une unité de compte, qui permet de la comparer avec d'autres. L'unité de compte qui vient en premier à l'esprit c'est la monnaie, l'Euro, le dollar, le bitcoin… peu importe. Mais on pourrait en utiliser d'autres, en particulier pour mesurer des impacts sociaux ou environnementaux. Définir la valeur de quelque chose dépend fondamentalement du cadre d'analyse que l'on adopte. Il n'existe pas une définition universelle et intemporelle de la valeur, mais un ensemble de définitions cohérentes selon les disciplines, les acteurs et les usages. Une définition générale pourrait en être la suivante : l'importance relative attribuée à un objet, une action ou une ressource par un acteur donné, dans un contexte donné, au regard d'un objectif donné. En entreprise, la valeur d'un bien ou d'un service pourrait être définie de la manière suivante : la contribution mesurable ou appréciable d'un actif à l'atteinte d'objectifs économiques, opérationnels, stratégiques ou réglementaires, pour un ensemble d'acteurs identifiés. Combien valent vos données ? Combien vaut votre data warehouse ou votre data lake ? Comment les estimer, les valoriser ? C'est un sujet qui deviendra clef dans les prochaines années. Pourquoi ?  … parce que pour monétiser des données, je dois les valoriser ! Monétiser c'est transformer les data de centre de coût en centre de profit La donnée est un actif, immatériel, qui a une valeur comme nous venons de le définir. Peut-on transformer cette valeur en espèces sonnantes et trébuchantes ? Oui, cela s'appelle la monétisation. Je ne vais pas vous faire vendre votre fichier client, ou vos données personnelles ! Mais croire que seules ces données ont de la valeur pour quelqu'un c'est très réducteur.  Un centre commercial qui analyse ses visiteurs… quel pourcentage d'hommes et de femmes, combien ont un chapeau, des enfants, un parapluie, un sac en cuir ou un sac en plastique ? Un péage d'autoroutes qui analyse les marques et modèles de voiture qui entrent et sortent, la présence d'un coffre de toit, de vélos, d'une remorque ? Si ces analyses statistiques n'ont pas de valeur pour lui, elles en auront pour quelqu'un, qui sera prêt à les acheter ou les louer. L'open data était un premier pas, l'économie de la donnée est le second. Cela passe par des produits de données, des contrats associés, des espaces de données, et des places de marché (data products, data contracts, data spaces et data marketplaces). Nous étudierons tout cela. Monétiser c'est transformer la valorisation en réalité économique.

    4 min
  4. #5.10 Archives, documents, données... tant de points communs !

    02/09/2025

    #5.10 Archives, documents, données... tant de points communs !

    Margot Georges est consultante en archivistique. Elle est également productrice du podcast Archivistica, consacré à ce domaine. Archivistica est disponible sur toutes les applications de podcast et sur https://shows.acast.com/archivistica Données et documents, archives et sauvegardes, bases de données et GED... nos métiers (de l'information, et de la donnée) utilisent des termes différents. Mais donc la signification est souvent plus proche qu'on ne l'imagine. Les "professionnels de l'information" et les "professionnels des données" semblent ne pas se comprendre... mais chacun n'adopte-t-il pas une position exagérée. Quelles sont nos divergences et nos convergences. De mon point de vue, les professionnels du traitement des documents ont énormément de choses à apprendre aux professionnels de la donnée. A condition que ces derniers acceptent d'écouter, et parfois de se remettre en question. Mais l'inverse est également vrai. Les professionnels du document doivent accepter que le monde évolue, et que la transformation numérique impact le fondement de leur métier. Les professionnels de la donnée ont également des choses à partager avec eux. Je rêve d'une entreprise où gouvernance des données, archives, documentation, informatique... se rencontreront autour d'une même table pour définir une stratégie commune, au service de la valorisation du patrimoine informationnel. Et Margot souhaite elle-aussi que nos métiers dialoguent plus ensemble.

    36 min

Notes et avis

5
sur 5
3 notes

À propos

Decideo est la communauté d'information et d'échange autour des outils et meilleures pratiques d'analyse de données (Machine Learning, Business Intelligence, Big Data, Science des Données, Entrepôts de données…). Véritable réseau social des professionnels de la donnée, Decideo est disponible en français www.decideo.fr et en espagnol www.decideo.com. Opinions d'experts, actualités, agenda, offres d'emploi, sont disponibles en ligne et sur les applications mobiles gratuites. Decideo is the leading user community of Business Intelligence, Data Science, Big Data and Analytics professionals. Decideo is a real social network of data driven economy, available in French www.decideo.fr, and Spanish www.decideo.com. User stories, best practices, news, software reviews, agenda, job board… are available online, and through podcast and mobile applications.

Vous aimeriez peut‑être aussi