75 épisodes

Decideo est la communauté d’information et d’échange autour des outils et meilleures pratiques d’analyse de données (Machine Learning, Business Intelligence, Big Data, Science des Données, Entrepôts de données…). Véritable réseau social des professionnels de la donnée, Decideo est disponible en français www.decideo.fr et en espagnol www.decideo.com. Opinions d’experts, actualités, agenda, offres d’emploi, sont disponibles en ligne et sur les applications mobiles gratuites.

Decideo is the leading user community of Business Intelligence, Data Science, Big Data and Analytics professionals. Decideo is a real social network of data driven economy, available in French www.decideo.fr, and Spanish www.decideo.com. User stories, best practices, news, software reviews, agenda, job board… are available online, and through podcast and mobile applications.

Decideo - Data Science, Big Data, Intelligence Augmentée Philippe Nieuwbourg

- Technologies
- 5,0 • 3 notes

- 9 JUIL. 2024
#4.23 Gouvernance des données orientée métier, quelques prérequis

#4.23 Gouvernance des données orientée métier, quelques prérequis

Gouvernance des données : quelques prérequis organisationnels
Ayant l’opportunité d’accompagner de nombreuses entreprises dans la mise en place d’une gouvernance des données orientée métier, je voudrais partager avec vous aujourd’hui quelques prérequis organisationnels. Eloignés des habituels conseils sur les outils à déployer, je constate que les premiers pas à réaliser, et pas les plus faciles, sont liés aux personnes et à l’organisation. Trois questions !
Qui ?
Cela peut paraitre évident, mais dans la réalité, la nomination claire et affirmée de la personne chargée de coordonner la gouvernance des données dans l’entreprise n’est pas toujours une priorité. Or, sans bénéficier de l’onction de la direction générale sur le sujet, la personne en charge rencontra sur sa route toutes les embuches posées ça et là par les personnes qui ne voient pas dans leur intérêt qu’une gouvernance vienne fixer des bonnes pratiques là où ils préfèreraient que personne ne vienne mettre son nez.
Donc, la première des choses à faire est de désigner une personne, de lui donner un titre de poste qui reflète cette fonction de mise en place des actions liées à la gouvernance, et de communiquer en interne sur le sujet. Récemment, un client m’expliquait que sa direction générale ne souhaitait pas envoyer un email pour indiquer à tous les employés que cette personne était maintenant en charge de mettre en place une gouvernance des données. Je lui souhaite bonne chance dans sa mission quand même la direction générale ne lui donne pas ses lettres de crédit !
Où ?
La position de cette personne dans l’organisation est beaucoup plus importante que son titre. Je peux être nommé Data Governance Manager, mais si je suis au troisième sous-sol de l’organigramme dans une sous-direction, dépendant de la direction informatique… je n’aurai jamais l’oreille du comité de direction pour arbitrer les litiges qui apparaitront ; ni la crédibilité pour imposer aux métiers un code de conduite et des bonnes pratiques qui modifieront leurs habitudes.
Les Américains ont choisi de placer la gouvernance des données, et de l’intelligence artificielle, directement au sein du comité de direction, en créant le poste de CIGO — Chief Information Governance Officer. Pas toujours facile dans les pays francophones de réunir le budget, la personne compétente, et la volonté de la direction générale pour créer ce niveau de poste. Du fait de mon expérience, je déconseille toute organisation dans laquelle le responsable de la gouvernance des données serait à plus d’un échelon du comité de direction. Je déconseille également — à quelques rares exceptions près — que la gouvernance des données orientée métier soit rattachée à l’informatique. Si elle ne peut pas être autonome, elle devrait être rattachée à l’audit, à une direction data ou digital. Le plus important est que le supérieur hiérarchique du responsable de la gouvernance puisse directement porter les messages au comité de direction, et obtenir sa validation ou son arbitrage. Là encore, il faut organiser et communiquer clairement en interne sur l’organisation, afin qu’il n’y ait aucune ambiguïté.
Comment ?
Qu’il s’agisse de la charte de gouvernance des données, du code de conduite de l’IA, de la classification des données sensibles, du catalogue des data products, de l’ontologie d’entreprise… la gouvernance des données passe par la formalisation d’un certain nombre de livrables. Outre ses qualités relationnelles, le responsable de la gouvernance doit faire preuve d’un excellent formalisme. Rédiger, expliquer, illustrer, présenter… est son quotidien. Outre l’indispensable traitement de texte qu’il utilisera quotidiennement, il a besoin d’un outil de diffusion du contenu qu’il produit. Tout sauf des classeurs qui resteront dans une étagère
- 4 min
- 30 JUIN 2024
#4.22 La donnée sous tous les angles, avec Philippe Charpentier, CTO de NetApp

#4.22 La donnée sous tous les angles, avec Philippe Charpentier, CTO de NetApp

Avec Philippe Charpentier, le CTO de NetApp France, nous abordons le "contenant" des données. Contenant et contenu sont mutuellement indispensables, et ils répondent tous deux à des contraintes différentes :
- Les data sont enfin reconnues comme des actifs informationnelles de l'entreprise, il faut donc les protéger. Quels sont les enjeux actuels liés à la sécurité et à la confidentialité de ces données collectées par toutes les entreprises ?
- Peut-on et doit-on tout conserver ? L'IA semble nous dire que oui, les lois sont un peu moins d'accord. Comment arbitrer ?
- Un des éléments clef d'une stratégie data est aujourd'hui la gouvernance, comment s'assurer du cycle de vie et d'utilisation des données. Quid de la traçabilité de ces actifs tant immatériels.
- En 2024, sur quoi les entreprises doivent-elles porter leur attention ? Quels conseils leur donner en matière de data ?
- 16 min
- 26 JUIN 2024
#4.21 IBM se lance dans le data mesh avec Data Product Hub

#4.21 IBM se lance dans le data mesh avec Data Product Hub

IBM se lance à son tour dans le data mesh et les data products. L’entreprise l’a annoncé cette semaine, à l’occasion d’un séminaire de présentation de son offre appelée IBM Data Product Hub.
Cette tendance, le « shift left », consiste à transférer peu à peu la responsabilité des data aux utilisateurs métiers, et l’autonomie qui va avec.
Que vous appliquiez à la lettre les principes du data mesh ou si vous créez simplement des data products pour remplacer vos entrepôts de données centralisés, vous allez passer par la recherche et l’installation d’une plateforme de jeux de données. Amazon, SAP, Microsoft mais également des éditeurs spécialisés comme Zeena, Meta-Analysis ou Orkestra Data se sont lancés dans la course. Nous en avons déjà parlé ici.
Signe que le sujet du data mesh devient incontournable, IBM se lance à son tour.
Difficile de remettre en question ses habitudes de centralisation ! IBM annonce Data Product Hub, une plateforme, centralisée, pour stocker les data products.
Les sources de données sont des entrepôts de données ou des lakehouses – 57 connecteurs sont annoncés. Les jeux de données peuvent ensuite être analysés avec Tableau, Watsonx de IBM ou encore en Python via la librairie Pandas. Le plan de développement prévoit l’incorporation d’IA générative dans les prochaines versions, fin 2024 et début 2025.
Les consommateurs de données peuvent envoyer des requêtes, demandant à accéder aux données qui les intéressent. Les producteurs de données peuvent personnaliser les formats de génération des jeux de données, pour s’adapter aux besoins de leurs consommateurs.
La gouvernance de l’ensemble est bien sur facilitée. Si vous utilisez le catalogue de données IBM Knowledge Catalog, le Data Product Hub pourra s’y connecter. Une intégration avec Informatica est prévue fin 2024. Les jeux de données peuvent être générés et stockés, ou pourront être virtualisés à partir de fin 2024. La génération et la mise à jour des data products sera automatisée dans la version de début 2025.
Point très important, des data contracts et des niveaux de service peuvent être implémentés afin de gouverner les échanges de données. Un tableau de bord de suivi est même prévu. Ces contrats « lisibles par la machine » permettront dans la version de début 2025, de mettre en place un suivi automatisé de la gouvernance.
Le Data Product Hub de IBM sera disponible en version on-premise, à l’achat ou à la location, ainsi qu’en version SaaS hébergée dans le cloud IBM, ou dans d’autres grands clouds. Une version d’essai de 60 jours sera proposée par l’éditeur. La version perpétuelle sera proposée à partir de 250 000 $, ou en location à partir de 100 000 $ par an. Le Data Product Hub est un nouveau composant ajouté à la Data Fabric de IBM.
Préparant le futur, et la monétisation des données, IBM inclut une fonction de place de marché – on appelle également cela un Data Space. Mais dès maintenant, les consommateurs de données peuvent l’utiliser pour rechercher un jeu de données répondant à leurs besoins. Avec toutes les difficultés que l’on constate lors des tentatives de création de catalogues de données métier, on peut espérer que les catalogues de jeux de données seront adoptés, par les producteurs et les consommateurs, et seront alors correctement catalogués !
- 4 min
- 17 JUIN 2024
#4.20 Cinq ans de prison, si vous tentez de prévoir les décisions d'un juge

#4.20 Cinq ans de prison, si vous tentez de prévoir les décisions d'un juge

5 ans de prison, si vous tentez de prévoir la décision d’un juge
… mais comme toujours, les lignes jaunes sont contournables, pour peu que l’on prenne le temps de comprendre la loi.
Je vous parle ici d’une disposition liée à l’utilisation de l’intelligence artificielle dans le cadre de procédures judiciaires, tentant de prédire quel sera le comportement de tel ou tel juge dans une affaire, et pour les parties prenantes d’adapter leur stratégie.
Aux Etats-Unis, vous l’avez certainement vu dans de nombreuses séries criminelles, la technologie est utilisée pour analyser le profil de jurés, et tenter de prévoir leur positionnement, mais également pour analyser les décisions prises par chaque juge.
Rien de bien nouveau, car les prétoires ont toujours été le berceau de rumeurs et de bruits de couloir : untel donne plutôt raison aux femmes, untel n’aime pas les hispaniques, untel est contre l’autodéfense, etc.
Depuis toujours, les avocats ont imaginé améliorer leur stratégie, persuadés que les juges sont biaisés… tout simplement parce qu’ils sont humains. Un peu comme on commentait au lycée les professeurs qui nous étaient affectés en début d’année, les avocats commentent les juges qui leur sont affectés en début de procès.
Mais au fait, les juges qui portent des lunettes sont-ils plus sévères que ceux qui ont une bonne vue ? Et les juges aux cheveux blancs sont-ils plus tolérants avec les jeunes majeurs ? Quand aux juges qui conduisent une peugeot, sont-ils plus sévères que ceux qui conduisent une Audi, dans les cas de violence conjugale ?
Questions absurdes ? Peut-être. Mais si l’apprentissage machine nous apprenait le contraire. Que l’âge, la vue, la couleur des cheveux, la voiture qu’ils conduisent présentaient une corrélation avec leurs décisions. Si cela était mathématiquement prouvé, qu’est-ce que cela prouverait justement ? Que la justice est humaine, et donc biaisée. Dans ce cas, pourquoi ne pas l’analyser, et en utiliser les résultats ?
Peut-être mais avec des limites très claires. Une loi publiée en 2019 précise en effet que les données nominatives des juges ne peuvent pas être utilisées. Il est donc interdit de prévoir la décision d’un juge en particulier dans une affaire. Mais elle ne peut empêcher la prédiction basée sur des caractéristiques, tant que celles-ci ne permettent pas de remonter à la personne, au juge.
Alors, les juges qui se savent analysés gardent-ils le même comportement ? Où cela va-t-il les inciter modifier leurs décisions ? Les études menées depuis 2019 semblent montrer que globalement ces caractéristiques interviennent très peu dans les décisions. En revanche, les tribunaux, par le profil des affaires qu’ils jugent et leur volume, prennent clairement des sanctions différentes. Entre Bobigny et Versailles, les peines appliquées sont clairement différentes dans certains types d’affaires ?
En viendra-t-on à préférer une justice artificielle, un algorithme qui appliquerait la loi, rien que la loi, sans aucune humanité ? Un film espagnol, Justicia Artificial, devrait d’ailleurs sortir en septembre prochain sur le sujet.
- 3 min
- 11 JUIN 2024
#4.19 Données CSRD et ESG avec Nicolas Letavernier Workiva

#4.19 Données CSRD et ESG avec Nicolas Letavernier Workiva

Plongeons dans les nuances de la gestion de la data pour le reporting financier et ESG, avec une attention particulière sur l'impact récent de l'adoption de la directive CSRD. Cette réglementation, un moment charnière pour le reporting financier et de durabilité intégré, nécessite une assurance par une tierce partie et marque une évolution significative dans la manière dont les entreprises abordent la transparence et la fiabilité de leurs données.
Aujourd'hui, alors que les entreprises du monde entier se préparent à publier leurs premiers rapports CSRD obligatoires en 2025, l'impact du CSRD se révèle avoir une étendue bien au-delà de ceux qui sont soumis à la réglementation. Le CSRD a amorcé un virage mondial vers l'intégration assurée des rapports, les chefs d'entreprise reconnaissant la demande du marché pour des données contextuelles, transparentes et crédibles qui répondent aux attentes des parties prenantes.
En se concentrant sur les aspects pratiques et techniques, Workiva vise à clarifier comment les entreprises peuvent utiliser la data pour non seulement respecter les normes réglementaires, mais aussi pour piloter des décisions stratégiques qui favorisent un développement durable et éthique.
- 20 min
- 7 JUIN 2024
#4.18 Ethique et responsabilité de l'IA : et si la clef venait des graphes, avec Nicolas Rouyer, Neo4j

#4.18 Ethique et responsabilité de l'IA : et si la clef venait des graphes, avec Nicolas Rouyer, Neo4j

Alors que l’évolution de l’intelligence artificielle (IA) générative se développe à une vitesse exponentielle, bouleversant tous les pans de notre société, les législateurs, en Europe comme outre-Atlantique, doivent construire à marche forcée un cadre propice à un développement éthique et responsable de la technologie.
Ainsi, courant mars, le Parlement Européen a approuvé la législation sur l’IA générative qui garantit la sécurité et le respect des droits fondamentaux tout en encourageant l’innovation[1]. Celle-ci précise notamment que l'IA générative doit être aussi transparente que possible, en décrétant que les développeurs doivent démontrer précisément le fonctionnement du modèle et les données sur lesquelles il est entraîné. Par ailleurs, il y a quelques semaines, la CNIL publiait des recommandations quant au cadre juridique et aux bonnes pratiques pour le développement d'un système d'IA vertueux[2].
Dans un tel contexte, et à mesure que l’IA générative et les grands modèles de langage se généralisent, l'intégration de ces technologies dans les opérations des entreprises s'accompagne de deux dilemmes éthiques importants : une utilisation transparente et responsable ainsi que des résultats fiables. Les graphes de connaissances pourraient constituer un moyen d'améliorer la transparence et la confiance exigées par la loi européenne sur l'IA.
« L'IA générative progresse aujourd'hui à une vitesse jamais vue. Si l'on ne peut espérer que les décideurs politiques parviennent à suivre le rythme de cette innovation, l'absence d’un cadre et de normes garants d’un développement responsable de l’IA générative pourrait empêcher la société de prendre la pleine mesure du potentiel infini de cette technologie et de la mettre au service de l’intérêt général.
Pour que ces systèmes profitent à la société dans son ensemble, inspirent confiance et répondent aux normes réglementaires clés, il est essentiel de prendre en compte l'infrastructure technologique au sens large et, surtout, les systèmes de gestion de données. Les graphes de connaissances se distinguent comme la structuration de données essentielle qui améliore les solutions d'IA générative en apportant plus de précision, de transparence et d'explicabilité.
En effet, les graphes de connaissances permettent des interrogations, des déductions et des raisonnements sémantiques basés sur les relations. Ils jouent donc un rôle essentiel en agissant en complément de l'IA générative, en lui permettant de modéliser le raisonnement humain à plus grande échelle. Les graphes donnent un contexte plus profond aux données qui alimentent un modèle d’IA générative, ce qui permet l’explicabilité et la pertinence, pour éviter les hallucinations. De plus, grâce à la gestion fine des rôles et des droits sur les données de graphes, les organisations peuvent gérer au plus près la sécurité et la confidentialité. », analyse Nicolas Rouyer, Consultant Avant-ventes Senior chez Neo4j.
- 19 min