72 episodes

Decideo est la communauté d’information et d’échange autour des outils et meilleures pratiques d’analyse de données (Machine Learning, Business Intelligence, Big Data, Science des Données, Entrepôts de données…). Véritable réseau social des professionnels de la donnée, Decideo est disponible en français www.decideo.fr et en espagnol www.decideo.com. Opinions d’experts, actualités, agenda, offres d’emploi, sont disponibles en ligne et sur les applications mobiles gratuites.

Decideo is the leading user community of Business Intelligence, Data Science, Big Data and Analytics professionals. Decideo is a real social network of data driven economy, available in French www.decideo.fr, and Spanish www.decideo.com. User stories, best practices, news, software reviews, agenda, job board… are available online, and through podcast and mobile applications.

Decideo - Data Science, Big Data, Intelligence Augmentée Philippe Nieuwbourg

- Technology

- 17 JUN 2024
#4.20 Cinq ans de prison, si vous tentez de prévoir les décisions d'un juge

#4.20 Cinq ans de prison, si vous tentez de prévoir les décisions d'un juge

5 ans de prison, si vous tentez de prévoir la décision d’un juge
… mais comme toujours, les lignes jaunes sont contournables, pour peu que l’on prenne le temps de comprendre la loi.
Je vous parle ici d’une disposition liée à l’utilisation de l’intelligence artificielle dans le cadre de procédures judiciaires, tentant de prédire quel sera le comportement de tel ou tel juge dans une affaire, et pour les parties prenantes d’adapter leur stratégie.
Aux Etats-Unis, vous l’avez certainement vu dans de nombreuses séries criminelles, la technologie est utilisée pour analyser le profil de jurés, et tenter de prévoir leur positionnement, mais également pour analyser les décisions prises par chaque juge.
Rien de bien nouveau, car les prétoires ont toujours été le berceau de rumeurs et de bruits de couloir : untel donne plutôt raison aux femmes, untel n’aime pas les hispaniques, untel est contre l’autodéfense, etc.
Depuis toujours, les avocats ont imaginé améliorer leur stratégie, persuadés que les juges sont biaisés… tout simplement parce qu’ils sont humains. Un peu comme on commentait au lycée les professeurs qui nous étaient affectés en début d’année, les avocats commentent les juges qui leur sont affectés en début de procès.
Mais au fait, les juges qui portent des lunettes sont-ils plus sévères que ceux qui ont une bonne vue ? Et les juges aux cheveux blancs sont-ils plus tolérants avec les jeunes majeurs ? Quand aux juges qui conduisent une peugeot, sont-ils plus sévères que ceux qui conduisent une Audi, dans les cas de violence conjugale ?
Questions absurdes ? Peut-être. Mais si l’apprentissage machine nous apprenait le contraire. Que l’âge, la vue, la couleur des cheveux, la voiture qu’ils conduisent présentaient une corrélation avec leurs décisions. Si cela était mathématiquement prouvé, qu’est-ce que cela prouverait justement ? Que la justice est humaine, et donc biaisée. Dans ce cas, pourquoi ne pas l’analyser, et en utiliser les résultats ?
Peut-être mais avec des limites très claires. Une loi publiée en 2019 précise en effet que les données nominatives des juges ne peuvent pas être utilisées. Il est donc interdit de prévoir la décision d’un juge en particulier dans une affaire. Mais elle ne peut empêcher la prédiction basée sur des caractéristiques, tant que celles-ci ne permettent pas de remonter à la personne, au juge.
Alors, les juges qui se savent analysés gardent-ils le même comportement ? Où cela va-t-il les inciter modifier leurs décisions ? Les études menées depuis 2019 semblent montrer que globalement ces caractéristiques interviennent très peu dans les décisions. En revanche, les tribunaux, par le profil des affaires qu’ils jugent et leur volume, prennent clairement des sanctions différentes. Entre Bobigny et Versailles, les peines appliquées sont clairement différentes dans certains types d’affaires ?
En viendra-t-on à préférer une justice artificielle, un algorithme qui appliquerait la loi, rien que la loi, sans aucune humanité ? Un film espagnol, Justicia Artificial, devrait d’ailleurs sortir en septembre prochain sur le sujet.
- 3 min
- 11 JUN 2024
#4.19 Données CSRD et ESG avec Nicolas Letavernier Workiva

#4.19 Données CSRD et ESG avec Nicolas Letavernier Workiva

Plongeons dans les nuances de la gestion de la data pour le reporting financier et ESG, avec une attention particulière sur l'impact récent de l'adoption de la directive CSRD. Cette réglementation, un moment charnière pour le reporting financier et de durabilité intégré, nécessite une assurance par une tierce partie et marque une évolution significative dans la manière dont les entreprises abordent la transparence et la fiabilité de leurs données.
Aujourd'hui, alors que les entreprises du monde entier se préparent à publier leurs premiers rapports CSRD obligatoires en 2025, l'impact du CSRD se révèle avoir une étendue bien au-delà de ceux qui sont soumis à la réglementation. Le CSRD a amorcé un virage mondial vers l'intégration assurée des rapports, les chefs d'entreprise reconnaissant la demande du marché pour des données contextuelles, transparentes et crédibles qui répondent aux attentes des parties prenantes.
En se concentrant sur les aspects pratiques et techniques, Workiva vise à clarifier comment les entreprises peuvent utiliser la data pour non seulement respecter les normes réglementaires, mais aussi pour piloter des décisions stratégiques qui favorisent un développement durable et éthique.
- 20 min
- 7 JUN 2024
#4.18 Ethique et responsabilité de l'IA : et si la clef venait des graphes, avec Nicolas Rouyer, Neo4j

#4.18 Ethique et responsabilité de l'IA : et si la clef venait des graphes, avec Nicolas Rouyer, Neo4j

Alors que l’évolution de l’intelligence artificielle (IA) générative se développe à une vitesse exponentielle, bouleversant tous les pans de notre société, les législateurs, en Europe comme outre-Atlantique, doivent construire à marche forcée un cadre propice à un développement éthique et responsable de la technologie.
Ainsi, courant mars, le Parlement Européen a approuvé la législation sur l’IA générative qui garantit la sécurité et le respect des droits fondamentaux tout en encourageant l’innovation[1]. Celle-ci précise notamment que l'IA générative doit être aussi transparente que possible, en décrétant que les développeurs doivent démontrer précisément le fonctionnement du modèle et les données sur lesquelles il est entraîné. Par ailleurs, il y a quelques semaines, la CNIL publiait des recommandations quant au cadre juridique et aux bonnes pratiques pour le développement d'un système d'IA vertueux[2].
Dans un tel contexte, et à mesure que l’IA générative et les grands modèles de langage se généralisent, l'intégration de ces technologies dans les opérations des entreprises s'accompagne de deux dilemmes éthiques importants : une utilisation transparente et responsable ainsi que des résultats fiables. Les graphes de connaissances pourraient constituer un moyen d'améliorer la transparence et la confiance exigées par la loi européenne sur l'IA.
« L'IA générative progresse aujourd'hui à une vitesse jamais vue. Si l'on ne peut espérer que les décideurs politiques parviennent à suivre le rythme de cette innovation, l'absence d’un cadre et de normes garants d’un développement responsable de l’IA générative pourrait empêcher la société de prendre la pleine mesure du potentiel infini de cette technologie et de la mettre au service de l’intérêt général.
Pour que ces systèmes profitent à la société dans son ensemble, inspirent confiance et répondent aux normes réglementaires clés, il est essentiel de prendre en compte l'infrastructure technologique au sens large et, surtout, les systèmes de gestion de données. Les graphes de connaissances se distinguent comme la structuration de données essentielle qui améliore les solutions d'IA générative en apportant plus de précision, de transparence et d'explicabilité.
En effet, les graphes de connaissances permettent des interrogations, des déductions et des raisonnements sémantiques basés sur les relations. Ils jouent donc un rôle essentiel en agissant en complément de l'IA générative, en lui permettant de modéliser le raisonnement humain à plus grande échelle. Les graphes donnent un contexte plus profond aux données qui alimentent un modèle d’IA générative, ce qui permet l’explicabilité et la pertinence, pour éviter les hallucinations. De plus, grâce à la gestion fine des rôles et des droits sur les données de graphes, les organisations peuvent gérer au plus près la sécurité et la confidentialité. », analyse Nicolas Rouyer, Consultant Avant-ventes Senior chez Neo4j.
- 19 min
- 26 MAY 2024
#4.17 Vivatech, les data et la réalité des entreprises africaines et européennes

#4.17 Vivatech, les data et la réalité des entreprises africaines et européennes

La semaine dernière à Paris, c’était la grand-messe de Publicis, Vivatech. N’étant pas fan de ces grands rassemblements où l’on s’autocongratule entre soi, j’ai pris l’avion pour le Sud. Après avoir traversé la méditerranée, puis le désert du Sahara, j’ai atterri à Lomé, au Togo, où se réunissaient les directeurs financiers et de contrôle de gestion de l’Afrique de l’Ouest.
Accueillis dans les locaux de la BOAD, les participants ont bien entendu parlé d’intelligence artificielle, de données, et de comment la fonction finance en entreprise allait être impactée par ces évolutions technologiques.
Avaient fait le déplacement les présidents français de la DFCG, l’association des directeurs financiers, et de l’AFDCC, celle des crédit managers. Les ponts entre les financiers français et leurs pairs d’Afrique de l’Ouest sont actifs, et devraient l’être encore plus dans les années à venir.
Alors bien sûr, on a parlé de magie, de ces outils miraculeux que l’on nous promet, et de la révolution sur l’emploi qu’ils vont provoquer. Mais avec réalisme on a surtout évoqué ce qui manque à beaucoup d’entreprises africaines pour exploiter cette intelligence artificielle : des données.
Dans des pays où la part de l’économie informelle est importante, collecter et conserver des données semble parfois vain.
J’ai eu un échange passionnant avec le directeur financier d’un groupe de distribution. Certes, il adorerait pouvoir analyser qui achète quoi, quand, avec quoi… mais ce ne sont pas les modèles d’apprentissage qui lui font défaut, ce sont les données. Pas de remontée des lignes de tickets de caisse ; pas de carte de fidélité permettant d’identifier les clients. Il manque le basique. Difficile d’aller parler d’intelligence artificielle générative quand manquent la culture nécessaire à la collecte, à la valorisation et à la gouvernance de ces données.
Il serait facile de pointer du doigt le retard technologique de ces pays africains. Mais c’est également la réalité de beaucoup d’entreprises françaises. En ce moment même, je travaille avec un industriel dans le domaine de la papeterie : il envisage prochainement la mise en place, enfin, d’une gestion des données de référence ; un service social tente de mettre en place une gouvernance, et se heurte à l’absence d’architecture d’entreprise et d’ontologie des termes utilisés en interne ; et une grosse PME dans l’agro-alimentaire change enfin d’ERP et envisage son premier reporting dans un outil autre que Excel.
Alors que retenir de tout cela ? Il faut bien sur des visionnaires, des rêveurs, des innovateurs et il faut un Vivatech. Mais concrètement beaucoup d’entreprises n’en sont pas là ! Elles en sont même loin. Leur faire croire qu’elles pourront bénéficier en un claquement de doigt de ces technologies magiques, ce n’est pas leur rendre service.
Oui, c’est moins drôle, moins « chevere » comme dit ma fille de 17 ans, mais mettre en place une culture de la donnée, des bonnes pratiques de gouvernance, et une architecture adaptée pour collecter, conserver et par la suite analyser cette donnée, est la priorité ! Ne me parlez pas de ChatGPT tant que vous n’avez pas ces fondations. Sinon, c’est comme si vous commandiez une Ferrari, alors que vous n’avez même pas passé le permis.
- 3 min
- 19 MAY 2024
#4.16 Les mots-clefs du Data Mesh

#4.16 Les mots-clefs du Data Mesh

Vous avez entendu parler du data mesh ? Non ? C’est normal, le concept est encore jeune, il date de 2019. Mais je suis certain que vous en appliquez déjà certains des principes, sans même le savoir.
Dans votre entreprise, comme dans la plupart, la tendance est clairement à la reprise du contrôle des données par les utilisateurs métier. Finalement, ce sont leurs données, ils les produisent, les saisissent, les améliorent, les rendent disponibles. N’est-il pas normal qu’ils soient responsables, et crédités, de leur qualité, de leur disponibilité, de leur conformité. Pourquoi leur retirer leurs données, pour les centraliser, hors de leur contrôle dans un data warehouse, data lake, lakehouse ou que sais-je encore ? Rendre la donnée aux métiers, permettre à chacun de partager ses données avec d’autres, dans une plateforme commune, et encadré par de bonnes pratiques de gouvernance.
Voici quelques-uns des mots clefs qu’il faut connaitre, pour comprendre cette tendance.
1. Le Data Product Owner
Le “propriétaire” des données est celui qui connait la donnée, il est donc du côté des métiers. A la demande du consommateur de données, il propose un jeu de données (le data product) et s’engage sur sa disponibilité, sa qualité, sa conformité, etc.
2. Le Data Product
C’est un jeu de données. Un ensemble de données qui répond aux besoins d’un ou de plusieurs consommateurs de données. Il est défini, créé, puis produit et mis à jour, en fonction des besoins du consommateur et des contraintes du data product owner. Il est encadré par le data contract et mis à disposition sur la data product platform.
3. Le Data Contract
Le data contract est la clef de voute de l’ensemble. Il formalise, contractualise, les conditions de fourniture du data product négociées entre le métier producteur et le métier consommateur. Il définit les détails techniques, mais aussi la qualité, la disponibilité, la conformité, du data product. Souvent produit en YAML ou JSON, il est lisible par un Être humain, et par le logiciel. Des modèles standardisés sont en cours de développement.
4. La Data Product Platform
Autant la relation entre consommateur et producteur de données est décentralisée ; autant son hébergement et sa gestion informatique, doivent être centralisées ! Elle catalogue, référence, héberge, et met à disposition les data products, en s’assurant du respect des règles du data contract.
5. Et enfin, le Data Product Manager
La donnée est un produit ? Elle doit donc être construite comme telle. Et la fonction de Data Product Manager commence à apparaitre. Il comprend les données et leurs usages, aide à la préparation du data contract, et s’assure que le data product répond aux besoins exprimés.
- 3 min
- 12 MAY 2024
#4.15 Observabilité des données avec Jean-Paul Otte, Precisely

#4.15 Observabilité des données avec Jean-Paul Otte, Precisely

Voici quelques-uns des sujets que nous abordons avec Jean-Paul Otte, Responsable des services stratégiques chez Precisely :
- Posons nous la question de l'impact des nouveaux usages mobiles (IOT, mobiles) sur les données. Quelles nouvelles données collectons-nous ? Et quelles sont leurs particularités ?
- Plus l'IA se développe, plus on a besoin de l'alimenter avec des données de qualité. Comment s'assurer que les données collectées sont exactes, homogènes et contextualisées ?
- Quels outils permettent de détecter cette non-qualité de données ? Peut-on la corriger ? Comment ?
- 16 min