Merci de soutenir ce podcast en visitant nos sponsors: - Prezi: Créez rapidement des présentations avec l'IA - https://try.prezi.com/automated_daily - KrispCall: Téléphonie cloud agentique - https://try.krispcall.com/tad - Conception assistée par l’IA sans effort pour des présentations, des sites web et bien plus avec Gamma - https://try.gamma.app/tad Soutenez directement The Automated Daily: Offre-moi un café: https://buymeacoffee.com/theautomateddaily Sujets du jour: L’IA échoue silencieusement en entreprise - Welo Data explique que les échecs d’IA viennent souvent de décisions humaines d’évaluation non traçables: calibration, auditabilité, QA en boucle, signaux de dérive, gouvernance. ERL: apprendre avec retours rares - Le papier arXiv sur l’Experiential Reinforcement Learning (ERL) ajoute une boucle expérience–réflexion–consolidation pour mieux exploiter des récompenses rares et tardives, sans coût d’inférence. WebWorld: simuler le Web - WebWorld (arXiv:2602.14721) propose un simulateur du Web entraîné sur plus d’un million d’interactions, avec un benchmark multi-dimensions et des gains sur WebArena via trajectoires synthétiques. Agents, plugins et nouveaux outils - La vague ‘agentique’ se structure: Cursor lance les plugins (MCP, subagents, hooks), Figma relie Claude Code au canvas, NotebookLM améliore les slides, OpenAI recrute derrière OpenClaw. Open source submergé par slop - Godot et d’autres projets décrivent l’épuisement des mainteneurs face aux pull requests générées par LLM: politiques anti-slop, actions GitHub, et débat sur les incitations des plateformes. Chips, clouds et méga-deals - Meta signe un accord massif avec Nvidia (Grace CPU, Rubin, racks), Mistral rachète Koyeb pour muscler Mistral Compute, et les méga-levées 2026 s’enchaînent selon TechCrunch. Travail, écriture et plafond qualité - Un essai décrit un ‘plafond de qualité’ (95–98% mais erreurs fatales), la montée de l’‘AI slop’ en écriture, et des données sur productivité, salaires et risques pour les juniors. Musk, IA dans l’espace - Zvi Mowshowitz critique une interview de Musk: ‘compute dans l’espace’, Moon ‘mass driver’, promesses industrielles, et interrogations sur gouvernance/sécurité chez xAI. - https://welodata.ai/ai-data-quality-systems/ - https://arxiv.org/abs/2602.13949 - https://arxiv.org/abs/2602.14721 - https://www.oneusefulthing.org/p/a-guide-to-which-ai-to-use-in-the - https://www.theregister.com/2026/02/18/godot_maintainers_struggle_with_draining/ - https://martinfowler.com/fragments/2026-02-18.html - https://cursor.com/blog/marketplace - https://thezvi.substack.com/p/on-dwarkesh-patels-2026-podcast-with-850 - https://www.figma.com/blog/the-future-of-design-is-code-and-canvas/ - https://philippdubach.com/posts/the-impossible-backhand/ - https://techcrunch.com/2026/02/17/here-are-the-17-us-based-ai-companies-that-have-raised-100m-or-more-in-2026/ - https://resobscura.substack.com/p/what-is-happening-to-writing - https://georgeguimaraes.com/your-agent-orchestrator-is-just-a-bad-clone-of-elixir/ - https://cepr.org/voxeu/columns/how-ai-affecting-productivity-and-jobs-europe - https://cohere.com/blog/cohere-labs-tiny-aya - https://x.com/notebooklm/status/2023851190102986970 - https://www.anthropic.com/news/claude-sonnet-4-6 - https://airia.com/ - https://venturebeat.com/technology/openais-acquisition-of-openclaw-signals-the-beginning-of-the-end-of-the - https://welodata.ai/ai-data-quality-systems-human-judgment-at-scale/ - https://www.cnbc.com/2026/02/17/meta-nvidia-deal-ai-data-center-chips.html - https://www.lesswrong.com/posts/YPJHkciv6ysgsSiJC/why-i-m-worried-about-job-loss-thoughts-on-comparative - https://techcrunch.com/2026/02/17/mistral-ai-buys-koyeb-in-first-acquisition-to-back-its-cloud-ambitions/ Transcription de l'Episode L’IA échoue silencieusement en entreprise On commence par un sujet qui touche presque toutes les équipes GenAI… mais dont on parle trop tard: la qualité. Welo Data publie une thèse assez simple, et franchement difficile à contester: beaucoup de systèmes d’IA en entreprise ne “plantent” pas parce que le modèle est mauvais, mais parce que les décisions humaines derrière l’évaluation et l’étiquetage ne sont ni explicables, ni reproductibles, ni défendables à grande échelle. Le point marquant, c’est l’idée d’un échec discret: ça continue de livrer, mais à l’intérieur les signaux virent au rouge. Les équipes ne sont plus d’accord sur les résultats d’évaluation, on n’arrive pas à reconstituer pourquoi une décision qualité a été prise il y a trois mois, et la confiance s’érode—sans arrêt de production. Welo décrit ça comme un problème de système: évaluations incohérentes entre pays et équipes, absence de standards de calibration partagés, automatisation qui remplace la supervision au lieu de l’amplifier, et traçabilité trop faible pour auditer. Leur “checklist” avant d’exécuter quoi que ce soit est très opérationnelle: un cadre de décision, des définitions nettes du bon et du mauvais, des chemins d’escalade pour l’ambigu, et des signaux à surveiller une fois en route. Ils résument une “bonne” mécanique qualité en cinq blocs: jugement humain calibré, monitoring continu, boucles QA structurées, auditabilité/traçabilité, et résilience opérationnelle quand tout change—volume, langues, règles, risques. Au passage, Welo met en garde contre un raccourci tentant: utiliser des LLM comme juges automatiques. Sans supervision calibrée, vous pouvez amplifier des biais invisibles, créer une incohérence difficile à détecter, et rendre la correction plus coûteuse. C’est aussi une critique des usines à labels “exécution-only”: beaucoup d’output, peu d’audit. Et dans le même esprit “gouvernance des agents”, Airia pousse une plateforme d’orchestration sécurisée: connecteurs data, prototypage no-code/low-code, DLP, tests, garde-fous contre la fuite de données et l’injection de prompts. Le message commun, c’est que l’agentique n’est pas seulement un sujet de modèles: c’est un sujet de contrôle, de visibilité, et de responsabilité. ERL: apprendre avec retours rares Passons à la recherche, avec deux papiers arXiv qui disent beaucoup de la direction du moment: on veut des modèles qui apprennent mieux de feedback rare, et des agents qui s’entraînent sans casser le vrai Web. D’abord, l’Experiential Reinforcement Learning, ou ERL. Le diagnostic: en RL classique, quand la récompense est rare et arrive tard, le modèle “sent” qu’il s’est trompé, mais ne sait pas transformer ce signal en changement de comportement. ERL insère une boucle explicite: tentative, feedback de l’environnement, réflexion, deuxième tentative améliorée, puis consolidation quand ça marche. La nuance intéressante, c’est la promesse produit: pas de surcoût à l’inférence. La réflexion sert pendant l’entraînement, puis les gains sont “internalisés” dans la politique de base. Les auteurs annoncent des améliorations fortes dans des environnements à récompense clairsemée—jusqu’à +81% sur des tâches multi-étapes—et des gains plus modestes mais réels sur des benchmarks de raisonnement avec outils. Ensuite, WebWorld: un “world model” du Web pour entraîner des agents. L’obstacle est très concret: collecter des trajectoires d’interaction sur le Web réel, c’est lent, limité par les rate limits, et parfois dangereux. WebWorld propose un simulateur à grande échelle, entraîné sur plus d’un million d’interactions open-web, capable de simulations longues—plus de 30 étapes. Ils ajoutent un benchmark, WebWorld-Bench, avec des métriques sur neuf dimensions, et annoncent une qualité de simulation comparable à Gemini-3-Pro. Côté utilité, ils entraînent Qwen3-14B sur des trajectoires synthétiques et rapportent +9,2% sur WebArena, au niveau de GPT-4o. Et ils vont plus loin: utilisé comme world model pour la recherche à l’inférence, WebWorld pourrait dépasser GPT-5 dans ce rôle précis. C’est un bon rappel: un agent performant, ce n’est pas toujours “le plus gros cerveau”, c’est parfois “le meilleur simulateur” et la meilleure boucle de recherche. WebWorld: simuler le Web Justement, parlons d’outils et d’agents: on sent un basculement net du “chat” vers des systèmes qui agissent. Un article propose une grille utile en trois couches: les modèles, les apps, et les “harnesses”—les harnais, autrement dit l’orchestration outils + workflows. Même modèle, résultats très différents selon l’habillage et les contraintes. Dans cette logique, Anthropic vient de sortir Claude Sonnet 4.6, désormais par défaut sur Claude.ai, avec un contexte jusqu’à 1 million de tokens en bêta. La promesse: lire des bases de code entières, des contrats interminables, des piles de documents… tout en gardant du raisonnement. Anthropic insiste aussi sur l’amélioration en “computer use” et sur la résistance accrue aux prompt injections—un point crucial dès que le modèle clique, copie-colle et exécute. Côté éditeurs, Cursor lance le support de plugins: en gros, des briques packagées pour étendre les agents avec des serveurs MCP, des règles, des hooks, des sous-agents. Le démarrage se fait avec des partenaires comme AWS, Figma, Linear, Stripe, Amplitude, Snowflake… et l’ambition est claire: planifier, designer, coder, déployer, analyser—sans quitter l’éditeur. Et puisque j’ai dit Figma: Dylan Field annonce un flux intéressant “code vers canvas”. Avec l’intégration MCP, on peut demander à Claude Code “Envoie ça à Figma”, et l’état rendu du navigateur se transforme en calques Figma éditables. L’idée derrière “code and canvas”: éviter que la première version produite—sou