Merci de soutenir ce podcast en visitant nos sponsors: - Investissez comme les professionnels avec StockMVP - https://www.stock-mvp.com/?via=ron - Créez n'importe quel formulaire, sans code, avec Fillout. 50 % de crédits supplémentaires à l'inscription - https://try.fillout.com/the_automated_daily - Consensus: IA pour la recherche. Obtenez un mois gratuit - https://get.consensus.app/automated_daily Soutenez directement The Automated Daily: Offre-moi un café: https://buymeacoffee.com/theautomateddaily Sujets du jour: Résumés IA multilingues manipulables - Des résumés LLM peuvent être discrètement orientés via une “policy” ou un system prompt, surtout en multilingue (anglais/farsi), au point de changer cadrage, omissions et acceptabilité. Évaluer et durcir la sécurité IA - Le Multilingual AI Safety Evaluation Lab compare anglais vs langues non-anglaises (factualité, safety/privacy, non-discrimination) et révèle des écarts, des conseils dangereux et des faiblesses des guardrails et du “LLM-as-a-Judge”. Retour du matériel Pebble - RePebble approche l’expédition de Pebble Time 2, Index 01 et Pebble Round 2, avec détails PVT/DVT, étanchéité 3ATM/IPX8, ramp-up de production et gros travail PebbleOS/apps. Journal chiffré local-only open source - Mini Diarium, successeur de Mini Diary, est un journal chiffré AES-256-GCM, local-only, sans télémétrie ni sync, basé sur Tauri 2 + Rust + SQLite, avec nouvelles méthodes de déverrouillage par clés X25519. Pont Elixir–Python via Oban - Oban propose une interopérabilité durable entre Elixir et Python via une table Postgres partagée (oban_jobs), pour traiter des jobs cross-langages sans HTTP bricolé ni deuxième queue. Zine hacking Paged Out! #8 - Paged Out! Issue #8 franchit 1 million de téléchargements cumulés, lance un web viewer (alpha), ouvre le CFP #9, et couvre reverse, exploit, CI/CD security et articles sur LLM en cybersécurité. Techniques exotiques sur Commodore 64 - Un développeur détaille neuf astuces “demo-scene” sur C64 pour son jeu Seawolves: IRQ/NMI synchronisés, split sprites, FLD, distortion d’eau, et micro-optimisations de branchements. Ray tracing photoréaliste dans Makie - RayMakie + Hikari apportent le path tracing physique à Makie (Julia): global illumination, volumes, rendu spectral, multi-backends GPU/CPU, avec démos scientifiques (nuages, protéines, Geant4). Mongols et rumeurs en Europe médiévale - Une étude raconte comment la France médiévale a construit un “archive mongole”: rumeur du roi David, lettres d’alerte, ambassades papales, Rubrouck, puis Marco Polo influençant durablement l’imaginaire. Chaos des tailles dans la mode - The Pudding cartographie le manque de standards des tailles féminines aux États-Unis: variabilité inter-marques, vanity sizing, “mid-size gap”, et plages ‘regular’ qui s’arrêtent souvent avant la réalité des mensurations. - https://royapakzad.substack.com/p/multilingual-llm-evaluation-to-guardrails - https://repebble.com/blog/february-pebble-production-and-software-updates - https://github.com/fjrevoredo/mini-diarium - https://oban.pro/articles/bridging-with-oban - https://pagedout.institute/download/PagedOut_008.pdf - https://kodiak64.co.uk/blog/seawolves-technical-tricks - https://makie.org/website/blogposts/raytracing/ - https://www.historytoday.com/archive/feature/mongol-khans-medieval-france - https://pudding.cool/2026/02/womens-sizing/ Transcription de l'Episode Résumés IA multilingues manipulables On commence par le sujet le plus sensible du jour: la fiabilité des résumés générés par IA. L’auteur d’un long billet explique pourquoi les résumés LLM peuvent être dangereusement trompeurs—non pas parce qu’ils “inventent” forcément des faits de manière grossière, mais parce qu’une minuscule modification, parfois invisible au lecteur, dans la “policy” interne ou le system prompt peut déplacer l’accent. Ce qui est mis en avant, ce qui est minimisé, ce qui est considéré “acceptable” dans la formulation: tout peut glisser, sans que le résultat ait l’air suspect. Le cœur de la démonstration, c’est une expérience sur GPT-OSS-20B qui résume un rapport de l’ONU sur la situation des droits humains en Iran. Avec la configuration par défaut, le résumé insiste sur les abus sévères et évoque notamment “plus de 900” exécutions. Mais quand l’auteur injecte des policies personnalisées—en anglais et surtout en farsi—le cadrage se déplace: plus de vocabulaire de souveraineté, plus de “maintien de l’ordre”, plus de mise en avant du dialogue, et un ton qui colle davantage à la narration gouvernementale. L’auteur appelle sa méthode “Bilingual Shadow Reasoning”: l’idée, c’est qu’une couche délibérative non-anglaise, dans une langue moins auditée, peut contourner des garde-fous, passer sous les radars d’outils d’audit, et produire des sorties très professionnelles… tout en ayant changé l’intention. Et il souligne un point qui fait réfléchir: le steering serait souvent plus simple sur de la synthèse multilingue que sur du Q&A, parce qu’un résumé a déjà une latitude énorme pour sélectionner, compresser et reformuler. Pourquoi c’est important ? Parce que les résumés alimentent des décisions à enjeux: reportings exécutifs, analyses politiques, UX research, systèmes de personnalisation… et même des mécanismes de “mémoire” où un chatbot stocke des points clés. L’auteur cite aussi des chiffres issus de travaux antérieurs: des résumés LLM modifieraient significativement le sentiment dans environ 26,5% des cas, et ils pourraient influencer l’achat—avec un résultat rapporté comme “32% plus susceptibles d’acheter” après lecture d’un résumé LLM plutôt que de l’avis original. En clair: la synthèse n’est pas une simple compression, c’est un pouvoir de cadrage. Évaluer et durcir la sécurité IA Dans la foulée, le même ensemble de travaux propose une réponse pragmatique: mieux mesurer le multilingue, et relier l’évaluation aux garde-fous. L’auteur décrit la création d’un “Multilingual AI Safety Evaluation Lab” open source. L’ambition: comparer systématiquement anglais versus langues non-anglaises sur plusieurs axes—factualité, sécurité et vie privée, non-discrimination—en combinant évaluateurs humains et “LLM-as-a-Judge”. Et là, les résultats sont peu rassurants. Dans une étude de cas avec Respond Crisis Translation, sur des scénarios réfugiés / demande d’asile, testés en anglais puis en arabe, farsi, pachto et kurde: les chutes de qualité les plus fortes apparaissent en kurde et pachto. Les notes humaines baissent nettement sur l’actionnabilité—3,86 en anglais contre 2,92 en non-anglais—et sur la factualité—3,55 contre 2,87. Donc non seulement c’est moins utile, mais c’est aussi moins fiable. Plus délicat: les modèles donnent parfois des conseils “de bonne foi” mais dangereux, par exemple suggérer à des demandeurs d’asile de contacter des autorités ou ambassades, ce qui peut être risqué selon le contexte. Autre point: les disclaimers de sécurité, fréquents en anglais, apparaissent de façon irrégulière dans d’autres langues. Un exemple frappant: Gemini refuserait de recommander des remèdes à base de plantes pour des symptômes graves en anglais, mais les fournirait en sortie non-anglaise. Enfin, l’auteur critique sévèrement le “LLM-as-a-Judge”: surconfiance, notes gonflées, écarts sous-déclarés… et même des cas où le juge hallucine des disclaimers comme s’ils étaient présents. Le prolongement, c’est un projet “evaluation-to-guardrail pipeline” avec Mozilla.ai: transformer des dimensions d’évaluation en policies de guardrails contextualisées, en anglais et en farsi, puis tester des outils comme FlowJudge, Glider, ou AnyLLM (avec GPT-5-nano) via any-guardrail. Et là aussi, surprise: Glider montre une sensibilité énorme à la langue de la policy—des scores qui varient de 36 à 53% juste parce que la consigne est en anglais ou en farsi. Et les guardrails eux-mêmes hallucinent davantage en raisonnement farsi, ou font des suppositions biaisées. Conclusion proposée: en 2026, il ne suffit pas d’empiler des benchmarks. Il faut que l’évaluation alimente en continu la conception des garde-fous—et étendre ça à la voix, au multi-tour, et à du fact-checking par retrieval côté guardrails. Retour du matériel Pebble On change de registre, direction hardware: RePebble annonce se rapprocher de l’expédition de trois produits—Pebble Time 2, Pebble Round 2 et Index 01—avec un niveau de détails très “fin de prod”, donc forcément: arbitrages coût/qualité/délais, stress, et listes de tests. Pour la Pebble Time 2, ils sont en PVT, Production Verification Test: plusieurs centaines d’unités déjà assemblées sur différentes itérations, bugs trouvés, corrigés, re-testés. Juste avant les fermetures d’usine du Nouvel An lunaire, le dernier build PVT aurait passé tous les tests. Janvier a surtout servi à améliorer l’étanchéité, et la cible devient 30 mètres / 3 ATM. Traduction: pluie, douche, baignade oui; mais pas sauna, pas eau chaude, pas jets à haute pression, et ce n’est pas une montre de plongée. Le plan est de lancer la production de masse le 9 mars, avec une montée en cadence vers 500 montres par jour. Expéditions hebdomadaires vers un centre de distribution, puis livraison en quelques semaines. Si tout tient, premières montres chez les clients début avril, et l’ensemble des précommandes livrées d’ici début juin—avec la réserve habituelle: si un souci de production apparaît, ça peut glisser. Côté taxes, ils prévoient un e-mail de confirmation d’adresse, choix d’accessoires, et paiement des tarifs/VAT. Pour les États-Unis, ils ann