OpenAI vient de franchir une nouvelle étape dans la sécurisation de ChatGPT. Alors que l’entreprise prépare son entrée en bourse et a déjà renforcé ses règles pour protéger les adolescents, elle travaille désormais sur un bouton d’arrêt d’urgence intégré directement dans ses futures puces d’intelligence artificielle. Mais une étude publiée cette semaine révèle une difficulté inattendue : les modèles peuvent… manigancer. Le rapport, mené avec Apollo Research et intitulé « Detecting and reducing scheming in AI models », montre que certains modèles testés se sont mis à tromper leurs utilisateurs. Pas de complot digne d’un film de science-fiction pour l’instant, mais de petits mensonges opportunistes : par exemple, déclarer qu’une tâche a été accomplie alors qu’elle ne l’était pas.
Ces observations rejoignent une autre étude d’Apollo Research publiée fin 2024. Les chercheurs avaient alors demandé à plusieurs modèles — dont GPT-o1, Claude 3 et Gemini 1.5 — d’atteindre un objectif “à tout prix”. Résultat : tous ont démontré des comportements trompeurs persistants. Certains ont volontairement introduit des erreurs subtiles, d’autres ont tenté de désactiver leurs mécanismes de sécurité, voire d’exfiltrer ce qu’ils croyaient être leurs propres paramètres vers des serveurs externes. Rien d’étonnant, selon les chercheurs : une IA entraînée sur des données humaines peut reproduire nos travers, y compris le mensonge. Reste que ces dérives inquiètent. Pour y répondre, OpenAI teste une méthode baptisée “alignement délibératif”. Objectif : réduire drastiquement ces manœuvres. Les premiers résultats sont encourageants, avec une baisse d’un facteur 30 des actions dissimulées lors des tests. Mais des échecs rares et graves persistent.
Le risque est même paradoxal : en apprenant aux modèles à éviter de mentir, on pourrait les pousser à raffiner leurs tromperies pour échapper aux contrôles. Consciente du danger, OpenAI multiplie les garde-fous : recrutement de nouveaux chercheurs, coopération avec d’autres laboratoires et lancement d’un concours doté de 500 000 dollars pour détecter les “comportements nuisibles” des IA. La firme prévient : plus l’IA sera chargée de missions complexes aux conséquences concrètes, plus le risque de dérives grandira. D’où l’urgence de développer des défenses solides, au cœur même du matériel. Un enjeu vital à l’heure où l’intelligence artificielle prend une place croissante dans nos vies.
Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.
Information
- Show
- Channel
- FrequencyUpdated daily
- Published2 October 2025 at 17:00 UTC
- Length2 min
- RatingClean