Un simple extrait de voix de 5 à 30 secondes, et voilà qu'une intelligence artificielle est capable d'imiter une voix avec une précision troublante. C’est la prouesse réalisée par Zonos, le tout dernier modèle open-source de la société Zyphra. Disponible en version bêta, ce modèle de synthèse vocale illustre autant l’évolution fulgurante de l’IA que les défis éthiques qu’elle soulève. Zonos repose sur deux modèles avancés, chacun intégrant 1,6 milliard de paramètres. L’un utilise une architecture transformers, tandis que l’autre combine cette approche avec Mamba (SSM), optimisant ainsi la latence et la consommation de mémoire. Open-source sous licence Apache 2.0, il est librement accessible sur GitHub et Hugging Face, une aubaine pour les développeurs et chercheurs. L’IA a été entraînée sur un impressionnant corpus de 200 000 heures d’audio multilingue (anglais, français, espagnol, chinois, japonais, allemand). Elle peut ainsi générer des voix synthétiques ultra-réalistes, modulables selon plusieurs paramètres : débit, hauteur, émotion (joie, colère, tristesse). Le tout en haute fidélité (44 kHz) et avec une latence réduite entre 200 et 300 millisecondes sur une carte NVIDIA RTX 6000 Ada. Facile à installer, Zonos permet, via une interface intuitive, d’importer un échantillon vocal et de générer un fichier audio personnalisé en quelques secondes. Une accessibilité qui pose immédiatement la question des usages malveillants. Lors de tests réalisés par The Register, des enregistrements produits avec Zonos ont trompé des proches pendant quelques secondes, avant que de légères anomalies (rythme mécanique, intonations artificielles) ne révèlent la supercherie. Mais ces imperfections pourraient rapidement disparaître avec l’amélioration des algorithmes. Les risques sont bien réels : arnaques vocales, usurpations d’identité, faux messages politiques, deepfakes. En 2024, plusieurs escroqueries sophistiquées utilisant des imitations de voix ont déjà été signalées en Europe. Pour autant, cette technologie ne présente pas que des dangers. Zonos pourrait être utilisé pour restaurer la voix de personnes ayant perdu l’usage de leurs cordes vocales, améliorer les livres audio multilingues, ou encore faciliter la création de contenus accessibles. Zyphra affirme vouloir encourager l’innovation dans ces domaines, mais son approche open-source facilite une diffusion rapide et incontrôlée. Alors que des entreprises comme ElevenLabs ou Apple explorent des usages encadrés dans un cadre médical ou commercial, Zonos échappe à toute régulation. Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.