Recherche
Actualité

Clones, filtres et fakes...Éthique et IA

Les capacités pour les dernières générations d’IA à générer des contenus avec un rendu extrêmement réaliste permettent d’envisager de nouvelles possibilités pour la création, tout en faisant émerger des préoccupations éthiques et économiques. Avec une expérience de 40 ans de recherche sur la synthèse et la transformation de la voix, les chercheurs et chercheuses de l’Ircam proposent un retour d’expérience sur ces pratiques et une réflexion sur l’éthique de ses usages.

Émission l’Hôtel du Temps de Thierry Ardisson pour France 3 (2022) © France TV, François Roelants

Comme notre corps et notre visage, notre voix est ce que nous avons de plus intime. Elle trahit nos émotions irréfléchies, les sous-entendus et non-dits que l’écrit passe habilement sous silence. La voix, en apparence, ne peut pas mentir. Et pourtant, comme notre corps et notre visage, nous pouvons l’habiller et la maquiller. La manipulation de l’intonation est aussi vieille que la rhétorique, tout comme le maquillage et le tatouage sont aussi vieux que l’humanité, chez qui la transformation de soi par la technique est une seconde nature. C’est précisément parce que la voix se donne comme une image fidèle et transparente de notre intériorité que sa transformation acquiert une puissance particulière. C’est aussi pourquoi les progrès récents du traitement numérique de la voix, rendus possibles par l’intelligence artificielle, peuvent paraître si troublants.

Les techniques de conversion vocale permettent de conférer au discours d’un locuteur source certains attributs de la voix d’un locuteur cible, par exemple son âge, son genre, sa tonalité affective, et même son identité vocale. Ces technologies sont bien connues des chercheurs et chercheuses de l’équipe Analyse et synthèse des sons (A/S) de l’Ircam qui, depuis plusieurs décennies, ont contribué à leur développement et à leurs applications dans la recherche musicale et les industries culturelles. On parle de “filtre vocal” lorsque la manipulation préserve l’identité vocale du locuteur source, et de “ clone vocal ” lorsque l’identité du locuteur cible est substituée à celle de la source, créant l’illusion de faire dire à l’un ce qui a été dit par l’autre.

La notion de fake implique en outre une intention de tromper, en présentant comme un enregistrement ce qui résulte en réalité de l’application d’un filtre ou d’un clonage. Les deepfakes sont des fakes qui reposent sur des techniques récentes d’apprentissage profond, par lesquelles de très grands réseaux d’unités de calcul, appelés «neurones» parce qu’ils s’inspirent de modèles simplifiés des neurones biologiques, apprennent des tâches complexes, comme reconnaître une voix, directement à partir d’une grande masse d’exemples (la base d’apprentissage).

« Grâce aux réseaux profonds, des chercheurs ont généré pour la première fois en 2017 une voix de synthèse pour laquelle les auditeurs humains ne pouvaient pas faire la différence entre le réel et l’artificiel. C’est un peu comme si l’IA avait réussi, dans le domaine de la voix, à passer le test de Turing ». 

Nicolas Obin, chercheur au sein de l’équipe A/S

Comme le souligne Axel Roebel, responsable de l’équipe A/S « le prix à payer pour ces succès a été l'utilisaiton de base de données beaucoup plus volumineuses et d’une plus grande puissance de calcul ».

Ces nouvelles possibilités soulèvent d’inévitables enjeux éthiques. La constitution de bases de données vocales pour entraîner les réseaux profonds soulève déjà une première série de questions. Si les modèles apprennent à partir d’exemples glanés sur le web, les représentations de la voix apprises par ces algorithmes seront aussi biaisées que les données qui les nourrissent. Par exemple, si les données sont majoritairement issues de locuteurs de l’anglais, américains, masculins et blancs, les algorithmes construiront des représentations plus fiables des voix parlant cet anglais-là, plutôt que de celle des femmes afro-américaines, et a fortiori de locuteurs s’exprimant dans des langues ayant spontanément suscité peu voire pas de données. Si les applications documentaires ou créatives des technologies de conversion vocale se révèlent moins performantes pour les voix provenant de cultures vocales sous-représentées dans le monde numérique, l’emploi de ces technologies menace d’accentuer ces déséquilibres et de générer ce que l’on appelle des iniquités algorithmiques1. Le projet européen Linguatec IA cherche ainsi à développer des architectures neuronales adaptées à des situations de calcul et à des ressources linguistiques limitées, de façon à assurer un meilleur traitement de langues rares comme l’aragonais, le catalan, le basque et l’occitan.

À côté des problèmes d’équité algorithmique, consubstantiels aux techniques d’apprentissage profond, se posent des questions spécifiques aux technologies de conversion vocale, à commencer par le clonage vocal. La question centrale ici est de déterminer dans quels cadres d’application il est légitime de conférer l’identité vocale d’un locuteur cible à une phrase prononcée par un locuteur source. C’est une question qui se pose à chaque fois qu’un membre de l’équipe A/S répond à une commande venant des industries culturelles, comme cela a pu récemment être le cas avec la voix de Dalida, pour l’émission l’Hôtel du Temps de Thierry Ardisson ou du Général de Gaulle lisant l’appel du 18 juin, pour le journal Le Monde.

On peut tout d’abord invoquer un principe de consentement. Les locuteurs source et cible doivent consentir à l’opération de conversion d’identité vocale pour que son résultat puisse être diffusé.

Aussi évident que ce principe puisse paraître, la disponibilité d’applications de clonage vocal ne nécessitant pas d’expertise informatique particulière fait qu’il est très facile à enfreindre, comme le montre l’exemple récent de l’usage par David Guetta en concert d’un clone vocal non autorisée du rappeur Eminem. Si ces premiers clonages sauvages peuvent encore passer pour des coups médiatiques tolérables dans la mesure où aucune exploitation commerciale n’en est faite, une exploitation à grande échelle est de fait rendue possible par l’état et la diffusion des technologies.

La chanteuse Holly Herndon a décidé de devancer ses cloneurs en mettant à disposition un double numérique de sa voix nommé Holly+, dont elle permet l’usage créatif à condition qu’il soit traçable, approuvé et qu’une part des revenus générés lui soit reversée. L’existence d’un tel modèle « éthique » pour le clonage vocal n’annule cependant pas la tentation des usages sauvages. On peut s’attendre, pour le meilleur et pour le pire, à ce que le clonage vocal, consenti ou non, se généralise dans la production musicale en suivant une trajectoire comparable à celle de l’auto- tune dans les musiques populaires. On voit se dégager l’horizon d’une économie d’abondance où pour chaque chanson, on pourrait trouver une version chantée par son interprète favori.

« Le défi pour la création n’est pas tant d’explorer toujours plus de possibilités que de produire de la rareté. Et donc, contrairement à la techno-créativité, de choisir librement ce qu’elle ne fera pas ». 

Frank Madlener, directeur de l'Ircam

Dans certains cas, il est radicalement impossible de s’assurer du consentement de la personne clonée. Pour ce qui semble être des raisons anthropologiques profondes, un nombre significatif de clonages vocaux consiste à « réveiller » des voix défuntes.

Comment s’acquitter du principe de consentement dans ces cas-là ? D’un point de vue juridique, la solution consiste à s’assurer du consentement des ayant-droits. Si le droit français ne reconnaît pas l’existence d’un droit à l’image après la mort, la jurisprudence estime que la diffusion d’images de défunts peut causer un tort à leurs ayants-droits si la mémoire et le respect dus aux morts ont été atteints. Mais se référer au consentement des ayants-droits ne règle pas toutes les difficultés. La technologie des deepfakes permet aussi à des ayants-droits mal intentionnés de corriger la mauvaise réputation d’un aïeul, en lui prêtant des propos louables mais fictifs.

Pour écarter ce type d’usages, on peut invoquer un principe d’autorité: il est légitime de faire artificiellement prononcer un texte à un défunt seulement s’il en est l’auteur, c’est-à-dire s’il l’a dit ou écrit de son vivant. C’était le cas des réponses de Dalida aux questions de Thierry Ardisson.

Cette limitation aux dits et écrits du locuteur cible laisse cependant une grande latitude à la conversion vocale. L’information contenue dans un texte, c’est-à- dire une suite de mots, est toujours plus pauvre que celle que contient son énonciation orale. Un locuteur peut considérablement altérer l’information qu’il transmet en faisant simplement varier son intonation. «Le clonage vocal appliqué à un texte suppose ainsi un acte d’interprétation» comme le souligne Nadia Guerouaou, chercheuse en neurosciences au sein de l’équipe Perception et design sonores de l’Ircam. Pour recréer l’appel du 18 juin, une interprétation vocale de l’appel a d’abord été enregistrée par l’acteur François Morel. Les scientifiques de l’équipe A/S ont ensuite modifié l’identité du locuteur à l’aide d’un modèle de conversion entraîné avec différents enregistrements du général de Gaulle datant des années 1940. Axel Roebel parle à ce sujet de «reconstitution interprétée». À côté du principe d’autorité, il faut par conséquent ajouter un principe de fidélité gouvernant l’interprétation qui accompagne la synthèse vocale.

Il arrive que la frontière entre interprétation historique et interprétation créative ne soit pas nette : le principe de fidélité doit être adapté en conséquence. C’est ce qu’illustre l’exemple de la mise en voix du journal intime de Marilyn Monroe dans le film Marilyn (2012) de Philippe Parreno, également réalisée par l’équipe A/S. Comme le rappelle Nicolas Obin, «la grande majorité des enregistrements de Marilyn qui ont servi à l’apprentissage de modèles statistiques sont issus de ses films, c’est-à-dire non de Marilyn elle-même mais du personnage de Marilyn, souvent exubérante, alors que le réalisateur était à la recherche de la Marilyn plus personnelle, celle de l’intimité, dont nous ne possédons aucune trace enregistrée. Il nous a fallu de nombreuses expérimentations et adaptations pour réussir à rendre cette intimité. Lors de la première diffusion, ses proches ont été émus de retrouver Marilyn telle qu’ils l’avaient connue ».

Les principes d’autorité et de fidélité ne sont cependant pas toujours suffisants pour assurer la légitimité du clonage vocal. C’est une des leçons que l’on peut tirer des remous suscités par le documentaire Roadrunner (2021) retraçant la vie du chef et animateur de télévision Anthony Bourdain jusqu’à son suicide en 2018. Le réalisateur Morgan Neville a fait de Bourdain lui-même le narrateur du film en s’appuyant sur des enregistrements d’archives et, à quelques exceptions près, de phrases reconstituées par clonage vocal. Le passage du film le plus controversé nous fait ainsi entendre la voix de Bourdain lire un de ses emails où il fait part de son mal-être : « Comme moi, tu connais le succès. Mais es-tu heureux ? ». Ce sont les propres mots de Bourdain (selon notre traduction), rendus avec une tonalité affective appropriée. Ce qui a causé le scandale sur les réseaux sociaux, c’est plutôt l’absence de transparence au sujet de ce clonage vocal que Neville n’a pas jugé bon de révéler, laissant croire qu’il s’agissait d’un enregistrement. Ce principe de transparence était au contraire central dans le Marilyn de Parreno qui abordait des thèmes assez proches, mais où le procédé était clairement explicité dans le texte de présentation du film.

De façon surprenante, il apparaît que ce principe de transparence n’est pas toujours nécessaire à l’acceptabilité de certains usages de filtres vocaux. Nadia Guerouaou a exploré les usages thérapeutiques des filtres permettant de moduler en temps réel l’émotion exprimée par la voix, en la rendant plus joyeuse, ou plus triste: «Ces filtres peuvent avoir des applications dans les thérapies d’exposition en imagination à l’événement traumatique pour les patients atteints de trouble de stress post- traumatique. L’idée est de moduler par le feedback vocal en temps réel la charge émotionnelle associée à la trace mnésique de l’événement traumatique, et ainsi à la transformer».

Dans une étude d’éthique expérimentale, elle a sondé l’acceptabilité sociale de ce type de filtres et observé que l’emploi de ces filtres était largement accepté par les sujets, y compris dans les cas où cet usage restait caché au destinataire de la voix filtrée2En lien avec ces résultats, Nadia Guerrouaou se demande « si cela fait une différence éthique d’opérer ces changements par l’informatique plutôt que par un apprentissage humain, comme le coaching vocal par exemple». Les filtres vocaux permettent aussi des transformations qu’aucun entraînement intensif ne rend possible, et ce sans effort. Il y a des graves ou des aigus qu’aucun cours de chant ne permettra d’atteindre. On peut supposer que pour ces usages-là, le principe de transparence reste pertinent.

La conversion d’attributs vocaux soulève également des questions éthiques spécifiques liées à la définition des attributs considérés. Qu’est-ce que féminiser une voix? Il existe des différences acoustiques moyennes entre les voix d’hommes et de femmes qui tiennent en partie à des différences physiologiques, mais il y a aussi beaucoup de variabilité interindividuelle au sein de chaque catégorie, ainsi qu’une plasticité de l’appareil vocal à l’échelle de chaque individu. Souvent, féminiser une voix veut dire rapprocher cette voix d’un stéréotype de voix féminine qui est en partie socialement construit. Cela ne veut pas dire que les algorithmes de conversion vocale sont condamnés à perpétuer les biais sexistes.


© Les Amours d’Astrée et de Céladon d’Éric Rohmer (2007)

Pour féminiser numériquement la voix de Céladon, lorsqu’il se travestit en femme dans Les Amours d’Astrée et de Céladon d’Éric Rohmer, les scientifiques d’A/S ont appliqué des valeurs intermédiaires entre les moyennes masculines et féminines, de façon à rendre acoustiquement l’ambiguïté de genre du personnage, un choix qui a trouvé un écho favorable chez les critiques du Monde qui ont relevé «une tonalité queer aussi réjouissante qu’inattendue3». Mais une responsabilité incombe aux designers de logiciels de conversion vocale à destination des industries culturelles comme du grand public : si les fonctionnalités de conversion vocale se limitent à cliquer sur un bouton «féminiser», sans que l’utilisateur n’ait de contrôle sur les paramètres qui définissent cette féminité, on peut craindre que l’application amène à reconduire les biais de genre associés à la voix.

Ce bref tour d’horizon de l’éthique des algorithmes de conversion vocale montre ainsi que l’informatique ne peut ignorer les implications humaines et sociales qui accompagnent ses avancées techniques. Que ce soit pour reconstruire le passé sonore, créer de nouvelles vocalités ou soigner par la voix, les choix d’ingénerie et d’utilisation, à l’Ircam et ailleurs, retracent continuellement les contours de nos identités vocales. La réflexion critique sur ces outils et leurs usages est plus que jamais nécessaire4.

Par Pierre Saint-Germier, philosophe (CNRS)

(1) Sur la problématique de l’équité algorithmique, voir Cathy O’Neill, Algorithmes. La bombe à retardement, Paris, Les Arènes, 2018.
(2) Guerouaou N, Vaiva G, Aucouturier J-J. 2021 The shallow of your smile : the ethics of expressive vocal deep-fakes. Phil. Trans. R. Soc. B 377 : 20210083. https://doi.org/10.1098/rstb.2021.0083(3) Voir à ce sujet Camille Pierre, « Voix trafiquées au cinéma, un rappel aux normes ? Le plug-in TRaX à l’œuvre dans Les Amours d’Astrée et de Céladon (Éric Rohmer, 2007) et Les Garçons sauvages (Bertrand Mandico, 2018) », Semen, 51 | 2022, 39-54.
(4) Cet article a été nourri par un entretien avec Nadia Guerouaou, Frank Madlener, Nicolas Obin et Axel Roebel. Qu’ils en soient vivement remerciés.