Clones, filtres et fakes...Éthique et IA

Les capacités pour les dernières générations d’IA à générer des contenus avec un rendu extrêmement réaliste permettent d’envisager de nouvelles possibilités pour la création, tout en faisant émerger des préoccupations éthiques et économiques. Avec une expérience de 40 ans de recherche sur la synthèse et la transformation de la voix, les chercheurs et chercheuses de l’Ircam proposent un retour d’expérience sur ces pratiques et une réflexion sur l’éthique de ses usages.

Éditer

Contenu :
<img src="/media/uploads/magazine/2024/IA-ethique/rdisson-dalida-fr3.png" alt="" height="950" /><img src="/media/uploads/magazine/2024/IA-ethique/ardisson-dalida.png" alt="" height="950" />Émission l’Hôtel du Temps de Thierry Ardisson pour France 3 (2022) © France TV, François Roelants Comme notre corps et notre visage, notre voix est ce que nous avons de plus intime. Elle trahit nos émotions irréfléchies, les sous-entendus et non-dits que l’écrit passe habilement sous silence. La voix, en apparence, ne peut pas mentir. Et pourtant, comme notre corps et notre visage, nous pouvons l’habiller et la maquiller. La manipulation de l’intonation est aussi vieille que la rhétorique, tout comme le maquillage et le tatouage sont aussi vieux que l’humanité, chez qui la transformation de soi par la technique est une seconde nature. C’est précisément parce que la voix se donne comme une image fidèle et transparente de notre intériorité que sa transformation acquiert une puissance particulière. C’est aussi pourquoi les progrès récents du traitement numérique de la voix, rendus possibles par l’intelligence artificielle, peuvent paraître si troublants. Les techniques de conversion vocale permettent de conférer au discours d’un locuteur source certains attributs de la voix d’un locuteur cible, par exemple son âge, son genre, sa tonalité affective, et même son identité vocale. Ces technologies sont bien connues des chercheurs et chercheuses de l’équipe <a href="https://www.ircam.fr/recherche/equipes-recherche/anasyn" target="_blank" rel="noopener noreferrer">Analyse et synthèse des sons (A/S)</a> de l’Ircam qui, depuis plusieurs décennies, ont contribué à leur développement et à leurs applications dans la recherche musicale et les industries culturelles. On parle de “filtre vocal” lorsque la manipulation préserve l’identité vocale du locuteur source, et de “ clone vocal ” lorsque l’identité du locuteur cible est substituée à celle de la source, créant l’illusion de faire dire à l’un ce qui a été dit par l’autre. La notion de fake implique en outre une intention de tromper, en présentant comme un enregistrement ce qui résulte en réalité de l’application d’un filtre ou d’un clonage. Les deepfakes sont des fakes qui reposent sur des techniques récentes d’apprentissage profond, par lesquelles de très grands réseaux d’unités de calcul, appelés «neurones» parce qu’ils s’inspirent de modèles simplifiés des neurones biologiques, apprennent des tâches complexes, comme reconnaître une voix, directement à partir d’une grande masse d’exemples (la base d’apprentissage). <blockquote> « Grâce aux réseaux profonds, des chercheurs ont généré pour la première fois en 2017 une voix de synthèse pour laquelle les auditeurs humains ne pouvaient pas faire la différence entre le réel et l’artificiel. C’est un peu comme si l’IA avait réussi, dans le domaine de la voix, à passer le test de Turing ».  <a href="https://www.ircam.fr/person/nicolas-obin" target="_blank" rel="noopener noreferrer">Nicolas Obin</a>, chercheur au sein de l’équipe A/S </blockquote> Comme le souligne <a href="https://www.ircam.fr/person/axel-roebel" target="_blank" rel="noopener noreferrer">Axel Roebel</a>, responsable de l’équipe A/S « le prix à payer pour ces succès a été l'utilisaiton de base de données beaucoup plus volumineuses et d’une plus grande puissance de calcul ». Ces nouvelles possibilités soulèvent d’inévitables enjeux éthiques. La constitution de bases de données vocales pour entraîner les réseaux profonds soulève déjà une première série de questions. Si les modèles apprennent à partir d’exemples glanés sur le web, les représentations de la voix apprises par ces algorithmes seront aussi biaisées que les données qui les nourrissent. Par exemple, si les données sont majoritairement issues de locuteurs de l’anglais, américains, masculins et blancs, les algorithmes construiront des représentations plus fiables des voix parlant cet anglais-là, plutôt que de celle des femmes afro-américaines, et a fortiori de locuteurs s’exprimant dans des langues ayant spontanément suscité peu voire pas de données. Si les applications documentaires ou créatives des technologies de conversion vocale se révèlent moins performantes pour les voix provenant de cultures vocales sous-représentées dans le monde numérique, l’emploi de ces technologies menace d’accentuer ces déséquilibres et de générer ce que l’on appelle des iniquités algorithmiques1. Le projet européen Linguatec IA cherche ainsi à développer des architectures neuronales adaptées à des situations de calcul et à des ressources linguistiques limitées, de façon à assurer un meilleur traitement de langues rares comme l’aragonais, le catalan, le basque et l’occitan. <iframe width="711" height="400" src="//www.dailymotion.com/embed/video/x8hbihf" allowfullscreen="allowfullscreen"></iframe> À côté des problèmes d’équité algorithmique, consubstantiels aux techniques d’apprentissage profond, se posent des questions spécifiques aux technologies de conversion vocale, à commencer par le clonage vocal. La question centrale ici est de déterminer dans quels cadres d’application il est légitime de conférer l’identité vocale d’un locuteur cible à une phrase prononcée par un locuteur source. C’est une question qui se pose à chaque fois qu’un membre de l’équipe A/S répond à une commande venant des industries culturelles, comme cela a pu récemment être le cas avec la voix de Dalida, pour l’émission l’Hôtel du Temps de Thierry Ardisson ou du Général de Gaulle lisant l’appel du 18 juin, pour le journal Le Monde. <div class="column" style="text-align: center;"> On peut tout d’abord invoquer un principe de consentement. Les locuteurs source et cible doivent consentir à l’opération de conversion d’identité vocale pour que son résultat puisse être diffusé. Aussi évident que ce principe puisse paraître, la disponibilité d’applications de clonage vocal ne nécessitant pas d’expertise informatique particulière fait qu’il est très facile à enfreindre, comme le montre l’exemple récent de l’usage par David Guetta en concert d’un clone vocal non autorisée du rappeur Eminem. Si ces premiers clonages sauvages peuvent encore passer pour des coups médiatiques tolérables dans la mesure où aucune exploitation commerciale n’en est faite, une exploitation à grande échelle est de fait rendue possible par l’état et la diffusion des technologies. La chanteuse Holly Herndon a décidé de devancer ses cloneurs en mettant à disposition un double numérique de sa voix nommé Holly+, dont elle permet l’usage créatif à condition qu’il soit traçable, approuvé et qu’une part des revenus générés lui soit reversée. L’existence d’un tel modèle « éthique » pour le clonage vocal n’annule cependant pas la tentation des usages sauvages. On peut s’attendre, pour le meilleur et pour le pire, à ce que le clonage vocal, consenti ou non, se généralise dans la production musicale en suivant une trajectoire comparable à celle de l’auto- tune dans les musiques populaires. On voit se dégager l’horizon d’une économie d’abondance où pour chaque chanson, on pourrait trouver une version chantée par son interprète favori. <iframe width="713" height="400" src="//www.youtube.com/embed/kPAEMUzDxuo" allowfullscreen="allowfullscreen"></iframe> <blockquote> « Le défi pour la création n’est pas tant d’explorer toujours plus de possibilités que de produire de la rareté. Et donc, contrairement à la techno-créativité, de choisir librement ce qu’elle ne fera pas ».  Frank Madlener, directeur de l'Ircam </blockquote> </div> <div class="column"> Dans certains cas, il est radicalement impossible de s’assurer du consentement de la personne clonée. Pour ce qui semble être des raisons anthropologiques profondes, un nombre significatif de clonages vocaux consiste à « réveiller » des voix défuntes. Comment s’acquitter du principe de consentement dans ces cas-là ? D’un point de vue juridique, la solution consiste à s’assurer du consentement des ayant-droits. Si le droit français ne reconnaît pas l’existence d’un droit à l’image après la mort, la jurisprudence estime que la diffusion d’images de défunts peut causer un tort à leurs ayants-droits si la mémoire et le respect dus aux morts ont été atteints. Mais se référer au consentement des ayants-droits ne règle pas toutes les difficultés. La technologie des deepfakes permet aussi à des ayants-droits mal intentionnés de corriger la mauvaise réputation d’un aïeul, en lui prêtant des propos louables mais fictifs. Pour écarter ce type d’usages, on peut invoquer un principe d’autorité: il est légitime de faire artificiellement prononcer un texte à un défunt seulement s’il en est l’auteur, c’est-à-dire s’il l’a dit ou écrit de son vivant. C’était le cas des réponses de Dalida aux questions de Thierry Ardisson. Cette limitation aux dits et écrits du locuteur cible laisse cependant une grande latitude à la conversion vocale. L’information contenue dans un texte, c’est-à- dire une suite de mots, est toujours plus pauvre que celle que contient son énonciation orale. Un locuteur peut considérablement altérer l’information qu’il transmet en faisant simplement varier son intonation. «Le clonage vocal appliqué à un texte suppose ainsi un acte d’interprétation» comme le souligne <a href="https://www.ircam.fr/person/-98" target="_blank" rel="noopener noreferrer">Nadia Guerouaou</a>, chercheuse en neurosciences au sein de l’équipe <a href="https://www.ircam.fr/recherche/equipes-recherche/pds" target="_blank" rel="noopener noreferrer">Perception et design sonore</a>s de l’Ircam. Pour recréer l’appel du 18 juin, une interprétation vocale de l’appel a d’abord été enregistrée par l’acteur François Morel. Les scientifiques de l’équipe A/S ont ensuite modifié l’identité du locuteur à l’aide d’un modèle de conversion entraîné avec différents enregistrements du général de Gaulle datant des années 1940. Axel Roebel parle à ce sujet de «reconstitution interprétée». À côté du principe d’autorité, il faut par conséquent ajouter un principe de fidélité gouvernant l’interprétation qui accompagne la synthèse vocale. <div class="page" title="Page 28"> <div class="section"> <div class="layoutArea"> <div class="column"> Il arrive que la frontière entre interprétation historique et interprétation créative ne soit pas nette : le principe de fidélité doit être adapté en conséquence. C’est ce qu’illustre l’exemple de la mise en voix du journal intime de Marilyn Monroe dans le film Marilyn (2012) de Philippe Parreno, également réalisée par l’équipe A/S. Comme le rappelle Nicolas Obin, «la grande majorité des enregistrements de Marilyn qui ont servi à l’apprentissage de modèles statistiques sont issus de ses films, c’est-à-dire non de Marilyn elle-même mais du personnage de Marilyn, souvent exubérante, alors que le réalisateur était à la recherche de la Marilyn plus personnelle, celle de l’intimité, dont nous ne possédons aucune trace enregistrée. Il nous a fallu de nombreuses expérimentations et adaptations pour réussir à rendre cette intimité. Lors de la première diffusion, ses proches ont été émus de retrouver Marilyn telle qu’ils l’avaient connue ». <iframe width="713" height="400" src="//www.youtube.com/embed/kCV2dh34rz4" allowfullscreen="allowfullscreen"></iframe> Les principes d’autorité et de fidélité ne sont cependant pas toujours suffisants pour assurer la légitimité du clonage vocal. C’est une des leçons que l’on peut tirer des remous suscités par le documentaire Roadrunner (2021) retraçant la vie du chef et animateur de télévision Anthony Bourdain jusqu’à son suicide en 2018. Le réalisateur Morgan Neville a fait de Bourdain lui-même le narrateur du film en s’appuyant sur des enregistrements d’archives et, à quelques exceptions près, de phrases reconstituées par clonage vocal. Le passage du film le plus controversé nous fait ainsi entendre la voix de Bourdain lire un de ses emails où il fait part de son mal-être : « Comme moi, tu connais le succès. Mais es-tu heureux ? ». Ce sont les propres mots de Bourdain (selon notre traduction), rendus avec une tonalité affective appropriée. Ce qui a causé le scandale sur les réseaux sociaux, c’est plutôt l’absence de transparence au sujet de ce clonage vocal que Neville n’a pas jugé bon de révéler, laissant croire qu’il s’agissait d’un enregistrement. Ce principe de transparence était au contraire central dans le Marilyn de Parreno qui abordait des thèmes assez proches, mais où le procédé était clairement explicité dans le texte de présentation du film. </div> De façon surprenante, il apparaît que ce principe de transparence n’est pas toujours nécessaire à l’acceptabilité de certains usages de filtres vocaux. Nadia Guerouaou a exploré les usages thérapeutiques des filtres permettant de moduler en temps réel l’émotion exprimée par la voix, en la rendant plus joyeuse, ou plus triste: «Ces filtres peuvent avoir des applications dans les thérapies d’exposition en imagination à l’événement traumatique pour les patients atteints de trouble de stress post- traumatique. L’idée est de moduler par le feedback vocal en temps réel la charge émotionnelle associée à la trace mnésique de l’événement traumatique, et ainsi à la transformer». Dans une étude d’éthique expérimentale, elle a sondé l’acceptabilité sociale de ce type de filtres et observé que l’emploi de ces filtres était largement accepté par les sujets, y compris dans les cas où cet usage restait caché au destinataire de la voix filtrée2. En lien avec ces résultats, Nadia Guerrouaou se demande « si cela fait une différence éthique d’opérer ces changements par l’informatique plutôt que par un apprentissage humain, comme le coaching vocal par exemple». Les filtres vocaux permettent aussi des transformations qu’aucun entraînement intensif ne rend possible, et ce sans effort. Il y a des graves ou des aigus qu’aucun cours de chant ne permettra d’atteindre. On peut supposer que pour ces usages-là, le principe de transparence reste pertinent. </div> <div class="column"> La conversion d’attributs vocaux soulève également des questions éthiques spécifiques liées à la définition des attributs considérés. Qu’est-ce que féminiser une voix? Il existe des différences acoustiques moyennes entre les voix d’hommes et de femmes qui tiennent en partie à des différences physiologiques, mais il y a aussi beaucoup de variabilité interindividuelle au sein de chaque catégorie, ainsi qu’une plasticité de l’appareil vocal à l’échelle de chaque individu. Souvent, féminiser une voix veut dire rapprocher cette voix d’un stéréotype de voix féminine qui est en partie socialement construit. Cela ne veut pas dire que les algorithmes de conversion vocale sont condamnés à perpétuer les biais sexistes. <img src="/media/uploads/magazine/2024/IA-ethique/amours-celadon.png" alt="" height="950" /> © Les Amours d’Astrée et de Céladon d’Éric Rohmer (2007) Pour féminiser numériquement la voix de Céladon, lorsqu’il se travestit en femme dans Les Amours d’Astrée et de Céladon d’Éric Rohmer, les scientifiques d’A/S ont appliqué des valeurs intermédiaires entre les moyennes masculines et féminines, de façon à rendre acoustiquement l’ambiguïté de genre du personnage, un choix qui a trouvé un écho favorable chez les critiques du Monde qui ont relevé «une tonalité queer aussi réjouissante qu’inattendue3». Mais une responsabilité incombe aux designers de logiciels de conversion vocale à destination des industries culturelles comme du grand public : si les fonctionnalités de conversion vocale se limitent à cliquer sur un bouton «féminiser», sans que l’utilisateur n’ait de contrôle sur les paramètres qui définissent cette féminité, on peut craindre que l’application amène à reconduire les biais de genre associés à la voix. Ce bref tour d’horizon de l’éthique des algorithmes de conversion vocale montre ainsi que l’informatique ne peut ignorer les implications humaines et sociales qui accompagnent ses avancées techniques. Que ce soit pour reconstruire le passé sonore, créer de nouvelles vocalités ou soigner par la voix, les choix d’ingénerie et d’utilisation, à l’Ircam et ailleurs, retracent continuellement les contours de nos identités vocales. La réflexion critique sur ces outils et leurs usages est plus que jamais nécessaire4. Par <a href="https://www.ircam.fr/person/pierre-saint-germier#:~:text=Pierre%20Saint%2DGermier%20est%20charg%C3%A9,du%20Son%20de%20l'IRCAM." target="_blank" rel="noopener noreferrer">Pierre Saint-Germier</a>, philosophe (CNRS) (1) Sur la problématique de l’équité algorithmique, voir Cathy O’Neill, Algorithmes. La bombe à retardement, Paris, Les Arènes, 2018. (2) Guerouaou N, Vaiva G, Aucouturier J-J. 2021 The shallow of your smile : the ethics of expressive vocal deep-fakes. Phil. Trans. R. Soc. B 377 : 20210083. <a href="https://doi.org/10.1098/rstb.2021.0083" target="_blank" rel="noopener noreferrer">https://doi.org/10.1098/rstb.2021.0083</a>(3) Voir à ce sujet Camille Pierre, « Voix trafiquées au cinéma, un rappel aux normes ? Le plug-in TRaX à l’&oelig;uvre dans Les Amours d’Astrée et de Céladon (Éric Rohmer, 2007) et Les Garçons sauvages (Bertrand Mandico, 2018) », Semen, 51 | 2022, 39-54. (4) Cet article a été nourri par un entretien avec Nadia Guerouaou, Frank Madlener, Nicolas Obin et Axel Roebel. Qu’ils en soient vivement remerciés. </div> </div> </div> </div>

Émission l’Hôtel du Temps de Thierry Ardisson pour France 3 (2022) © France TV, François Roelants

Comme notre corps et notre visage, notre voix est ce que nous avons de plus intime. Elle trahit nos émotions irréfléchies, les sous-entendus et non-dits que l’écrit passe habilement sous silence. La voix, en apparence, ne peut pas mentir. Et pourtant, comme notre corps et notre visage, nous pouvons l’habiller et la maquiller. La manipulation de l’intonation est aussi vieille que la rhétorique, tout comme le maquillage et le tatouage sont aussi vieux que l’humanité, chez qui la transformation de soi par la technique est une seconde nature. C’est précisément parce que la voix se donne comme une image fidèle et transparente de notre intériorité que sa transformation acquiert une puissance particulière. C’est aussi pourquoi les progrès récents du traitement numérique de la voix, rendus possibles par l’intelligence artificielle, peuvent paraître si troublants.

Les techniques de conversion vocale permettent de conférer au discours d’un locuteur source certains attributs de la voix d’un locuteur cible, par exemple son âge, son genre, sa tonalité affective, et même son identité vocale. Ces technologies sont bien connues des chercheurs et chercheuses de l’équipe Analyse et synthèse des sons (A/S) de l’Ircam qui, depuis plusieurs décennies, ont contribué à leur développement et à leurs applications dans la recherche musicale et les industries culturelles. On parle de “filtre vocal” lorsque la manipulation préserve l’identité vocale du locuteur source, et de “ clone vocal ” lorsque l’identité du locuteur cible est substituée à celle de la source, créant l’illusion de faire dire à l’un ce qui a été dit par l’autre.

La notion de fake implique en outre une intention de tromper, en présentant comme un enregistrement ce qui résulte en réalité de l’application d’un filtre ou d’un clonage. Les deepfakes sont des fakes qui reposent sur des techniques récentes d’apprentissage profond, par lesquelles de très grands réseaux d’unités de calcul, appelés «neurones» parce qu’ils s’inspirent de modèles simplifiés des neurones biologiques, apprennent des tâches complexes, comme reconnaître une voix, directement à partir d’une grande masse d’exemples (la base d’apprentissage).

« Grâce aux réseaux profonds, des chercheurs ont généré pour la première fois en 2017 une voix de synthèse pour laquelle les auditeurs humains ne pouvaient pas faire la différence entre le réel et l’artificiel. C’est un peu comme si l’IA avait réussi, dans le domaine de la voix, à passer le test de Turing ».
Nicolas Obin, chercheur au sein de l’équipe A/S

Comme le souligne Axel Roebel, responsable de l’équipe A/S « le prix à payer pour ces succès a été l'utilisaiton de base de données beaucoup plus volumineuses et d’une plus grande puissance de calcul ».

Ces nouvelles possibilités soulèvent d’inévitables enjeux éthiques. La constitution de bases de données vocales pour entraîner les réseaux profonds soulève déjà une première série de questions. Si les modèles apprennent à partir d’exemples glanés sur le web, les représentations de la voix apprises par ces algorithmes seront aussi biaisées que les données qui les nourrissent. Par exemple, si les données sont majoritairement issues de locuteurs de l’anglais, américains, masculins et blancs, les algorithmes construiront des représentations plus fiables des voix parlant cet anglais-là, plutôt que de celle des femmes afro-américaines, et a fortiori de locuteurs s’exprimant dans des langues ayant spontanément suscité peu voire pas de données. Si les applications documentaires ou créatives des technologies de conversion vocale se révèlent moins performantes pour les voix provenant de cultures vocales sous-représentées dans le monde numérique, l’emploi de ces technologies menace d’accentuer ces déséquilibres et de générer ce que l’on appelle des iniquités algorithmiques¹. Le projet européen Linguatec IA cherche ainsi à développer des architectures neuronales adaptées à des situations de calcul et à des ressources linguistiques limitées, de façon à assurer un meilleur traitement de langues rares comme l’aragonais, le catalan, le basque et l’occitan.

À côté des problèmes d’équité algorithmique, consubstantiels aux techniques d’apprentissage profond, se posent des questions spécifiques aux technologies de conversion vocale, à commencer par le clonage vocal. La question centrale ici est de déterminer dans quels cadres d’application il est légitime de conférer l’identité vocale d’un locuteur cible à une phrase prononcée par un locuteur source. C’est une question qui se pose à chaque fois qu’un membre de l’équipe A/S répond à une commande venant des industries culturelles, comme cela a pu récemment être le cas avec la voix de Dalida, pour l’émission l’Hôtel du Temps de Thierry Ardisson ou du Général de Gaulle lisant l’appel du 18 juin, pour le journal Le Monde.

On peut tout d’abord invoquer un principe de consentement. Les locuteurs source et cible doivent consentir à l’opération de conversion d’identité vocale pour que son résultat puisse être diffusé.

Aussi évident que ce principe puisse paraître, la disponibilité d’applications de clonage vocal ne nécessitant pas d’expertise informatique particulière fait qu’il est très facile à enfreindre, comme le montre l’exemple récent de l’usage par David Guetta en concert d’un clone vocal non autorisée du rappeur Eminem. Si ces premiers clonages sauvages peuvent encore passer pour des coups médiatiques tolérables dans la mesure où aucune exploitation commerciale n’en est faite, une exploitation à grande échelle est de fait rendue possible par l’état et la diffusion des technologies.

La chanteuse Holly Herndon a décidé de devancer ses cloneurs en mettant à disposition un double numérique de sa voix nommé Holly+, dont elle permet l’usage créatif à condition qu’il soit traçable, approuvé et qu’une part des revenus générés lui soit reversée. L’existence d’un tel modèle « éthique » pour le clonage vocal n’annule cependant pas la tentation des usages sauvages. On peut s’attendre, pour le meilleur et pour le pire, à ce que le clonage vocal, consenti ou non, se généralise dans la production musicale en suivant une trajectoire comparable à celle de l’auto- tune dans les musiques populaires. On voit se dégager l’horizon d’une économie d’abondance où pour chaque chanson, on pourrait trouver une version chantée par son interprète favori.

« Le défi pour la création n’est pas tant d’explorer toujours plus de possibilités que de produire de la rareté. Et donc, contrairement à la techno-créativité, de choisir librement ce qu’elle ne fera pas ».
Frank Madlener, directeur de l'Ircam

Dans certains cas, il est radicalement impossible de s’assurer du consentement de la personne clonée. Pour ce qui semble être des raisons anthropologiques profondes, un nombre significatif de clonages vocaux consiste à « réveiller » des voix défuntes.

Comment s’acquitter du principe de consentement dans ces cas-là ? D’un point de vue juridique, la solution consiste à s’assurer du consentement des ayant-droits. Si le droit français ne reconnaît pas l’existence d’un droit à l’image après la mort, la jurisprudence estime que la diffusion d’images de défunts peut causer un tort à leurs ayants-droits si la mémoire et le respect dus aux morts ont été atteints. Mais se référer au consentement des ayants-droits ne règle pas toutes les difficultés. La technologie des deepfakes permet aussi à des ayants-droits mal intentionnés de corriger la mauvaise réputation d’un aïeul, en lui prêtant des propos louables mais fictifs.

Pour écarter ce type d’usages, on peut invoquer un principe d’autorité: il est légitime de faire artificiellement prononcer un texte à un défunt seulement s’il en est l’auteur, c’est-à-dire s’il l’a dit ou écrit de son vivant. C’était le cas des réponses de Dalida aux questions de Thierry Ardisson.

Cette limitation aux dits et écrits du locuteur cible laisse cependant une grande latitude à la conversion vocale. L’information contenue dans un texte, c’est-à- dire une suite de mots, est toujours plus pauvre que celle que contient son énonciation orale. Un locuteur peut considérablement altérer l’information qu’il transmet en faisant simplement varier son intonation. «Le clonage vocal appliqué à un texte suppose ainsi un acte d’interprétation» comme le souligne Nadia Guerouaou, chercheuse en neurosciences au sein de l’équipe Perception et design sonores de l’Ircam. Pour recréer l’appel du 18 juin, une interprétation vocale de l’appel a d’abord été enregistrée par l’acteur François Morel. Les scientifiques de l’équipe A/S ont ensuite modifié l’identité du locuteur à l’aide d’un modèle de conversion entraîné avec différents enregistrements du général de Gaulle datant des années 1940. Axel Roebel parle à ce sujet de «reconstitution interprétée». À côté du principe d’autorité, il faut par conséquent ajouter un principe de fidélité gouvernant l’interprétation qui accompagne la synthèse vocale.

Il arrive que la frontière entre interprétation historique et interprétation créative ne soit pas nette : le principe de fidélité doit être adapté en conséquence. C’est ce qu’illustre l’exemple de la mise en voix du journal intime de Marilyn Monroe dans le film Marilyn (2012) de Philippe Parreno, également réalisée par l’équipe A/S. Comme le rappelle Nicolas Obin, «la grande majorité des enregistrements de Marilyn qui ont servi à l’apprentissage de modèles statistiques sont issus de ses films, c’est-à-dire non de Marilyn elle-même mais du personnage de Marilyn, souvent exubérante, alors que le réalisateur était à la recherche de la Marilyn plus personnelle, celle de l’intimité, dont nous ne possédons aucune trace enregistrée. Il nous a fallu de nombreuses expérimentations et adaptations pour réussir à rendre cette intimité. Lors de la première diffusion, ses proches ont été émus de retrouver Marilyn telle qu’ils l’avaient connue ».

Les principes d’autorité et de fidélité ne sont cependant pas toujours suffisants pour assurer la légitimité du clonage vocal. C’est une des leçons que l’on peut tirer des remous suscités par le documentaire Roadrunner (2021) retraçant la vie du chef et animateur de télévision Anthony Bourdain jusqu’à son suicide en 2018. Le réalisateur Morgan Neville a fait de Bourdain lui-même le narrateur du film en s’appuyant sur des enregistrements d’archives et, à quelques exceptions près, de phrases reconstituées par clonage vocal. Le passage du film le plus controversé nous fait ainsi entendre la voix de Bourdain lire un de ses emails où il fait part de son mal-être : « Comme moi, tu connais le succès. Mais es-tu heureux ? ». Ce sont les propres mots de Bourdain (selon notre traduction), rendus avec une tonalité affective appropriée. Ce qui a causé le scandale sur les réseaux sociaux, c’est plutôt l’absence de transparence au sujet de ce clonage vocal que Neville n’a pas jugé bon de révéler, laissant croire qu’il s’agissait d’un enregistrement. Ce principe de transparence était au contraire central dans le Marilyn de Parreno qui abordait des thèmes assez proches, mais où le procédé était clairement explicité dans le texte de présentation du film.

De façon surprenante, il apparaît que ce principe de transparence n’est pas toujours nécessaire à l’acceptabilité de certains usages de filtres vocaux. Nadia Guerouaou a exploré les usages thérapeutiques des filtres permettant de moduler en temps réel l’émotion exprimée par la voix, en la rendant plus joyeuse, ou plus triste: «Ces filtres peuvent avoir des applications dans les thérapies d’exposition en imagination à l’événement traumatique pour les patients atteints de trouble de stress post- traumatique. L’idée est de moduler par le feedback vocal en temps réel la charge émotionnelle associée à la trace mnésique de l’événement traumatique, et ainsi à la transformer».

Dans une étude d’éthique expérimentale, elle a sondé l’acceptabilité sociale de ce type de filtres et observé que l’emploi de ces filtres était largement accepté par les sujets, y compris dans les cas où cet usage restait caché au destinataire de la voix filtrée². En lien avec ces résultats, Nadia Guerrouaou se demande « si cela fait une différence éthique d’opérer ces changements par l’informatique plutôt que par un apprentissage humain, comme le coaching vocal par exemple». Les filtres vocaux permettent aussi des transformations qu’aucun entraînement intensif ne rend possible, et ce sans effort. Il y a des graves ou des aigus qu’aucun cours de chant ne permettra d’atteindre. On peut supposer que pour ces usages-là, le principe de transparence reste pertinent.

La conversion d’attributs vocaux soulève également des questions éthiques spécifiques liées à la définition des attributs considérés. Qu’est-ce que féminiser une voix? Il existe des différences acoustiques moyennes entre les voix d’hommes et de femmes qui tiennent en partie à des différences physiologiques, mais il y a aussi beaucoup de variabilité interindividuelle au sein de chaque catégorie, ainsi qu’une plasticité de l’appareil vocal à l’échelle de chaque individu. Souvent, féminiser une voix veut dire rapprocher cette voix d’un stéréotype de voix féminine qui est en partie socialement construit. Cela ne veut pas dire que les algorithmes de conversion vocale sont condamnés à perpétuer les biais sexistes.

Pour féminiser numériquement la voix de Céladon, lorsqu’il se travestit en femme dans Les Amours d’Astrée et de Céladon d’Éric Rohmer, les scientifiques d’A/S ont appliqué des valeurs intermédiaires entre les moyennes masculines et féminines, de façon à rendre acoustiquement l’ambiguïté de genre du personnage, un choix qui a trouvé un écho favorable chez les critiques du Monde qui ont relevé «une tonalité queer aussi réjouissante qu’inattendue³». Mais une responsabilité incombe aux designers de logiciels de conversion vocale à destination des industries culturelles comme du grand public : si les fonctionnalités de conversion vocale se limitent à cliquer sur un bouton «féminiser», sans que l’utilisateur n’ait de contrôle sur les paramètres qui définissent cette féminité, on peut craindre que l’application amène à reconduire les biais de genre associés à la voix.

Ce bref tour d’horizon de l’éthique des algorithmes de conversion vocale montre ainsi que l’informatique ne peut ignorer les implications humaines et sociales qui accompagnent ses avancées techniques. Que ce soit pour reconstruire le passé sonore, créer de nouvelles vocalités ou soigner par la voix, les choix d’ingénerie et d’utilisation, à l’Ircam et ailleurs, retracent continuellement les contours de nos identités vocales. La réflexion critique sur ces outils et leurs usages est plus que jamais nécessaire⁴.

Par Pierre Saint-Germier, philosophe (CNRS)

(¹) Sur la problématique de l’équité algorithmique, voir Cathy O’Neill, Algorithmes. La bombe à retardement, Paris, Les Arènes, 2018.
(²) Guerouaou N, Vaiva G, Aucouturier J-J. 2021 The shallow of your smile : the ethics of expressive vocal deep-fakes. Phil. Trans. R. Soc. B 377 : 20210083. https://doi.org/10.1098/rstb.2021.0083(³) Voir à ce sujet Camille Pierre, « Voix trafiquées au cinéma, un rappel aux normes ? Le plug-in TRaX à l’œuvre dans Les Amours d’Astrée et de Céladon (Éric Rohmer, 2007) et Les Garçons sauvages (Bertrand Mandico, 2018) », Semen, 51 | 2022, 39-54.
(⁴) Cet article a été nourri par un entretien avec Nadia Guerouaou, Frank Madlener, Nicolas Obin et Axel Roebel. Qu’ils en soient vivement remerciés.

Éditer

En lien avec

Actualité

Recherche

Le filtre vocal : vers l'anthropothechnie de nos cognitions sociales

Article

Par Nadia Guerouaou, chercheuse