Clara Olivares en studio
Pour Au banquet des visages, pour ensemble et électronique que l’Ensemble intercontemporain créera à l’occasion du Grand Soir Numérique dans le cadre de Némo – Biennale internationale des arts numériques de la Région Île-de-Franc le 8 janvier à la Cité de la Musique – Philharmonie de Paris, la compositrice Clara Olivares se penche sur l’articulation entre intelligence humaine et artificielle, en faisant notamment appel au public pour constituer une base de données d’échantillons vocaux.
Aux sources du Banquet : le « besoin de mettre les mains dans l’IA »
À l’origine d’Au banquet des visages, il y a cette volonté de Clara Olivares de se confronter à un outil qui fait souvent figure d’épouvantail, notamment depuis l’apparition des grands modèles de langages tels que ChatGPT en 2022 : l’Intelligence Artificielle (IA). Une technologie qui, par sa brutale irruption dans nos vies, a fait naître chez elle « le besoin d’y mettre les mains ». Une lecture a catalysé cette envie en impulsion : I Have No Mouth, and I Must Scream (1967) de Harlan Ellison, dans laquelle une sorte d’IA, prise de haine contre ses créateurs, se venge sur les derniers survivants de l’humanité.
La compositrice n’a toutefois pas voulu garder le texte de cette nouvelle postapocalyptique comme base de travail : si Clara Olivares s’intéresse plusieurs années aux processus d’altération du langage et aux traitements informatiques de la voix, le concept de l’utilisation de l’IA comme outil d’aide à la composition viennent poser de nouvelles questions et en reformuler d’autres. À commencer par celle de la voix artificielle, évidemment, omniprésente dans son œuvre, au moins depuis son premier opéra de chambre Mary (2017), dans lequel elle travaillait avec des marionnettes et des traitements de la voix en temps réel. La question de l’identité, ensuite, et tout ce qu’elle suppose de miroir, de dédoublement ou de métamorphose, dont l’IA bouleverse irrémédiablement les termes.
Si le titre, volontairement théâtral, rappelle immédiatement les plus belles Cènes de l’histoire de la peinture, le terme de « banquet » suggère selon Clara Olivares tout à la fois un espace de coexistence, sinon de dialogue, et « l’idée de dévoration – de substance humaine, ici, puisque les "visages" sont des voix humaines transformées, des identités morcelées, qui n’apparaissent jamais directement mais par résidus. On absorbe le vivant et on en laisse seulement les vestiges (les os, les gémissements). »
L’exigence d’une IA éthique et respectueuse
Un autre enjeu, crucial, soulevé par le recours à l’IA est celui, éthique, du choix d’une base de données pour entraîner les modèles. Toute voix artificielle, et plus encore celles générées par l’apprentissage profond, repose en effet sur des voix humaines réelles. Seulement, la plupart des gigantesques bases de données mises à la disposition de la communauté sont d’une origine douteuse, trop souvent constituées sans souci du droit des personnes ou du droit de la propriété.
![]()
![]()
Clara Olivares en studio à l'Ircam
« Dès le départ, j’ai décidé de ne pas piocher dans des corpus anonymes ou des banques de données opaques », dit Clara Olivares. Elle s’est tournée vers une alternative certes innovante, mais qui n’est pas sans charrier elle aussi son lot de problèmes. En plus d’une base de données vocales constituée voilà plusieurs années par des personnes volontaires et informées, elle décide de demander au public lui-même de contribuer au projet, via le dépôt de « vocaux » sur une messagerie – invitant les volontaires à partager leurs rêves et aspirations, ou leurs peurs les plus profondes.
« Cela m’a permis tout à la fois d’assumer la dimension humaine de la synthèse vocale, et de sortir le public de sa posture de simple auditeur ou auditrice pour l’impliquer dans la composition. »
Afin de rester « éthique » et respectueuse des volontaires donneurs et donneuses, Clara Olivares a toutefois tenu à leur garantir leur anonymat et a mis en place un protocole spécifique pour gérer ces vocaux, pour qu’aucune oreille humaine ne trahisse leur secret. L’idée a donc été de les « déconstruire avant de les reconstruire de manière artificielle et altérée » – un processus finalement un peu paradoxal, puisque, en voulant valoriser la pensée et l’expression humaines, il les dépouille de leurs spécificités et les broie toutes ensemble.
D’abord, les vocaux ont été passés à la moulinette d’un outil de « speech-to-text » pour en transcrire les contenus, lesquels ont aussitôt été cryptés. Les messages ainsi codés ont été transmis à un modèle d’IA capable de les décrypter et de les paraphraser (pour les dépouiller de leur intonation et autres éléments de langage qui trahiraient de quelque manière l’identité du locuteur ou de la locutrice), puis de les concaténer pour produire un long monologue unique. « Le recours à une IA générative à cette étape du processus ouvre une brèche dans mon idéal de traçabilité (car cette IA été entraînée sur des données gigantesques et impossibles à vérifier) », remarque la compositrice, « mais c’était la seule manière de préserver l’anonymat complet des vocaux originaux. »
Ce monologue a ensuite servi à synthétiser une voix unique, via un modèle de synthèse vocale ad hoc. Accompagnée des réalisateurs en informatique musicale Pierre Carré et de Victor Bigand et des chercheurs de l’équipe Analyse et synthèse des sons dirigée par Axel Roebel, Clara Olivares a mis au point un système hybride : un modèle qui, entraîné sur les vocaux collectés, génère des voix synthétiques aussitôt soumises à des transformations extrêmes (étirement, transposition, filtrage) afin de conserver les vocaux originaux, mais d’une manière tellement altérée qu’on ne peut plus les reconnaître. Cerise sur le gâteau : un peu de synthèse croisée hybride ces voix avec d’autres matériaux non vocaux. Dans la pièce, l’identité de la voix ainsi synthétisée fluctue de manière continue et organique, circulant d’une personnalité à l’autre, en respectant la proportion entre les voix de femmes et les voix d’hommes de l’ensemble des vocaux de départ – une statistique réalisée sur la base des fréquences fondamentales de chaque vocal, donc sans avoir jamais eu besoin de les écouter.
Un regard nouveau sur l’IA
Aussi passionnant soit-il, ce vaste travail sur la voix artificielle a mis Clara Olivares face à un paradoxe : plus l’outil est performant, plus le résultat est réaliste, alors même que la beauté de tout ce processus réside selon elle « dans le raté, l’accident, la déformation imprévue, le glissement. C’est là que naissent les éléments qui éveillent ma créativité et avec lesquels je peux construire. »
Quant à l’IA en général, cette expérience l’a rendue plus pessimiste encore qu’elle ne l’était auparavant, notamment lorsqu’elle constate la place croissante que ces modèles prennent dans notre quotidien, aplanissant le langage et uniformisant les modes de communication, au nom d’une prétendue efficacité. Et de conclure : « L’IA m’a toutefois permis de me recentrer sur l’humain, sa lenteur et sa fragilité. "Le temps du monde fini commence", disait Paul Valéry voilà bientôt cent ans. À nous de continuer autant que possible à habiter à la fois ce temps, et ce monde fini, avec ce qui fait notre humanité et ses interrelations. »
Photo 1 : de gauche à droite , Pierre Carré, Victor Bigand et Clara Olivares

