L’IA théâthérapeute

Entretien avec Alexander Schubert et Philippe Esling

Contenu :
Le 11 juin prochain, dans le cadre de l’édition 2022 du festival ManiFeste, <a href="https://manifeste.ircam.fr/person/alexander-schubert/" target="_blank">Alexander Schubert</a> présente en création <a href="https://manifeste.ircam.fr/agenda/anima-tm/detail/" target="_blank">Anima</a>, une &oelig;uvre qui a recours à des outils relevant de l’intelligence artificielle, en même temps qu’elle en interroge le concept. Scientifique de formation, le compositeur allemand s’est pour cela rapproché du groupe de chercheurs autour de Philippe Esling, au sein de l’équipe <a href="https://www.ircam.fr/recherche/equipes-recherche/repmus" target="_blank">Représentations Musicales</a> à l’Ircam. Une collaboration riche et inattendue… <a href="https://manifeste.ircam.fr/agenda/anima-tm/detail/" target="_blank"><img src="/media/uploads/magazine/2022/alexander schubert ia theatrerapeute/Alexander_Schubert_Pixel_Sorted.jpg" width="400" height="291" /></a> Alexander Schubert © Pixel Sorted <h2>Alexander, avant de vous y intéresser dans le cadre de votre travail de compositeur, quelle image aviez-vous des technologies dites d’intelligence artificielle ?</h2> Alexander Schubert : J’ai fait des études d’informatique, avec un intérêt particulier pour ce domaine-là – ma première exposition au sujet relève donc davantage d’une approche mathématique pure. Le reste est venu plus tard, et a ensuite été largement nourri par les avancées dans le champ de l’intelligence artificielle ces dernières années – avancées qui ont ouvert les processus à des niveaux qui n’étaient plus simplement symboliques. Philippe Esling : J’ai le sentiment que, lorsqu’il est venu nous voir, Alexander avait déjà une idée derrière la tête, même si rien n’était gravé dans le marbre : il voulait une &oelig;uvre visuelle et sonore générée par l’ordinateur. Ce qui est intéressant, par rapport à d’autres compositeurs avec lesquels nous avons pu travailler, c’est qu’il s’est d’emblée passionné pour la compréhension des modèles qu’on lui a présentés, c’est-à-dire pas uniquement leurs contrôle et utilisation, mais leur mécanique interne. C’est rare et pourtant pas inutile : c’est comme si, avant de conduire une voiture, un pilote voulait en comprendre la mécanique. Son approche a été très empirique. Il n’a pas cherché à imposer sa vision ou ses fantasmes de l’intelligence artificielle. Il n’avait aucun préjugé, seulement cette envie de construire une base solide scientifiquement pour comprendre où emmener l’outil. <h2>Alexander, quelle était justement votre première idée lorsque vous avez voulu y avoir recours dans Anima ?</h2> A.S. : La génération d’audio et de vidéo brutes représentait pour moi une forte motivation, de même que la possibilité d’interaction en temps réel avec la machine, qui commence enfin aujourd’hui à devenir accessible, en termes de puissance de calcul. Partant de là, je suis allé chercher les bons moyens de concrétiser tout cela. Les différentes composantes du sujet se divisent ici en deux catégories : la synthèse et les traitements sonores d’une part, et la génération de partitions symboliques destinées à des séquences de gestes d’autre part. P.E. : Concernant la première catégorie, nous avons beaucoup travaillé sur nos modèles de synthèse sonore ou de transfert de timbre. Avec le transfert de timbre, ou transfert morphologique, on génère, à partir d’un signal sonore source, un nouveau son qui suit le même profil (ou du moins certains paramètres choisis de ce profil), mais dans un timbre autre (par exemple : à l’entrée, une mélodie de violon, à la sortie, une voix). Certains paramètres d’expressivité, spécifiques aux modes de jeu de l’échantillon source (dynamique, vibrato, etc.), peuvent même être restitués en les adaptant aux paramètres d’expressivité spécifiques au timbre cible. Par exemple, pour la voix, par le choix de la vocalisation (voyelles et consonnes). On peut transformer n’importe quel son en n’importe quel autre son, en temps réel – donnant naissance à une forme de dissociation entre réel et virtuel. <img src="/media/uploads/magazine/2022/alexander schubert ia theatrerapeute/anima2_lucas_gutierrez.png" width="928" height="348" /> Anima™ © Lucas Gutierrez <h2>Quelle a été la démarche d’Alexander pour s’approprier l’outil ?</h2> P.E. : La première chose qu’il a voulu faire, c’est le « détruire ». C’est un peu rageant pour nous mais cela peut être très intéressant. Nous lui avons expliqué les limites de nos modèles. Ainsi, nos modèles de synthèse sonore fonctionnent mieux lorsqu’ils sont pré-entraînés à partir de banques de sons aux distributions homogènes, avec des timbres distinctifs. Beaucoup moins bien avec tout ce qui relève du bruit. On sait ainsi très bien modéliser un son de violon, mais pas ses modes de jeu atypiques. Du moins pour l’instant : la qualité sonore obtenue est encore insatisfaisante. Le modèle étant purement observationnel et s’entraînant à partir d’un corpus qu’on lui fournit, si le mode de jeu en question n’est pas dans le corpus, la machine ne pourra pas l’imaginer. C’est pourtant dans ces domaines bruités qu’Alexander a voulu travailler : bruit de perceuses, craquements, cris… C’est du reste une préoccupation que je peux ressentir dans ses travaux antérieurs : il a peu d’attrait pour le symbolique. Pour nous chercheurs, cette démarche nous a permis de nous apercevoir que nos modèles ne marchaient en réalité pas aussi mal que nous le pensions. Cela a été l’occasion de les améliorer. C’est ainsi que, au fil du projet, nous avons développé de nouvelles approches pour répondre aux demandes d’Alexander. Comme un jeu du chat et de la souris, chaque nouveau modèle venant avec ses nouveaux modes d’échec, il a voulu les explorer. <h2>Quels sont finalement les usages que vous avez faits des outils relevant de l’intelligence artificielle ? Quels sont leurs rôles dans le processus de composition ?</h2> A.S. : Dans le domaine sonore, nous nous sommes concentrés sur trois champs d’exploration : la synthèse de la voix parlée, la transformation de la voix parlée et la synthèse sonore autonome. Nous avons pré-entrainé des réseaux de neurones pour générer de manière autonome soit de la musique, soit de la voix parlée à partir d’une banque de sons donnée, qui va du matériau musical au langage parlé par les membres de l’ensemble. Tout cela nous permet notamment de transformer, en temps réel, une source sonore en un autre discours sonore. Par exemple, faire dire à la voix d’un musicien ce que dit une voix informatisée. D’autre part, les modèles ont été utilisés pour générer continûment, et de manière autonome, de nouveaux sons. L’un et l’autre processus servent à créer un matériau sonore destiné à la composition électronique en même temps qu’ils interviennent dans l’interaction, le traitement et la génération aléatoire, en direct au cours de la performance. P.E. : L’intelligence artificielle ne produit pas d’écriture, elle génère des timbres que le compositeur peut explorer, mettre en relation avec d’autres signaux, ou contrôler en couplant la synthèse avec d’autres signaux. A.S. : D’autre part, la machine génère, en temps réel et sous forme textuelle, des instructions symboliques de mouvements, lesquelles sont incarnées par les performeurs sur scène de manière à créer des schémas chorégraphiques. Ces instructions sont transmises aux musiciens et performeurs dans l’instant – créant une chorégraphie en continuelle évolution – tout en établissant une relation interactive entre la machine, le dispositif et les êtres humains qui l’occupent. <img src="/media/uploads/magazine/2022/alexander schubert ia theatrerapeute/anima_lucas_gutierrez.png" width="928" height="348" /> Anima™ © Lucas Gutierrez <h2>Alexander, est-il dans vos intentions d’interroger également le principe même d’intelligence artificielle, en tant qu’outil et produit de notre société ?</h2> A.S. : Dans le cadre d’<a href="https://manifeste.ircam.fr/agenda/anima-tm/detail/" target="_blank">Anima</a>, l’intelligence artificielle est effectivement considérée à la fois comme un outil et comme une métaphore. La pièce part du postulat qu’un système piloté par une intelligence artificielle pourrait servir de dispositif thérapeutique de groupe – et concrétise cette idée à la fois en tant qu’application concrète de ce dispositif et en tant que métaphore de notre vision constructiviste du monde, dans l’élaboration de notre for intérieur comme de notre espace extérieur. Anima interroge donc la technologie en tant qu’outil potentiellement capable de créer et d’analyser des systèmes complexes. L’intelligence artificielle est aussi interrogée pour son opacité – c’est-à-dire le fait que c’est une boîte noire dont les mécanismes internes nous sont masqués. De ce point de vue, l’intelligence artificielle est aussi la métaphore d’un système dont on ne peut déchiffrer et travailler que le résultat qu’il produit. Et je veux questionner ici cet abandon, cette capitulation, cette foi placée dans un système qu’on ne comprend que partiellement.

Le 11 juin prochain, dans le cadre de l’édition 2022 du festival ManiFeste, Alexander Schubert présente en création Anima, une œuvre qui a recours à des outils relevant de l’intelligence artificielle, en même temps qu’elle en interroge le concept. Scientifique de formation, le compositeur allemand s’est pour cela rapproché du groupe de chercheurs autour de Philippe Esling, au sein de l’équipe Représentations Musicales à l’Ircam. Une collaboration riche et inattendue…

Alexander Schubert © Pixel Sorted

Alexander, avant de vous y intéresser dans le cadre de votre travail de compositeur, quelle image aviez-vous des technologies dites d’intelligence artificielle ?

Alexander Schubert : J’ai fait des études d’informatique, avec un intérêt particulier pour ce domaine-là – ma première exposition au sujet relève donc davantage d’une approche mathématique pure. Le reste est venu plus tard, et a ensuite été largement nourri par les avancées dans le champ de l’intelligence artificielle ces dernières années – avancées qui ont ouvert les processus à des niveaux qui n’étaient plus simplement symboliques.

Philippe Esling : J’ai le sentiment que, lorsqu’il est venu nous voir, Alexander avait déjà une idée derrière la tête, même si rien n’était gravé dans le marbre : il voulait une œuvre visuelle et sonore générée par l’ordinateur. Ce qui est intéressant, par rapport à d’autres compositeurs avec lesquels nous avons pu travailler, c’est qu’il s’est d’emblée passionné pour la compréhension des modèles qu’on lui a présentés, c’est-à-dire pas uniquement leurs contrôle et utilisation, mais leur mécanique interne. C’est rare et pourtant pas inutile : c’est comme si, avant de conduire une voiture, un pilote voulait en comprendre la mécanique. Son approche a été très empirique. Il n’a pas cherché à imposer sa vision ou ses fantasmes de l’intelligence artificielle. Il n’avait aucun préjugé, seulement cette envie de construire une base solide scientifiquement pour comprendre où emmener l’outil.

Alexander, quelle était justement votre première idée lorsque vous avez voulu y avoir recours dans Anima ?

A.S. : La génération d’audio et de vidéo brutes représentait pour moi une forte motivation, de même que la possibilité d’interaction en temps réel avec la machine, qui commence enfin aujourd’hui à devenir accessible, en termes de puissance de calcul. Partant de là, je suis allé chercher les bons moyens de concrétiser tout cela. Les différentes composantes du sujet se divisent ici en deux catégories : la synthèse et les traitements sonores d’une part, et la génération de partitions symboliques destinées à des séquences de gestes d’autre part.

P.E. : Concernant la première catégorie, nous avons beaucoup travaillé sur nos modèles de synthèse sonore ou de transfert de timbre. Avec le transfert de timbre, ou transfert morphologique, on génère, à partir d’un signal sonore source, un nouveau son qui suit le même profil (ou du moins certains paramètres choisis de ce profil), mais dans un timbre autre (par exemple : à l’entrée, une mélodie de violon, à la sortie, une voix). Certains paramètres d’expressivité, spécifiques aux modes de jeu de l’échantillon source (dynamique, vibrato, etc.), peuvent même être restitués en les adaptant aux paramètres d’expressivité spécifiques au timbre cible. Par exemple, pour la voix, par le choix de la vocalisation (voyelles et consonnes). On peut transformer n’importe quel son en n’importe quel autre son, en temps réel – donnant naissance à une forme de dissociation entre réel et virtuel.

Anima™ © Lucas Gutierrez

Quelle a été la démarche d’Alexander pour s’approprier l’outil ?

P.E. : La première chose qu’il a voulu faire, c’est le « détruire ». C’est un peu rageant pour nous mais cela peut être très intéressant. Nous lui avons expliqué les limites de nos modèles. Ainsi, nos modèles de synthèse sonore fonctionnent mieux lorsqu’ils sont pré-entraînés à partir de banques de sons aux distributions homogènes, avec des timbres distinctifs. Beaucoup moins bien avec tout ce qui relève du bruit. On sait ainsi très bien modéliser un son de violon, mais pas ses modes de jeu atypiques. Du moins pour l’instant : la qualité sonore obtenue est encore insatisfaisante. Le modèle étant purement observationnel et s’entraînant à partir d’un corpus qu’on lui fournit, si le mode de jeu en question n’est pas dans le corpus, la machine ne pourra pas l’imaginer.

C’est pourtant dans ces domaines bruités qu’Alexander a voulu travailler : bruit de perceuses, craquements, cris… C’est du reste une préoccupation que je peux ressentir dans ses travaux antérieurs : il a peu d’attrait pour le symbolique.

Pour nous chercheurs, cette démarche nous a permis de nous apercevoir que nos modèles ne marchaient en réalité pas aussi mal que nous le pensions. Cela a été l’occasion de les améliorer. C’est ainsi que, au fil du projet, nous avons développé de nouvelles approches pour répondre aux demandes d’Alexander. Comme un jeu du chat et de la souris, chaque nouveau modèle venant avec ses nouveaux modes d’échec, il a voulu les explorer.

Quels sont finalement les usages que vous avez faits des outils relevant de l’intelligence artificielle ? Quels sont leurs rôles dans le processus de composition ?

A.S. : Dans le domaine sonore, nous nous sommes concentrés sur trois champs d’exploration : la synthèse de la voix parlée, la transformation de la voix parlée et la synthèse sonore autonome. Nous avons pré-entrainé des réseaux de neurones pour générer de manière autonome soit de la musique, soit de la voix parlée à partir d’une banque de sons donnée, qui va du matériau musical au langage parlé par les membres de l’ensemble. Tout cela nous permet notamment de transformer, en temps réel, une source sonore en un autre discours sonore. Par exemple, faire dire à la voix d’un musicien ce que dit une voix informatisée. D’autre part, les modèles ont été utilisés pour générer continûment, et de manière autonome, de nouveaux sons. L’un et l’autre processus servent à créer un matériau sonore destiné à la composition électronique en même temps qu’ils interviennent dans l’interaction, le traitement et la génération aléatoire, en direct au cours de la performance.

P.E. : L’intelligence artificielle ne produit pas d’écriture, elle génère des timbres que le compositeur peut explorer, mettre en relation avec d’autres signaux, ou contrôler en couplant la synthèse avec d’autres signaux.

A.S. : D’autre part, la machine génère, en temps réel et sous forme textuelle, des instructions symboliques de mouvements, lesquelles sont incarnées par les performeurs sur scène de manière à créer des schémas chorégraphiques. Ces instructions sont transmises aux musiciens et performeurs dans l’instant – créant une chorégraphie en continuelle évolution – tout en établissant une relation interactive entre la machine, le dispositif et les êtres humains qui l’occupent.

Alexander, est-il dans vos intentions d’interroger également le principe même d’intelligence artificielle, en tant qu’outil et produit de notre société ?

A.S. : Dans le cadre d’Anima, l’intelligence artificielle est effectivement considérée à la fois comme un outil et comme une métaphore. La pièce part du postulat qu’un système piloté par une intelligence artificielle pourrait servir de dispositif thérapeutique de groupe – et concrétise cette idée à la fois en tant qu’application concrète de ce dispositif et en tant que métaphore de notre vision constructiviste du monde, dans l’élaboration de notre for intérieur comme de notre espace extérieur. Anima interroge donc la technologie en tant qu’outil potentiellement capable de créer et d’analyser des systèmes complexes. L’intelligence artificielle est aussi interrogée pour son opacité – c’est-à-dire le fait que c’est une boîte noire dont les mécanismes internes nous sont masqués. De ce point de vue, l’intelligence artificielle est aussi la métaphore d’un système dont on ne peut déchiffrer et travailler que le résultat qu’il produit. Et je veux questionner ici cet abandon, cette capitulation, cette foi placée dans un système qu’on ne comprend que partiellement.

Éditer