SPA(S)M 4/4 : Frédéric Bevilacqua – Une pierre à l’édifice

Le blog des résidences artistiques

Contenu :
La résidence en recherche artistique <a href="https://www.ircam.fr/person/basile-chassaing">Basile Chassaing</a> à l’Ircam, autour de la captation de mouvement associée à des processus de synthèse et de composition, se fait au sein de l’équipe <a href="https://www.ircam.fr/recherche/equipes-recherche/ismm">ISMM</a> (Interaction son musique mouvement). Basile s’appuie sur les travaux de l’équipe, au moins autant que l’équipe elle-même attend de ses expériences et de son approche de leurs outils, comme en témoigne ici le responsable de l’équipe et directeur de recherche, <a href="https://www.ircam.fr/person/frederic-bevilacqua">Frédéric Bevilacqua</a>, dans ce dernier épisode de notre série. S’agissant de captation de gestes associée au processus de composition et de performance, l’équipe ISMM n’en est pas à son coup d’essai, – c’est même au c&oelig;ur de ses recherches. C’est ainsi que, au fil du temps et des projets, dans des contextes artistiques variés, ont été développés les <a href="https://www.stms-lab.fr/shop/product/r-iot/">capteurs R-IoT[</a><a href="#_ftn1" name="_ftnref1">1]</a> et tout un ensemble de logiciels permettant l’analyse et l’exploitation compositionnelle des données fournies par les capteurs, faisant parfois intervenir l’apprentissage machine interactif ou, plus récemment, le <a href="https://www.ircam.fr/article/spasm-24-emmanuel-flety-et-lepopee-de-lelectronique-embarquee">deep learning</a><a href="#_ftn2" name="_ftnref2">[2]</a>. Cependant, leur efficacité varie selon le contexte d’utilisation de ces outils, notamment selon qu’ils sont utilisés dans un contexte instrumental ou chorégraphique : « Dans le principe, cela revient au même, dit Frédéric Bevilacqua. Dans les faits, c’est un peu plus compliqué. D’abord, lorsque nous travaillons avec un instrumentiste, la production d’un son par un geste tombe sous le sens : le travail se fait en continuité directe avec la notion de modes de jeu, étendus ou non. Les gestes sont définis pour générer du son, et l’instrumentiste est habitué à reproduire et affiner en fonction du résultat sonore obtenu – la machine, de son côté, apprenant aussi de l’instrumentiste. Dans le cas de la danse, c’est beaucoup moins normé. On met le danseur dans un rôle de musicien – ce qui bouleverse son attention, même lorsqu’il n’interagit pas consciemment avec le système. D’autre part, la définition des gestes est d’emblée plus ouverte – et l’apprentissage de la machine est donc de fait plus complexe aussi. » <iframe width="560" height="315" src="https://www.youtube.com/embed/yBgaPkLhZGw" title="H2O - in memoriam A-68A / basile chassaing 2022-23" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" allowfullscreen="allowfullscreen"></iframe> H2O - in memoriam A-68A / basile chassaing 2022-23 La proposition de Basile Chassaing et de sa résidence en recherche artistique SPA(S)M était donc l’occasion idéale de croiser les visions de l’équipe avec celles d’un compositeur qui, lui non plus, n’en était pas à sa première expérience dans le domaine. L’accent mis par Basile Chassaing sur les aspects rythmiques de l’écriture en lien avec la captation de gestes, qui avaient été jusqu’alors moins investis, ainsi que l’évolutivité qu’il ambitionne pour les modes d’exploitation des données captées dans le cadre compositionnel, ont également séduit les membres de l’équipe. En (re)découvrant l’état de l’art des outils développés par ISMM, Basile Chassaing a pu se familiariser avec les enjeux intrinsèques de chacun, d’un bout à l’autre de la chaîne. Tout d’abord le capteur, le fameux R-IoT, pour lequel cette résidence sera l’occasion d’une nouvelle itération<a href="#_ftn3" name="_ftnref3">[3]</a>. Vient ensuite MuBu : développé pour le logiciel Max, MuBu permet de traiter les différentes données gestuelles – c’est donc l’indispensable maillon de la chaine, entre le capteur et les outils de composition proprement dite. Parmi ces outils de composition, l’un des plus aboutis est <a href="https://www.stms-lab.fr/shop/product/catart/">CataRT</a>, système de synthèse par concaténation en temps réel  : <blockquote> « Le chercheur et développeur <a href="http://diemo.free.fr/wp/?page_id=2">Diemo Schwarz </a>a développé une interface qui permet d’utiliser CartaRT sur une surface en deux dimensions ou un trackpad (avec contrôle de la pression) : on contrôle la synthèse en se déplaçant au sein d’un espace (virtuel) en deux dimensions dans lequel le système a distribué les différents « grains » de son, selon certains descripteurs préalablement choisis (timbre, intensité sonore, etc.). </blockquote> La manipulation de cet outil est rendue intuitive par le fait qu’on a un retour visuel assez direct sur chaque action : tout simplement, on visualise à l’écran les différents segments sonores que l’on sélectionne pour les assembler et les jouer. On peut donc facilement contrôler les textures synthétisées. On pourrait imaginer transposer le principe aux trois dimensions de l’espace, et donc à la danse via un capteur de mouvement, mais ledit danseur n’aurait alors pas de retour visuel. Non seulement le contrôle n’est pas le même, mais l’espace dans lequel on évolue dans CataRT est parfois vide à certains endroits : on pourrait donc se retrouver avec un danseur en mouvement, mais sans produire de son car il s’est égaré sans le savoir dans une région vide de son au sein de l’espace de CataRT ! » <iframe width="560" height="314" src="https://www.youtube.com/embed/qFbayUPedIw" title="SPA[S]M - extrait #1 / chassaing + grach / Royaumont 2023" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" allowfullscreen="allowfullscreen"></iframe> SPA[S]M - extrait #1 / chassaing + grach / Royaumont 2023 « C’est pourquoi j’ai aussi montré à Basile le travail de <a href="https://www.sorbonne-universite.fr/victor-paredes">Victor Paredes</a>, un de nos doctorants qui, dans le cadre de sa thèse, a développé un système qui permet de redéfinir ou remodeler l’espace de CataRT pour correspondre avec celui capté. On obtient ainsi un espace sans trou où on a moins de surprises quant aux différences entre les segments de son parcourus dans des espaces proches les uns des autres. » <blockquote> « Dans un deuxième temps, nous lui avons également présenté le travail d’une autre doctorante, Sarah Nabi, qui, dans le cadre de sa thèse en codirection avec <a href="https://www.ircam.fr/person/philippe-esling">Philippe Esling</a>, a aussi travaillé avec une danseuse équipée de R-IoT, mais cette fois sur <a href="https://github.com/acids-ircam/RAVE">RAVE</a>, un système de synthèse générative originellement développé par <a href="https://caillonantoine.github.io/">Antoine Caillon</a> qui s’appuie sur le deep learning. » </blockquote> La grosse différence entre CataRT et RAVE, c’est la nature de la synthèse : concaténation pour le premier, générative pour le second : « En vérité, développe Frédéric Bevilacqua, les deux techniques sont cousines du point de vue du designer sonore. CataRT coupe des sons et les projette dans un espace que l’on parcourt ensuite pour les recomposer. RAVE apprend un vaste corpus de sons et crée un espace dit « latent », que l’on parcourt, là encore. Le gros problème de la synthèse générative, c’est que l’apprentissage de la machine est extrêmement chronophage et que l’espace latent est aujourd’hui très difficile à contrôler – ces systèmes sont toujours en cours de construction et pas encore aboutis, alors que l’on maitrise aujourd’hui très bien les paramètres de CataRT. Mais les deux systèmes sont complémentaires, à mon sens. La promesse de RAVE est de pouvoir produire des sons hybrides ou du transfert de timbre<a href="https://www.ircam.fr/article/maxime-mantovani-episode-1-associer-le-geste-organologique-a-lia" name="_ftnref4">[4]</a>. » Dans les deux cas, l’exploration expérimentale, avec des danseurs, est absolument indispensable. Et ça tombe bien car c’est au c&oelig;ur de la démarche de recherche engagée par Basile Chassaing, qui ouvre donc en ce début d’année un nouveau chapitre de sa résidence, focalisé sur RAVE et la collaboration avec Sarah Nabi. <img src="/media/uploads/lignejaune-100x2.png" alt="" width="100" height="3" /> <a href="#_ftnref1" name="_ftn1">[1]</a> Voir l’<a href="https://www.ircam.fr/article/spasm-24-emmanuel-flety-et-lepopee-de-lelectronique-embarquee">épisode 2</a> avec Emmanuel Fléty. <a href="#_ftnref2" name="_ftn2">[2]</a> Ou « apprentissage profond » : dernière génération d’intelligence artificielle dont on entend tellement parler en ce moment. <a href="#_ftnref3" name="_ftn3">[3]</a> Voir l’épisode 2 avec Emmanuel Fléty. <a href="#_ftnref4" name="_ftn4">[4]</a> À ce sujet, lire les articles sur la résidence en recherche artistique de Maxime Mantovani.

La résidence en recherche artistique Basile Chassaing à l’Ircam, autour de la captation de mouvement associée à des processus de synthèse et de composition, se fait au sein de l’équipe ISMM (Interaction son musique mouvement). Basile s’appuie sur les travaux de l’équipe, au moins autant que l’équipe elle-même attend de ses expériences et de son approche de leurs outils, comme en témoigne ici le responsable de l’équipe et directeur de recherche, Frédéric Bevilacqua, dans ce dernier épisode de notre série.

S’agissant de captation de gestes associée au processus de composition et de performance, l’équipe ISMM n’en est pas à son coup d’essai, – c’est même au cœur de ses recherches. C’est ainsi que, au fil du temps et des projets, dans des contextes artistiques variés, ont été développés les capteurs R-IoT^[^1] et tout un ensemble de logiciels permettant l’analyse et l’exploitation compositionnelle des données fournies par les capteurs, faisant parfois intervenir l’apprentissage machine interactif ou, plus récemment, le deep learning ^[2].

Cependant, leur efficacité varie selon le contexte d’utilisation de ces outils, notamment selon qu’ils sont utilisés dans un contexte instrumental ou chorégraphique : « Dans le principe, cela revient au même, dit Frédéric Bevilacqua. Dans les faits, c’est un peu plus compliqué. D’abord, lorsque nous travaillons avec un instrumentiste, la production d’un son par un geste tombe sous le sens : le travail se fait en continuité directe avec la notion de modes de jeu, étendus ou non. Les gestes sont définis pour générer du son, et l’instrumentiste est habitué à reproduire et affiner en fonction du résultat sonore obtenu – la machine, de son côté, apprenant aussi de l’instrumentiste. Dans le cas de la danse, c’est beaucoup moins normé. On met le danseur dans un rôle de musicien – ce qui bouleverse son attention, même lorsqu’il n’interagit pas consciemment avec le système. D’autre part, la définition des gestes est d’emblée plus ouverte – et l’apprentissage de la machine est donc de fait plus complexe aussi. »

H2O - in memoriam A-68A / basile chassaing 2022-23

La proposition de Basile Chassaing et de sa résidence en recherche artistique SPA(S)M était donc l’occasion idéale de croiser les visions de l’équipe avec celles d’un compositeur qui, lui non plus, n’en était pas à sa première expérience dans le domaine. L’accent mis par Basile Chassaing sur les aspects rythmiques de l’écriture en lien avec la captation de gestes, qui avaient été jusqu’alors moins investis, ainsi que l’évolutivité qu’il ambitionne pour les modes d’exploitation des données captées dans le cadre compositionnel, ont également séduit les membres de l’équipe.

En (re)découvrant l’état de l’art des outils développés par ISMM, Basile Chassaing a pu se familiariser avec les enjeux intrinsèques de chacun, d’un bout à l’autre de la chaîne. Tout d’abord le capteur, le fameux R-IoT, pour lequel cette résidence sera l’occasion d’une nouvelle itération^[3]. Vient ensuite MuBu : développé pour le logiciel Max, MuBu permet de traiter les différentes données gestuelles – c’est donc l’indispensable maillon de la chaine, entre le capteur et les outils de composition proprement dite.

Parmi ces outils de composition, l’un des plus aboutis est CataRT, système de synthèse par concaténation en temps réel :

« Le chercheur et développeur Diemo Schwarz a développé une interface qui permet d’utiliser CartaRT sur une surface en deux dimensions ou un trackpad (avec contrôle de la pression) : on contrôle la synthèse en se déplaçant au sein d’un espace (virtuel) en deux dimensions dans lequel le système a distribué les différents « grains » de son, selon certains descripteurs préalablement choisis (timbre, intensité sonore, etc.).

La manipulation de cet outil est rendue intuitive par le fait qu’on a un retour visuel assez direct sur chaque action : tout simplement, on visualise à l’écran les différents segments sonores que l’on sélectionne pour les assembler et les jouer. On peut donc facilement contrôler les textures synthétisées. On pourrait imaginer transposer le principe aux trois dimensions de l’espace, et donc à la danse via un capteur de mouvement, mais ledit danseur n’aurait alors pas de retour visuel. Non seulement le contrôle n’est pas le même, mais l’espace dans lequel on évolue dans CataRT est parfois vide à certains endroits : on pourrait donc se retrouver avec un danseur en mouvement, mais sans produire de son car il s’est égaré sans le savoir dans une région vide de son au sein de l’espace de CataRT ! »

SPA[S]M - extrait #1 / chassaing + grach / Royaumont 2023

« C’est pourquoi j’ai aussi montré à Basile le travail de Victor Paredes, un de nos doctorants qui, dans le cadre de sa thèse, a développé un système qui permet de redéfinir ou remodeler l’espace de CataRT pour correspondre avec celui capté. On obtient ainsi un espace sans trou où on a moins de surprises quant aux différences entre les segments de son parcourus dans des espaces proches les uns des autres. »

« Dans un deuxième temps, nous lui avons également présenté le travail d’une autre doctorante, Sarah Nabi, qui, dans le cadre de sa thèse en codirection avec Philippe Esling, a aussi travaillé avec une danseuse équipée de R-IoT, mais cette fois sur RAVE, un système de synthèse générative originellement développé par Antoine Caillon qui s’appuie sur le deep learning. »

La grosse différence entre CataRT et RAVE, c’est la nature de la synthèse : concaténation pour le premier, générative pour le second :
« En vérité, développe Frédéric Bevilacqua, les deux techniques sont cousines du point de vue du designer sonore. CataRT coupe des sons et les projette dans un espace que l’on parcourt ensuite pour les recomposer. RAVE apprend un vaste corpus de sons et crée un espace dit « latent », que l’on parcourt, là encore. Le gros problème de la synthèse générative, c’est que l’apprentissage de la machine est extrêmement chronophage et que l’espace latent est aujourd’hui très difficile à contrôler – ces systèmes sont toujours en cours de construction et pas encore aboutis, alors que l’on maitrise aujourd’hui très bien les paramètres de CataRT. Mais les deux systèmes sont complémentaires, à mon sens. La promesse de RAVE est de pouvoir produire des sons hybrides ou du transfert de timbre^[4]. »

Dans les deux cas, l’exploration expérimentale, avec des danseurs, est absolument indispensable. Et ça tombe bien car c’est au cœur de la démarche de recherche engagée par Basile Chassaing, qui ouvre donc en ce début d’année un nouveau chapitre de sa résidence, focalisé sur RAVE et la collaboration avec Sarah Nabi.

^[1] Voir l’épisode 2 avec Emmanuel Fléty.
^[2] Ou « apprentissage profond » : dernière génération d’intelligence artificielle dont on entend tellement parler en ce moment.
^[3] Voir l’épisode 2 avec Emmanuel Fléty.
^[4] À ce sujet, lire les articles sur la résidence en recherche artistique de Maxime Mantovani.

Éditer

À découvrir aussi

Actualité

Création

SPA(S)M 4/4 : Frédéric Bevilacqua – Une pierre à l’édifice

À découvrir aussi

Basile Chassaing, SPA(S)M 1/4 : Le corps instrument

Emmanuel Fléty, SPA(S)M 2/4 : l’épopée de l’électronique embarquée

SPA(S)M 3/4 : Emmanuelle Grach