ManiFeste-2026

Sur écoute : Analyser notre perception de la musique

2 juin 2026

6 min de lecture

Concert interactif, avec l’Ensemble ]h[iatus sur des pièces composées par Sébastien Roux et Clément Canonne, Espace de projection, Ircam, 2026 - Photo

D’un côté, l’équipe Perception et design sonores – dont les sujets de recherche couvrent la psychoacoustique et les processus physiologiques et neuronaux de l’audition. De l’autre, l’équipe Analyse des pratiques musicales – dont le domaine d’étude concerne la dimension sociale de l’écoute musicale, notamment dans le contexte de la performance et de l’improvisation. À la croisée des chemins, trois chercheurs issus de ces équipes, Emmanuel Ponsot, Patrick Susini et Clément Canonne, ont voulu interroger ce qui était jusqu’alors largement un impensé de la musique : comment écoute-t-on la musique, et plus particulièrement une musique polyphonique ?

Comment nous laissons-nous porter ou naviguons-nous dans le tissu sonore ? Quels processus perceptifs et/ou cognitifs régissent l’écoute et les interactions musicales ? Autant d’axes de recherche qu’Emmanuel Ponsot, Patrick Susini et Clément Canonne creusent ensemble depuis trois ans maintenant, imaginant pour éprouver leurs hypothèses des dispositifs toujours plus créatifs – tant du point de vue scientifique que musical. L’idée leur est venue de « l’effet Cocktail Party ». Décrit en 1953 par le chercheur en sciences cognitives britannique Colin Cherry, cet effet décrit la capacité qu’a notre système auditif (qui va du pavillon au cerveau) à percevoir le discours d’une personne en particulier, noyé dans le brouhaha d’une fête. « Contrairement à ce qui se passe dans la modalité visuelle où, lorsqu’on cherche à focaliser notre attention sur un objet particulier dans une scène, le regard peut généralement l’isoler facilement, dans le domaine de l’audition, tout se superpose », explique Emmanuel Ponsot. « Notre système auditif arrive pourtant à décoder ce qu’on écoute de manière assez surprenante. L’écoute d’une musique polyphonique présente une situation assez analogue, mais elle n’avait jusqu’ici jamais été interrogée sous cet angle. »

« Cela pose diverses questions », poursuit Patrick Susini. « Qu’est-ce qu’on écoute dans une scène sonore ? Écoute-t-on la scène dans sa globalité, ou prête-t-on attention à ses détails, et pourquoi ? Comment navigue-t-on dans une scène sonore et comment bascule-t-on d’un mode d’écoute à un autre ? Comment un événement dans cette scène – par exemple un crissement dans une ambiance urbaine – attire-t-il notre attention ? » Et Clément Canonne de compléter : « Nous nous demandions également dans quelle mesure les situations musicales pouvaient nous servir de laboratoire : que la musique peut-elle nous apprendre sur notre appréhension des flux auditifs ? ». En adaptant ou repensant des méthodes rigoureuses de psychoacoustique, les trois chercheurs ont donc élaboré des situations d’écoute, dont ils pourraient maîtriser divers paramètres, afin de rendre mesurable les stratégies attentionnelles. Au passage, ils aspirent à mieux comprendre la dimension véritablement musicale ou créatrice de l’écoute musicale elle-même, susceptible de mettre en valeur les attributs du discours.

Benjamin Matuszewski et Clément Canonne lors du concert interactif, Espace de projection, Ircam, 2026 - Photo

Ils imaginent donc en 2023 un véritable « concert laboratoire » en deux parties. La première partie étudie le cas singulier d’une musique improvisée. L’expérience met aux prises deux clarinettistes dont l’improvisation doit suivre un canevas interactionnel : la relation hiérarchique entre les deux évolue, de même que l’articulation de leurs timbres. Pendant la vingtaine de minutes que dure l’improvisation, toutes les combinaisons entre les deux paramètres (leadership/effacement ou fusion/contraste de timbre) sont explorées. Deux moments solo, un pour chaque musicien, permettent de ménager une forme de respiration musicale, en même temps que d’établir les conditions de contrôle, indispensable à la mesure scientifique. Quant aux auditeurs et auditrices, tous et toutes sont invité·e·s à se connecter via leur smartphone à une application web développée par Benjamin Matuszewski de l’équipe Interaction son musique mouvement, laquelle se présente sous la forme d’un simple curseur. Le principe étant, tout au long de la performance, de faire glisser le curseur, en fonction de la focalisation instantanée de l’écoute, à gauche, au centre ou à droite.

“Nous nous demandions également dans quelle mesure les situations musicales pouvaient nous servir de laboratoire : que la musique peut-elle nous apprendre sur notre appréhension des flux auditifs ?”

Clément Canone

Responsable de l’équipe Analyse des pratiques musicales

La deuxième partie faisait appel au compositeur Sébastien Roux, qui a composé pour l’occasion une série de 32 miniatures à l’aide de procédés algorithmiques. Certaines structures rythmiques sont générées à l’aide d’une librairie spécifique en langage Python, tandis qu’un programme codé sur Max lui permet de paramétrer l’évolution du discours. Chaque miniature se présente sous la forme d’une invention électroacoustique à trois voix, projetée sur trois haut-parleurs dans l’espace. Chacune est l’occasion de jouer à une sorte de jeu de bonneteau musical, le public devant s’efforcer de suivre une voix en particulier. Pour savoir si cela leur a été possible, on demande aux auditeurs et auditrices cobayes d’indiquer, à la fin de chaque invention, si elles et ils ont entendu ou non une sorte de petit glissando ou vibrato ayant affecté la voix à un moment dans la miniature.

Grâce aux contraintes de composition imposées à chacune des miniatures, les trois chercheurs peuvent jouer sur différents facteurs. D’abord, ce que les scientifiques appellent la « ségrégation spatiale » (la distribution des voix dans l’espace) et la « ségrégation temporelle » (soit l’écriture polyphonique est homorythmique, soit, au contraire, les voix ne jouent jamais en même temps). L’hypothèse étant évidemment que, plus l’écriture polyphonique est éclatée dans l’espace ou le temps, plus il est facile de suivre une voix en particulier. L’autre question de recherche concerne la saillance. Une personne écoutant une musique polyphonique peut osciller entre deux postures. D’une part, une écoute « locale », qui essaie de suivre le cheminement d’une voix ou d’une autre. D’autre part, une écoute plus « globale ». Bien sûr, aucune forme d’écoute n’est meilleure ou plus normative qu’une autre, et elles ne s’excluent nullement d’une écoute à la suivante. Dans ce contexte, la « saillance » – soit événementielle, soit structurelle – est la capacité qu’ont certaines voix à attirer l’écoute.

Au terme de ce concert-laboratoire, les résultats tombent. Dans la première expérience, ils sont certes mitigés concernant l’effet des fusions ou contrastes de timbre, mais éloquents s’agissant des rapports hiérarchiques entre les improvisateurs – qui influent très clairement sur la focale attentionnelle. Dans la seconde expérience, pour les cas mettant en jeu une ségrégation spatiale ou rythmique, le hit rate (le taux de réussite) est supérieur de 20% dans le cas des miniatures avec ségrégation par rapport aux miniatures qui en était dénuées – un effet significatif, donc. Concernant la saillance, on atteint entre 80% de détection pour la saillance événementielle et quasiment 100% pour la saillance structurelle – une voix trop discursive pouvant parasiter l’attention sélective. Les hypothèses des chercheurs sont donc pleinement validées.

« Il faut toutefois reconnaître que les compositeurs, compositrices, et interprètes ne nous ont pas attendus pour exploiter ces phénomènes de ségrégation ou de saillance », rappelle Clément Canonne. « Dans les contrepoints de Bach, par exemple, on observe déjà une mise en application de la ségrégation temporelle. Sans parler des expériences polychorales comme celles faites à la Basilique Saint-Marc de Venise pour la ségrégation spatiale… » D’autre part, aucun dispositif, aussi rigoureux soit-il, n’est parfait. « D’abord, manipuler une application web pendant qu’on écoute n’est pas une situation normale de concert », nuance Clément Canonne. « L’outil modifie la nature de l’expérience. Nos conditions expérimentales ont elles-mêmes une influence sur l’attention. En outre, concilier exigence et liberté artistiques d’une part, et rigueur scientifique de l’autre, n’est pas facile. À posteriori, on se rend compte que la répétitivité inhérente à l’expérience scientifique peut générer un certain ennui, à rebours de la spontanéité du concert, et ce en dépit de la très grande qualité des propositions musicales. »

Comme toute expérience, celle-ci permet donc de tirer quelques leçons pour les suivantes. C’est ainsi qu’est né l’idée d’un concert interactif le 18 mars 2026, dans le cadre des Ateliers du Forum, interprété par l’ensemble ]h[iatus. « Ce n’est plus un concert-laboratoire, mais une expérience esthétique, joyeuse et singulière », précise Clément Canonne. « Si nous n’excluons pas d’en exploiter certaines données pour la science, la finalité première est la performance et le plaisir musical. Le principe du curseur de notre première expérience nous a donné l’idée de créer des situations dans lesquelles l’expérience d’écoute est explicitement mise en jeu. Avec Sébastien Roux, on a ainsi imaginé des boucles d’interactions entre ce que le public nous dit qu’il perçoit et ce que font les interprètes. »

Ce n’est toutefois pas un acte démocratique, qui tente d’organiser et hiérarchiser les préférences du public par un système de votes. Si le public est bel et bien aux commandes de la musique, son influence n’est jamais directe – c’est son ressenti qui guide la performance. Par exemple, dans l’une des pièces du concert, l’ensemble ]h[iatus improvise assez brièvement sur de courts motifs composés par Sébastien Roux. Lorsque les musicien·ne·s ont terminé une première séquence d’improvisation, les membres du public sont invités, via une nouvelle application web développée par l’équipe Interaction son musique mouvement, à appuyer sur un bouton pendant la durée que chacun.e a perçue comme étant celle de l’improvisation. L’application fait la moyenne des durées ressenties, et cette nouvelle durée devient celle de la prochaine improvisation. Si la durée est plus courte, le rythme accélère, sinon, il ralentit. « On joue ainsi sur la relation entre durée perçue et vitesse ressentie. De même, dans une autre pièce de ce concert, nous diffusons dans la salle deux field recordings réalisés par Sébastien Roux – d’une autoroute et d’une cour d’école. Les auditeurs et auditrices doivent, là encore, appuyer sur un bouton, tant qu’elles et ils perçoivent le field recording. Le taux de perception est envoyé en temps réel à l’ensemble ]h[iatus, qui doit veiller à ce qu’il reste autour de 50%, en jouant plus ou moins fort. La perception du public joue ainsi un rôle régulateur sur les dynamiques de la performance, qui doit tenter de le maintenir dans cet état de perception liminaire. Ici, il y a vraiment un pilotage en temps réel du discours musical par le public. »

“Alors que la spatialisation est un des axes de recherche essentiels de certaines équipes et artistes à l’Ircam, a-t-elle effectivement le pouvoir qu’on lui prête, ou un autre ?”

Clément Canone

Responsable de l’équipe Analyse des pratiques musicales

Cette nouvelle situation, qui met aux prises des sources humaines, incarnées, et des sources virtuelles, donc non incarnées, soulève de nouvelles questions, dont des chercheurs affiliés à l’Ircam ne pouvaient pas faire l’économie : quel impact a l’hétérogénéité des sources sur l’attention ? C’est le sujet d’une prochaine expérience, qui aura lieu en juin 2026 dans le cadre du festival ManiFeste, et qui passe par une commande à Raphaèle Biston pour un duo d’accordéons augmentés et sons électroniques en temps réel. À quel point la source non humaine (électronique) entrera-t-elle en compétition avec la source humaine (instrumentale) ? Et comment la saillance du son électronique bouleversera t-elle la dynamique attentionnelle distribuée sur les deux accordéonistes ? L’électronique a-t-elle un pouvoir d’aimantation, c’est-à-dire, quand les sons électroniques ont disparu, une capacité à retenir l’attention de manière inertielle du côté de la scène où ils ont été diffusés ? Alors que la spatialisation est un des axes de recherche essentiels de certaines équipes et artistes à l’Ircam, a-telle effectivement le pouvoir qu’on lui prête, ou un autre ?

« Ce sont des questions passionnantes », s’enthousiasme Clément Canonne, « et ce genre d’expérience nous apprendra beaucoup sur notre appréhension de la musique mixte. Si cette recherche n’a pas d’application industrielle directe, elle aura peut-être une influence sur la création musicale, en déplaçant éventuellement les préoccupations des compositeurs et compositrices. D’autant plus que l’expertise musicale des auditeurs et auditrices a potentiellement une influence sur les résultats », comme le fait remarquer Patrick Susini, qui envisage d’aborder la question. « On observe une très grande variabilité des comportements », abonde Emmanuel Ponsot, « la liberté attentionnelle de l’écoute étant en outre à l’origine de la très grande richesse des pièces polyphoniques. » Patrick Susini pointe aussi de potentielles applications médicales : « Une meilleure compréhension des phénomènes attentionnels, notamment des multiples formes de saillances auditives qui agissent sur notre écoute musicale, devrait permettre de proposer des protocoles pour affiner les réglages des aides auditives pour la perception des scènes sonores complexes – comme le sont par excellence les situations de concert. »

Par Jérémie Szpirglas