Recherche
Actualité

Le filtre vocal : vers l'anthropothechnie de nos cognitions sociales

Chercheuse en neurosciences affectives intégrée à l’équipe Perception et design sonores du laboratoire STMS (Ircam, Sorbonne Université, CNRS, ministère de la Culture), et psychologue spécialisée dans le traitement du trouble de stress post traumatique (TSPT), Nadia Guerouaou s’intéresse à l’impact des nouvelles technologies numériques sur nos cognitions sociales, et en particulier sur nos inférences émotionnelles lors d’interactions sociales. Elle nous présente ici le fruit de ses recherches.Dans notre quotidien, nous sommes engagés dans des interactions sociales au cours desquelles nous extrayons diverses informations - plus ou moins directes et de manière souvent inconsciente - à propos de nos interlocuteurs. Elles vont de l’apparence physique à des éléments que l’on appelle les « états cachés», qui renvoient aux états mentaux de notre interlocuteur. Ainsi, à partir d’un canal de communication paralinguistique, il m’est possible d’inférer l’état émotionnel d’un individu à travers la tonalité de sa voix (Juslin and Laukka, 2003), discerner à travers sa prosodie des attitudes sociales, telles que la chaleur ou la bienveillance (Ponsot et al., 2018), ainsi que des éléments métacognitifs, tels que le doute concernant ce qu’il énonce (Goupil et al., 2021). Ces inférences potentielles s’étendent même à la physiologie de mon interlocuteur, en particulier à son rythme cardiaque (Galvez-Pol, 2022). Ainsi, au cours d’une interaction sociale, nous déduisons, avec plus ou moins de précision, un éventail considérable d’informations concernant notre interlocuteur.

Mon travail de thèse a pris pour objet ces inférences émotionnelles et a visé l’étude, via le modèle de l’inférence prédictive bayésienne1(Friston and Frith, 2015), de l’influence potentielle de nouvelles technologies informatiques de contrôle de la tonalité émotionnelle de la voix sur notre cognition sociale. Selon l’inférence prédictive bayésienne, nos déductions au sujet des états émotionnels de nos interlocuteurs reposent sur un modèle interne du monde, conçu à partir de nos croyances et nos expériences passées acquises dans notre milieu. Dès lors, telle inflexion de voix (ou expression faciale) n’est pas une émotion en soi mais elle le devient à travers le sens qui lui est donné par notre cognition (Barrett, 2012). Le cerveau, loin d’être un outil de traitement passif de l’information, serait ainsi constamment en train de créer notre perception des émotions dans la voix de nos interlocuteurs à partir de nos croyances. Par exemple, le fait que dans la société occidentale, le sourire soit associé à un état de joie (ce qui n’est pas le cas partout dans le monde) (Niedenthal et al., 2018), provient de son inscription dans un modèle interne comme une probabilité importante d’associer sourire et émotion positive. Il s’agit là d’une relation forte qui va guider nos perceptions des états d’autrui. De façon générale, le modèle de l’inférence prédictive implique que ce que nous percevons aujourd’hui est profondément enraciné dans ce que nous avons vécu hier.

Or, nos expériences sont désormais influencées par deux transformations majeures qui caractérisent notre société. Premièrement, nous assistons depuis quelques années à l’émergence de technologies permettant de contrôler par informatique des expressions faciales et vocales, considérées autrefois comme naturelles, et que nous associons aux états émotionnels de nos interlocuteurs. En dehors du laboratoire, ces techniques de façonnement en direct de l’image de son visage - regroupées sous le terme de « filtre » - suscitent un réel engouement sur les réseaux sociaux. Concernant leurs pendants vocaux - que j’appelle dans mon travail, sur le même modèle, « filtres vocaux » - l’usage en est encore pour l’instant plus confidentiel. Cependant, leur utilisation est à penser dès aujourd’hui, du fait notamment des avancées techniques et de la récente popularisation des notes vocales ou « vocaux ». Sept milliards de vocaux sont ainsi envoyés chaque jour rien que sur WhatsApp, un engouement qui s’expliquerait selon Catherine Lejealle (sociologue et chercheuse spécialiste des usages digitaux) par le fait qu’ils permettent bien mieux de faire passer le contenu émotionnel du message.

D’autre part, au siècle du tout numérique, nos interactions sociales sont de plus en plus médiées par des outils technologiques. Les interfaces de visiocommunication ont intégré nos vies personnelles et professionnelles, en comptant même le champ de la médecine et de la psychiatrie, dont les consultations reposent majoritairement sur un entretien oral. L’extension de la numérisphère pourrait alors potentialiser la portée du premier phénomène. Face à cela, mon travail de recherche interroge la possibilité que ces filtres vocaux puissent venir bouleverser notre modèle interne du monde et les inférences que nous faisons au sujet de l’état émotionnel de notre interlocuteur au cours d’une interaction sociale. Ce potentiel - que l’on peut qualifier d’« anthropotechnique » - des filtres repose en grande partie sur leur utilisation généralisée par la population, conditionnée par l’acceptabilité de la société à l’égard de ces nouvelles technologies.

Nous avons donc mené une étude d’éthique expérimentale afin d’évaluer l’acceptabilité morale de l’utilisation de technologies informatiques permettant de paramétrer informatiquement la tonalité émotionnelle de la voix (Guerouaou et al., 2021). Les résultats de cette étude ont permis de mettre en évidence, d’une part, que la jeune population française était plutôt favorable à l’idée d’utiliser des filtres vocaux pour modifier artificiellement la tonalité émotionnelle de la voix, et d’autre part, une absence de dilemme social. Il ne semble donc pas y avoir d’obstacle majeur à la généralisation de l’usage des filtres. Dès lors, il nous semble crucial de réfléchir aux possibles effets à long terme d’un usage généralisé des filtres vocaux. Parmi ces effets, pour n’en citer qu’un, une utilisation importante de ce type de filtres pourrait recalibrer nos attentes au sujet de l’expression de telle ou telle émotion dans la voix. Ce qui nous semble actuellement « normal » car attendu, comme entendre un léger tremblement dans la voix d’un interlocuteur un peu nerveux, pourrait le devenir beaucoup moins dans un milieu qui permettrait de contrôler ce genre de manifestations dans la voix. Ce phénomène, appelé « glissement de la norme » dans le domaine de la bioéthique concernant les technologies d’augmentation (Goffi, 2009), me semble tout à fait s’appliquer à une technologie telle que le filtre vocal, que je propose d’observer en tant que technologie de soi.

« Si les valeurs morales peuvent influencer l’usage de technologies, il est également admis que cet usage aurait lui-même le potentiel d’influencer notre paysage moral. »

Cet effet est décrit sous le terme des « softs impacts » des technologies qui renvoient à la manière dont leur introduction affecte les relations, les identités, les normes et les valeurs de la société (Van der Burg, 2009). Le filtre vocal, en plus de permettre un façonnement que l’on pourrait dire externe de l’image de soi - j’utilise un filtre de voix pour sembler plus souriante auprès de mon interlocuteur - serait aussi, à la vue des résultats de nos travaux, un objet de façonnement des modèles internes sur lesquels reposent nos cognitions sociales.

Ces outils posent ainsi des questions éthiques importantes qu’il s’agirait alors d’adresser dès leur conception. En cela, ce travail mené à l’Ircam sur la question de l’influence des technologies de transformations informatiques de la voix sur la cognition, en interaction avec les chercheur.se.s qui œuvrent à la création de ces outils, m’apparaît compter parmi les propositions de réflexions favorisant l’émergence d’une sagesse collective (Andler, 2021) relative aux enjeux sociétaux charriés par l’utilisation de ces nouvelles technologies de soi.

(1) L’inférence bayésienne est la démarche logique permettant de calculer ou réviser la probabilité d’une hypothèse, et ainsi le degré de confiance à lui accorder.

Références
Andler, D. (2021). Technologies émergentes et sagesse collective. comprendre, faire comprendre, maîtriser. un vaste programme de plus ? Les cahiers de Tesaco.
Barrett, L. F. (2012). Emotions are real. Emotion, 12(3): 413–429.
Friston, K. J. and Frith, C. D. (2015b). Active inference, communication and hermeneutics. Cortex, 68: 129–143.
Galvez-Pol, A., Antoine, S., Li, C., and Kilner, J. M. (2022). People can identify the likely owner of heartbeats by looking at individuals’ faces. Cortex, 151: 176–187.
Goffi, J.-Y. (2009). Thérapie, augmentation et finalité de la médecine.
Guerouaou, N., Vaiva, G., and Aucouturier, J.-J. (2021). The shallow of your smile: the ethics of expressive vocal deep-fakes. Philosophical Transactions of the Royal Society B: Biological Sciences, 377(1841): 20210083.
Juslin, P. N. and Laukka, P. (2003). Communication of emotions in vocal expression and music performance: Different channels, same code? Psychological bulletin, 129(5): 770.
Niedenthal, P. M., Rychlowska, M., Wood, A., & Zhao, F. (2018). Heterogeneity of long-history migration predicts smiling, laughter and positive emotion across the globe and within the United States. PloS one, 13(8), e0197651
Van der Burg, S. (2009). Taking the “soft impacts” of technology into account: broadening the discourse in research practice. Social Epistemology, 23(3-4): 301– 316.