Le filtre vocal : vers l'anthropothechnie de nos cognitions sociales

Contenu :
<p><strong>Chercheuse en neurosciences affectives intégrée à l’équipe <a href="https://www.ircam.fr/recherche/equipes-recherche/pds" target="_blank" rel="noopener noreferrer">Perception et design sonores </a>du laboratoire STMS (Ircam, Sorbonne Université, CNRS, ministère de la Culture), et psychologue spécialisée dans le traitement du trouble de stress post traumatique (TSPT), <a href="https://www.ircam.fr/person/-98" target="_blank" rel="noopener noreferrer">Nadia Guerouaou</a> s’intéresse à l’impact des nouvelles technologies numériques sur nos cognitions sociales, et en particulier sur nos inférences émotionnelles lors d’interactions sociales. Elle nous présente ici le fruit de ses recherches.<strong><img src="/media/uploads/magazine/2024/filtre-vocal/filtrevocal.jpeg" height="485" style="margin: 20px auto; display: block;" caption="false" width="877" /></strong></strong>Dans notre quotidien, nous sommes enga<span>gés dans des interactions sociales au cours desquelles nous extrayons diverses informations - plus ou moins directes et de manière souvent inconsciente - à propos de nos interlocuteurs</span><span>. Elles vont de l’apparence physique à des éléments que l’on appelle les « états cachés», qui renvoient aux états mentaux de notre interlocuteur. Ainsi, à partir d’un canal de communication paralinguistique, il m’est possible d’inférer l’état émotionnel d’un individu à travers la tonalité de sa voix (Juslin and Laukka, 2003), discerner à travers sa prosodie des attitudes sociales, telles que la chaleur ou la bienveillance (Ponsot et al., 2018), ainsi que des éléments métacognitifs, tels que le doute concernant ce qu’il énonce (Goupil et al., 2021). Ces inférences potentielles s’étendent même à la physiologie de mon interlocuteur, en particulier à son rythme cardiaque (Galvez-Pol, 2022). Ainsi, au cours d’une interaction sociale, nous déduisons, avec plus ou moins de précision, un éventail considérable d’informations concernant notre interlocuteur.</span></p> <p><span>Mon travail de thèse a pris pour objet ces inférences émotionnelles et a visé l’étude, via le modèle de l’inférence prédictive bayésienne<sup>1</sup></span><span> </span><span>(Friston and Frith, 2015), de l’influence potentielle de nouvelles technologies informatiques de contrôle de la tonalité émotionnelle de la voix sur notre cognition sociale. Selon l’inférence prédictive bayésienne, nos déductions au sujet des états émotionnels de nos interlocuteurs reposent sur un modèle interne du monde, conçu à partir de nos croyances et nos expériences passées acquises dans notre milieu. Dès lors, telle inflexion de voix (ou expression faciale) n’est pas une émotion en soi mais elle le devient à travers le sens qui lui est donné par notre cognition (Barrett, 2012). Le cerveau, loin d’être un outil de traitement passif de l’information, serait ainsi constamment en train de créer notre perception des émotions dans la voix de nos interlocuteurs à partir de nos croyances. Par exemple, le fait que dans la société occidentale, le sourire soit associé à un état de joie (ce qui n’est pas le cas partout dans le monde) (Niedenthal et al., 2018), provient de son inscription dans un modèle interne comme une probabilité importante d’associer sourire et émotion positive. Il s’agit là d’une relation forte qui va guider nos perceptions des états d’autrui. De façon générale, le modèle de l’inférence prédictive implique que ce que nous percevons aujourd’hui est profondément enraciné dans ce que nous avons vécu hier.</span></p> <div class="column"><span> </span></div> <div class="column"> <p style="text-align: center;"><span><iframe width="803" height="450" src="//www.youtube.com/embed/njHpoZFdqtA" allowfullscreen="allowfullscreen"></iframe></span></p> <p style="text-align: left;"><span>Or, nos expériences sont désormais influencées par deux transformations majeures qui caractérisent notre société. Premièrement, nous assistons depuis quelques années à l’émergence de technologies permettant de contrôler par informatique des expressions faciales et vocales, considérées autrefois comme naturelles, et que nous associons aux états émotionnels de nos interlocuteurs. En dehors du laboratoire, ces techniques de façonnement en direct de l’image de son visage - regroupées sous le terme de « filtre » - suscitent un réel engouement sur les réseaux sociaux. Concernant leurs pendants vocaux - que j’appelle dans mon travail, sur le même modèle, « filtres vocaux » - l’usage en est encore pour l’instant plus confidentiel. Cependant, leur utilisation est à penser dès aujourd’hui, du fait notamment des avancées techniques et de la récente popularisation des notes vocales ou « vocaux ». Sept milliards de vocaux sont ainsi envoyés chaque jour rien que sur WhatsApp, un engouement qui s’expliquerait selon Catherine Lejealle (sociologue et chercheuse spécialiste des usages digitaux) par le fait qu’ils permettent bien mieux de faire passer le contenu émotionnel du message.</span></p> <p style="text-align: left;">D’autre part, au siècle du tout numérique, nos interactions sociales sont de plus en plus médiées par des outils technologiques. Les interfaces de visiocommunication ont intégré nos vies personnelles et professionnelles, en comptant même le champ de la médecine et de la psychiatrie, dont les consultations reposent majoritairement sur un entretien oral. L’extension de la numérisphère pourrait alors potentialiser la portée du premier phénomène. <span>Face à cela, mon travail de recherche interroge la possibilité que ces filtres vocaux puissent venir bouleverser notre modèle interne du monde et les inférences que nous faisons au sujet de l’état émotionnel de notre interlocuteur au cours d’une interaction sociale. Ce potentiel - que l’on peut </span>qualifier d’« anthropotechnique » - des filtres repose en grande partie sur leur utilisation généralisée par la population, conditionnée par l’acceptabilité de la société à l’égard de ces nouvelles technologies.</p> <div class="page" title="Page 29"> <div class="section"> <div class="layoutArea"> <div class="column"> <div class="page" title="Page 30"> <div class="section"> <div class="layoutArea"> <div class="column"> <p style="text-align: left;"><span>Nous avons donc mené une étude d’éthique expérimentale afin d’évaluer l’acceptabilité morale de l’utilisation de technologies informatiques permettant de paramétrer informatiquement la tonalité émotionnelle de la voix (Guerouaou et al., 2021). Les résultats de cette étude ont permis de mettre en évidence, d’une part, que la jeune population française était plutôt favorable à l’idée d’utiliser des filtres vocaux pour modifier artificiellement la tonalité émotionnelle de la voix, et d’autre part, une absence de dilemme social. Il ne semble donc pas y avoir d’obstacle majeur à la généralisation de l’usage des filtres. Dès lors, il nous semble crucial de réfléchir aux possibles effets à long terme d’un usage généralisé des filtres vocaux. </span><span>Parmi ces effets, pour n’en citer qu’un, une utilisation importante de ce type de filtres pourrait recalibrer nos attentes au sujet de l’expression de telle ou telle émotion dans la voix. Ce qui nous semble actuellement « normal » car attendu, comme entendre un léger tremblement dans la voix d’un interlocuteur un peu nerveux, pourrait le devenir beaucoup moins dans un milieu qui permettrait de contrôler ce genre de manifestations dans la voix. Ce phénomène, appelé « glissement de la norme » dans le domaine de la bioéthique concernant les technologies d’augmentation (Goffi, 2009), me semble tout à fait s’appliquer à une technologie telle que le filtre vocal, que je propose d’observer en tant que technologie de soi.</span></p> <blockquote> <p><strong>« Si les valeurs morales peuvent influencer l’usage de technologies, il est également admis que cet usage aurait lui-même le potentiel d’influencer notre paysage moral. »</strong></p> </blockquote> <p style="text-align: left;"><span>Cet effet est décrit sous le terme des « </span><span>softs impacts </span><span>» des technologies qui renvoient à la manière dont leur introduction affecte les relations, les identités, les normes et les valeurs de la société (Van der Burg, 2009). Le filtre vocal, en plus de permettre un façonnement que l’on pourrait dire externe de l’image de soi - j’utilise un filtre de voix pour sembler plus souriante auprès de mon interlocuteur - serait aussi, à la vue des résultats de nos travaux, un objet de façonnement des modèles internes sur lesquels reposent nos cognitions sociales. </span></p> <p style="text-align: left;"><span>Ces outils posent ainsi des questions éthiques importantes qu’il s’agirait alors d’adresser dès leur conception. En cela, ce travail mené à l’Ircam sur la question de l’influence des technologies de transformations </span>informatiques de la voix sur la cognition, en interaction avec les chercheur.se.s qui &oelig;uvrent à la création de ces outils, m’apparaît compter parmi les propositions de réflexions favorisant l’émergence d’une sagesse collective (Andler, 2021) relative aux enjeux sociétaux charriés par l’utilisation de ces nouvelles technologies de soi.</p> <p style="text-align: left;" class="wys-small-text">(<sup>1</sup>) L’inférence bayésienne est la démarche logique permettant de calculer ou réviser la probabilité d’une hypothèse, et ainsi le degré de confiance à lui accorder.</p> <p class="wys-small-text"><strong>Références<br /></strong>Andler, D. (2021). <em>Technologies émergentes et sagesse collective. comprendre, faire comprendre, maîtriser. un vaste programme de plus ?</em> Les cahiers de Tesaco.<br />Barrett, L. F. (2012). <em>Emotions are real</em>. Emotion, 12(3): 413–429.<br />Friston, K. J. and Frith, C. D. (2015b). <em>Active inference, communication and hermeneutics.</em> Cortex, 68: 129–143.<br />Galvez-Pol, A., Antoine, S., Li, C., and Kilner, J. M. (2022). <em>People can identify the likely owner of heartbeats by looking at individuals’ faces.</em> Cortex, 151: 176–187.<br />Goffi, J.-Y. (2009). <em>Thérapie, augmentation et finalité de la médecine.<br /></em>Guerouaou, N., Vaiva, G., and Aucouturier, J.-J. (2021). <em>The shallow of your smile: the ethics of expressive vocal deep-fakes.</em> Philosophical Transactions of the Royal Society B: Biological Sciences, 377(1841): 20210083.<br />Juslin, P. N. and Laukka, P. (2003). <em>Communication of emotions in vocal expression and music performance: Different channels, same code?</em> Psychological bulletin, 129(5): 770.<br />Niedenthal, P. M., Rychlowska, M., Wood, A., & Zhao, F. (2018). <em>Heterogeneity of long-history migration predicts smiling, laughter and positive emotion across the globe and within the United States.</em> PloS one, 13(8), e0197651<br />Van der Burg, S. (2009). <em>Taking the “soft impacts” of technology into account: broadening the discourse in research practice.</em> Social Epistemology, 23(3-4): 301– 316.</p> </div> </div> </div> </div> </div> </div> </div> </div> </div>

Chercheuse en neurosciences affectives intégrée à l’équipe Perception et design sonores du laboratoire STMS (Ircam, Sorbonne Université, CNRS, ministère de la Culture), et psychologue spécialisée dans le traitement du trouble de stress post traumatique (TSPT), Nadia Guerouaou s’intéresse à l’impact des nouvelles technologies numériques sur nos cognitions sociales, et en particulier sur nos inférences émotionnelles lors d’interactions sociales. Elle nous présente ici le fruit de ses recherches.Dans notre quotidien, nous sommes engagés dans des interactions sociales au cours desquelles nous extrayons diverses informations - plus ou moins directes et de manière souvent inconsciente - à propos de nos interlocuteurs. Elles vont de l’apparence physique à des éléments que l’on appelle les « états cachés», qui renvoient aux états mentaux de notre interlocuteur. Ainsi, à partir d’un canal de communication paralinguistique, il m’est possible d’inférer l’état émotionnel d’un individu à travers la tonalité de sa voix (Juslin and Laukka, 2003), discerner à travers sa prosodie des attitudes sociales, telles que la chaleur ou la bienveillance (Ponsot et al., 2018), ainsi que des éléments métacognitifs, tels que le doute concernant ce qu’il énonce (Goupil et al., 2021). Ces inférences potentielles s’étendent même à la physiologie de mon interlocuteur, en particulier à son rythme cardiaque (Galvez-Pol, 2022). Ainsi, au cours d’une interaction sociale, nous déduisons, avec plus ou moins de précision, un éventail considérable d’informations concernant notre interlocuteur.

Mon travail de thèse a pris pour objet ces inférences émotionnelles et a visé l’étude, via le modèle de l’inférence prédictive bayésienne¹(Friston and Frith, 2015), de l’influence potentielle de nouvelles technologies informatiques de contrôle de la tonalité émotionnelle de la voix sur notre cognition sociale. Selon l’inférence prédictive bayésienne, nos déductions au sujet des états émotionnels de nos interlocuteurs reposent sur un modèle interne du monde, conçu à partir de nos croyances et nos expériences passées acquises dans notre milieu. Dès lors, telle inflexion de voix (ou expression faciale) n’est pas une émotion en soi mais elle le devient à travers le sens qui lui est donné par notre cognition (Barrett, 2012). Le cerveau, loin d’être un outil de traitement passif de l’information, serait ainsi constamment en train de créer notre perception des émotions dans la voix de nos interlocuteurs à partir de nos croyances. Par exemple, le fait que dans la société occidentale, le sourire soit associé à un état de joie (ce qui n’est pas le cas partout dans le monde) (Niedenthal et al., 2018), provient de son inscription dans un modèle interne comme une probabilité importante d’associer sourire et émotion positive. Il s’agit là d’une relation forte qui va guider nos perceptions des états d’autrui. De façon générale, le modèle de l’inférence prédictive implique que ce que nous percevons aujourd’hui est profondément enraciné dans ce que nous avons vécu hier.

Or, nos expériences sont désormais influencées par deux transformations majeures qui caractérisent notre société. Premièrement, nous assistons depuis quelques années à l’émergence de technologies permettant de contrôler par informatique des expressions faciales et vocales, considérées autrefois comme naturelles, et que nous associons aux états émotionnels de nos interlocuteurs. En dehors du laboratoire, ces techniques de façonnement en direct de l’image de son visage - regroupées sous le terme de « filtre » - suscitent un réel engouement sur les réseaux sociaux. Concernant leurs pendants vocaux - que j’appelle dans mon travail, sur le même modèle, « filtres vocaux » - l’usage en est encore pour l’instant plus confidentiel. Cependant, leur utilisation est à penser dès aujourd’hui, du fait notamment des avancées techniques et de la récente popularisation des notes vocales ou « vocaux ». Sept milliards de vocaux sont ainsi envoyés chaque jour rien que sur WhatsApp, un engouement qui s’expliquerait selon Catherine Lejealle (sociologue et chercheuse spécialiste des usages digitaux) par le fait qu’ils permettent bien mieux de faire passer le contenu émotionnel du message.

D’autre part, au siècle du tout numérique, nos interactions sociales sont de plus en plus médiées par des outils technologiques. Les interfaces de visiocommunication ont intégré nos vies personnelles et professionnelles, en comptant même le champ de la médecine et de la psychiatrie, dont les consultations reposent majoritairement sur un entretien oral. L’extension de la numérisphère pourrait alors potentialiser la portée du premier phénomène. Face à cela, mon travail de recherche interroge la possibilité que ces filtres vocaux puissent venir bouleverser notre modèle interne du monde et les inférences que nous faisons au sujet de l’état émotionnel de notre interlocuteur au cours d’une interaction sociale. Ce potentiel - que l’on peut qualifier d’« anthropotechnique » - des filtres repose en grande partie sur leur utilisation généralisée par la population, conditionnée par l’acceptabilité de la société à l’égard de ces nouvelles technologies.

Nous avons donc mené une étude d’éthique expérimentale afin d’évaluer l’acceptabilité morale de l’utilisation de technologies informatiques permettant de paramétrer informatiquement la tonalité émotionnelle de la voix (Guerouaou et al., 2021). Les résultats de cette étude ont permis de mettre en évidence, d’une part, que la jeune population française était plutôt favorable à l’idée d’utiliser des filtres vocaux pour modifier artificiellement la tonalité émotionnelle de la voix, et d’autre part, une absence de dilemme social. Il ne semble donc pas y avoir d’obstacle majeur à la généralisation de l’usage des filtres. Dès lors, il nous semble crucial de réfléchir aux possibles effets à long terme d’un usage généralisé des filtres vocaux. Parmi ces effets, pour n’en citer qu’un, une utilisation importante de ce type de filtres pourrait recalibrer nos attentes au sujet de l’expression de telle ou telle émotion dans la voix. Ce qui nous semble actuellement « normal » car attendu, comme entendre un léger tremblement dans la voix d’un interlocuteur un peu nerveux, pourrait le devenir beaucoup moins dans un milieu qui permettrait de contrôler ce genre de manifestations dans la voix. Ce phénomène, appelé « glissement de la norme » dans le domaine de la bioéthique concernant les technologies d’augmentation (Goffi, 2009), me semble tout à fait s’appliquer à une technologie telle que le filtre vocal, que je propose d’observer en tant que technologie de soi.

« Si les valeurs morales peuvent influencer l’usage de technologies, il est également admis que cet usage aurait lui-même le potentiel d’influencer notre paysage moral. »

Cet effet est décrit sous le terme des « softs impacts » des technologies qui renvoient à la manière dont leur introduction affecte les relations, les identités, les normes et les valeurs de la société (Van der Burg, 2009). Le filtre vocal, en plus de permettre un façonnement que l’on pourrait dire externe de l’image de soi - j’utilise un filtre de voix pour sembler plus souriante auprès de mon interlocuteur - serait aussi, à la vue des résultats de nos travaux, un objet de façonnement des modèles internes sur lesquels reposent nos cognitions sociales.

Ces outils posent ainsi des questions éthiques importantes qu’il s’agirait alors d’adresser dès leur conception. En cela, ce travail mené à l’Ircam sur la question de l’influence des technologies de transformations informatiques de la voix sur la cognition, en interaction avec les chercheur.se.s qui œuvrent à la création de ces outils, m’apparaît compter parmi les propositions de réflexions favorisant l’émergence d’une sagesse collective (Andler, 2021) relative aux enjeux sociétaux charriés par l’utilisation de ces nouvelles technologies de soi.

(¹) L’inférence bayésienne est la démarche logique permettant de calculer ou réviser la probabilité d’une hypothèse, et ainsi le degré de confiance à lui accorder.

Références
Andler, D. (2021). Technologies émergentes et sagesse collective. comprendre, faire comprendre, maîtriser. un vaste programme de plus ? Les cahiers de Tesaco.
Barrett, L. F. (2012). Emotions are real. Emotion, 12(3): 413–429.
Friston, K. J. and Frith, C. D. (2015b). Active inference, communication and hermeneutics. Cortex, 68: 129–143.
Galvez-Pol, A., Antoine, S., Li, C., and Kilner, J. M. (2022). People can identify the likely owner of heartbeats by looking at individuals’ faces. Cortex, 151: 176–187.
Goffi, J.-Y. (2009). Thérapie, augmentation et finalité de la médecine.
Guerouaou, N., Vaiva, G., and Aucouturier, J.-J. (2021). The shallow of your smile: the ethics of expressive vocal deep-fakes. Philosophical Transactions of the Royal Society B: Biological Sciences, 377(1841): 20210083.
Juslin, P. N. and Laukka, P. (2003). Communication of emotions in vocal expression and music performance: Different channels, same code? Psychological bulletin, 129(5): 770.
Niedenthal, P. M., Rychlowska, M., Wood, A., & Zhao, F. (2018). Heterogeneity of long-history migration predicts smiling, laughter and positive emotion across the globe and within the United States. PloS one, 13(8), e0197651
Van der Burg, S. (2009). Taking the “soft impacts” of technology into account: broadening the discourse in research practice. Social Epistemology, 23(3-4): 301– 316.

Éditer

En lien avec

Actualité

Recherche

Clones, filtres et fakes...Éthique et IA

Article

L'éthique de la conversion vocale à l'ère de l'intelligence artificielle.