Soutenance de thèse de Vincent Isnard

L'efficacité du système auditif humain pour la reconnaissance de sons naturels

Contenu :
Thèse de doctorat, réalisée au sein de l’équipe <a href="https://www.ircam.fr/recherche/equipes-recherche/eac/">Espaces acoustiques et cognitifs</a> de l'Ircam (STMS - CNRS/Ircam/UPMC) et de l'équipe Perception, du département Action et Cognition en Situation Opérationnelle à l'<a href="http://www.defense.gouv.fr/sante/notre-expertise/recherche-biomedicale/recherche-biomedicale" target="_blank">Irba</a> (Institut de Recherche Biomédicale des Armées). Vendredi 25 novembre, 10h00 Ircam, salle Stravinsky <h3>Résumé</h3> Dans l'environnement sonore quotidien, les sons naturels sont en général facilement reconnaissables. Cette efficacité de la reconnaissance auditive peut être décrite et quantifiée suivant deux aspects différents : la quantité d'information nécessaire pour y parvenir et sa rapidité. L'objectif de cette thèse est d'évaluer expérimentalement ces deux aspects. Dans une première partie expérimentale, nous nous sommes intéressés à la quantité d'information en créant des représentations parcimonieuses de sons naturels originaux pour constituer ce qui est appelé des esquisses auditives. Nous avons montré qu'une esquisse auditive est reconnue malgré la quantité très limitée d'information auditive présente dans les stimuli. Pour parvenir à ces résultats, nous avons consacré une partie importante de notre travail à l'élaboration d'outils d'analyse adéquats en fonction des catégories sonores testées. Ainsi, pour l'analyse des stimuli auditifs, nous avons développé un modèle de distance auditive entre catégories sonores. Pour l'analyse des performances des participants, nous avons développé un modèle pour le calcul de la sensibilité par catégorie sonore et tenant compte du biais, qui s'intègre dans la théorie de détection du signal. Ces analyses nous ont permis de montrer qu'en réalité les résultats ne sont pas équivalents entre les différentes catégories sonores. En particulier, la voix se démarque des autres catégories testées (e.g. instruments de musique) : la technique de sélection de l'information parcimonieuse ne semble pas adaptée aux indices de la voix. Dans une seconde partie expérimentale, nous avons étudié le décours temporel de la reconnaissance auditive. Afin d'estimer le temps nécessaire au système auditif pour reconnaître un son, nous avons utilisé un récent paradigme de présentation audio séquentielle rapide (RASP, pour Rapid Audio Sequential Presentation). Nous avons montré que moins de 50 ms suffisent pour reconnaître un son naturel court, avec une meilleure reconnaissance pour la voix humaine. L'ensemble de nos résultats suggère un traitement efficace des sons naturels par le système auditif, et en particulier pour la voix humaine. <h3>Jury</h3> Pascal Belin, Rapporteur - <a href="http://www.univ-amu.fr/" target="_blank">Université d'Aix-Marseille</a> Catherine Semal, Rapporteuse - <a href="https://www.u-bordeaux.fr/" target="_blank">Université Bordeaux 2</a> Anne Caclin, Examinatrice - Chargée de Recherche, <a href="http://www.cnrs.fr/" target="_blank">CNRS</a> Bruno Gas, Examinateur - <a href="http://www.upmc.fr/" target="_blank">Université Paris 6</a> Christophe Micheyl, Examinateur - <a href="http://www.starkey.fr/" target="_blank">Starkey Hearing Technologies </a>Isabelle Viaud-Delmon, Directrice de thèse - STMS - CNRS/IRCAM/UPMC Clara Suied, Co-encadrante - <a href="http://www.defense.gouv.fr/sante/notre-expertise/recherche-biomedicale/recherche-biomedicale" target="_blank">Irba</a>

Thèse de doctorat, réalisée au sein de l’équipe Espaces acoustiques et cognitifs de l'Ircam (STMS - CNRS/Ircam/UPMC) et de l'équipe Perception, du département Action et Cognition en Situation Opérationnelle à l'Irba (Institut de Recherche Biomédicale des Armées).

Vendredi 25 novembre, 10h00
Ircam, salle Stravinsky

Résumé

Dans l'environnement sonore quotidien, les sons naturels sont en général facilement reconnaissables. Cette efficacité de la reconnaissance auditive peut être décrite et quantifiée suivant deux aspects différents : la quantité d'information nécessaire pour y parvenir et sa rapidité. L'objectif de cette thèse est d'évaluer expérimentalement ces deux aspects. Dans une première partie expérimentale, nous nous sommes intéressés à la quantité d'information en créant des représentations parcimonieuses de sons naturels originaux pour constituer ce qui est appelé des esquisses auditives. Nous avons montré qu'une esquisse auditive est reconnue malgré la quantité très limitée d'information auditive présente dans les stimuli. Pour parvenir à ces résultats, nous avons consacré une partie importante de notre travail à l'élaboration d'outils d'analyse adéquats en fonction des catégories sonores testées. Ainsi, pour l'analyse des stimuli auditifs, nous avons développé un modèle de distance auditive entre catégories sonores. Pour l'analyse des performances des participants, nous avons développé un modèle pour le calcul de la sensibilité par catégorie sonore et tenant compte du biais, qui s'intègre dans la théorie de détection du signal. Ces analyses nous ont permis de montrer qu'en réalité les résultats ne sont pas équivalents entre les différentes catégories sonores. En particulier, la voix se démarque des autres catégories testées (e.g. instruments de musique) : la technique de sélection de l'information parcimonieuse ne semble pas adaptée aux indices de la voix. Dans une seconde partie expérimentale, nous avons étudié le décours temporel de la reconnaissance auditive. Afin d'estimer le temps nécessaire au système auditif pour reconnaître un son, nous avons utilisé un récent paradigme de présentation audio séquentielle rapide (RASP, pour Rapid Audio Sequential Presentation). Nous avons montré que moins de 50 ms suffisent pour reconnaître un son naturel court, avec une meilleure reconnaissance pour la voix humaine. L'ensemble de nos résultats suggère un traitement efficace des sons naturels par le système auditif, et en particulier pour la voix humaine.

Jury

Pascal Belin, Rapporteur - Université d'Aix-Marseille
Catherine Semal, Rapporteuse - Université Bordeaux 2
Anne Caclin, Examinatrice - Chargée de Recherche, CNRS
Bruno Gas, Examinateur - Université Paris 6
Christophe Micheyl, Examinateur - Starkey Hearing Technologies
Isabelle Viaud-Delmon, Directrice de thèse - STMS - CNRS/IRCAM/UPMC
Clara Suied, Co-encadrante - Irba

Éditer