Salle 5, Site Marcelin Berthelot
En libre accès, dans la limite des places disponibles
-

Nous nous sommes précédemment intéressés à la perception des sons purs, puis à celle des sons de communication : vocalisations, chants des oiseaux, et parole. La prédiction de la théorie efficient coding hypothesis (Barlow H.B., 1961), selon laquelle le traitement des signaux par les systèmes sensoriels tire ses principes de son adaptation à l’environnement naturel – et en conséquence réduit, par analyse statistique, la redondance qui le caractérise –, a été à l’origine de nombreuses avancées dans la compréhension du fonctionnement du système visuel. Elle inspire depuis une dizaine d’années des recherches portant sur la perception des environnements acoustiques naturels dans le but d’identifier les caractéristiques des séquences sonores qui sont extraites par le système auditif et de comprendre leur mode d’analyse. Or les sons naturels, tout comme les images naturelles, présentent des régularités : elles se manifestent par exemple par des corrélations temporelles, telles que des covariations en amplitude dans les différentes bandes de fréquence.

Les travaux de Josh H. McDermott et Eero Simoncelli (McDermott J.H., Simoncelli E.P., Neuron, 2011) sur la perception des textures des sons naturels (pluie, crépitement du feu, etc.) ont retenu notre attention. Ils sont inspirés par ceux réalisés sur les textures visuelles, depuis la fin des années 1980. Les textures visuelles sont définies comme la superposition d’un grand nombre de motifs qui se répètent dans une image, de façon plus ou moins régulière et plus ou moins complexe. Ces travaux ont introduit la notion de caractéristiques statistiques des images. Les textures sonores correspondent à des sons produits par la superposition d’un grand nombre de motifs sonores simples qui se combinent et génèrent ainsi collectivement des propriétés statistiques. Ces caractéristiques statistiques permettent d’escompter le codage neuronal d’une information réduite, dont le transfert est par conséquent rapide et efficace. Eero Simoncelli et ses collaborateurs ont élaboré un modèle « bioinspiré » du traitement des sons. Il leur a permis d’identifier les caractéristiques statistiques des textures sonores les plus informatives pour permettre une distinction entre diverses textures. Il s’agit principalement des moments marginaux et des corrélations de la modulation en amplitude des signaux sonores dans diverses bandes et sous-bandes fréquentielles. La validité du modèle et celle des paramètres statistiques sélectionnés ont été établies par des épreuves de reconnaissance de sons synthétiques, bruits blancs auxquels on applique les paramètres retenus, dont on ajuste les valeurs à celles que le modèle permet d’extraire à partir de la texture sonore naturelle correspondante. L’ensemble des résultats montre que le système auditif peut reconnaître les textures sonores en se contentant d’une information de nature statistique. On comprend aisément l’intérêt que présente cette représentation parcimonieuse pour la mémorisation de séquences sonores. De plus, ces représentations cérébrales plus abstraites et plus comprimées doivent faciliter les processus de reconnaissance sensorielle et leur intégration dans des représentations multisensorielles. À côté d’une conception du traitement des signaux acoustiques qui attribue à leur structure spectrotemporelle fine un rôle central dans leur reconnaissance et leur mémorisation, en émerge donc une autre, qui confère ce rôle à leurs régularités statistiques (ici analysées par 7 paramètres). Ultérieurement, les mêmes auteurs ont étayé et généralisé leurs conclusions (McDermott J.H., Schemitsch M. et Simoncelli E.P., Nature Neuroscience, 2013). Ainsi, si la discrimination de deux échantillons provenant d’une même texture synthétique, générée en appliquant le modèle à une texture sonore naturelle, est possible lorsque l’écoute se limite à une cinquantaine de millisecondes, elle disparaît si l’écoute se prolonge. À l’inverse, la discrimination de deux textures synthétiques sonores différentes augmente avec le temps d’écoute. Ces résultats sont en accord avec l’idée d’un moyennage opéré par le système auditif. Ils fournissent une explication à l’aptitude, bien établie, de discriminer deux bruits blancs à condition que leur écoute se limite à une centaine de millisecondes. Lorsque la densité des signaux acoustiques est forte et leur durée longue, l’auditeur perd l’accès aux détails de leur structure spectro-temporelle et devient dépendant de leur représentation statistique. Le bénéfice tiré de la perte d’information associée au traitement statistique des séquences sonores a été discuté.