Résumé
Une source importante d’information a priori est la structure géométrique de l’espace d’indexation des données, que ce soit l’espace pour les images, ou le temps pour des signaux audio. Cette paramétrisation définit des groupes de transformations comme les translations. Les opérateurs linéaires et covariants par translation sont les convolutions. Une classe importante d’invariant par translation s’obtient en diagonalisant les convolutions par la transformée de Fourier et en supprimant la phase avec un module.
Un difféomorphisme est un opérateur qui déforme l’espace physique avec une fonction régulière et inversible. En une dimension, un difféomorphisme peut localement s’approximer par une translation et une dilatation. L’action d’un petit difféomorphisme n’est pas linéarisé par le module de la transformée de Fourier car il peut produire des instabilités aux hautes fréquences.
Les représentations temps-fréquences localisent l’information de Fourier, dans la limite du théorème d’incertitude, en projetant les données sur des atomes temps-fréquences. La transformée de Fourier à fenêtre permet d’obtenir des représentations parcimonieuses qui mettent en évidence l’évolution temporelle ou spatiale des fréquences d’un signal. Cette localisation n’est cependant pas suffisante pour aussi éviter les instabilités induites par les difféomorphismes aux hautes fréquences.