Amphithéâtre Maurice Halbwachs, Site Marcelin Berthelot
En libre accès, dans la limite des places disponibles
-

Si les données géométriques ont révolutionné notre perception et notre interaction avec le monde tridimensionnel, d’une manière plus générale, les données – géométriques ou non – ont pris une place essentielle dans la science moderne et, au-delà, dans la société tout entière. Développer une approche géométrique et topologique de l’analyse des données (on parle de topological data analysis en anglais), en construire les fondements mathématiques et algorithmiques, mettre au point et diffuser des programmes informatiques rapides et fiables constituent quelques-uns des nouveaux objectifs de la géométrie algorithmique qu’aborde ce dernier cours.

Les données sont considérées comme des points dans un espace qu’on suppose muni d’une notion de distance (pas nécessairement la distance euclidienne usuelle). La plupart du temps, les points de données vivent dans des espaces de grandes dimensions mais ne sont en général pas distribués de manière uniforme dans cet espace gigantesque. La complexité apparente des données ne reflète en général pas la complexité intrinsèque de celles-ci. Il est donc important de rechercher des modèles synthétiques qui représentent convenablement les données et permettent de les analyser. C’est un problème majeur qu’on appelle « la réduction de dimension ». Quelle est la dimension des données ? Peut-on plonger les données dans un espace de petite dimension sans trop modifier les distances entre points ? Peut-on concevoir des algorithmes dont la complexité dépende de la dimension des données plutôt que de celle de l’espace des observations‹ ? Ces questions sont à l’origine de résultats remarquables et au développement d’algorithmes très utiles comme on l’a vu pour la recherche de voisins en grandes dimensions dans le cours précédent.

Le cours introduit deux modèles géométriques pour les données. Le premier est celui des amas de points (ou clusters) et du partitionnement des données. Le deuxième cherche à approximer les données par des variétés triangulées de petites dimensions même si elles sont plongées dans des espaces de grandes dimensions. Cette hypothèse est justifiée par des résultats spectaculaires comme le théorème de Takens pour les séries temporelles ou le lemme de Johnson Lindenstrauss et ses variantes. Les résultats d’approximation des variétés décrits dans les cours précédents sont utilisables mais, pour être utilisables en pratique, il faut les analyser d’un point de vue statistique et les rendre robustes au bruit toujours présent dans les données. Ceci conduit à étudier la distance à une mesure de probabilités et à des théorèmes de stabilité qui permettent d’étendre les résultats de reconstruction vus dans les cours précédents.