Si les données géométriques ont révolutionné notre perception et notre interaction avec le monde tridimensionnel, d’une manière plus générale, les données – géométriques ou non – ont pris une place essentielle dans la science moderne et, au-delà, dans la société tout entière. Développer une approche géométrique et topologique de l’analyse des données (on parle de topological data analysis en anglais), en construire les fondements mathématiques et algorithmiques, mettre au point et diffuser des programmes informatiques rapides et fiables constituent quelques-uns des nouveaux objectifs de la géométrie algorithmique qu’aborde ce dernier cours.

Les données sont considérées comme des points dans un espace qu’on suppose muni d’une notion de distance (pas nécessairement la distance euclidienne usuelle). La plupart du temps, les points de données vivent dans des espaces de grandes dimensions mais ne sont en général pas distribués de manière uniforme dans cet espace gigantesque. La complexité apparente des données ne reflète en général pas la complexité intrinsèque de celles-ci. Il est donc important de rechercher des modèles synthétiques qui représentent convenablement les données et permettent de les analyser. C’est un problème majeur qu’on appelle « la réduction de dimension ». Quelle est la dimension des données ? Peut-on plonger les données dans un espace de petite dimension sans trop modifier les distances entre points ? Peut-on concevoir des algorithmes dont la complexité dépende de la dimension des données plutôt que de celle de l’espace des observations‹ ? Ces questions sont à l’origine de résultats remarquables et au développement d’algorithmes très utiles comme on l’a vu pour la recherche de voisins en grandes dimensions dans le cours précédent.

Le cours introduit deux modèles géométriques pour les données. Le premier est celui des amas de points (ou clusters) et du partitionnement des données. Le deuxième cherche à approximer les données par des variétés triangulées de petites dimensions même si elles sont plongées dans des espaces de grandes dimensions. Cette hypothèse est justifiée par des résultats spectaculaires comme le théorème de Takens pour les séries temporelles ou le lemme de Johnson Lindenstrauss et ses variantes. Les résultats d’approximation des variétés décrits dans les cours précédents sont utilisables mais, pour être utilisables en pratique, il faut les analyser d’un point de vue statistique et les rendre robustes au bruit toujours présent dans les données. Ceci conduit à étudier la distance à une mesure de probabilités et à des théorèmes de stabilité qui permettent d’étendre les résultats de reconstruction vus dans les cours précédents.

Géométrie des données

Documents et médias

Intervenant(s)

Jean-Daniel Boissonnat

Événements

Modèles géométriques discrets

Modèles géométriques pour la prédiction des interactions macro-moléculaires

La puissance de l'aléa : algorithmes randomisés

Probabilités géométriques

Le calcul géométrique

La bibliothèque logicielle CGAL

Object-Centric Machine Learning

Génération de maillages

Les deux réductions de Voronoï et leur application aux équations aux dérivées partielles

Courbes et surfaces

Reconstruction de surfaces

Espaces de configurations

Dessin de graphes

Structures de données géométriques

Learning Streaming and Distributed Big Data Using Core-Sets

Géométrie des données

Analyse topologique des données

Voir aussi