L'apprentissage face à la malédiction de la grande dimension

Stéphane Mallat présente son cours de l'année dans la série les courTs du Collège de France.

Les sciences des données ont pour objectif « d’extraire de la connaissance » de données numériques, avec des algorithmes. Les applications sont considérables, pour stocker, analyser et valoriser les masses de données : images, sons, textes, mesures physiques ou données d’Internet. On distingue deux types de problèmes : la prédiction et la modélisation. Les prédictions sont faites par des algorithmes d’apprentissage statistique, qui sont à l’origine du renouveau de l’intelligence artificielle. Un modèle décrit la variabilité des données et permet d’en générer des nouvelles. Les mathématiques ont ici pour but de comprendre sous quelles conditions il est possible d’apprendre et donc de généraliser, ou de construire des modèles, tandis que l’informatique a pour objectif de développer des algorithmes qui résolvent ces problèmes.

Le premier cours de la chaire pose le cadre mathématique et algorithmique de ce domaine, en dégageant les questions et techniques importantes pour l’apprentissage. La difficulté principale de la prédiction ou de la modélisation vient du grand nombre de variables des données, souvent plus d’un million, à l’instar du nombre de pixels d’une image. Cette grande dimension génère une explosion combinatoire des possibilités de prédiction ou de modélisation. On fait face à cette malédiction de la grande dimension avec des algorithmes qui utilisent de l’information a priori sur certaines régularités du problème. Le cours introduit des outils mathématiques et algorithmiques permettant de spécifier et d’exploiter cette régularité, pour prédire ou modéliser.

Programme

Cours

09:30 - 11:00

Cartographie des sciences des données

Stéphane Mallat

17 jan 2018

L'apprentissage face à la malédiction de la grande dimension

L'apprentissage face à la malédiction de la grande dimension

Programme

Cartographie des sciences des données

Présentation des challenges 2018 (1)

Compromis Biais-Complexité

Présentation des challenges 2018 (2)

Malédiction de la grande dimension

Réduction de dimensionnalité et débruitage

Analyse de Fourier, filtrage et échantillonnage

Le débruitage d'images en quelques formules

Transformées et bases d'ondelettes

S'attaquer à une compétition de machine learning : méthodologie et exemples pratiques

Apprentissage Bayésien et linéaire à noyaux

Régression à noyaux et optimisation convexe

Classification à noyaux et SVM

Apprentissage fédéré pour les données médicales

Descente de gradient et réseaux de neurones

Gradients stochastiques et conditionnels pour les réseaux de neurones

Voir aussi