Amphithéâtre Marguerite de Navarre, Site Marcelin Berthelot
En libre accès, dans la limite des places disponibles
-

Résumé

Un réseau de neurones transforme les données x d’entrée par une cascade d’opérateurs linéaires représentés par des matrices de coefficients, suivis de non linéarités ponctuelles comme des sigmoïdes ou des rectificateurs. Cela implémente donc une classe de fonctions qui est paramétrée par les matrices utilisées pour calculer les couches successives. L’apprentissage optimise ces paramètres afin de minimiser l’erreur d’approximation d’une fonction y = f(x). Cette erreur est évaluée sur les exemples d’entraînement. On fait face à deux types de problèmes. Le problème d’approximation consiste à montrer qu’il existe une fonction dans la classe des fonctions des réseaux de neurones, qui approxime précisément f(x). Le second problème est d’optimiser les paramètres du réseau afin de calculer la meilleure approximation qui minimise l’erreur d’approximation. Cette optimisation se fait avec un algorithme de descente de gradient qui ajuste progressivement les paramètres afin de réduire l’erreur à chaque itération. Ce cours se concentre sur le problème d’approximation.

L’erreur d’approximation dépend typiquement de la régularité de la fonction f(x) que l’on approxime. Si cette fonction est Lipchitz, on démontre que pour atteindre une erreur e il faut un nombre d’exemples qui croit exponentiellement comme e-d. C’est la malédiction de grande dimension d. Pour éviter cette malédiction, il faut que la fonction f(x) soit beaucoup plus régulière, et que le réseau puisse utiliser cette régularité sous-jacente. Un enjeu mathématique est de comprendre la nature de la régularité qui est exploitée par les réseaux de neurones profonds.

En grande dimension il est nécessaire d’utiliser des contraintes de régularité globale. Cette régularité peut être capturée par le groupe de symétrie de f(x). Une symétrie est un opérateur g qui ne modifie pas la valeur de f : f(g.x) = f(x) pour tout x. L’ensemble des symétries a une structure de groupe. On a souvent des informations a priori sur ces symétries. Ainsi de nombreux problèmes de reconnaissance d’images sont invariants par translation, par certaines rotations ou certaines déformations. Pour le son, ces symétries incluent des transpositions fréquentielles on des déformations dans le plan temps-fréquence.