Approximations par réseaux de neurones et régularité

Résumé

Un réseau de neurones transforme les données x d’entrée par une cascade d’opérateurs linéaires représentés par des matrices de coefficients, suivis de non linéarités ponctuelles comme des sigmoïdes ou des rectificateurs. Cela implémente donc une classe de fonctions qui est paramétrée par les matrices utilisées pour calculer les couches successives. L’apprentissage optimise ces paramètres afin de minimiser l’erreur d’approximation d’une fonction y = f(x). Cette erreur est évaluée sur les exemples d’entraînement. On fait face à deux types de problèmes. Le problème d’approximation consiste à montrer qu’il existe une fonction dans la classe des fonctions des réseaux de neurones, qui approxime précisément f(x). Le second problème est d’optimiser les paramètres du réseau afin de calculer la meilleure approximation qui minimise l’erreur d’approximation. Cette optimisation se fait avec un algorithme de descente de gradient qui ajuste progressivement les paramètres afin de réduire l’erreur à chaque itération. Ce cours se concentre sur le problème d’approximation.

L’erreur d’approximation dépend typiquement de la régularité de la fonction f(x) que l’on approxime. Si cette fonction est Lipchitz, on démontre que pour atteindre une erreur e il faut un nombre d’exemples qui croit exponentiellement comme e^-d. C’est la malédiction de grande dimension d. Pour éviter cette malédiction, il faut que la fonction f(x) soit beaucoup plus régulière, et que le réseau puisse utiliser cette régularité sous-jacente. Un enjeu mathématique est de comprendre la nature de la régularité qui est exploitée par les réseaux de neurones profonds.

En grande dimension il est nécessaire d’utiliser des contraintes de régularité globale. Cette régularité peut être capturée par le groupe de symétrie de f(x). Une symétrie est un opérateur g qui ne modifie pas la valeur de f : f(g.x) = f(x) pour tout x. L’ensemble des symétries a une structure de groupe. On a souvent des informations a priori sur ces symétries. Ainsi de nombreux problèmes de reconnaissance d’images sont invariants par translation, par certaines rotations ou certaines déformations. Pour le son, ces symétries incluent des transpositions fréquentielles on des déformations dans le plan temps-fréquence.

L'architecture d’un réseau de neurones convolutif incorpore une information sur ces symétries en imposant que les poids du réseau sont invariants par translation. Des expériences numériques montrent que les réseaux de neurones reproduisent d’autres symétries en calculant des coefficients qui sont de plus en plus invariant lorsque la profondeur du réseau augmente. Une question importante est de comprendre le lien entre les coefficients appris par le réseau et les groupes de symétries.

L’existence de séparation d’échelles est une autre source importante de régularité. En physique, l’interaction de d particules peut souvent s’approximer par des interactions de groupes de particules de tailles variables, ce qui permet de passer de d variables à O(log d) variables, qui représentent chacun des groupes. Ces propriétés de séparation d’échelles se retrouvent dans la plupart des applications dont la reconnaissance d’images, de sons, l’analyse du langage ou la physique. Dans les cas les plus simples, elles peuvent s’exprimer par des relations hiérarchiques pouvant se représenter par des arbres. Cependant ces structures sont souvent trop rigides pour expliciter la complexité des interactions à travers les échelles. Les mathématiques permettant de représenter de telles interactions sont basées sur la transformée en ondelettes. Dans les réseaux de neurones, la séparation d’échelles s’observe dans la structure hiérarchique des calculs à travers les couches.

Une troisième source de régularité est capturée par la notion de parcimonie. Il s’agit de comprendre s’il existe des « prototypes » de formes qui jouent un rôle important dans la valeur prise par f(x). Cela peut se formaliser par une approximation parcimonieuse dans un dictionnaire de vecteurs. On retrouve cette parcimonie à la sortie des neurones d’un réseau, dont les réponses sont souvent nulles. Il s’agit de comprendre si un réseau de neurones a la capacité d’apprendre des dictionnaires, et s’il approxime la fonction f(x) à partir d’une représentation parcimonieuse dans un dictionnaire.

L’enjeu mathématique est de relier ces notions de régularités aux capacités d’optimisation des réseaux de neurones et de comprendre les propriétés des classes de fonctions qui sont bien approximées par un tel réseau.

Approximations par réseaux de neurones et régularité

Résumé

Intervenant(s)

Stéphane Mallat

Événements

Introduction aux réseaux de neurones profonds

Présentation de 7 challenges de données 2019 (1)

Applications des réseaux de neurones profonds

Présentation de 7 challenges de données 2019 (2)

Approximations par réseaux de neurones et régularité

Présentation des gagnants des challenges 2018

Les origines : la cybernétique et le perceptron

Apprentissage faiblement supervisé pour la reconnaissance visuelle

Approximation universelle par un réseau à une couche cachée

Le langage naturel

Erreur d'approximation avec une couche cachée et régularité

Analyse automatique de vidéos

Optimisation d'un réseau par maximum de vraisemblance

Apprentissage profond par renforcement

Descente de gradient et rétro-propagation du gradient

Convergence de la descente de gradient stochastique

Voir aussi