Convergence de la descente de gradient stochastique

Résumé

La convergence de la descente de gradient par batch et de gradient stochastique est démontrée dans le cas où la fonction de coût est Lipchitz et fortement convexe relativement à ses paramètres.

Pour une descente de gradient, on montre une décroissance exponentielle en t de la distance euclidienne entre le vecteur de paramètres calculé à une itération t et le vecteur optimal qui minimise la fonction de coût. L’exposant de cette décroissance dépend de la borne de Lipchitz et de la constante de convexité forte.

L’algorithme du gradient stochastique peut être interprété comme une version bruitée de l’algorithme de descente de gradient. Ce bruit dépend de la variance de la fonction de coût pour des exemples pris aléatoirement. On démontre un premier théorème qui calcule une borne supérieure de la distance euclidienne entre le vecteur de paramètres obtenu à l’itération t et le vecteur optimal qui minimise la fonction de coût. Un choix optimal du pas de gradient permet d’obtenir une borne supérieure qui décroît comme 1/t. Ces théorèmes s’étendent au cas de fonctions de coût non-différentiables et convexes, en remplaçant le gradient par la notion de sous-gradient, et on obtient alors le même type de résultat.

Les algorithmes de descente de gradient ont une précision limitée par la variabilité aléatoire de la fonction de coût. Pour converger vers la solution optimale, il faut utiliser des algorithmes hybrides qui se comportent comme une descente de gradient stochastique tant qu’on est loin de la solution optimale, puis qui incorpore les exemples vus dans le passé pour se comporter comme une descente de gradient par batch lorsque le nombre d’itérations devient grand. Cela permet de converger vers la solution optimale.

Les propriétés de convergence des paramètres de réseaux de neurones profonds restent mal comprises car les fonctions de coût ne sont pas convexes. L’optimisation de ces réseaux garde donc une forte composante expérimentale. Pour que l’optimisation donne de bons résultats, il faut qu’il y ait une faible densité de minima locaux qui ont un coût bien plus important que les minima globaux. Cela dépend de l’architecture du réseau. De nombreuses recherches sont dédiées à la compréhension de ce problème et à l’étude de la géométrie du paysage d’optimisation linéaire de réseaux de neurones, basé sur la transformée en ondelettes. En 2018-2019, une partie importante de la recherche était dédiée à la construction de modèles stochastiques pour la synthèse d’images, de musiques, de finance, mais aussi pour modéliser des phénomènes de turbulence en physique et des propriétés de réseaux de télécommunication.

Convergence de la descente de gradient stochastique

Résumé

Intervenant(s)

Stéphane Mallat

Événements

Introduction aux réseaux de neurones profonds

Présentation de 7 challenges de données 2019 (1)

Applications des réseaux de neurones profonds

Présentation de 7 challenges de données 2019 (2)

Approximations par réseaux de neurones et régularité

Présentation des gagnants des challenges 2018

Les origines : la cybernétique et le perceptron

Apprentissage faiblement supervisé pour la reconnaissance visuelle

Approximation universelle par un réseau à une couche cachée

Le langage naturel

Erreur d'approximation avec une couche cachée et régularité

Analyse automatique de vidéos

Optimisation d'un réseau par maximum de vraisemblance

Apprentissage profond par renforcement

Descente de gradient et rétro-propagation du gradient

Convergence de la descente de gradient stochastique

Voir aussi