Résumé

La plupart des méthodes d’apprentissage supervisé, dont font partie les réseaux de neurones, se formalisent comme un problème d’optimisation dans lequel la moyenne des erreurs sur les données observées est minimisée par rapport aux paramètres du modèle de prédiction. Cependant, l’apprentissage statistique donne lieu à des problèmes d’optimisation spécifiques, car on minimise une moyenne, ou plus généralement une espérance. Cette spécificité rend naturelle et efficace l’utilisation de méthodes dites « de gradient stochastique », où le modèle est mis à jour très fréquemment, après seulement quelques observations.

L’exposé présente quelques avancées récentes en optimisation par gradient stochastique, qui utilisent la « réduction de variance ». Pour les problèmes « convexes » (correspondant à un réseau de neurones sans couche cachée), ces avancées permettent d’atteindre en théorie et en pratique un taux de convergence exponentiel (dans le nombre d’itérations) vers l’optimum global. L’exposé présente aussi les méthodes dites « de gradient conditionnel », qui permettent un apprentissage incrémental où les neurones sont ajoutés aux modèles les uns après les autres.

Gradients stochastiques et conditionnels pour les réseaux de neurones

Résumé

Intervenant(s)

Francis Bach

Événements

Cartographie des sciences des données

Présentation des challenges 2018 (1)

Compromis Biais-Complexité

Présentation des challenges 2018 (2)

Malédiction de la grande dimension

Réduction de dimensionnalité et débruitage

Analyse de Fourier, filtrage et échantillonnage

Le débruitage d'images en quelques formules

Transformées et bases d'ondelettes

S'attaquer à une compétition de machine learning : méth…

Apprentissage Bayésien et linéaire à noyaux

Régression à noyaux et optimisation convexe

Classification à noyaux et SVM

Apprentissage fédéré pour les données médicales

Descente de gradient et réseaux de neurones

Gradients stochastiques et conditionnels pour les réseaux de neurones

Voir aussi