Salle 5, Site Marcelin Berthelot
En libre accès, dans la limite des places disponibles
-

Résumé

Dans un cadre stochastique bayésien, l’estimation optimale d’une réponse y à partir de données x s’obtient en maximisant la probabilité conditionnelle de y sachant x. Cependant, l’estimation de cette probabilité conditionnelle souffre à nouveau de la malédiction de la dimensionnalité si on suppose seulement qu’elle est localement régulière. Il faut donc introduire des conditions de régularité beaucoup plus fortes.

Beaucoup d’algorithmes d’apprentissage linéarisent l’estimation de y en effectuant un changement de variable qui transforme le vecteur x de dimension d en un vecteur Φ(x) de dimension d’. L’estimation de y se fait à partir du produit scalaire Φ(x)> b où le vecteur w et le biais b sont optimisés afin de minimiser le risque empirique calculé sur les données d’apprentissage. Le calcul de w en fonction des données d’apprentissage s’obtient en inversant une matrice d’affinité qui explicite la corrélation entre les données d’apprentissage. Pour un risque quadratique, le théorème de représentation démontre que le w optimal s’obtient par combinaison linéaire des Φ(x’), où les x’ sont les exemples d’apprentissage.

Afin de contrôler l’erreur de généralisation, le risque empirique peut être régularisé en introduisant une pénalité de Tikhnonov, proportionnelle à la norme de w au carré. Cette régularisation garantit que l’inversion de la matrice d’affinité est stable. De façon générale, on montre qu’une estimation stable de y en fonction de x a nécessairement de bonnes propriétés de généralisation.