Résumé
Les algorithmes de classification à noyaux donnent un cadre mathématique et algorithmique relativement simple pour développer des algorithmes d’apprentissage. Ils séparent deux classes en ajustant un hyperplan séparateur, après avoir effectué un changement de variable qui associe a une donnée x, un vecteur Φ(x). Les support vector machines optimisent la position de l’hyperplan en minimisant le risque empirique régularisé par un critère de marge. La marge mesure la distance minimum entre les points de chacune des classes et l’hyperplan. Cette minimisation peut se réécrire comme un problème d’optimisation convexe sous contraintes linéaires, qui dépend des produits scalaires k(x, x’) =
Le même type de résultat s’obtient avec un changement de variable Φ(x) en remplaçant le noyau par k(x, x’) = < Φ(x), Φ(x’) >. L’optimisation peut s’effectuer directement à partir des valeurs du noyau, en calculant les variables duales du Lagrangien associé à la minimisation du risque régularisé. Le théorème de Mercer prouve que n’importe quel noyau défini positif s’obtient avec un changement de variable Φ(x). La difficulté principale est de trouver un changement de variables qui permet de réduire le risque de généralisation. On étudie les propriétés des noyaux polynomiaux et des noyaux gaussiens.