L’enjeu est maintenant de développer un algorithme plus efficace pour estimer les paramètres d’un modèle.
On commence par revoir les propriétés de la divergence de Kullback-Leibler et l’inégalité de Pinsker qui la relie à la variation totale. Une famille exponentielle a une énergie de Gibbs qui est linéaire relativement aux paramètres. On démontre que la divergence de Kullback-Leiber est une fonction convexe des paramètres et que l’on peut donc calculer son minimum par descente de gradient. Cependant, le terme provenant de la fonction de partition (constante de normalisation) est long à calculer.
L’algorithme de « score matching » évite le calcul de la fonction de partition en minimisant l’information relative de Fisher. Celle-ci dépend du score, qui est défini comme le gradient de la log-probabilité. C’est le gradient qui élimine la constante de normalisation. On démontre le théorème d’Hyvarinen qui donne une formule explicite de l’information relative de Fisher, plus facile à minimiser. On démontre aussi la consistance de l’estimation de paramètres par minimisation de l’information relative de Fisher, et que l’erreur suit asymptotiquement une loi normale. L’information relative de Fisher donne une borne de la divergence de Kullback-Leibler, qui est multipliée par une constante de Log-Sobolev. Cette constante peut être très large lorsque l’on optimise des énergies de Gibbs qui ont des minima locaux profonds. Dans ce cas, bien que beaucoup plus rapide à calculer, l’estimation paramétrique par minimisation de l’information de Fisher peut être nettement plus imprécise que par minimisation de la divergence de Kullback-Leibler.