L’inférence perceptive peut être bien plus complexe que la simple reconstruction de la valeur optimale d’un paramètre (orientation, vitesse, distance). En effet, les entrées sensorielles résultent fréquemment d’une combinaison complexe de nombreuses variables et sources de bruit. Une scène visuelle résulte par exemple d’un modèle génératif multi-niveau qui prend en compte les sources de lumière, la probabilité que tel ou tel objet soit présent, sa forme, les matériaux et leur réflectance, etc. Les réseaux bayésiens permettent de modéliser cette propagation hiérarchique des contraintes et d’inverser le modèle afin de reconstruire, à partir d’une image sur la rétine, la distribution de probabilité de tous les paramètres (Kersten, Mamassian & Yuille, 2004).
Ces modèles bayésiens hiérarchiques rendent compte d’illusions telles que la perception de la troisième dimension à partir de l’éclairement. Le cerveau infère la présence d’une source de lumière, en s’aidant de l’a priori qu’elle vient probablement du haut, et cette information inférée, à son tour, est utilisée pour résoudre l’ambiguïté sur la forme concave ou convexe d’une demi-sphère (Morgenstern, Murray & Harris, 2011).
La théorie bayésienne clarifie également la façon dont cerveau intègre plusieurs indices sensoriels. En présence d’informations visuelles et tactiles, plus ou moins bruitées, comment décidons-nous, par exemple, de la taille d’un objet ? Si les distributions sont gaussiennes, la théorie fait des prédictions précises : la perception doit être une moyenne pondérée des valeurs suggérées par chaque indice, tandis que sa fiabilité (reliability, c’est-à-dire l’inverse de la variance) doit être la somme des fiabilités de chaque indice pris isolément. Une étude psychophysique démontre que le comportement humain se conforme très précisément à ces prédictions (Ernst, 2007 ; Ernst & Banks, 2002). La théorie bayésienne s’applique également à l’intégration séquentielle d’indices multiples (Petzschner & Glasauer, 2011).