Résumé
Comment les machines pourraient-elles apprendre aussi efficacement que les humains et les animaux ? Comment les machines pourraient-elles apprendre le fonctionnement du monde et acquérir le sens commun ? Comment les machines pourraient-elles apprendre à raisonner et à planifier ?
Les architectures d'IA actuelles, telles que les modèles de langage auto-régressifs à grande échelle, sont insuffisantes. Je proposerai une architecture cognitive modulaire qui pourrait constituer un chemin vers la réponse à ces questions. La pièce maîtresse de l'architecture est un modèle prédictif du monde qui permet au système de prédire les conséquences de ses actions et de planifier une séquence d'actions qui optimisent un ensemble d'objectifs. Les objectifs incluent des garde-fous qui garantissent la contrôlabilité et la sécurité du système. Le modèle du monde utilise une architecture hiérarchique jointe de prédiction d’embeddings (H-JEPA, pour Hierarchical Joint Embedding Predictive Architecture) entraîné par apprentissage auto-supervisé. L'architecture JEPA apprend des représentations abstraites des perceptions qui sont simultanément maximales en termes d'information et de prédictibilité.