Résumé
La modalité orale est le canal le plus naturel pour les interactions linguistiques, mais les technologies langagières actuelles (TAL) se basent surtout sur l'écrit, nécessitant de grandes quantités de textes pour développer des modèles de langage. Même les assistants vocaux ou les systèmes de traduction de la parole utilisent le texte comme intermédiaire, ce qui est inefficace et limite la technologie aux langues dotées de ressources textuelles importantes. De plus, cela néglige les caractéristiques de la parole telles que le rythme et l'intonation. Pourtant, l’enfant arrive à apprendre sa ou ses langue(s) maternelle(s) bien avant d’apprendre à lire ou à écrire.
Dans cette présentation, nous aborderons les avancées récentes en apprentissage de représentations audio qui ouvrent la voie à des applications TAL directement à partir de la parole sans aucun texte. Ces modèles peuvent capturer les nuances de la langue orale, y compris dans les dialogues. Nous discuterons également des défis techniques qui restent à relever pour reproduire un apprentissage qui approcherait celui du bébé humain.