Résumé

Traitement automatique des langues et sciences humaines computationnelles : l'intelligence artificielle au service du passé

Cette intervention présentera des cas d'usage de méthodes relevant du traitement automatique des langues en sciences humaines, et particulièrement dans les sciences des textes et la philologie des textes anciens et médiévaux en français et en hébreu. Nous commencerons par l'utilisation de techniques d'alignement texte/image qui facilitent la création supervisée de données de vérité de terrain pour la transcription automatique d'écritures manuscrites, aident à la résolution des abréviations et la reconstitution des copies d'un même texte. Nous continuerons avec les défis posés par la normalisation ou la lemmatisation d'états anciens de langue, présentant une variation graphique importante, tout en montrant comment cela peut servir ensuite pour la détection de l'intertextualité ou bien encore, à l'utilisation de méthodes de stylométrie pour l'identification des auteurs de textes anonymes ou disputés. Enfin, nous montrerons comment le traitement automatique des langues et l'intelligence artificielle peuvent être mis au service de la constitution et l'analyse de vastes corpus en diachronie longue, et comment ceux-ci peuvent être ensuite analysés en ayant recours à des méthodes telles que les plongements de mots et documents (embeddings) ou les grands modèles de langue pour ensuivre dans le temps les grandes évolutions thématiques.

Jean-Baptiste Camps

Jean-Baptiste Camps est maître de conférences en philologie computationnelle à l'École nationale des chartes, PSL. Il y dirige le master Humanités numériques de PSL, après avoir dirigé le master Technologies numériques appliquées à l'histoire (de 2013 à 2017). Ses recherches portent sur l'analyse de données textuelles et l'intelligence artificielle appliquées aux textes historiques. Il s'intéresse tout particulièrement à la littérature médiévale, notamment aux textes épiques et lyriques de langue d'oïl et d'oc. Ses recherches en stylométrie ont été récompensées en 2019 par le prix Fortier 2019 de la Digital Humanities Conference (en collaboration avec Ariane Pinche et Thibault Clérice), ont été publiées dans des revues pluridisciplinaires et spécialisées (Science Advances, Digital Scholarship in the Humanities…), ainsi que dans un ouvrage grand-public récemment paru (_Affaires de style_, éd. Le Robert, 2022) coécrit avec Florian Cafiero. À partir de janvier 2024, il sera le chercheur principal du projet ERC Starting Grant LostMA, _The Lost Manuscripts of Medieval Europe: Modelling the Transmission of Texts_.

Quelques exemples d'application du TAL aux humanités numériques

Résumé

Traitement automatique des langues et sciences humaines computationnelles : l'intelligence artificielle au service du passé

Jean-Baptiste Camps

Intervenant(s)

Jean-Baptiste Camps

Événements

Représenter les unités textuelles

Quelques exemples d'application du TAL aux humanités numériques

Approches symboliques et probabilistes

Deux exemples d'usage des transducteurs en linguistique

Modèles de langue

Apprendre un modèle de langue à partir de l’audio

Traduction automatique

Traduction neuronale massivement multilingue

Approches neuronales pour quelques tâches applicatives

Génération de texte à partir de connaissances

Linguistique computationnelle

Analyse automatique de l'argumentation dans les débats politiques

Converser avec la machine

Prédire c'est comprendre : un modèle neuro-cognitif du langage fondé sur la prédiction

Multimodalités : TAL et images, TAL et parole

L'IA axée sur les objectifs : vers des machines capables d'apprendre, de raisonner et de planif…

Voir aussi