Cours

La biologie de l'information – un dialogue entre l'informatique et la biologie

du au

Walter Fontana présente son cours dans la série les courTs du Collège de France

La chaire Informatique et sciences numériques de 2019-2020 au Collège de France vise à mettre en exergue la biologie computationnelle. Le terme est souvent compris comme « bioinformatique » − une pratique du calcul au service de l’organisation, la recherche et l’analyse de grands ensembles de données en vue d’une compréhension prédictive. Un travail extraordinaire a été accompli dans ce domaine, et je crois qu’on y a accordé une attention suffisamment grande pour que l’organisation d’un autre cours se justifie (sans parler de mon manque d’expertise). Je voulais plutôt réinterpréter le sens de « calcul » en me concentrant sur la représentation des systèmes biomoléculaires (principalement constitués de protéines) comme un ensemble de règles « si-alors » dont les pré- et post-conditions capturent, à un niveau d’abstraction plus élevé, des résultats empiriques sur les mécanismes d’interaction.

Par exemple, « si le domaine RGS d’Axin est lié à un domaine SAMP d’APC et GSK est lié à Axin et beta-catenin est lié à un domaine répété de vingt acides aminés d’APC, alors GSK phosphoryle beta-catenin. » Si cela n’a pas de sens, c’est parce que ce n’est pas le cas. C’est un fait empirique dépourvu de sens (autre que celui qu’il affirme), car il s’agit d’une seule brique Lego sans compagnons. Cependant, une fois associés à des dizaines ou des centaines d’autres faits de même nature, ces faits commencent à s’imbriquer dynamiquement et révèlent un système de comportement. Un tel style de modélisation considère un modèle comme un programme écrit dans un langage de programmation spécifique à un domaine. Les modèles de ce type peuvent être construits, débogués et analysés comme des programmes. Les fondements formels de la modélisation basés sur des règles reposent sur la transformation de graphes, car les pré- et post-conditions des règles sont exprimées sous forme de graphes de types spéciaux.

Ainsi, sous cet angle, le terme « informatique » acquiert des connotations de la théorie du langage de programmation. Deux unités de cours sont donc consacrées à définir un langage appelé « Kappa », fondé sur des règles avec des exemples pour son application. Cependant, j’ai le sentiment qu’il doit y avoir une histoire plus large dans le contexte de laquelle la préoccupation pour ce type de modélisation est justifiée. J’ai choisi comme fil conducteur la notion quelque peu vague de « biologie de l’information », destinée à attirer l’attention sur le fait que l’information est toujours représentée physiquement d’une manière ou d’une autre, et que le traitement de l’information ne procède pas par manipulation d’une information éthérée et infiniment pliable, mais en agissant sur sa représentation physique d’une manière contrainte par cette représentation. Ainsi existe-t-il des conférences qui passent en revue des thèmes allant des cartographies génotype-phénotype à la précision de la réplication et de la reconnaissance moléculaire, et à l’apprentissage. Le choix, quelque peu éclectique, associe des sujets disparates de manière que les personnes habituées à apprendre des techniques détaillées pour s’attaquer à des problèmes ouverts dans des sujets bien fondés pourraient trouver frustrants. Enfin, la conférence inaugurale est une tentative de sonder en profondeur le terme « informatique » en mettant l’accent sur ses qualités générative et « chimique ».

Programme