La lecture commence dans la rétine, dont la structure impose des contraintes sévères à la reconnaissance visuelle des mots. Seule sa partie centrale, la fovéa, dispose d'une résolution suffisante pour l'identification visuelle des petites lettres. C'est pourquoi notre regard se déplace sans cesse au cours de la lecture. Les expériences classiques de Rayner et ses collègues (Rayner, 1998) ont déterminé la quantité d'information acquise au cours d'une fixation du regard. En masquant les lettres à une certaine distance de la fovéa, elles ont montré que la préservation d'environ 4 lettres à gauche et 15 lettres à droite du point de fixation conduit à une vitesse de lecture normale. En réalité, seule semble extraite l'identité d'environ 3-4 lettres à gauche et 7-8 lettres à droite de la fixation. Cet empan visuel est donc très étroit. Dans l'ensemble, ces résultats suggèrent que la lecture procède essentiellement par l'acquisition séquentielle d'informations au cours de chaque saccade, acquisition qui se fait pratiquement mot par mot, même si quelques informations parafovéales semblent extraites concernant le mot suivant. On peut voir, dans ces expériences, une justification partielle de la concentration des recherches en psycholinguistique sur le traitement des mots isolés – même si les recherches approfondies sur le traitement des phrases et des textes restent trop rares.
Chez le lecteur expert, les études comportementales ont révélé plusieurs caractéristiques essentielles de la reconnaissance visuelle des mots :
- Absence d'effet de longueur des mots. Toutes choses égales par ailleurs (fréquence, régularité...), le temps de lecture d'un mot ne dépend pratiquement pas du nombre de lettres qu'il contient, du moins lorsque cette longueur n'excède pas 7 ou 8 lettres. Cette absence d'effet de longueur indique que l'ensemble de la chaîne de lettres est traitée en parallèle. Cette propriété est le résultat d'une expertise : chez l'enfant, une forte influence de la longueur existe mais disparaît progressivement avec l'apprentissage. Elle réapparaît chez l'adulte lorsque les mots sont dégradés ou lors de la lecture de pseudo-mots.
- Exploitation des redondances visuelles. Les travaux classiques de Miller, Bruner et Postman (1954), prolongés notamment par Reicher (1969) et Rumelhart & McClelland (1982) indiquent que le système visuel du lecteur expert a internalisé et exploite les statistiques distributionnelles des lettres. L'identification d'une lettre dans une chaîne de caractères est facilitée en proportion directe de l'information mutuelle apportée par les lettres voisines. Cet effet suggère une représentation, implicite ou explicite, des ensembles de lettres et de leur distribution statistique.
- Représentation d'unités de taille supérieur à la lettre. Les expériences comportementales de Rey, Ziegler et Jacobs (2000) indiquent que les graphèmes complexes - groupes de lettres correspondant à un phonème, tels « ch » ou « oi » - sont traités comme des unités par le système visuel. Les bigrammes, les syllabes et les morphèmes sont également codés.
- Effet de fréquence d'usage du mot dans la langue. Les mots les plus fréquents sont reconnus plus rapidement. La vitesse de lecture varie également avec la familiarité subjective et l'âge d'acquisition.
- Effets de voisinage des mots. On appelle « voisins orthographiques » des mots qui ne diffèrent que d'une lettre (par exemple « chat » et « char » ; le mot « drap » n'a pas de voisins). Le traitement d'un mot est généralement ralenti lorsqu'il possède un ou plusieurs voisins de plus haute fréquence (inhibition lexicale). Le nombre de voisins intervient également : le traitement d'un mot s'accélère souvent (mais pas toujours) avec le nombre de voisins, particulièrement en décision lexicale rapide.
- Effets de « consistance » de la conversion graphème-phonème. Il s'agit de la cohérence (en anglais « consistency ») avec laquelle une lettre ou un groupe de lettre est transcrite en phonèmes (consistance grapho-phonologique), et viceversa (consistance phono-graphémique). Le temps de reconnaissance d'une chaîne de lettres se ralentit lorsque les liens qu'elle entretient avec la prononciation sont ambigus.
Tous ces effets comportementaux soulignent que la lecture experte est associée à la mise en place d'une variété de niveaux de représentation visuelle qui interagissent au cours de la reconnaissance des mots.
L'aire de la forme visuelle des mots
Dès 1892, Déjerine décrit le syndrome d'alexie pure ou alexie sans agraphie, une incapacité sélective de reconnaître les mots écrits sans trouble du langage, de l'écriture ou de la reconnaissance visuelle des objets et des visages. Il l'associe à une disconnection des projections visuelles vers le gyrus angulaire, siège putatif d'un « centre des images visuelles des mots ». La lésion de son patient, toutefois, affecte principalement la région occipito-temporale ventrale gauche. Cette localisation est répliquée dans de nombreuses études contemporaines fondées sur l'IRM anatomique. L'intersection informatisée des lésions suggère que la région essentielle pour l'alexie pure est située dans le sillon occipito-temporal latéral gauche (Cohen et al., 2003).
L'IRM fonctionnelle du sujet normal confirme aujourd'hui le rôle essentiel de cette région dans la reconnaissance visuelle de l'écriture (Cohen & Dehaene, 2004). Tous les bons lecteurs activent cette région lorsqu'on leur présente des mots écrits, alors qu'elle ne s'active pas en réponse à des mots parlés. Elle occupe une localisation reproductible vis-à-vis des réponses à d'autres catégories visuelles (visages, objets, maisons ; travaux de Puce et coll., 1996 ; Ishai et coll., 2000 ; Hasson et coll., 2002, 2003). Les potentiels évoqués, la magnétoencéphalographie et les enregistrements intracrâniens confirment son activation sélective vers 170-200 ms après la présentation d'un mot. Un cas rare d'intervention chirurgicale occipito-temporale gauche avec imagerie pré- et post-opératoire a récemment permis de démontrer le rôle causal de cette activation dans la capacité de lire (Gaillard et al., 2006).
La fonction de cette région pourrait être de fournir aux régions linguistiques du lobe temporal un code visuel compact de la chaîne de lettres, invariant pour la police, la taille et la position du mot. De fait, la neuro-imagerie cognitive a permis de préciser le degré d'abstraction des réponses de la région occipitotemporale gauche aux mots écrits. Cette région est la première aire visuelle à répondre de façon invariante aux mots présentés à droite ou à gauche du champ visuel, une invariance spatiale qui nécessite un transfert des informations à travers le corps calleux. Elle présente également un effet d'amorçage subliminal indépendant de la « casse » (majuscules ou minuscules), ce qui suggère qu'elle est la première à répondre de façon invariante à l'identité d'une chaîne de caractères quelle que soit la forme exacte de ses lettres. Elle n'est pas sensible à la différence entre mots et pseudo-mots, mais son activation varie avec la régularité orthographique : plus la fréquence des bigrammes augmente, plus l'activation s'accroît (Binder, Medler, Westbury, Liebenthal, & Buchanan, 2006). Des données récentes suggèrent qu'elle n'est pas homogène, mais présente une organisation antéro-postérieure avec un degré croissant d'invariance et un codage d'unités de taille croissante, depuis les lettres isolées jusqu'aux bigrammes, aux morphèmes et aux mots (Dehaene et al., 2004 ; Vinckier et al., 2007).