La perception de scènes visuelles complexes

LA PERCEPTION DE SCÈNES VISUELLES COMPLEXES 

Le monde visuel est composé d’une multitude de détails, de traits, de formes, d’objets et d’évènements en perpétuel remaniement. Lorsque nous observons une scène visuelle, notre expérience subjective nous renvoie à la complexité de notre environnement. Pourtant, la vision précise et détaillée est limitée à une partie très restreinte du champ visuel, la fovéa, et se dégrade rapidement lorsque l’on s’en éloigne. La perception détaillée de la scène et des objets qui la composent requiert un déploiement attentionnel. De cette réalité biologique découlent plusieurs questions. Comment le contenu des multiples fixations oculaires est-il intégré entre deux saccades pour former une représentation unifiée, stable et continue de l’environnement visuel ? Quelle information est mise en mémoire au cours des saccades oculaires ? Quels facteurs influencent le guidage de l’attention ?

Deux types de processus sont susceptibles d’orienter les processus attentionnels : d’une part, des processus ascendants, dirigés par les données, par les caractéristiques physiques d’une scène ou d’un objet, et d’autre part, des processus descendants, dirigés par les buts, les connaissances et les attentes de l’observateur. Si certaines propriétés physiques, certains traits saillants peuvent effectivement attirer l’attention, il est largement admis que l’attention est en grande partie guidée par des connaissances et des attentes relatives à la scène, et notamment, par des connaissances sur les régularités de l’environnement.

Les représentations visuelles 

Notre impression phénoménologique lorsque nous observons une scène visuelle, est que le monde extérieur nous apparaît tel qu’il est, dans sa complexité et sa globalité. De surcroît nous naviguons avec aisance dans ce monde visuel riche et dynamique, en dépit d’une vision précise et détaillée limitée à la fovéa (Anstis, 1998). Compte tenu de cette adaptabilité, il était présupposé dans les années 70 que notre perception stable et continue du monde au cours des saccades oculaires, tiendrait à l’existence en mémoire d’un tampon visuel intégrant l’ensemble des représentations sensorielles obtenues à partir des fixations multiples (pour une revue, Feldman, 1985). Chacune des représentations sensorielles serait ainsi retenue et organisée en accord avec la position dans laquelle elle a été encodée pour former une image composite, globale et détaillée de la scène (hypothèse de fusion spatiotopique, Irwin, 1992). L’attention serait alors guidée dans un environnement auquel l’observateur aurait accès dans son intégralité dès lors qu’il l’aurait abordé

Aussi séduisante qu’elle puisse être, cette conception a néanmoins été confrontée à de nombreux arguments empiriques qui la rendent peu plausible. Depuis les années 80, de nombreux travaux ont révélé les limites drastiques de la mémoire visuelle entre deux fixations visuelles. Par exemple, les travaux d’Irwin, Yantis et Joindes (1983) ont montré que l’individu est incapable de combiner des patterns visuels simples au cours d’une saccade oculaire (voir aussi, Irwin, 1991, 1992 ; Irwin & Andrews, 1996). Leurs résultats expérimentaux sont incompatibles avec une conception selon laquelle la perception reposerait sur la superposition et la fusion du  visible retenu au cours des fixations oculaires successives. La mémoire transsaccadique ne permet pas d’intégrer les informations sensorielles successives et le système visuel ne construit pas une copie fidèle de la scène.

Cette conclusion est étayée par une abondante littérature révélant que des éléments particulièrement saillants d’un point de vue perceptif peuvent passer totalement inaperçus des participants. Par exemple, des participants ayant reçu pour instruction de compter le nombre de passes échangées par les membres d’une même équipe de basket, étaient incapables de percevoir un gorille traversant la scène en gesticulant (Simons & Chabris, 1999). Ce phénomène de « cécité inattentionnelle » (Mack & Rock, 1998) a été particulièrement exploré au moyen de tâches de détection de changements, très en vogue ces dernières années. Les tâches de détection de changements (e.g. le « flicker paradigm », Rensink, O’Regan, & Clark, 1997) mettent en exergue l’extrême difficulté que rencontrent parfois les sujets à détecter, localiser ou identifier un changement (e.g. addition, suppression, déplacement, rotation, changement de couleur) opéré sur un objet dans une scène (pour des revues, cf. Simons & Rensink, 2005 ; Rensink, 2002). Ce phénomène a été baptisé par Grimes (1996) « cécité au changement » suite à ses travaux montrant que 50% des participants ne remarquaient pas que les têtes des protagonistes d’une photographie présentée à plusieurs reprises, étaient interchangées, alors même que la consigne les invitaient à rechercher des changements. La cécité au changement est un phénomène robuste qui se manifeste aussi bien dans des scènes du monde réel que dans des affichages composés de stimuli sans signification, dès lors que le changement est concomitant avec une interruption empêchant la perception du mouvement qu’il occasionne. Ce phénomène a été observé quel que soit le type d’interruption, qu’elle soit le fait d’une saccade oculaire (Grimes, 1996 ; Hollingworth & Henderson, 2002), d’un clignement de paupières (Rensink, O’Regan, & Clark, 2000) ou qu’elle résulte de manipulations expérimentales comme l’administration d’un blanc (Rensink et al., 1997, 2000), d’une coupure dans un film (Levin & Simon, 1997) ou même lorsqu’il n’y a pas d’interruption réelle entre les différentes versions d’une même image si le changement se fait graduellement (Simons, Franconeri, & Reimer, 2000). Les effets de cécité au changement ne se limitent pas à des modifications subtiles de la scène. Bien au contraire, ils peuvent se manifester pour des changements importants, dès lors que ces derniers ne modifient pas l’un des aspects sémantiques essentiels de la scène. Par exemple, dans une étude de Levin et Simons (1997), la plupart des observateurs ne remarquaient pas qu’un acteur dans un film était remplacé par un autre lors d’un déplacement de la caméra.

Des résultats aussi spectaculaires laissent entrevoir les raisons d’un tel engouement pour le phénomène de cécité au changement, qui, outre son caractère populaire, permet partiellement d’aborder expérimentalement la question de la représentation des scènes visuelles complexes. En effet, si l’homme disposait en mémoire d’une représentation intégrée de la scène, comme le présuppose l’hypothèse des représentations globales recomposées (i.e. hypothèse de la fusion spatiotopique), il n’éprouverait aucune difficulté à détecter des changements aussi considérables dans son champ visuel. Or, les travaux sur la détection de changements montrent que la mémoire transsaccadique n’assure pas l’intégration sensorielle et que les représentations visuelles ne survivent pas aux saccades oculaires. Les théories actuelles ont ainsi abandonné l’idée d’une image sensorielle détaillée recomposée. Mais si toutes s’accordent sur ce point, le détail de nos représentations visuelles est loin de faire l’objet d’un consensus. Le débat oppose ici les partisans d’une conception selon laquelle nos représentations seraient éparses et volatiles (e.g. Irwin & Andrews, 1996 ; Rensink, 2000a), et les partisans d’une conception selon laquelle nos représentions seraient extrêmement détaillées (e.g. Hollingworth, 2004 ; Hollingworth & Henderson, 2002). Le débat tourne autour de deux questions centrales. D’une part, quelle information est extraite et retenue au cours des saccades oculaires ? D’autre part, qu’est-ce qui est représenté à un instant donné ? Autrement dit, quels sont le contenu et la stabilité de nos représentations visuelles ?

Des représentations visuelles éparses et volatiles vs. des représentations visuelles stables et détaillées 

Des représentations éparses et volatiles 

Pour de nombreux auteurs, notre médiocrité à détecter des changements parfois considérables, atteste de l’existence de représentations sommaires et volatiles. Loin d’être globales et stables, nos représentations seraient davantage locales et transitoires. Pour Noё et O’Regan (2000), les effets de cécité au changement démontrent que notre perception d’un monde à la fois riche et détaillée est illusoire. Selon eux, la richesse et la complexité résident dans le monde lui-même, et non dans les représentations qu’on en a. Noё et O’Regan défendent même un point de vue selon lequel l’homme ne dispose pas de mémoire pour les informations visuelles. Le monde lui-même servirait de mémoire externe. Quel serait l’intérêt cognitif à disposer en mémoire d’une représentation hautement détaillée de la scène, puisque les objets sont rapidement accessibles par un simple mouvement de l’œil si nécessaire ?

En accord avec un point de vue selon lequel nos représentations seraient éparses et volatiles, la théorie du fichier objet de la mémoire transsaccadique (Irwin, 1991 ; Irwin & Andrews, 1996) et la théorie de la cohérence (Rensink, 2000a) constituent certainement les théories les plus détaillées et les plus influentes aujourd’hui. Dans ces théories, l’attention est nécessaire pour que les traits sensoriels soient intégrés en une représentation cohérente d’un objet et pour que cette représentation soit maintenue en mémoire visuelle à court terme (MVCT). Mais dès lors que l’objet n’est plus sous le focus attentionnel, la représentation de cet objet se dégraderait et seul resterait le code sémantique, « l’étiquette » de cet objet. La représentation d’une scène se limiterait en fait à une représentation détaillée mais temporaire du/des objet(s) présent(s) sous le focus attentionnel, à l’étiquette conceptuelle des objets précédemment attendus , et à une représentation très schématique de la scène dérivée de son identification et de ses propriétés sémantiques et structurales spatiales globales. La théorie du fichier objet et la théorie de la cohérence sont toutes deux étroitement inspirées de la théorie d’intégration des traits proposée par Treisman et ses collaborateurs (Kahneman, Treisman, & Gibbs, 1992 ; Treisman & Gelade, 1980). Elles considèrent deux niveaux de représentation. Ces deux niveaux renvoient au contenu volatil de nos représentions, et se rapportent aux deux étapes de traitement, préattentive et attentive, évoquées par Treisman et Gelade en 1980 (pour une description détaillée de la théorie de la cohérence et de la théorie du fichier objet, cf. Annexe 1a).

A l’origine, la théorie du fichier objet a été développée en vue d’expliquer l’intégration visuelle au cours des saccades oculaires. Par la suite, Irwin et Andrews (1996) ont intégré la conception de la mémoire transsaccadique dans une théorie plus générale de la représentation de scène. Dans cette perspective, l’information retenue au cours d’un mouvement saccadique de l’oeil serait limitée à trois sources :
– les fichiers objets actifs maintenant les codes visuels (abstraits de la représentation sensorielle) à partir des objets attendus ou récemment attendus stockés en mémoire à court terme (MCT),
– l’activation indépendante des nœuds conceptuels en MLT, codant l’identité des objets individuels organisés selon leur localisation dans la scène,
– des représentations schématiques de la scène dérivées de son identification globale, i.e. son « gist », sa signification générale ou catégorie de scène (e.g. scène de cuisine). Seuls les fichiers objet maintiendraient une représentation visuelle des objets mais leur structure serait labile. Irwin et Andrews (1996, p. 130) résument ainsi ces propos :
“According to object file theory, relatively little information actually accumulates across saccades; rather, one’s mental representation of a scene consists of mental schemata and identity codes activated in long term memory and of a small number of detailed object files in short-term memory”.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION
Chapitre I : La perception de scènes visuelles complexes
1. Les représentations visuelles
1.1. Des représentations visuelles éparses et volatiles vs. des représentations visuelles stables et détaillées
1.2. Arguments apportés par les données empiriques
1.3. La perception implicite : quel rôle dans les représentations visuelles ?
2. La sélection attentionnelle lors de l’exploration d’une scène visuelle
2.1. Le rôle de l’attention sélective sur le traitement de l’information visuelle
2.2. Guidage ascendant vs. guidage descendant de l’attention
2.3. Précocité des influences sémantiques sur la capture attentionnelle
2.4. Interaction entre traitements ascendants et traitements descendants au cours de l’analyse de scènes visuelles
3. Le rôle des régularités contextuelles dans la perception visuelle
3.1. Le contexte facilite la reconnaissance et l’identification des objets
3.2. La construction du contexte
3.3. Le rôle du contexte dans le guidage de l’attention
4. Conclusion et perspectives
Chapitre II : L’apprentissage implicite de régularités de l’environnement
1. L’apprentissage implicite de régularités
1.1. L’apprentissage de grammaires artificielles (AGL)
1.2. L’apprentissage séquentiel (SRT)
2. L’apprentissage implicite : un débat terminologique
3. L’apprentissage implicite produit-il une connaissance inconsciente ?
3.1. Méthodes subjectives à la première personne
3.2. Méthodes objectives à la troisième personne
4. L’apprentissage implicite est-il un processus automatique, qui ne requiert pas d’attention ?
4.1. L’apprentissage implicite consomme-t-il des ressources attentionnelles ?
4.2. L’apprentissage implicite requiert-il une attention sélective ?
4.3. L’attention est-elle requise pour l’apprentissage implicite et/ou pour l’expression de la connaissance résultante ?
5. L’apprentissage implicite peut-il conduire à des connaissances abstraites ?
5.1. L’apprentissage implicite de règles abstraites
5.2. Les traitements implicites basés sur des régularités sémantiques
6. Conclusion et perspectives
Chapitre III : L’indiçage contextuel
1. Arguments en faveur du caractère implicite de l’indiçage contextuel
1.1. Les tâches directes d’accès aux connaissances
1.2. L’indiçage contextuel persiste au cours du temps et résiste aux effets d’interférence
1.3. L’indiçage contextuel spatial requiert-il une attention visuelle sélective ?
1.4. L’indiçage contextuel et le syndrome amnésique
2. Comment les régularités contextuelles facilitent-elles la recherche visuelle ?
2.1. Le contexte guiderait l’attention de manière efficace
2.2. Cependant
3. Portée des effets d’indiçage contextuel dans des environnements arbitraires
3.1. Indiçage contextuel spatial
3.2. Indiçage contextuel basé sur l’identité spécifique des éléments contextuels
3.3. Indiçage contextuel temporel
4. L’indiçage contextuel dans des scènes du monde réel
4.1. Indiçage contextuel dans des scènes systématiquement répétées
4.2. Pourquoi les performances sont-elles différentes dans les scènes du monde réel?
5. L’indiçage contextuel reflèterait une automatisation de la recherche visuelle
6. Perspectives
CONCLUSION

Lire le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *