Attention visuelle

Durant mes trois années de thèse (2007-2010), je me suis attaché à tisser un lien entre les domaines de la modélisation computationnelle de l’attention visuelle, la vision par ordinateur, et le concept plus générique d’adaptation. Pour effectuer ce lien, j’ai développé une modèle computationnel d’attention dédié à la vision adaptative. Ce dernier permet l’interaction avec un système de vision afin qu’il adapte ses traitements en fonction de l’intérêt de chacun des éléments de la scène, i.e. ce que nous appelons saillance.

 

Le modèle proposé répond à des contraintes de rapidité, adaptation, extensibilité et dynamique, issues d’une analyse des modèles computationnels d’attention existants et de leurs applications. Nous avons ainsi proposé une approche hybride, tirant partie des avantages des modèles d’attention hiérarchiques (rapidité, extensibilité) et des modèles distribués (plausibilité, gestion de la dynamique). Cette approche originale permet de générer un point de focalisation attentionnel à chaque pas de temps sans utiliser de carte de saillance ni de mécanisme explicite d’inhibition de retour. Ce nouveau modèle computationnel d’attention visuelle temps réel est basé sur un système dynamique d’équations proies / prédateurs, qui est bien adapté pour l’arbitrage entre un comportement attentionnel non déterministe et des propriétés de stabilité, reproductibilité, et réactivité.

 

 

Présentation vidéo du modèle d’attention

 

L’analyse des expérimentations menées lors de la thèse est très positive : malgré le comportement chaotique des équations proies / prédateurs, ce système possède des propriétés intéressantes de stabilité, reproductibilité, et réactivité, tout en permettant une exploration rapide, efficace et surtout plausible de la scène. Ces propriétés nous ont permis d’aborder différents types d’applications telles que l’évaluation de la complexité d’images, le recadrage dynamique ou la segmentation attentionnelle d’images et de vidéos. Le potentiel de ce modèle reste encore à exploiter dans de nombreux autres domaines, tels que l’interaction homme-machine, l’analyse de scène ou l’indexation multimédia.

Une démo interactive est disponible et permet de juger rapidement de l’efficacité et de l’originalité de ce modèle. Il est également possible de télécharger un exécutable du modèle pour une analyse plus poussée.

Illustration des applications du modèle

 

Segmentation de vidéo en région d’intérêt. L’exemple proposé concerne le trafic routier.

Découverte dynamique d’images basée sur l’attention

Recadrage dynamique de vidéo

D’autres vidéos de démonstration sont disponibles sur ma playlist youtube dédiée à l’attention.