Ecole internationale de Recherche Multimodale d'Information - Techniques & Sciences [ERMITES],  édition VII

ERMITES 2012

Representations and Decisions in Cognitive Vision

Représentations et Décisions en Vision Cognitive

Les 30, 31 août et 1er septembre 2012 La Seyne-sur-Mer - Var


Orateurs : Y. LeCun, P. Bessière, S. Thorpe, M. Van Gerven, M. Perreira, P. Courrieu, F. Chamroukhi, X. Halkias, T. Hannagan

Les participants peuvent soumettre un article (4 à 6 pages, anglais ou français), qui si sélectionné, sera présenté lors d'une session poster, et publié dans les actes. L'école est bilingue.

Organisée par l'équipe DYNI de l'UMR CNRS LSIS. Soutenue par l'INRIA, CNRS, LSIS, GDR I3, ARIA, AFCP, USTV

et sous les patronages de la Fédération de Recherche en Informatique et Interactions (FRIIAM), du PEPS RUPTURE INS2I DYNI 'Scaled Swarm Vision', du Labex ARCHIMEDE, et de l'ANR COGNILEGO
Ouverture dès 10h le 30 Août, Hôtel Kyriad - La Seyne-sur-Mer, accès direct par bateau bus toutes les quinze minutes depuis l'hyper centre de Toulon

Programme

« Hierarchical Convolutional Vision and Recognition » (2 h)

L'exposé portera sur les modèles convolutionels et modèles profonds (DBN), notamment inspirés de structure corticale. Nous montrerons que les modèles à contrainte parcimonieuse permettent d'ouvrir une optimisation de connectiques latérales, et multi-représentation, propices à l'émergence de concepts.
« Bayesian modeling of perception, learning, decision and action » (2 h)

We present the principles of a Bayesian approach of sensory-motor systems [Bessiere08][Colas10]. We illustrate these principles with few examples coming either from life modeling or robotics. We will present, for instance, a model for perception of shape from motion [Colas06, Colas08], a model of perception of ego-movement from visuo-vestibular information [Laurens07], a model of sensori-motor loop involved in handwriting and reading [Gilet10, Gilet11] and, finally, a model called BOF (Bayesian Occupancy Filter) used in the automotive industry for obstacles detection and avoidance [Coué03, Coué06].
Réf: [Bessiere08] Probabilistic Reasoning and Decision Making in Sensory-Motor Systems
[Colas10] Common bayesian models for common cognitive issues Colas F., Diard J., Bessiere P. Acta Biotheoretica
[Colas08] An unified probabilistic model of the perception of three-dimensional structure from optic flow Colas F., Droulez J., Wexler M., Bessière P., Biological Cybernetics
[Colas06] Perception des objets en mouvement Composition bayésienne du flux optique et du mouvement de l'observateur, PhD
[Gilet11] Bayesian Action-Perception Computational Model: Interaction of Production and Recognition of Cursive Letters Gilet E., Diard J., Bessiere P., PLoS ONE
[Coué06] Bayesian Occupancy Filtering for Multitarget Tracking: an Automotive Application Coué C., Pradalier C., Laugier C., Fraichard T., Bessière P., Int. Journal of Robotics Research

« Percept Decoding with Sparse Latent Variable Models and Mental Imaging » (2 h)

Functional MRI has an exquisite spatial resolution which offers a unique window into the brain . Using sophisticated machine learning techniques, researchers have shown that visual percepts can be decoded from fMRI BOLD responses. In this talk I will give an overview of the status of this field. Particularly, I will discuss the decoding problem from a probabilistic point of view and make the distinction between discriminative and generative approaches. Next to the discussion of models used by other researchers, I will present a number of approaches we have been developing within my group. These approaches range from simple Gaussian models to more complex deep architectures.
Réf:Van_Gerven_Neural_decoding.pdf

« Spiking Vision » (2 h)

Les modèles neuro-inspirés peuvent expliquer certaines variables de notre système de perception, notamment nos temps de réaction et ou de décision. Nous montrons certains modèles 'spike' expliquant des temps de perception subliminale.
« Codes de Densité, Espaces de Formes et Lecture » (2h)

On sait depuis longtemps que, chez l'humain, la reconnaissance des mots imprimés passe par l'identification des lettres qui les composent (McClelland, 1976), mais il a été établi plus récemment qu'une forme de traitement holistique du mot apporte aussi une contribution significative à la reconnaissance (Lété et Pynte, 2003). Cette contribution holistique pourrait s'avérer encore plus critique pour les mots manuscrits, dans lesquels il n'est pas rare que certaines lettres ne soient tout simplement pas identifiables individuellement. La question se pose alors de savoir quelle forme pourraient prendre les représentations holistiques utilisées par la perception visuelle. De nombreuses possibilités sont envisagées dans la littérature, et je me suis pour ma part concentré sur l'exploration d'une hypothèse de représentation globale des formes par des "codes de densité" (Courrieu, 2006, 2007). Un code de densité est une séquence de points dont la distribution spatiale a une densité proportionnelle à la fonction image qu'elle encode. Par construction, la séquence de points permet la comparaison de formes dans des espaces de formes admettant certains invariants non nécessairement affines. D'assez bons résultats sont obtenus dans des espaces de formes "naturelles" (formes végétales, fractales...), mais les méthodes de comparaison développées à ce jour sont encore insuffisantes pour l'écriture manuscrite, particulièrement si on envisage de les appliquer à un vocabulaire de grande taille comme celui des langues naturelles. Je présenterai mes dernières investigations en la matière, dans le cadre d'un projet visant à l'approximation d'une fonction d'un espace de formes manuscrites vers un espace de codes orthographiques.
Réf:Courrieu07.pdf

« Apprentissage de modèles génératifs à processus latent à partir de séquences » (2 h)

Je présenterai de nouveaux modèles probabilistes à variable latente pour la représentation, la discrimination, le clustering et le suivi temporel de données fonctionnelles (courbes temporelles). La première partie de la présentation concernera la modélisation et la segmentation, aussi bien d'une courbe que d'un ensemble de courbes, par un modèle génératif de régression dynamique incorporant un processus latent. Ce modèle est à formulation dynamique de mélange de densités particulièrement adapté aux données temporelles hétérogènes à changement de régimes. La seconde partie traitera de la classification supervisée et du clustering de telles données. Le cas de classification supervisée (discrimination) est traité via une analyse discriminante effectuée directement dans l'espace des courbes et qui se situe dans le cadre de l'analyse de données fonctionnelles. Le cas non supervisé s'appuie sur une formulation spécifique de mélange de densités où chaque composante du mélange est un modèle génératif de régression par morceaux à processus latent. La troisième partie de la présentation concernera le suivi de séquence de données par un modèle autorégressif dynamique régit par un processus latent (logistique ou markovien non-homogène) et dont l'apprentissage s'effectue hors-ligne et en-ligne via l'algorithme EM. Je terminerai par une formulation bayésienne du modèle présenté avec des extensions notamment parcimonieuses. Les approches développées seront illustrées principalement sur des problématiques de diagnostic et de télésurveillance de système complexe et de robotique assistive par la modélisation de données de mouvements humains (comme l'écriture par exemple).
Ref: PhD, Chamroukhi ADAC 2011, Chamroukhi Neurocomp 2010.

« Modélisation attentionelle de la vision par diffusion et auto-organisation : aspects computationnels et expérimentaux » (2 h)

Dans un premier temps, nous introduirons ce qu'est la modélisation de l'attention visuelle ainsi que ses différents domaines d'application (publicité, ergonomie, vision par ordinateur, traitement d'images et de vidéo, multimédia, etc.). Puis, nous présenterons une approche originale de la modélisation computationnelle de l'attention. Le modèle présenté, temps réel et orienté vision par ordinateur, utilise les propriétés des phénomènes de diffusion et modèles auto-organisés proies-prédateurs afin de simuler efficacement les aspect dynamiques de l'attention visuelle. Les différentes propriétés du modèle seront abordées, ainsi que différentes démonstrations d'application possibles (segmentation d'images et vidéos, recadrage dynamique, estimation de la complexité des images, etc.). Enfin, nous aborderons le problème de la modélisation de l'attention visuelle d'un point de vue plus expérimental. En particulier nous nous arrêterons sur l'étude des biais de centre et de profondeur dans le cas de la vision stéréoscopique et verrons quelles améliorations peuvent être apportées aux modèles existant si l'on tient compte de ces deux facteurs.
Réf:Thèse

« Interaction between attention and learning in infancy, with applications in developmental robotics » (2 h)

I will present recent modelling work bearing on the interaction between attention and learning in infancy, with a view to applications in developmental robotics. The architecture of the model is inspired by computational studies coming both from the fields of infant habituation and of visual attention. The model embodies in its simplest form the notion that the attentional system involves competitive networks (Lee et al., 1999). Using this model, we reproduce infant behavioral results from Wu and Kirkham (2010) who demonstrated that as early as 8 months, the learning of object properties was improved by social cues (e.g. a face addressing the baby and gazing to the object) compared to non-social cues (e.g. a salient, red flashing square surrounding the object). We show that these learning differences can be explained by the amount of information let through from non-cued locations. We discuss these results and their applications to the design of new cognitive mechanisms and experiments for the iCub, a humanoïd robot whose ability to interact with caregivers and the environment pushes cognitive modelling to a new level.
Réf.:Hannagan_Wu_2011.pdf

« Domain Adaptation and DBNs in images and audio» (2 h)

The goal of the talk is to explore the efficacy of DBNs. Deep Belief Networks (DBN) have been successfully applied on popular machine learning tasks. Specifically, when applied on hand-written digit recognition, DBNs have achieved approximate accuracy rates of 98.8%. In an effort to optimize the data representation achieved by the DBN and maximize their descriptive power, recent advances have focused on inducing sparse constraints at each layer of the DBN. This talk will present a generalized theoretical approach for sparse constraints in the DBN using the sparse mixed norm. We explore how these constraints affect the classification accuracy for digit recognition in three different datasets and provide initial estimations for domain adaptation applications through cross-training and testing of the networks.
The goal of the talk is to explore the efficacy of DBNs under a domain adaptation framework applied in both images and audio. We will explore different architectures based on general sparse constraints and attempt to introduce a structured sparsity that will be based on the joint modeling of the different data sets.
Réf:Cognilego bib.



Inscriptions

Clôture des inscriptions le 11 juin
Les places sont limitées aux ving-quatre premiers inscrits.

Les pré-inscriptions sont ouvertes dès maintenant par simple courriel à ermites@univ-tln.fr renseignant :
nom, prénom
université / laboratoire / entreprise
adresse
téléphone
courriel
formule retenue (voir tarifs ci-dessous)
mode de paiement : Chèque à l'ordre du "trésorier de l'AFCP" ou Bon de Commande pour l'AFCP (laisser la mention utile).

Envoyer ce bon ou ce chèque (scan) par Email à ermites@univ-tln.fr (sujet "paiement 2012"), et aussi impérativement par courrier papier à cette adresse :
M. J. Razik, LSIS Univ. Sud-Toulon Var, Bat R, Av. de l'Université, BP 20132, 83957 La Garde Cedex France.

Pour information les références de l' AFCP sont: Association Francophone de la Communication Parlée
Etablissement : 30003 Guichet : 00990 N° de compte : 00037268733 Clé RIB 15
IBAN : FR 76 30003 00990 00037268733 15 BIC : SOGEFRPP
Domiciliation : Société Générale - Grenoble
N° SIRET : 440 910 354 00016 - code APE : 913E
Siège social : AFCP, Université d'Avignon - 339, Ch. des Meinajaries 84000 Avignon

Tarifs

A/  Formule pension complète (incluant 2 nuitées, 5 repas, 2 pts déj, pauses café / boisson, actes papier, en chambre studio 2 lits / salle de bain (chambre 1 lit avec supplément) :
A1/ Doctorant, Postdoc, Master = 290 euros,
A2/ Autre = 420 euros.

B/  Formule journée avec repas midi, actes, pauses café / boisson :
B1/ Doctorant, Postdoc, Master = 90 euros,
B2/ Autre = 110 euros.

Comité de Programme

H. Glotin (prés.), Pr univ. Sud-Toulon Var & IUF, LSIS
Y. LeCun, Pr univ. New York
P. Bessière, DR Collège de France
S. Thorpe, DR CERCO
F. Chamroukhi, MC USTV, LSIS
S. Paris, MC Aix-Marseille Univ (AMU), LSIS
J. Razik, MC univ. Sud-Toulon Var, LSIS

Comité d'Organisation

F. Chamroukhi (prés.)
H. Glotin
J. Razik
S. Paris
R. Abeille, doctorant DynI
T. Maillot, doctorant LSIS
Y. Doh, doctorant DynI
P. Machart, doctorant DynI
J.-M. Prévot, Ing. USTV



Lieu

L'hôtel Kyriad prestige de La Seyne sur Mer est desservi par des navettes régulières au départ du centre Toulon (TGV Paris 3h50, Aeroport TOULON-Hyeres), notamment par bateau bus en 15 minutes (2 euros), ou bus, depuis Toulon centre (horaires sur site du réseau Mistral).
Principales lignes pour venir de la gare de Toulon Ligne principale pour venir de la gare de La Seyne-sur-Mer:

===== Contexte =====


Site web de l'édition 2011 avec actes audiovisuels : http://glotin.univ-tln.fr/ERMITES11
Site web de l'édition 2010 avec actes audiovisuels : http://glotin.univ-tln.fr/ERMITES10

Rappel des programmes des journées ERMITES 2010

Jeanny HERAULT (GIPSA/UJF) « Perception Visuelle, faits et modèles »
Jean PETITOT (EHESS/X) « Modèles neurogéométriques de Vision »
Ugo BOSCAIN (CMAP/X) « Anthropomorphic image reconstruction via hypoelliptic diffusion »
Claude TOUZET (LNIA/UNIV. MED) « Modèles cognitifs de l'attention visuelle »
Jean-Paul GAUTHIER (LSIS/USTV) « Sur les mécanismes mis en oeuvre par le système nerveux central »
Hervé LE BORGNE (CEA-LIST) « Analyse en composantes indépendantes visuelles »
Julien MAIRAL (ENS/INRIA WILOW) « Sparse Coding and Dictionary Learning »
Hervé JEGOU (INRIA/IRISA) « Recherche d'image à grande échelle: procédés d'aggrégation & d'indexation »
Sébastien PARIS (LSIS/UNIV. MED) « Dynamique de la vision & auto-localisation Robotique »

Philosophie d'ERMITES

L'Ecole Recherche Multimodale d'Information : Technologies et Sciences fait intervenir, sur 3 jours, devant des chercheurs et ingénieurs en devenir, une dizaine de spécialistes des analyses conjointes de textes, images, sons et vidéos. La recherche d'information est de plus en plus complexe et hasardeuse compte tenu du volume sans cesse croissant des masses disponibles et de leur nature multimodale (images, sons, musique, parole, bio-acoustique, vidéos). Les buts d'ERMITES sont :
- d'analyser les dernières avancées théoriques, et pratiques, des systèmes robustes de recherche d'information multimodale de grande dimension et sur des masses de données,
- de montrer que ces nouveaux concepts forment une base pour un domaine plus vaste que celui d'origine pour lequel ils ont été développés,
- de sensibiliser les jeunes scientifiques au vaste champ scientifique mis en jeu par ces nouvelles avancées aux problèmes de fiabilité, robustesse, apprentissage, sous contrainte du passage à l'échelle.
L'esprit d'ERMITES est de mettre l'accent sur les analyses jointes (transversales sur diverses modalités), défi majeur peu pris en compte par la majorité des équipes qui restent plutôt dans le pré carré de leur spécialité de départ.

Appel ouvert le 15 avril 2012