11 episódios

La statistique joue de nos jours un rôle croissant dans de nombreux domaines scientifiques, notamment en traitement de l'image. En effet, il est à présent difficile pour un opérateur humain de traiter de façon exhaustive les données d'image dans un temps raisonnable. La statistique prend alors le relais pour analyser de façon automatique ces données dans le but d'aider les opérateurs à la prise de décision. De plus, le traitement de l'image pose de nouveaux problèmes théoriques en statistique. Par exemple, la classification à partir de données incertaines, le traitement de données corrélées ou la discrimination de populations déséquilibrées sont des problèmes particulièrement présents en analyse d'images. Les supports de présentation sont disponibles sur l'Espace pédagogique interactif (http://epi.univ-paris1.fr/samos-statim). Session 1 : Problèmes nouveaux en apprentissage statistique Session 2 : Imagerie bio-cellulaire Session 3 : Reconnaissance de formes dans des images Session 4 : Apprentissage statistique en grande dimension. Recommandé à : étudiant de la discipline, chercheur - Catégorie : conférences - Année de réalisation : 2009

SAMOS - Colloquium "Statistiques pour le traitement de l'image" (Conférences, 2009‪)‬ Université Paris 1 Panthéon-Sorbonne

- Educação

- 22 DE JAN. DE 2009
01 - Le compromis intrusion/extrusion pour la projection et la visualisation de données en grande dimension - John A. LEE & Michel VERLEYSEN

01 - Le compromis intrusion/extrusion pour la projection et la visualisation de données en grande dimension - John A. LEE & Michel VERLEYSEN

La réduction de dimension a pour ambition de produire des représentations en faible dimension d'ensembles de données en haute dimension. Un des objectifs principaux de la réduction de dimension est la visualisation de données (en dimension 2 ou 3). De nombreuses méthodes de réduction de dimension ont été proposées récemment. Une grande partie d'entre elles se basent sur l'optimisation d'un critère de respect de distances entre paires de points. Le critère peut être simple (souvent quadratique, éventuellement après transformation non-linéaire des données), permettant une optimisation de type algébrique. D'autres critères plus pertinents face aux objectifs de la réduction de dimension ont également été définis, permettant par exemple de sous-pondérer les paires de données éloignées, dont la distance est moins importante à prendre en considération pour un objectif de visualisation. Dans ce cas, l'optimisation du critère requiert en général des méthodes itératives basées sur le gradient. La variété des critères développés, ainsi que celle des méthodes d'optimisation utilisées, a donné lieu à un grand nombre de méthodes de réduction non-linéaire de dimension. La comparaison de ces méthodes n'est pas toujours aisée. Il est évident que chaque méthode est og meilleure g que d'autres, si le critère de comparaison utilisé est précisément celui optimisé par la méthode. Des critères de qualité plus objectifs ont alors été proposés dans la littérature. Souvent, ils se basent non plus sur une mesure de respect des distances entre paires de points lors de la projection, mais bien sur la notion de voisinage: les voisons d'un point sont-ils restés les mêmes lors de l'opération de projection' Si la réponse est positive, la projection sera considérée comme bonne. Les critères proposés ne sont néanmoins pas non plus universels, ni exempts de subjectivité, et ce pour deux raisons. D'une part il faut définir quels voisinages sont utilisés pour la mesure de qualité, et comment éventuellement pondérer davantage les voisins proches que les voisins éloignés. D'autre part, sauf dans certains cas particuliers bien précis, il est impossible de préserver parfaitement tous les voisinages. Par exemple, si une sphère ou un cylindre doit être projeté sur un espace de dimension deux, il est impossible d'éviter en même temps les écrasements (des points loin sur la sphère seront projetés proches l'un de l'autre) et les déchirures (des voisins sur la sphère seront projetés loin l'un de l'autre). Cet exposé montrera d'une part que les critères de qualité des méthodes de projection non-linéaires doivent être envisagés sous la forme d'une paire de critères mesurant les intrusions et extrusions, respectivement liées aux écrasements et déchirements décrits ci-dessus. Il montrera d'autre part qu'en définissant proprement une matrice de og co-ranking g (intersection de voisinages dans les espaces avant et après projection), il est possible d'en déduire de façon simple et unifiée les différents critères de respect de voisinages actuellement utilisés dans la littérature. Référence : J. A. Lee & M. Verleysen, Quality assessment of dimensionality reduction: Rank-based criteria. Accepted for publication in Neurocomputing, in Press, available online 10 January 2009. John A. Lee & Michel Verleysen. Université catholique de Louvain. Vous pouvez entendre l'intervention, tout en visualisant le Power Point, en cliquant sur ce lien : http://epn.univ-paris1.fr/modules/ufr27statim/UFR27STATIM-20090123-Verleysen/UFR27STATIM-20090123-Verleysen.html. Ecouter l'intervention : Bande son disponible au format mp3 Durée : 1H06
- 1h 5 min
- 22 DE JAN. DE 2009
01 - Le système visuel : Réduire la variabilité pour mieux catégoriser Images et Scènes - Jeanny HERAULT

01 - Le système visuel : Réduire la variabilité pour mieux catégoriser Images et Scènes - Jeanny HERAULT

Les premiers niveaux du système visuel des primates sont maintenant bien connus. Dans cet exposé, nous présentons leur architecture et leurs fonctions comme un modèle pour le traitement et l'analyse des images. Tout y apparaît comme bien adapté à la statistique des images pour en réduire la redondance et les variabilités. La rétine, par des fonctions spécifiques, extrait les informations utiles contenues dans le signal spatio-temporel des images de notre monde visuel : * Un filtrage spatio-temporel à variables non séparables qui compense le spectre en 1/f des images, * Une compression localement adaptative qui réduit la variabilité des éclairements et des contrastes, * Un codage des couleurs qui est particulièrement efficace, * Un échantillonnage spatialement variant qui est bien adapté à l'interprétation de notre monde 3D. Le cortex visuel primaire qui procède à une analyse locale de l'image rétinienne : * Une analyse fréquentielle en spectre d'énergie qui s'affranchit des translations, * Des filtres spatiaux à profil radial Log-Normal pour mieux échantillonner le spectre des images, * Une distribution Log-polaire des fréquences centrales pour mieux s'affranchir des effets de taille et de rotation, et pour estimer la perspective monoculaire. Ces différentes propriétés seront illustrées par des exemples d'application à la catégorisation des scènes et à l'estimation de la perspective locale dans les images naturelles. Jeanny Herault. INPG Grenoble. Vous pouvez entendre l'intervention, tout en visualisant le Power Point, en cliquant sur ce lien : http://epn.univ-paris1.fr/modules/ufr27statim/UFR27STATIM-20090123-Herault/UFR27STATIM-20090123-Herault.html. Ecouter l'intervention : Bande son disponible au format mp3 Durée : 1H00
- 59 min
- 21 DE JAN. DE 2009
01 - Forêts aléatoires : importance et sélection de variables - Jean-Michel POGGI

01 - Forêts aléatoires : importance et sélection de variables - Jean-Michel POGGI

On s'intéresse à la méthode des forêts aléatoires d'un point de vue méthodologique. Introduite par Leo Breiman en 2001, elle est désormais largement utilisée tant en classification qu'en régression avec un succès spectaculaire. On vise tout d'abord à confirmer les résultats expérimentaux, connus mais épars, quant au choix des paramètres de la méthode, tant pour les problèmes dits og standards g que pour ceux dits de og grande dimension g (pour lesquels le nombre de variables est très grand vis à vis du nombre d'observations). Mais la contribution principale de cet article est d'étudier le comportement du score d'importance des variables basé sur les forêts aléatoires et d'examiner deux problèmes classiques de sélection de variables. Le premier est de dégager les variables importantes à des fins d'interprétation tandis que le second, plus restrictif, vise à se restreindre à un sous-ensemble suffisant pour la prédiction. La stratégie générale procède en deux étapes : le classement des variables basé sur les scores d'importance suivie d'une procédure d'introduction ascendante séquentielle des variables. Il s'agit d'un travail en collaboration avec R. Genuer et C. Tuleau. Jean-Michel Poggi. Université Paris-Sud. Vous pouvez entendre l'intervention, tout en visualisant le Power Point, en cliquant sur ce lien : http://epn.univ-paris1.fr/modules/ufr27statim/UFR27STATIM-20090122-Poggi/UFR27STATIM-20090122-Poggi.html. Ecouter l'intervention : Bande son disponible au format mp3 Durée : 1h02
- 1h 1m
- 21 DE JAN. DE 2009
02 - Apprentissage semi-supervisé pour la classification d'images - Cordelia SCHMID & Jakob VERBEEK

02 - Apprentissage semi-supervisé pour la classification d'images - Cordelia SCHMID & Jakob VERBEEK

In the first part we are interested in finding images of people on the web, and more specifically within large databases of captioned news images. It has recently been shown that visual analysis of the faces in images returned on a text-based query over captions can significantly improve search results. The underlying idea to improve the text-based results is that although this initial result is imperfect, it will render the queried person to be relatively frequent as compared to other people, so we can search for a large group of highly similar faces. The performance of such methods depends strongly on this assumption: for people whose face appears in less than about 40% of the initial text-based result, the performance may be very poor. I will present a method to improve search results by exploiting faces of other people that co-occur frequently with the queried person. We refer to this process as `query expansion'. In the face analysis we use the query expansion to provide a query-specific relevant set of `negative' examples which should be separated from the potentially positive examples in the text-based result set. We apply this idea to a recently-proposed method which filters the initial result set using a Gaussian mixture model, and apply the same idea using a logistic discriminant model. We evaluate the methods on a database of captioned news stories from Yahoo!News. The results show that (i) query expansion improves both methods, (ii) that our discriminative models outperform the generative ones, and (iii) our best results surpass the state-of-the-art results by 10% precision on average. In the second part we are interested in Conditional Random Fields (CRFs), which are an effective tool for a variety of different data segmentation and labelling tasks including visual scene interpretation, which seeks to partition images into their constituent semantic-level regions and assign appropriate class labels to each region. For accurate labelling it is important to capture the global context of the image as well as local information. We introduce a CRF based scene labelling model that incorporates both local features and features aggregated over the whole image or large sections of it. Secondly, traditional CRF learning requires fully labelled datasets. Complete labellings are typically costly and troublesome to produce. We introduce an algorithm that allows CRF models to be learned from datasets where a substantial fraction of the nodes are unlabeled. It works by marginalizing out the unknown labels so that the log-likelihood of the known ones can be maximized by gradient ascent. Loopy Belief Propagation is used to approximate the marginals needed for the gradient and log-likelihood calculations and the Bethe free-energy approximation to the log-likelihood is monitored to control the step size. Our experimental results show that incorporating top-down aggregate features significantly improves the segmentations and that effective models can be learned from fragmentary labellings. The resulting methods give scene segmentation results comparable to the state-of-the-art on three different image databases. Références : T. Mensink & J. Verbeek, Improving People Search Using Query Expansions: How Friends Help To Find People, European Conference on Computer Vision, 2008. J. Verbeek & B. Triggs, Scene Segmentation with CRFs Learned from Partially Labeled Images, Advances in Neural Information Processing Systems, 2007. Cordelia Schmid & Jakob Verbeek. INRIA Rhône-Alpes. Vous pouvez entendre l'intervention, tout en visualisant le Power Point, en cliquant sur ce lien : http://epn.univ-paris1.fr/modules/ufr27statim/UFR27STATIM-20090123-Verbeek/UFR27STATIM-20090123-Verbeek.html. Ecouter l'intervention : Bande son disponible au format mp3 Durée : 1H01 mn
- 1h
- 21 DE JAN. DE 2009
02 - Lien entre la notion de Copula et la tomographie - Ali MOHAMMAD-DJAFARI

02 - Lien entre la notion de Copula et la tomographie - Ali MOHAMMAD-DJAFARI

Un problème important en statistiques est de trouver une loi de probabilité jointe entre deux variables à partir de ses lois marginales. Dans le cas de deux variables, les densités marginales f1(x) et f2(y) sont liées à leurs distribution jointe f(x,y) via des intégrations suivant les deux axes horizontal et vertical. Ce problème ressemble à un problème de reconstruction d'image en tomographie où on chercherait à reconstruire une image à partir de seulement deux projections. Ce problème est un problème mal-posé au sens qu'il admet une infinité de solutions, et justement, la notion de "Copula" qui permet de caractériser l'ensemble des lois jointes avec des marginales données, peut être utilisé en tomographie pour caractériser l'ensemble des images compatibles avec deux projections. On pourra alors rechercher une solution particulière dans cet ensemble. A l'inverse, nous pensons que les techniques de reconstruction d'image peuvent apporter une nouvelle voie dans la détermination d'une loi jointe à partir de ses lois marginales, un sujet qui est très important en inférence statistiques. An important problem in statistics is determining a joint probability distribution from its marginals. In 2D case, the marginal probability density functions f1(x) and f2(y) are related to their joint distribution f(x,y) via the horizontal and vertical line integrals. So, the problem of determining f(x,y) from f1(x) and f2(y) is an ill-posed inverse problem. In statistics the notion of emph{copula} is exactly introduced to obtain a solution to this problem. Interestingly, this is also a problem encountered in X ray tomography image reconstruction where f(x,y) is an image representing the distribution of the material density and f1(x) and f2(y) are the horizontal and vertical line integrals. In this talk we try to link the notion of copula to X ray Computed Tomography (CT) and to see if we can use the methods used in each domain to the other one. Ceci est un travail commun avec Doriano Pougaza et Jean Francois Bercher. Ali Mohammad-Djafari. Supélec. Vous pouvez entendre l'intervention, tout en visualisant le Power Point, en cliquant sur ce lien : http://epn.univ-paris1.fr/modules/ufr27statim/UFR27STATIM-20090123-Djafari/UFR27STATIM-20090123-Djafari.html. Ecouter l'intervention : Bande son disponible au format mp3 Durée : 49 mn
- 48 min
- 20 DE JAN. DE 2009
02 - Analyse d'images bio-cellulaires : reconnaissance morphologique et comptage - Sylvie LELANDAIS

02 - Analyse d'images bio-cellulaires : reconnaissance morphologique et comptage - Sylvie LELANDAIS

Dans cet exposé nous présentons un travail qui est mené conjointement par deux équipes du laboratoire IBISC : l'équipe DYNAMIC, constituée de biologistes expérimentaux, et l'équipe TADIB, spécialisée en traitement de données et d'images. L'objectif final de ce travail est de proposer aux biologistes un logiciel d'analyse automatique d'images qui, à partir de vues prises sur un microscope apotome ZEISS, permette d'évaluer le pourcentage de cellules appartenant à des classes prédéterminées. En effet, l'équipe DYNAMIC étudie les occurrences de cellules morphologiquement différentes et potentiellement plus invasives. Pour cela ils travaillent sur la potentialité de migration de cellules cancéreuses mises en culture. A ce stade, les cellules saines ayant évolué vers l'état cancéreux peuvent opter pour deux types de migration cellulaire : la migration mésenchymateuse, migration lente caractérisée par des cellules de forme allongée, ou la migration amiboïde, migration rapide caractérisée par des cellules de forme ronde et "blebbante" qui est conjointe à un échappement cellulaire de la tumeur primaire avec comme pronostic une forte probabilité de création de métastase. La question qui se pose aux biologistes est de savoir pourquoi des cellules passent du mode de migration mésenchymateuse au mode de migration amiboïde. L'hypothèse faite par l'équipe DYNAMIC est que cette évolution du comportement est liée au micro-environnement cellulaire et en particulier à la présence de la molécule PAI-1 (Plasminogen Activator Inhibitor-1) qui "encouragerait" ce comportement "métastatique". La validation d'une telle hypothèse permettrait d'envisager de modifier le micro-environnement d'une tumeur primaire pour éviter la multiplication des sites cancéreux à travers le développement de métastases. Le problème est que, pour valider cette hypothèse, de nombreuses observations sont nécessaires. Ces observations se font sur des cultures de cellules vivantes photographiées au microscope. Sur ces images, on va compter le nombre de cellules de chaque classe : non migrante (ronde et lisse), mésenchymateuse (allongée) et amiboïde (ronde et blebbante), et évaluer les pourcentages de chaque classe en fonction de la composition du micro-environnement et de la durée écoulée. Le travail de culture est déjà long et délicat. Rajouter à cela des opérations de comptage et de classification "manuelle" rendent le travail particulièrement fastidieux. Après avoir exposé le mode opératoire permettant d'acquérir les images, nous nous attarderons sur les différentes difficultés liées à ces images : gradient de luminosité d'orientation variable, faible rapport signal à bruit, éclairage rasant provoquant une rupture des contours. Si chacun de ces problèmes peut être résolu, la présence de l'ensemble de ces difficultés nécessite la mise en place d'une chaîne complète de prétraitements permettant d'obtenir une image correcte des écarts-types, image servant de support au calcul des composantes connexes présentes dans l'image. Par ailleurs, un filtrage par une différence de gaussiennes appliqué sur l'image des écarts-type permet d'obtenir une image dite de "halo" mettant en évidence la position du centre des cellules et rendant possible l'opération de comptage. Cette approche par filtrage est comparée à une approche par transformée de Hough. Les résultats présentés illustrent les limites respectives de chaque méthode. Enfin, une segmentation par Ligne de Partage des Eaux (LPE) est opérée sur une carte des distances réalisée sur chaque composante connexe, les germes de la LPE étant les centres précédemment obtenus. Il est ainsi possible d'isoler un maximum de cellules sur lesquelles seront calculés cinq paramètres morphologiques utilisés dans l'étape de classification. D'où l'intérêt du développement d'un logiciel automatique de traitement et analyse des
- 53 min