1 hr 1 min

01 - Forêts aléatoires : importance et sélection de variables - Jean-Michel POGGI SAMOS - Colloquium "Statistiques pour le traitement de l'image" (Conférences, 2009)

    • Courses

On s'intéresse à la méthode des forêts aléatoires d'un point de vue méthodologique. Introduite par Leo Breiman en 2001, elle est désormais largement utilisée tant en classification qu'en régression avec un succès spectaculaire. On vise tout d'abord à confirmer les résultats expérimentaux, connus mais épars, quant au choix des paramètres de la méthode, tant pour les problèmes dits og standards g que pour ceux dits de og grande dimension g (pour lesquels le nombre de variables est très grand vis à vis du nombre d'observations). Mais la contribution principale de cet article est d'étudier le comportement du score d'importance des variables basé sur les forêts aléatoires et d'examiner deux problèmes classiques de sélection de variables. Le premier est de dégager les variables importantes à des fins d'interprétation tandis que le second, plus restrictif, vise à se restreindre à un sous-ensemble suffisant pour la prédiction. La stratégie générale procède en deux étapes : le classement des variables basé sur les scores d'importance suivie d'une procédure d'introduction ascendante séquentielle des variables. Il s'agit d'un travail en collaboration avec R. Genuer et C. Tuleau. Jean-Michel Poggi. Université Paris-Sud. Vous pouvez entendre l'intervention, tout en visualisant le Power Point, en cliquant sur ce lien : http://epn.univ-paris1.fr/modules/ufr27statim/UFR27STATIM-20090122-Poggi/UFR27STATIM-20090122-Poggi.html. Ecouter l'intervention : Bande son disponible au format mp3 Durée : 1h02

On s'intéresse à la méthode des forêts aléatoires d'un point de vue méthodologique. Introduite par Leo Breiman en 2001, elle est désormais largement utilisée tant en classification qu'en régression avec un succès spectaculaire. On vise tout d'abord à confirmer les résultats expérimentaux, connus mais épars, quant au choix des paramètres de la méthode, tant pour les problèmes dits og standards g que pour ceux dits de og grande dimension g (pour lesquels le nombre de variables est très grand vis à vis du nombre d'observations). Mais la contribution principale de cet article est d'étudier le comportement du score d'importance des variables basé sur les forêts aléatoires et d'examiner deux problèmes classiques de sélection de variables. Le premier est de dégager les variables importantes à des fins d'interprétation tandis que le second, plus restrictif, vise à se restreindre à un sous-ensemble suffisant pour la prédiction. La stratégie générale procède en deux étapes : le classement des variables basé sur les scores d'importance suivie d'une procédure d'introduction ascendante séquentielle des variables. Il s'agit d'un travail en collaboration avec R. Genuer et C. Tuleau. Jean-Michel Poggi. Université Paris-Sud. Vous pouvez entendre l'intervention, tout en visualisant le Power Point, en cliquant sur ce lien : http://epn.univ-paris1.fr/modules/ufr27statim/UFR27STATIM-20090122-Poggi/UFR27STATIM-20090122-Poggi.html. Ecouter l'intervention : Bande son disponible au format mp3 Durée : 1h02

1 hr 1 min

More by Université Paris 1 Panthéon-Sorbonne

Témoignages EPI
Université Paris 1 Panthéon-Sorbonne
Découper le temps : les périodes de l'histoire
Université de Paris 1 Panthéon-Sorbonne
Biodiversité
UVED
Présentations des étudiants du Master 2 Recherche Droit Social
Université Paris 1 Panthéon-Sorbonne
Economie circulaire et innovation
UVED
StatLearn 2010 - Workshop on "Challenging problems in Statistical Learning"
Statlearn2010