Principes généraux de l’INDUCTION

Slides:

Advertisements

Présentations similaires

L’échantillonnage & Ses Fluctuations

Advertisements

Probabilités et statistiques au lycée

Traitement d’images : concepts avancés

GESTION DE PORTEFEUILLE chapitre n° 4 C. Bruneau

GESTION DE PORTEFEUILLE chapitre n° 7

STATISTIQUE INFERENTIELLE L ’ESTIMATION

Thomas G. Dietterich Approximate Statistical Tests for Comparing

A. Cornuéjols IAA (basé sur Rob Schapires IJCAI99 talk) Combiner des apprenants: le boosting.

Algorithmes et structures de données avancés

Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.

Apprentissage supervisé à partir de séquences

RECONNAISSANCE DE FORMES

Test statistique : principe

Classification supervisée Marine Campedel avril 2005.

Echantillonnage Introduction

C1 Bio-statistiques F. KOHLER

Echantillonnage Professeur Francis GUILLEMIN > Ecole de santé publique - Faculté de Médecine.

Les TESTS STATISTIQUES

Les K plus proches voisins

Nombre de sujets nécessaires en recherche clinique

Les TESTS STATISTIQUES

3. Analyse et estimation du mouvement dans la vidéo

Échantillonnage-Estimation

Dr DEVILLE Emmanuelle J D V 12/07/2006

Complexité et Classification

M. EL Adel & M. Ouladsine LSIS – UMR-CNRS 6168 Marseille - France

Les tests d’hypothèses

Maria-João Rendas CNRS – I3S Novembre 2006

Modélisation des systèmes non linéaires par des SIFs

variable aléatoire Discrète

Génération de colonnes

DEA instrumentation et commande

Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble

Apprendre à partir des observations

Un neurone élémentaire

RECONNAISSANCE DE FORMES

Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,

Séminaire de lobjectif « forage et production » Beaune, les 26,27 et 28 Avril 2000 Outils danalyse statistiques « programmation par lexemple » S. Canu,

Cours Corporate finance Eléments de théorie du portefeuille Le Medaf

Régression linéaire simple

Objectifs du chapitre 12: Interprétation des résultats

DEA Perception et Traitement de l’Information

Howell, Chap. 1 Position générale

CSI 4506: Introduction à l’intelligence artificielle

Le comportement des coûts Chapitre 3

Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,

La régression multiple

Filtrage de Kalman et aperçu probabiliste

Méthodes de prévision (STT-3220)

Test d'hypothèse pour des proportions:

Une méthode de prévision à un pas de temps Application à la prévision de la qualité de l’air S. Canu, Ph. Leray, A. Rakotomamonjy laboratoire PSI, équipe.

Présentation du marché obligataire

Probabilités et Statistiques

S. Canu, laboratoire PSI, INSA de Rouen

Équilibre de satisfaction

STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES

L’erreur standard et les principes fondamentaux du test de t

Méthode des moindres carrés (1)

Introduction à l’Apprentissage Artificiel

Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

1.  On souhaite comparer deux traitements dans le cadre d’un essai randomisé sur les lombosciatiques :  corticoïdes par infiltrations  placebo  Critère.

Rappel de statistiques

Résolution des équations différentielles

Échantillonnage (STT-2000) Section 5 Types d’erreur de sondage. Version: 22 août 2003.

Échantillonnage (STT-2000)

Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.

Probabilités et statistique MQT-1102

Académie européenne des patients sur l'innovation thérapeutique Rôle et notions élémentaires des statistiques dans les essais cliniques.

Introduction aux statistiques Intervalles de confiance

UED SIM – Département OLCI Année Arts & Métiers ParisTech CER ANGERS Probabilités et statistiques Cours n° 2.

Transcription de la présentation:

Principes généraux de l’INDUCTION Antoine Cornuéjols CNAM-IIE et L.R.I., Université de Paris-Sud, Orsay (France) antoine@lri.fr http://www.lri.fr/~antoine/

Cours 5 5- Analyse formelle de l’induction 1 & 2- Introduction à l’induction 3- Apprentissage et espace des versions 4- Réseaux de neurones multicouches 5- Analyse formelle de l’induction 6- Les SVM 7- Les arbres de décision 8- Le boosting 9 & 10- Apprentissage par renforcement

1- Quel niveau de description ? 1. Analyse de principe, de faisabilité sans référence à un algorithme particulier !! Théories mathématiques en particulier de nature statistique 2. Niveau de la réalisation / simulation Algorithmes Programmes Réalisations et tests empiriques

distribution de prob. F(x) 1- Le scénario de base x1, x2, ..., xm Environnement X : distribution de prob. F(x) “Oracle” Sm = (x1,u1), (x2,u2), ..., (xm,um) Apprenant : h (x) x1, x2, ..., xm y1, y2, ..., ym

1- Définition formelle du problème Hypothèse : les données empiriques caractérisent une dépendance probabiliste P entre l’espace X des descriptions et l’espace Y des étiquettes Z = (X, Y) : variable aléatoire sur (, B, P), où P est inconnue S = {(x1,u1), (x2,u2), … (xm,um)} (X  Y)m Échantillon d’apprentissage Les observation sont i.i.d. suivant P H : famille (éventuellement infinie) de fonctions h définies sur X Objectif : prédire l’étiquette y connaissant l’observation x

1- L’objectif de l’induction Objectif : trouver une hypothèse h  H minimisant le risque réel (espérance de risque, erreur en généralisation) Loi de probabilité jointe sur X  Y Fonction de perte Étiquette prédite Étiquette vraie (ou désirée)

1- Exemples de fonctions de pertes Discrimination Régression Estimation de densité

1- Les grands principes inductifs Étant donnés: un échantillon d’apprentissage Sm et un espace d’hypothèse H Qu’est-ce qui caractérise la (les) meilleure(s) hypothèse(s) ? Quelle hypothèse devrais-je chercher ? Le principe inductif

2.1- Le principe inductif ERM On ne connaît pas le risque réel, en particulier pas la loi de probabilité P(X,Y). Le principe ERM (minimisation du risque empirique) prescrit de chercher l’hypothèse h  H minimisant le risque empirique

2.2- Le principe ERM est-il pertinent ? h* : hypothèse optimale dans H suivant le risque réel hSm : hypothèse optimale dans H suivant le risque empirique mesuré sur l’échantillon Sm

2.2- Analyse du principe de minimisation du risque empirique Rappel : a-t-on des garanties sur le risque réel lorsque l’on choisit l’hypothèse minimisant le risque empirique sur un échantillon Sm ?

2.3- Les facteurs : le compromis biais-variance

2.3- Les facteurs : le compromis biais-variance

3- Analyse statistique du principe ERM Étude de la corrélation entre : et Cette corrélation fait intervenir : RRéel(hS) - RRéel (h*) nécessairement ≥ 0 (pourquoi ?) La probabilité que cette différence soit supérieure à une borne donnée car hS dépend de la représentativité de l’échantillon d’apprentissage Sm

3- Analyse statistique du principe ERM (suite)

3- Analyse statistique du principe ERM (suite)

3- Analyse statistique du principe ERM (suite)

3- Pertinence (consistance) du principe ERM On dit que le principe ERM est pertinent (ou consistant) si le risque réel inconnu R(hS) et le risque empirique REmp(hS) convergent vers la même limite R(h*) lorsque la taille m de l’échantillon S tend vers .

3.1- Le cas de la discrimination : l’analyse PAC Contexte : Discrimination Fonction de perte l : {0,1} F = H H : espace fini L’apprentissage consiste alors à éliminer toutes les hypothèses non cohérentes avec les données et à en choisir une parmi les restantes Quelle est la probabilité qu’une hypothèse de risque empirique nul soit de fait de risque réel ≥ e ? (0 ≤ e ≤ 1)

3.2- Le cas de la discrimination : l’analyse PAC Le risque réel d’une hypothèse herr est égal à la probabilité qu’un exemple tombe dans la zone d’erreur entre herr et la fonction cible f

3.2- Le cas de la discrimination : l’analyse PAC Raisonnement par l’absurde Supposons une hypothèse de risque réel > e Quelle est la probabilité que son risque empirique soit nul après observation d’un échantillon de m exemples tirés i.i.d. suivant la distribution DX ? Après observation d’un exemple, la probabilité de « survie » de herr est : 1 - e Après observation de m exemples i.i.d., elle est : (1 - e)m

3.2- Le cas de la discrimination : l’analyse PAC Quelle est la probabilité qu’une hypothèse au moins dans H « survive » ? Événements disjoints : Donc borné par : |H| (1 - e)m < | H | e-em Il suffit donc d’avoir un échantillon de taille pour que le risque réel de l’hypothèse hS minimisant le risque empirique soit borné par e avec une probabilité 1 - d

3.2- Le cas de la discrimination : l’analyse PAC Pourquoi PAC ? Les hypothèses qui « survivent » sont approximativement correctes (à moins de e de la fonction cible) Avec une certitude qui dépend de l’échantillon d’apprentissage tiré aléatoirement (taux 1 - d) Probablement Approximativement Correct

3.3- Les leçons La cardinalité de H (en un certain sens la « richesse » de H) intervient directement dans la borne d’erreur Le raisonnement implique l’ensemble des hypothèses H : argument de convergence uniforme L’idée directrice de la démonstration consiste à borner la probabilité qu’une zone d’erreur de poids > e ne soit pas atteinte par un exemple au moins de l’échantillon d’apprentissage

3.4- Extension : l’analyse de Vapnik Contexte : une généralisation N’importe quel type de fonctions hypothèses N’importe quel type de fonction de perte (> 0 et bornée) F éventuellement ≠ H (apprentissage agnostique) H : espace infini Ici, on va cependant se limiter au cas de la discrimination Risque empirique :

3.4- Extension : l’analyse de Vapnik Définition (Fonction de croissance) : La fonction de croissance GH d’une famille H de fonctions h à valeurs dans {0,1} associe à tout entier positif m le nombre maximal de dichotomies réalisées par les fonctions de H sur un ensemble de m points de X.

3.4- Extension : l’analyse de Vapnik Théorème (Vapnik, 98) : Pour toute valeur de d dans ]0,1], simultanément pour toutes les fonctions h de H, avec une probabilité au moins de 1 - d, on a : Terme dépendant de la « richesse » de H

3.4- Extension : l’analyse de Vapnik Problème angoissant : comment croît la fonction de croissance GH(m) ? Si elle croît exponentiellement : il ne peut pas y avoir de garantie sur les hypothèses sélectionnées par l’apprentissage sur la base du risque empirique (ERM) !!! Définition (Dimension de Vapnik-Chervonenkis, 1971) La dimension de Vapnik-Chervonenkis dVC(H) est le plus grand entier d vérifiant GH(d) = d, si un tel entier existe, l’infini sinon. Si la dimension de Vapnik-Chervonenkis est finie, elle correspond à la taille du plus grand sous-ensemble de X pulvérisé par H.

3.4- Extension : l’analyse de Vapnik

3.4- Un lemme sauveur : le lemme de Sauer (1972) Si H est de dimension de Vapnik-Chervonenkis finie dH = dVC(H), alors, pour m supérieur à dH, sa fonction de croissance est bornée :

3.4- Qu’est-ce que cela signifie ? Cas de fonctions de discrimination et H = F La convergence du risque empirique vers le risque réel est exponentiellement rapide, et ceci pour toutes les fonctions de H E.g. la taille de l’échantillon suffisante pour que la probabilité ci-dessus soit bornée par d est : linéaire en dH !!

3.4- Le « take-home » message Pour que le principe ERM soit pertinent, il faut que la dimension de Vapnik-Chervonenkis dH soit finie Alors, l’erreur d’estimation entre RRéel(h) et REmp(h) converge vers 0 comme: dans le cas général dans le cas où H = F

3.4- Quelques exemples de dimensions de VC

3.5- Vers d’autres principes inductifs Reconsidérons l’équation (valable pour la discrimination et H = F) Plutôt que de chercher seulement l’hypothèse minimisant le risque empirique (valable seulement si m/dH très grand), il faut aussi tenir compte des caractéristiques de l’espace des hypothèses H, et chercher une hypothèse satisfaisant au mieux un compromis entre : un risque empirique faible : bonne adéquation aux données et un espace d’hypothèse d’expressivité bien réglée

3.5- Les méthodes par « sélection de modèles » Méthodes cherchant à régler le compromis par réglage automatique de l’espace d’hypothèses (modèles) Le SRM (Structural Risk Minimization) La théorie de la régularisation Le MDLp Les approches bayésiennes

3.5- Le SRM La procédure s’appuie sur une structure sur H définie a priori

3.5- La théorie de la régularisation Issue de l’étude des problèmes « mal posés » (plusieurs solutions) Il faut imposer des conditions supplémentaires Contraindre l’espace des paramètres si H = {fonctions paramétrées} Imposer des conditions de régularité (e.g. dynamique limitée) …

3.5- Le MDLp (Minimum Description Length principle) On suppose qu’il existe : un coût associé à la transmission des données brutes (mesuré en bits) : L(x) un coût associé à la transmission d’un codage (modèle des données) : L(h) On cherche le modèle (ou hypothèse) permettant la transmission la plus économique de l’échantillon de données

3.6- En d’autres mots … Notion de biais Toute connaissance qui restreint le champ des hypothèses que l'apprenant doit considérer à un instant donné. Biais de représentation On ne peut pas apprendre sans biais Plus le biais est fort, plus l’apprentissage est facile Bien choisir le biais Biais de préférence Dû au contrôle de la recherche Critère de choix entre hypothèses Simplicité, complétude, intelligibilité, facilité d’évaluation, ... Dû au protocole Stratégie éducative (si apprentissage incrémental)

3.6- En d’autres mots … Réponses qualitatives 1. De quelle information doit-on disposer ? Compromis entre taille de l'échantillon d'apprentissage nécessaire ET "richesse" de l'espace d'hypothèses 1'. Quel principe inductif ? Pas le principe "naïf" : minimiser l'erreur sur l'échantillon d'apprentissage en pariant que l'erreur sera également minimisée sur les exemples non vus Un nouveau principe : minimiser à la fois l'erreur sur l'échantillon d'apprentissage ET une mesure de la richesse de H Donc l'étude de l'apprentissage automatique apporte un certain renouvellement du débat classique sur l'induction. D'un certain côté il suggère un compromis entre la vision empiriste de l'induction (tout vient de l'expérience) et la vision idéaliste de Kant (les catégories préexistent et sont seulement révélées)

3.7- Le no-free-lunch theorem

3.7- Le no-free-lunch theorem