Principes généraux de l’INDUCTION

Slides:



Advertisements
Présentations similaires
L’échantillonnage & Ses Fluctuations
Advertisements

Probabilités et statistiques au lycée
Traitement d’images : concepts avancés
GESTION DE PORTEFEUILLE chapitre n° 4 C. Bruneau
GESTION DE PORTEFEUILLE chapitre n° 7
STATISTIQUE INFERENTIELLE L ’ESTIMATION
Thomas G. Dietterich Approximate Statistical Tests for Comparing
A. Cornuéjols IAA (basé sur Rob Schapires IJCAI99 talk) Combiner des apprenants: le boosting.
Algorithmes et structures de données avancés
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Apprentissage supervisé à partir de séquences
RECONNAISSANCE DE FORMES
Test statistique : principe
Classification supervisée Marine Campedel avril 2005.
Echantillonnage Introduction
C1 Bio-statistiques F. KOHLER
Echantillonnage Professeur Francis GUILLEMIN > Ecole de santé publique - Faculté de Médecine.
Les TESTS STATISTIQUES
Les K plus proches voisins
Nombre de sujets nécessaires en recherche clinique
Les TESTS STATISTIQUES
3. Analyse et estimation du mouvement dans la vidéo
Échantillonnage-Estimation
Dr DEVILLE Emmanuelle J D V 12/07/2006
Complexité et Classification
M. EL Adel & M. Ouladsine LSIS – UMR-CNRS 6168 Marseille - France
Les tests d’hypothèses
Maria-João Rendas CNRS – I3S Novembre 2006
Modélisation des systèmes non linéaires par des SIFs
variable aléatoire Discrète
Génération de colonnes
DEA instrumentation et commande
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
Apprendre à partir des observations
Un neurone élémentaire
RECONNAISSANCE DE FORMES
Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,
Séminaire de lobjectif « forage et production » Beaune, les 26,27 et 28 Avril 2000 Outils danalyse statistiques « programmation par lexemple » S. Canu,
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Régression linéaire simple
Objectifs du chapitre 12: Interprétation des résultats
DEA Perception et Traitement de l’Information
Howell, Chap. 1 Position générale
CSI 4506: Introduction à l’intelligence artificielle
Le comportement des coûts Chapitre 3
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
La régression multiple
Filtrage de Kalman et aperçu probabiliste
Méthodes de prévision (STT-3220)
Test d'hypothèse pour des proportions:
Une méthode de prévision à un pas de temps Application à la prévision de la qualité de l’air S. Canu, Ph. Leray, A. Rakotomamonjy laboratoire PSI, équipe.
Présentation du marché obligataire
Probabilités et Statistiques
S. Canu, laboratoire PSI, INSA de Rouen
Équilibre de satisfaction
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
L’erreur standard et les principes fondamentaux du test de t
Méthode des moindres carrés (1)
Introduction à l’Apprentissage Artificiel
Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)
1.  On souhaite comparer deux traitements dans le cadre d’un essai randomisé sur les lombosciatiques :  corticoïdes par infiltrations  placebo  Critère.
Rappel de statistiques
Résolution des équations différentielles
Échantillonnage (STT-2000) Section 5 Types d’erreur de sondage. Version: 22 août 2003.
Échantillonnage (STT-2000)
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
Probabilités et statistique MQT-1102
Académie européenne des patients sur l'innovation thérapeutique Rôle et notions élémentaires des statistiques dans les essais cliniques.
Introduction aux statistiques Intervalles de confiance
UED SIM – Département OLCI Année Arts & Métiers ParisTech CER ANGERS Probabilités et statistiques Cours n° 2.
Transcription de la présentation:

Principes généraux de l’INDUCTION Antoine Cornuéjols CNAM-IIE et L.R.I., Université de Paris-Sud, Orsay (France) antoine@lri.fr http://www.lri.fr/~antoine/

Cours 5 5- Analyse formelle de l’induction 1 & 2- Introduction à l’induction 3- Apprentissage et espace des versions 4- Réseaux de neurones multicouches 5- Analyse formelle de l’induction 6- Les SVM 7- Les arbres de décision 8- Le boosting 9 & 10- Apprentissage par renforcement

1- Quel niveau de description ? 1. Analyse de principe, de faisabilité sans référence à un algorithme particulier !! Théories mathématiques en particulier de nature statistique 2. Niveau de la réalisation / simulation Algorithmes Programmes Réalisations et tests empiriques

distribution de prob. F(x) 1- Le scénario de base x1, x2, ..., xm Environnement X : distribution de prob. F(x) “Oracle” Sm = (x1,u1), (x2,u2), ..., (xm,um) Apprenant : h (x) x1, x2, ..., xm y1, y2, ..., ym

1- Définition formelle du problème Hypothèse : les données empiriques caractérisent une dépendance probabiliste P entre l’espace X des descriptions et l’espace Y des étiquettes Z = (X, Y) : variable aléatoire sur (, B, P), où P est inconnue S = {(x1,u1), (x2,u2), … (xm,um)} (X  Y)m Échantillon d’apprentissage Les observation sont i.i.d. suivant P H : famille (éventuellement infinie) de fonctions h définies sur X Objectif : prédire l’étiquette y connaissant l’observation x

1- L’objectif de l’induction Objectif : trouver une hypothèse h  H minimisant le risque réel (espérance de risque, erreur en généralisation) Loi de probabilité jointe sur X  Y Fonction de perte Étiquette prédite Étiquette vraie (ou désirée)

1- Exemples de fonctions de pertes Discrimination Régression Estimation de densité

1- Les grands principes inductifs Étant donnés: un échantillon d’apprentissage Sm et un espace d’hypothèse H Qu’est-ce qui caractérise la (les) meilleure(s) hypothèse(s) ? Quelle hypothèse devrais-je chercher ? Le principe inductif

2.1- Le principe inductif ERM On ne connaît pas le risque réel, en particulier pas la loi de probabilité P(X,Y). Le principe ERM (minimisation du risque empirique) prescrit de chercher l’hypothèse h  H minimisant le risque empirique

2.2- Le principe ERM est-il pertinent ? h* : hypothèse optimale dans H suivant le risque réel hSm : hypothèse optimale dans H suivant le risque empirique mesuré sur l’échantillon Sm

2.2- Analyse du principe de minimisation du risque empirique Rappel : a-t-on des garanties sur le risque réel lorsque l’on choisit l’hypothèse minimisant le risque empirique sur un échantillon Sm ?

2.3- Les facteurs : le compromis biais-variance

2.3- Les facteurs : le compromis biais-variance

3- Analyse statistique du principe ERM Étude de la corrélation entre : et Cette corrélation fait intervenir : RRéel(hS) - RRéel (h*) nécessairement ≥ 0 (pourquoi ?) La probabilité que cette différence soit supérieure à une borne donnée car hS dépend de la représentativité de l’échantillon d’apprentissage Sm

3- Analyse statistique du principe ERM (suite)

3- Analyse statistique du principe ERM (suite)

3- Analyse statistique du principe ERM (suite)

3- Pertinence (consistance) du principe ERM On dit que le principe ERM est pertinent (ou consistant) si le risque réel inconnu R(hS) et le risque empirique REmp(hS) convergent vers la même limite R(h*) lorsque la taille m de l’échantillon S tend vers .

3.1- Le cas de la discrimination : l’analyse PAC Contexte : Discrimination Fonction de perte l : {0,1} F = H H : espace fini L’apprentissage consiste alors à éliminer toutes les hypothèses non cohérentes avec les données et à en choisir une parmi les restantes Quelle est la probabilité qu’une hypothèse de risque empirique nul     soit de fait de risque réel ≥ e ? (0 ≤ e ≤ 1)

3.2- Le cas de la discrimination : l’analyse PAC Le risque réel d’une hypothèse herr est égal à la probabilité qu’un exemple tombe dans la zone d’erreur entre herr et la fonction cible f

3.2- Le cas de la discrimination : l’analyse PAC Raisonnement par l’absurde Supposons une hypothèse de risque réel > e Quelle est la probabilité que son risque empirique soit nul après observation d’un échantillon de m exemples tirés i.i.d. suivant la distribution DX ? Après observation d’un exemple, la probabilité de « survie » de herr est : 1 - e Après observation de m exemples i.i.d., elle est : (1 - e)m

3.2- Le cas de la discrimination : l’analyse PAC Quelle est la probabilité qu’une hypothèse au moins dans H « survive » ? Événements disjoints : Donc borné par : |H| (1 - e)m < | H | e-em Il suffit donc d’avoir un échantillon de taille pour que le risque réel de l’hypothèse hS minimisant le risque empirique soit borné par e avec une probabilité 1 - d

3.2- Le cas de la discrimination : l’analyse PAC Pourquoi PAC ? Les hypothèses qui « survivent » sont approximativement correctes (à moins de e de la fonction cible) Avec une certitude qui dépend de l’échantillon d’apprentissage tiré aléatoirement (taux 1 - d) Probablement Approximativement Correct

3.3- Les leçons La cardinalité de H (en un certain sens la « richesse » de H) intervient directement dans la borne d’erreur Le raisonnement implique l’ensemble des hypothèses H : argument de convergence uniforme L’idée directrice de la démonstration consiste à borner la probabilité qu’une zone d’erreur de poids > e ne soit pas atteinte par un exemple au moins de l’échantillon d’apprentissage

3.4- Extension : l’analyse de Vapnik Contexte : une généralisation N’importe quel type de fonctions hypothèses N’importe quel type de fonction de perte (> 0 et bornée) F éventuellement ≠ H (apprentissage agnostique) H : espace infini Ici, on va cependant se limiter au cas de la discrimination Risque empirique :

3.4- Extension : l’analyse de Vapnik Définition (Fonction de croissance) : La fonction de croissance GH d’une famille H de fonctions h à valeurs dans {0,1} associe à tout entier positif m le nombre maximal de dichotomies réalisées par les fonctions de H sur un ensemble de m points de X.

3.4- Extension : l’analyse de Vapnik Théorème (Vapnik, 98) : Pour toute valeur de d dans ]0,1], simultanément pour toutes les fonctions h de H, avec une probabilité au moins de 1 - d, on a : Terme dépendant de la « richesse » de H

3.4- Extension : l’analyse de Vapnik Problème angoissant : comment croît la fonction de croissance GH(m) ? Si elle croît exponentiellement : il ne peut pas y avoir de garantie sur les hypothèses sélectionnées par l’apprentissage sur la base du risque empirique (ERM) !!! Définition (Dimension de Vapnik-Chervonenkis, 1971) La dimension de Vapnik-Chervonenkis dVC(H) est le plus grand entier d vérifiant GH(d) = d, si un tel entier existe, l’infini sinon. Si la dimension de Vapnik-Chervonenkis est finie, elle correspond à la taille du plus grand sous-ensemble de X pulvérisé par H.

3.4- Extension : l’analyse de Vapnik

3.4- Un lemme sauveur : le lemme de Sauer (1972) Si H est de dimension de Vapnik-Chervonenkis finie dH = dVC(H), alors, pour m supérieur à dH, sa fonction de croissance est bornée :

3.4- Qu’est-ce que cela signifie ? Cas de fonctions de discrimination et H = F La convergence du risque empirique vers le risque réel est exponentiellement rapide, et ceci pour toutes les fonctions de H E.g. la taille de l’échantillon suffisante pour que la probabilité ci-dessus soit bornée par d est : linéaire en dH !!

3.4- Le « take-home » message Pour que le principe ERM soit pertinent, il faut que la dimension de Vapnik-Chervonenkis dH soit finie Alors, l’erreur d’estimation entre RRéel(h) et REmp(h) converge vers 0 comme: dans le cas général dans le cas où H = F

3.4- Quelques exemples de dimensions de VC

3.5- Vers d’autres principes inductifs Reconsidérons l’équation (valable pour la discrimination et H = F) Plutôt que de chercher seulement l’hypothèse minimisant le risque empirique (valable seulement si m/dH très grand), il faut aussi tenir compte des caractéristiques de l’espace des hypothèses H, et chercher une hypothèse satisfaisant au mieux un compromis entre : un risque empirique faible : bonne adéquation aux données et un espace d’hypothèse d’expressivité bien réglée

3.5- Les méthodes par « sélection de modèles » Méthodes cherchant à régler le compromis par réglage automatique de l’espace d’hypothèses (modèles) Le SRM (Structural Risk Minimization) La théorie de la régularisation Le MDLp Les approches bayésiennes

3.5- Le SRM La procédure s’appuie sur une structure sur H définie a priori

3.5- La théorie de la régularisation Issue de l’étude des problèmes « mal posés » (plusieurs solutions) Il faut imposer des conditions supplémentaires Contraindre l’espace des paramètres si H = {fonctions paramétrées} Imposer des conditions de régularité (e.g. dynamique limitée) …

3.5- Le MDLp (Minimum Description Length principle) On suppose qu’il existe : un coût associé à la transmission des données brutes (mesuré en bits) : L(x) un coût associé à la transmission d’un codage (modèle des données) : L(h) On cherche le modèle (ou hypothèse) permettant la transmission la plus économique de l’échantillon de données

3.6- En d’autres mots … Notion de biais Toute connaissance qui restreint le champ des hypothèses que l'apprenant doit considérer à un instant donné. Biais de représentation On ne peut pas apprendre sans biais Plus le biais est fort, plus l’apprentissage est facile Bien choisir le biais Biais de préférence Dû au contrôle de la recherche Critère de choix entre hypothèses Simplicité, complétude, intelligibilité, facilité d’évaluation, ... Dû au protocole Stratégie éducative (si apprentissage incrémental)

3.6- En d’autres mots … Réponses qualitatives 1. De quelle information doit-on disposer ? Compromis entre taille de l'échantillon d'apprentissage nécessaire ET "richesse" de l'espace d'hypothèses 1'. Quel principe inductif ? Pas le principe "naïf" : minimiser l'erreur sur l'échantillon d'apprentissage en pariant que l'erreur sera également minimisée sur les exemples non vus Un nouveau principe : minimiser à la fois l'erreur sur l'échantillon d'apprentissage ET une mesure de la richesse de H Donc l'étude de l'apprentissage automatique apporte un certain renouvellement du débat classique sur l'induction. D'un certain côté il suggère un compromis entre la vision empiriste de l'induction (tout vient de l'expérience) et la vision idéaliste de Kant (les catégories préexistent et sont seulement révélées)

3.7- Le no-free-lunch theorem

3.7- Le no-free-lunch theorem