Complexité et Classification

Slides:



Advertisements
Présentations similaires
Modèles de Markov Cachés (HidenMarkovModel)
Advertisements

Soutenance du stage de DEA.
S. Jouteau, A. Cornuéjols, M. Sebag (LRI)
STATISTIQUE INFERENTIELLE L ’ESTIMATION
Apprendre, cest poursuivre un but 3 façons de donner du sens (Davelay, 1992; Viau, 1994) 1.Compétence 2.Contrôle 3.Utilité
Thomas G. Dietterich Approximate Statistical Tests for Comparing
Le hasard et la 0-connaissance Université Paris II Michel de Rougemont Algorithme et hasard Protocoles interactifs et.
Relational Learning as a Search in a Critical Region Lou Fedon 9 Mars 2006.
A. Cornuéjols IAA (basé sur Rob Schapires IJCAI99 talk) Combiner des apprenants: le boosting.
Algorithmes et structures de données avancés
Graphes et Applications Thème de léquipe « Combinatoire et Algorithmique » LaBRI – janvier 2008.
Apprentissage supervisé à partir de séquences
Olivier Bournez Professeur à l’Ecole Polytechnique
RECONNAISSANCE DE FORMES
Les TESTS STATISTIQUES
Cours d'algorithmique 11 / Intranet 1 9 janvier 2006 Cours dAlgorithmique N P - complétude.
Les TESTS STATISTIQUES
Yann Chevaleyre et Jean-Daniel Zucker
Langages et apprentissages des sciences CRREF
Synthèse Stage Algorithmique Académie de la Réunion.
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
Maria-João Rendas CNRS – I3S Novembre 2006
FONCTIONS EXPONENTIELLES ET LOGARITHMES
Résumé cours précédent
Reconnaissance de la parole
Chapitre II.Rappels mathématiques et complexité
Jalel Saâdi La Faculté des Sciences de Bizerte * * * * *
DEA instrumentation et commande
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
Concepts avancés en mathématiques et informatique appliquées
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
Phénomènes de Complexité et Concentration en Classification
Apprendre à partir des observations
Apprentissage et Fouilles de données Salma Najar 20 Mars 2008 FilterBoost: Regression et Classification On Large Datasets FilterBoost: Regression et Classification.
GPA750 – Ordonnancement des systèmes de production aéronautique
EVALUATION EVALUATION DES MANUELS SCOLAIRES Evaluer signifie :
Ordonnancement avec exclusion mutuelle par un graphe d’intervalles ou d’une classe apparentée : complexité et algorithmes ~ Frédéric Gardi - 14 Juin.
DEA Perception et Traitement de l’Information
Rappels de logique des prédicats du 1er ordre
IFT Au delà de NP: hiérarchie polynomiale, EXP, NEXP.
CSI 4506: Introduction à l’intelligence artificielle
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Introduction au calcul quantique
Conception et analyse des algorithmes
Soutenance de stage 16 Mai au 5 Août 2011
Soutenance de stage 16 Mai au 5 Août 2011
D.E ZEGOUR Ecole Supérieure d’Informatique
Comment classer les pages web. Principe du moteur de recherche Mise en mémoire des pages web Associer chaque page à des mot-clefs Objectif : Classification.
Complexité des Problèmes Combinatoires Module IAD/RP/RO/Complexité Philippe Chrétienne.
Probabilités et Statistiques
Algorithmes Branch & Bound
Les processus métiers : concepts, modèles et systèmes Claude Godart Université de lorraine. Esstin
Université Pierre et Marie Curie Laboratoire d’Informatique de Paris VI Département ASIM Analyse et résultats sur le dimensionnement des mémoires pour.
DU commerce éléctronique, mars Logique et fondements de l’informatique Université Paris II Michel de Rougemont
2008/ Plan du cours 1.Introduction –Contenu du cours 2.Logique mathématique –Calcul propositionnel –Calcul des prédicats –Logique floue et aide à.
Logique et fondements de l’informatique
A-t-on besoin des psychologues pour concevoir des environnements d’apprentissage ? Pr. Patrick Mendelsohn TECFA Faculté de Psychologie et des Sciences.
SVM machine à vecteurs de support ou séparateur à vaste marge
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Présenté par : ABED Djemaa; BAKHOUIA Roqiya.
Méthode des moindres carrés (1)
Principes généraux de l’INDUCTION
Algorithmique et Complexité
Structures de données avancées : LH* D. E ZEGOUR Institut National d ’Informatique.
Résolution des équations différentielles
INTRODUCTION AUX BASES DE DONNEES
Probabilités et statistique MQT-1102
Chap. 3 Récursion et induction. Les définitions par récurrence consistent à construire des objets finis, à partir d'autres, selon certaines règles. Les.
Réseaux bayésiens pour la recommandation au sein d’un configurateur Anr BR4CP Mathieu Serrurier IRIT.
Compilation & Apprentissage dans les Réseaux de Contraintes Hervé Cros Directeurs :Frédéric Koriche Joël Quinqueton.
Transcription de la présentation:

Complexité et Classification Quelques aspects algorithmiques de problèmes de classification Richard Nock DSI-GRIMAAG Université Antilles-Guyane, Campus de Schoelcher, Schoelcher, Martinique, France rnock@martinique.univ-ag.fr http://www.martinique.univ-ag.fr/~rnock Département Scientifique Interfacultaire Groupe de Recherche en Informatique et Mathématiques Appliquées des Antilles-Guyane

Background Ingénieur Agronome (1993) DEA Informatique (1993) Doctorat Informatique (1998) directeur: O. Gascuel Mcf UAG Guadeloupe (1998-2000) Mcf UAG Martinique (2000-)

Thèmes de recherche actuels Algorithmes d’apprentissage/classification Théorie (Complexité, stats/probas) Analyse d’images

Thèmes de recherche actuels - Résultats d’inapproximabilité « appliqués » en ML/C NP-Complétude Concentration de v.a. + Bornes d’erreur sur algorithmes d’apprentissage

Apprentissage et classification Résumé Apprentissage et classification Complexité algorithmique Application à l’apprentissage Conclusion

Apprentissage et classification Introduction

Apprendre ? Apprendre = capacité pour une entité d’améliorer ses capacités de manière automatique, par l’expérience. Valiant (1984): 2 contraintes: Algorithmique: apprendre  rapide Statistique: apprendre  fiable

Apprendre ?? Qu’apprends-t’on d’un point de vue informatique ? Détail des contraintes du modèle de Valiant ?

Apprentissage et classification Le modèle PAC de L. Valiant

Observations et Exemples y x Concept « cible » Domaine Un exemple <(x,y), > Exemples tirés selon D 2 classes

Grandes étapes y 1- Collecte des exemples 2- Construction d’une hypothèse 3- Qualité de l’hypothèse ? x

Evaluation y B Prob. Err.= ? A Problème ? C x

Evaluation y 1- Pas d’accès à Prob. Err. ! 2- Uniquement Freq. Err. 3- Comment « assurer » qualité ? 4- Et si distrib. quelconque ?? Freq. Err. =0 5- Et si distrib. inconnue ??? Problème ! x

Solution: modèle PAC I y 1- Requérir Prob. Err. limitée avec une forte probabilité 2- Sachant la distribution quelconque inconnue … mais fixe 3- Tirer suffisamment d’exemples x

Modèle PAC II 1- A partir de là, comment trouver la meilleure formule ? Indép. du nb d’exemples 2- Il suffirait de disposer d’un algorithme énumérant toutes les formules possibles Problème ? 3- Enumération souvent exponentielle donc inutilisable Problème !

Solution 1- Exiger que l’algorithme fonctionne rapidement 2- Exiger un algorithme polynomial Rectangles en 2D: facile

Modèle de Valiant (1984) Une classe de représentation de concepts C est apprenable au sens du modèle PAC ssi il existe un algorithme A vérifiant les deux conditions suivantes:

Modèle de Valiant cC, A a accès à un Oracle rétribuant des exemples selon c et une distribution D inconnue, quelconque, mais fixée, et, étant donnés deux paramètres 0<e,d<1, renvoie une hypothèse h de C telle que

Modèle de Valiant A fonctionne en temps polynomial Taille du concept cible # Variables de description Confiance Fiabilité

Prouver que C n’est pas PAC Trop d’exemples nécessaires pour satisfaire à la première condition Temps de calcul rhédibitoire pour satisfaire à la deuxième condition

Complexité algorithmique Introduction

Les problèmes de décision Problème de décision: Instance Ensemble d’exemples Question Formule de C consistante ? ? Oui

Les problèmes de décision Problème de décision: Instance Ensemble d’exemples Question Formule de C consistante ? ? Non

P NP ? Classes de complexité Classe des problèmes de décision admettant un algorithme de résolution de temps polynomial en la taille de l’instance NP Classe des problèmes de décision admettant un algorithme non déterministe de résolution de temps polynomial en la taille de l’instance ?

Hypothèse(s) fondamentale(s) NP P =P +temps P=

Hypothèse(s) fondamentale(s) QP NP QP= P QP QP …et bien sur

Hypothèse(s) fondamentale(s) NP …pour un P QP …et bien sur

Hypothèse(s) fondamentale(s) NP ??? …Qu’y a-t’il ici ? P QP …et bien sur

Problèmes « difficiles » A B poly instances NP-Complets Oui Oui Hyp. de comp. Tous difficiles ! solutions Un est Poly Tous sont Poly

Complexité algorithmique Décision et optimisation

Problème d ’optimisation Définition: Instance Ensemble d’exemples LS Ens. Solutions Formules de C consistantes avec LS Fonction de Coût Taille de la formule Objectif Trouver une sol. min. (max.) la fonct. de coût Décision vs Optimisation: La plupart des problèmes de décision admettent (au moins) une version d ’optimisation « naturelle »

Problème d ’optimisation Le coût d ’une instance est le coût optimal d ’une solution pour cette instance Un problème de minimisation est approximable à moins de ssi il existe un algorithme poly permettant, pour une instance de coût de trouver une solution de coût au plus Problèmes d ’optimisation difficiles Existence ? Procédure ?

Difficulté d ’approximation I Coût des instances Prob. déc. NP-Complet Prob. Minimisation Non « gap » Oui Réduction

Difficulté d ’approximation II Hypothèse: le problème de minimisation admet un algorithme d’approximation de ratio Comment arriver à une contradiction ?

Difficulté d ’approximation II Etapes A B C Non Non Algorithme hypothétique On résoud le problème NP-Complet !! Oui d ’approximation Oui Instances Solutions

Difficulté d ’approximation III Si il existe une réduction de temps polynomial depuis un prob. NP-Complet vers un problème de minimisation, t.q. Les instances « Oui » sont transformées en inst. de coût Les instances « Non » sont transformées en inst. de coût Alors, sous l ’hypothèse le prob. de minimisation n ’est pas approximable à moins de

Remplacement de P par QP Si on remplace l ’exigence polynomiale par une exigence Quasi-Polynomiale Définition de l ’approximabilité Temps de la réduction Temps de l ’algorithme d ’approximation hypothétique Alors, sous l ’hypothèse le prob. de minimisation n ’est pas approximable à moins de

Pourquoi remplacer P par QP ? Avantage direct: Les ratios d ’inapproximabilité peuvent être bcp + grands Inconvénient: Hypothèse bcp plus forte, et donc « moins » réaliste devient Avantage indirect: On peut aussi remplacer par …et (espérer) des ratios encore + grands !

Application à l ’apprentissage Réductions « traditionnelles »

Preuves directes On part d’un problème difficile (NP-Complet) traditionnel On construit une instance difficile d ’un problème de classification, formulé comme un problème de décision, ou d ’optimisation

Exemple Kearns, Li, Pitt, Valiant (STOC ’87++) Problèmes: Consistance (DNF): Instance Ensemble d’exemples, entier k>0 Question k-term-DNF consistante ? Optimisation (DNF): Instance Ensemble d’exemples Ens. Solutions DNF consistantes Fonction de Coût Nb de monomes de la DNF

(k-term-)DNF Un monome (Booléen): conjonction de littéraux: Une DNF: disjonction de monomes: Une k-term-DNF: disjonction d ’au plus k monomes 2 classes: exemples positifs et négatifs (10110110,1) (0101010,0)

Représentation du problème LS 2-term-DNF cons. ?? « OUI »

La réduction Instance G=(X,E), entier k>0 Instance Ech. d’ex., k>0 Question k-coloration de G ? Question k-term-DNF ? k=3 « Oui » « Oui »

La réduction Propriété: Le nombre minimal de couleurs = taille minimale de la DNF consistante

Résultat d’inapproximabilité Colorabilité minimale SAT Feige, Kilian ’96 Non « gap » Oui Réduction Nombre de couleurs

Théorème En utilisant Kearns & al. ’87 + Feige & Kilian ’96, on obtient: Théorème: La DNF minimale consistante pas approximable à moins de Renvoie Oui, Non, ? (Pr(?)=cst<1) Problème ?

Commentaires Sachant que la colorabilité est (trivialement) approximable à un ratio On ne peut donc pas obtenir de ratio d ’inapproximabilité pour la DNF consistante minimale De plus, on n ’obtient rien d ’intéressant en replaçant l ’hypothèse de complexité par une hypothèse plus forte

Application à l ’apprentissage Réductions « self-improving »

Notre Solution A) Faire des réductions directement « à l’intérieur » du problème d’apprentissage. d fois Réduction ordinaire A B B B B Problèmes

Notre Solution B)S ’arranger pour que le ratio d ’inapproximabilité augmente « brutalement » avec les réductions d fois Réduction ordinaire ratio conservation Pb A B B B B

Notre Solution C)S ’arranger pour que le ratio d ’inapproximabilité « explose » en remplaçant l ’hypothèse de complexité Réduction ordinaire ratio conservation Pb A B

Propriété La complexité de la réduction est Le ratio d’inapproximabilité est en

Application à l ’apprentissage Synthèse Pour DNF

La réduction II + On combine les observations On combine les classes par et-logique +

La réduction II On ajoute quelques astuces supplémentaires: On a besoin de graphes très particuliers On combine en réalité 4 réductions

Conséquence I Si d est constant: La réduction est toujours polynomiale, Le ratio « explose »

Conséquence II Si d devient polylog La réduction est quasi-polynomiale, Mais le ratio est « boosté » d’avantage Résultat « extrème » (d encore + gd):

Conséquence III Le résultat de complexité permet de donner des bornes inférieures sur le complexité de tout algorithme PAC pour DNF de montrer la non-apprenabilité de larges sous-classes de DNF

Application à l ’apprentissage Programmation Logique Inductive

Application II: ILP ILP= Programmation Logique Inductive Formalisme puissant de représentation de connaissance Utilisation de Clauses de Horn plus ou moins contraintes, en présence de Background Knowledge

Application II: ILP Objectif: En utilisant: …et réaliser le moins d’erreurs ! Couvrir le plus d’exemples positifs, Couvrir le moins d’exemples négatifs…

Application II: ILP Problème: Nom Wapprox(g(.)-function-free-Horn-Clauses) Instance Ens. d’ex. LS, poids w/chaque exemple Ens. Solutions g(.)-function-free-Horn-Clauses Fonction de Coût (erreur de h sur LS)

Application II: ILP Théorème(s): Valeur de g(.) Ratio d’inapprox. hypothèse constante polylog En utilisant les réductions « self-improving » Sans utiliser les réductions « self-improving »

Variables/Prototypes Application à l ’apprentissage Sélection de Variables/Prototypes

Application III: Sélection de variables/prototypes Blum’94: « nearly all results in machine learning deal with problems of separating relevant from irrelevant information in some way » Question: difficulté algorithmique de la tâche?

Application III: Sélection de variables/prototypes classe 1) enlève une variable 2) enlève un exemple exemples

Application III: Sélection de variables/prototypes Contrainte Mesure d’information Approximation d’un concept Fct. de coût #Exemples Réductions « self-improving » #Variables

Application III: Sélection de variables/prototypes Exemples/Mesure d’information: Fonction f permissible: f: [0,1][0,1] f symmétrique / x=1/2 f(1/2)=1, f(0)=f(1)=0 f concave Entropie bin. Critère de Gini Critère de Boosting

Application III: Sélection de variables/prototypes Exemples/Mesure d’information: Quantité « d’information » d’une variable Objectif (informel): Réduire le nombre d’exemples en assurant que les variables informatives le restent

Application III: Sélection de variables/prototypes Théorème(s): hypothèse Ratio d’inapprox. En utilisant les réductions « self-improving » Sans utiliser les réductions « self-improving »

Application III: Sélection de variables/prototypes Contrainte Mesure d’information Approximation d’un concept Fct. de coût #Exemples #Variables

Parallèle « Intéressant » Une technique de classification récente extrèmement puissante (Breiman’96) combine les solutions d’algorithmes d’apprentissage modérément fiables, et retourne une nouvelle solution beaucoup plus fiable (Boosting).

Parallèle « Intéressant » Notre technique combine les instances de problèmes d’optimisation en apprentissage/classification modérément difficiles, et retourne une nouvelle instance beaucoup plus difficile.

Application à l ’apprentissage Autres résultats

Autres résultats de complexité Kohavi et al.’98: l’erreur n’est pas le meilleur critère à optimiser pour le Data Mining. Utilisation de nouveaux critères (courbes ROC, contraintes, etc.). Quelle est la difficulté algorithmique de ces nouveaux critères ?

Autres résultats de complexité En utilisant un sous-ensemble des clauses de Horn, on a montré que ces critères entrainent une difficulté algorithmique considérable (même si on autorise la multiplication arbitraire des clauses de Horn). que l’optimisation de l’erreur seule est « facile » en comparaison.

Publications directement concernées International Conference on Inductive Logic Programming (ILP’98, ed. Springer Verlag) International Symposium on Algorithms and Computation (ISAAC’98, ed. Springer Verlag) International Conference on Algorithmic Learning Theory (ALT’99, ALT’00, ed. Springer Verlag) …et d’autres indirectement concernées.

Conclusion Apprenabilité et approximabilité de DNF=un des problèmes fondamentaux de la théorie de Valiant, conjecturé négatif par Valiant en 1985. En 1998, nous avions le ratio d’inapproximabilité le plus important pour DNF (mais encore très loin de l’ « optimum » !).

Conclusion Les problèmes d’apprentissage semblent être de bons candidats aux réductions self-improving. …mais l’intérêt des résultats négatifs reste limité en apprentissage. …heureusement, je développe aussi des résultats positifs sur quelques problématiques de classification  (voir diapositive suivante)

Merci pour votre attention ! dans R.Nock, « Fast and Reliable Region Merging inspired by Decision-Tree Pruning » IEEE Int. Conf. on Computer Vision and Pattern Recognition (Décembre 2001)