Complexité et Classification

Slides:

Advertisements

Présentations similaires

Modèles de Markov Cachés (HidenMarkovModel)

Advertisements

Soutenance du stage de DEA.

S. Jouteau, A. Cornuéjols, M. Sebag (LRI)

STATISTIQUE INFERENTIELLE L ’ESTIMATION

Apprendre, cest poursuivre un but 3 façons de donner du sens (Davelay, 1992; Viau, 1994) 1.Compétence 2.Contrôle 3.Utilité

Thomas G. Dietterich Approximate Statistical Tests for Comparing

Le hasard et la 0-connaissance Université Paris II Michel de Rougemont Algorithme et hasard Protocoles interactifs et.

Relational Learning as a Search in a Critical Region Lou Fedon 9 Mars 2006.

A. Cornuéjols IAA (basé sur Rob Schapires IJCAI99 talk) Combiner des apprenants: le boosting.

Algorithmes et structures de données avancés

Graphes et Applications Thème de léquipe « Combinatoire et Algorithmique » LaBRI – janvier 2008.

Apprentissage supervisé à partir de séquences

Olivier Bournez Professeur à l’Ecole Polytechnique

RECONNAISSANCE DE FORMES

Les TESTS STATISTIQUES

Cours d'algorithmique 11 / Intranet 1 9 janvier 2006 Cours dAlgorithmique N P - complétude.

Les TESTS STATISTIQUES

Yann Chevaleyre et Jean-Daniel Zucker

Langages et apprentissages des sciences CRREF

Synthèse Stage Algorithmique Académie de la Réunion.

1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.

Maria-João Rendas CNRS – I3S Novembre 2006

FONCTIONS EXPONENTIELLES ET LOGARITHMES

Résumé cours précédent

Reconnaissance de la parole

Chapitre II.Rappels mathématiques et complexité

Jalel Saâdi La Faculté des Sciences de Bizerte * * * * *

DEA instrumentation et commande

Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble

Concepts avancés en mathématiques et informatique appliquées

Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble

Phénomènes de Complexité et Concentration en Classification

Apprendre à partir des observations

Apprentissage et Fouilles de données Salma Najar 20 Mars 2008 FilterBoost: Regression et Classification On Large Datasets FilterBoost: Regression et Classification.

GPA750 – Ordonnancement des systèmes de production aéronautique

EVALUATION EVALUATION DES MANUELS SCOLAIRES Evaluer signifie :

Ordonnancement avec exclusion mutuelle par un graphe d’intervalles ou d’une classe apparentée : complexité et algorithmes ~ Frédéric Gardi - 14 Juin.

DEA Perception et Traitement de l’Information

Rappels de logique des prédicats du 1er ordre

IFT Au delà de NP: hiérarchie polynomiale, EXP, NEXP.

CSI 4506: Introduction à l’intelligence artificielle

Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,

Introduction au calcul quantique

Conception et analyse des algorithmes

Soutenance de stage 16 Mai au 5 Août 2011

Soutenance de stage 16 Mai au 5 Août 2011

D.E ZEGOUR Ecole Supérieure d’Informatique

Comment classer les pages web. Principe du moteur de recherche Mise en mémoire des pages web Associer chaque page à des mot-clefs Objectif : Classification.

Complexité des Problèmes Combinatoires Module IAD/RP/RO/Complexité Philippe Chrétienne.

Probabilités et Statistiques

Algorithmes Branch & Bound

Les processus métiers : concepts, modèles et systèmes Claude Godart Université de lorraine. Esstin

Université Pierre et Marie Curie Laboratoire d’Informatique de Paris VI Département ASIM Analyse et résultats sur le dimensionnement des mémoires pour.

DU commerce éléctronique, mars Logique et fondements de l’informatique Université Paris II Michel de Rougemont

2008/ Plan du cours 1.Introduction –Contenu du cours 2.Logique mathématique –Calcul propositionnel –Calcul des prédicats –Logique floue et aide à.

Logique et fondements de l’informatique

A-t-on besoin des psychologues pour concevoir des environnements d’apprentissage ? Pr. Patrick Mendelsohn TECFA Faculté de Psychologie et des Sciences.

SVM machine à vecteurs de support ou séparateur à vaste marge

STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES

Présenté par : ABED Djemaa; BAKHOUIA Roqiya.

Méthode des moindres carrés (1)

Principes généraux de l’INDUCTION

Algorithmique et Complexité

Structures de données avancées : LH* D. E ZEGOUR Institut National d ’Informatique.

Résolution des équations différentielles

INTRODUCTION AUX BASES DE DONNEES

Probabilités et statistique MQT-1102

Chap. 3 Récursion et induction. Les définitions par récurrence consistent à construire des objets finis, à partir d'autres, selon certaines règles. Les.

Réseaux bayésiens pour la recommandation au sein d’un configurateur Anr BR4CP Mathieu Serrurier IRIT.

Compilation & Apprentissage dans les Réseaux de Contraintes Hervé Cros Directeurs :Frédéric Koriche Joël Quinqueton.

Transcription de la présentation:

Complexité et Classification Quelques aspects algorithmiques de problèmes de classification Richard Nock DSI-GRIMAAG Université Antilles-Guyane, Campus de Schoelcher, Schoelcher, Martinique, France rnock@martinique.univ-ag.fr http://www.martinique.univ-ag.fr/~rnock Département Scientifique Interfacultaire Groupe de Recherche en Informatique et Mathématiques Appliquées des Antilles-Guyane

Background Ingénieur Agronome (1993) DEA Informatique (1993) Doctorat Informatique (1998) directeur: O. Gascuel Mcf UAG Guadeloupe (1998-2000) Mcf UAG Martinique (2000-)

Thèmes de recherche actuels Algorithmes d’apprentissage/classification Théorie (Complexité, stats/probas) Analyse d’images

Thèmes de recherche actuels - Résultats d’inapproximabilité « appliqués » en ML/C NP-Complétude Concentration de v.a. + Bornes d’erreur sur algorithmes d’apprentissage

Apprentissage et classification Résumé Apprentissage et classification Complexité algorithmique Application à l’apprentissage Conclusion

Apprentissage et classification Introduction

Apprendre ? Apprendre = capacité pour une entité d’améliorer ses capacités de manière automatique, par l’expérience. Valiant (1984): 2 contraintes: Algorithmique: apprendre  rapide Statistique: apprendre  fiable

Apprendre ?? Qu’apprends-t’on d’un point de vue informatique ? Détail des contraintes du modèle de Valiant ?

Apprentissage et classification Le modèle PAC de L. Valiant

Observations et Exemples y x Concept « cible » Domaine Un exemple <(x,y), > Exemples tirés selon D 2 classes

Grandes étapes y 1- Collecte des exemples 2- Construction d’une hypothèse 3- Qualité de l’hypothèse ? x

Evaluation y B Prob. Err.= ? A Problème ? C x

Evaluation y 1- Pas d’accès à Prob. Err. ! 2- Uniquement Freq. Err. 3- Comment « assurer » qualité ? 4- Et si distrib. quelconque ?? Freq. Err. =0 5- Et si distrib. inconnue ??? Problème ! x

Solution: modèle PAC I y 1- Requérir Prob. Err. limitée avec une forte probabilité 2- Sachant la distribution quelconque inconnue … mais fixe 3- Tirer suffisamment d’exemples x

Modèle PAC II 1- A partir de là, comment trouver la meilleure formule ? Indép. du nb d’exemples 2- Il suffirait de disposer d’un algorithme énumérant toutes les formules possibles Problème ? 3- Enumération souvent exponentielle donc inutilisable Problème !

Solution 1- Exiger que l’algorithme fonctionne rapidement 2- Exiger un algorithme polynomial Rectangles en 2D: facile

Modèle de Valiant (1984) Une classe de représentation de concepts C est apprenable au sens du modèle PAC ssi il existe un algorithme A vérifiant les deux conditions suivantes:

Modèle de Valiant cC, A a accès à un Oracle rétribuant des exemples selon c et une distribution D inconnue, quelconque, mais fixée, et, étant donnés deux paramètres 0<e,d<1, renvoie une hypothèse h de C telle que

Modèle de Valiant A fonctionne en temps polynomial Taille du concept cible # Variables de description Confiance Fiabilité

Prouver que C n’est pas PAC Trop d’exemples nécessaires pour satisfaire à la première condition Temps de calcul rhédibitoire pour satisfaire à la deuxième condition

Complexité algorithmique Introduction

Les problèmes de décision Problème de décision: Instance Ensemble d’exemples Question Formule de C consistante ? ? Oui

Les problèmes de décision Problème de décision: Instance Ensemble d’exemples Question Formule de C consistante ? ? Non

P NP ? Classes de complexité Classe des problèmes de décision admettant un algorithme de résolution de temps polynomial en la taille de l’instance NP Classe des problèmes de décision admettant un algorithme non déterministe de résolution de temps polynomial en la taille de l’instance ?

Hypothèse(s) fondamentale(s) NP P =P +temps P=

Hypothèse(s) fondamentale(s) QP NP QP= P QP QP …et bien sur

Hypothèse(s) fondamentale(s) NP …pour un P QP …et bien sur

Hypothèse(s) fondamentale(s) NP ??? …Qu’y a-t’il ici ? P QP …et bien sur

Problèmes « difficiles » A B poly instances NP-Complets Oui Oui Hyp. de comp. Tous difficiles ! solutions Un est Poly Tous sont Poly

Complexité algorithmique Décision et optimisation

Problème d ’optimisation Définition: Instance Ensemble d’exemples LS Ens. Solutions Formules de C consistantes avec LS Fonction de Coût Taille de la formule Objectif Trouver une sol. min. (max.) la fonct. de coût Décision vs Optimisation: La plupart des problèmes de décision admettent (au moins) une version d ’optimisation « naturelle »

Problème d ’optimisation Le coût d ’une instance est le coût optimal d ’une solution pour cette instance Un problème de minimisation est approximable à moins de ssi il existe un algorithme poly permettant, pour une instance de coût de trouver une solution de coût au plus Problèmes d ’optimisation difficiles Existence ? Procédure ?

Difficulté d ’approximation I Coût des instances Prob. déc. NP-Complet Prob. Minimisation Non « gap » Oui Réduction

Difficulté d ’approximation II Hypothèse: le problème de minimisation admet un algorithme d’approximation de ratio Comment arriver à une contradiction ?

Difficulté d ’approximation II Etapes A B C Non Non Algorithme hypothétique On résoud le problème NP-Complet !! Oui d ’approximation Oui Instances Solutions

Difficulté d ’approximation III Si il existe une réduction de temps polynomial depuis un prob. NP-Complet vers un problème de minimisation, t.q. Les instances « Oui » sont transformées en inst. de coût Les instances « Non » sont transformées en inst. de coût Alors, sous l ’hypothèse le prob. de minimisation n ’est pas approximable à moins de

Remplacement de P par QP Si on remplace l ’exigence polynomiale par une exigence Quasi-Polynomiale Définition de l ’approximabilité Temps de la réduction Temps de l ’algorithme d ’approximation hypothétique Alors, sous l ’hypothèse le prob. de minimisation n ’est pas approximable à moins de

Pourquoi remplacer P par QP ? Avantage direct: Les ratios d ’inapproximabilité peuvent être bcp + grands Inconvénient: Hypothèse bcp plus forte, et donc « moins » réaliste devient Avantage indirect: On peut aussi remplacer par …et (espérer) des ratios encore + grands !

Application à l ’apprentissage Réductions « traditionnelles »

Preuves directes On part d’un problème difficile (NP-Complet) traditionnel On construit une instance difficile d ’un problème de classification, formulé comme un problème de décision, ou d ’optimisation

Exemple Kearns, Li, Pitt, Valiant (STOC ’87++) Problèmes: Consistance (DNF): Instance Ensemble d’exemples, entier k>0 Question k-term-DNF consistante ? Optimisation (DNF): Instance Ensemble d’exemples Ens. Solutions DNF consistantes Fonction de Coût Nb de monomes de la DNF

(k-term-)DNF Un monome (Booléen): conjonction de littéraux: Une DNF: disjonction de monomes: Une k-term-DNF: disjonction d ’au plus k monomes 2 classes: exemples positifs et négatifs (10110110,1) (0101010,0)

Représentation du problème LS 2-term-DNF cons. ?? « OUI »

La réduction Instance G=(X,E), entier k>0 Instance Ech. d’ex., k>0 Question k-coloration de G ? Question k-term-DNF ? k=3 « Oui » « Oui »

La réduction Propriété: Le nombre minimal de couleurs = taille minimale de la DNF consistante

Résultat d’inapproximabilité Colorabilité minimale SAT Feige, Kilian ’96 Non « gap » Oui Réduction Nombre de couleurs

Théorème En utilisant Kearns & al. ’87 + Feige & Kilian ’96, on obtient: Théorème: La DNF minimale consistante pas approximable à moins de Renvoie Oui, Non, ? (Pr(?)=cst<1) Problème ?

Commentaires Sachant que la colorabilité est (trivialement) approximable à un ratio On ne peut donc pas obtenir de ratio d ’inapproximabilité pour la DNF consistante minimale De plus, on n ’obtient rien d ’intéressant en replaçant l ’hypothèse de complexité par une hypothèse plus forte

Application à l ’apprentissage Réductions « self-improving »

Notre Solution A) Faire des réductions directement « à l’intérieur » du problème d’apprentissage. d fois Réduction ordinaire A B B B B Problèmes

Notre Solution B)S ’arranger pour que le ratio d ’inapproximabilité augmente « brutalement » avec les réductions d fois Réduction ordinaire ratio conservation Pb A B B B B

Notre Solution C)S ’arranger pour que le ratio d ’inapproximabilité « explose » en remplaçant l ’hypothèse de complexité Réduction ordinaire ratio conservation Pb A B

Propriété La complexité de la réduction est Le ratio d’inapproximabilité est en

Application à l ’apprentissage Synthèse Pour DNF

La réduction II + On combine les observations On combine les classes par et-logique +

La réduction II On ajoute quelques astuces supplémentaires: On a besoin de graphes très particuliers On combine en réalité 4 réductions

Conséquence I Si d est constant: La réduction est toujours polynomiale, Le ratio « explose »

Conséquence II Si d devient polylog La réduction est quasi-polynomiale, Mais le ratio est « boosté » d’avantage Résultat « extrème » (d encore + gd):

Conséquence III Le résultat de complexité permet de donner des bornes inférieures sur le complexité de tout algorithme PAC pour DNF de montrer la non-apprenabilité de larges sous-classes de DNF

Application à l ’apprentissage Programmation Logique Inductive

Application II: ILP ILP= Programmation Logique Inductive Formalisme puissant de représentation de connaissance Utilisation de Clauses de Horn plus ou moins contraintes, en présence de Background Knowledge

Application II: ILP Objectif: En utilisant: …et réaliser le moins d’erreurs ! Couvrir le plus d’exemples positifs, Couvrir le moins d’exemples négatifs…

Application II: ILP Problème: Nom Wapprox(g(.)-function-free-Horn-Clauses) Instance Ens. d’ex. LS, poids w/chaque exemple Ens. Solutions g(.)-function-free-Horn-Clauses Fonction de Coût (erreur de h sur LS)

Application II: ILP Théorème(s): Valeur de g(.) Ratio d’inapprox. hypothèse constante polylog En utilisant les réductions « self-improving » Sans utiliser les réductions « self-improving »

Variables/Prototypes Application à l ’apprentissage Sélection de Variables/Prototypes

Application III: Sélection de variables/prototypes Blum’94: « nearly all results in machine learning deal with problems of separating relevant from irrelevant information in some way » Question: difficulté algorithmique de la tâche?

Application III: Sélection de variables/prototypes classe 1) enlève une variable 2) enlève un exemple exemples

Application III: Sélection de variables/prototypes Contrainte Mesure d’information Approximation d’un concept Fct. de coût #Exemples Réductions « self-improving » #Variables

Application III: Sélection de variables/prototypes Exemples/Mesure d’information: Fonction f permissible: f: [0,1][0,1] f symmétrique / x=1/2 f(1/2)=1, f(0)=f(1)=0 f concave Entropie bin. Critère de Gini Critère de Boosting

Application III: Sélection de variables/prototypes Exemples/Mesure d’information: Quantité « d’information » d’une variable Objectif (informel): Réduire le nombre d’exemples en assurant que les variables informatives le restent

Application III: Sélection de variables/prototypes Théorème(s): hypothèse Ratio d’inapprox. En utilisant les réductions « self-improving » Sans utiliser les réductions « self-improving »

Application III: Sélection de variables/prototypes Contrainte Mesure d’information Approximation d’un concept Fct. de coût #Exemples #Variables

Parallèle « Intéressant » Une technique de classification récente extrèmement puissante (Breiman’96) combine les solutions d’algorithmes d’apprentissage modérément fiables, et retourne une nouvelle solution beaucoup plus fiable (Boosting).

Parallèle « Intéressant » Notre technique combine les instances de problèmes d’optimisation en apprentissage/classification modérément difficiles, et retourne une nouvelle instance beaucoup plus difficile.

Application à l ’apprentissage Autres résultats

Autres résultats de complexité Kohavi et al.’98: l’erreur n’est pas le meilleur critère à optimiser pour le Data Mining. Utilisation de nouveaux critères (courbes ROC, contraintes, etc.). Quelle est la difficulté algorithmique de ces nouveaux critères ?

Autres résultats de complexité En utilisant un sous-ensemble des clauses de Horn, on a montré que ces critères entrainent une difficulté algorithmique considérable (même si on autorise la multiplication arbitraire des clauses de Horn). que l’optimisation de l’erreur seule est « facile » en comparaison.

Publications directement concernées International Conference on Inductive Logic Programming (ILP’98, ed. Springer Verlag) International Symposium on Algorithms and Computation (ISAAC’98, ed. Springer Verlag) International Conference on Algorithmic Learning Theory (ALT’99, ALT’00, ed. Springer Verlag) …et d’autres indirectement concernées.

Conclusion Apprenabilité et approximabilité de DNF=un des problèmes fondamentaux de la théorie de Valiant, conjecturé négatif par Valiant en 1985. En 1998, nous avions le ratio d’inapproximabilité le plus important pour DNF (mais encore très loin de l’ « optimum » !).

Conclusion Les problèmes d’apprentissage semblent être de bons candidats aux réductions self-improving. …mais l’intérêt des résultats négatifs reste limité en apprentissage. …heureusement, je développe aussi des résultats positifs sur quelques problématiques de classification  (voir diapositive suivante)

Merci pour votre attention ! dans R.Nock, « Fast and Reliable Region Merging inspired by Decision-Tree Pruning » IEEE Int. Conf. on Computer Vision and Pattern Recognition (Décembre 2001)