Complexité et Classification

Name: Complexité et Classification
Uploaded: 2017-08-27T19:20:17+00:00
Duration: PTM23S39
Channel: Léon Gillet
Description: Complexité et Classification

Complexité et Classification
Quelques aspects algorithmiques de problèmes de classification Richard Nock DSI-GRIMAAG Université Antilles-Guyane, Campus de Schoelcher, Schoelcher, Martinique, France Département Scientifique Interfacultaire Groupe de Recherche en Informatique et Mathématiques Appliquées des Antilles-Guyane

Background Ingénieur Agronome (1993) DEA Informatique (1993)
Doctorat Informatique (1998) directeur: O. Gascuel Mcf UAG Guadeloupe ( ) Mcf UAG Martinique (2000-)

Thèmes de recherche actuels
Algorithmes d’apprentissage/classification Théorie (Complexité, stats/probas) Analyse d’images

Thèmes de recherche actuels
- Résultats d’inapproximabilité « appliqués » en ML/C NP-Complétude Concentration de v.a. + Bornes d’erreur sur algorithmes d’apprentissage

Apprentissage et classification
Résumé Apprentissage et classification Complexité algorithmique Application à l’apprentissage Conclusion

Introduction

Apprendre ? Apprendre = capacité pour une entité d’améliorer ses capacités de manière automatique, par l’expérience. Valiant (1984): 2 contraintes: Algorithmique: apprendre  rapide Statistique: apprendre  fiable

Apprendre ?? Qu’apprends-t’on d’un point de vue informatique ?
Détail des contraintes du modèle de Valiant ?

Le modèle PAC de L. Valiant

Observations et Exemples
y x Concept « cible » Domaine Un exemple <(x,y), > Exemples tirés selon D 2 classes

Grandes étapes y 1- Collecte des exemples
2- Construction d’une hypothèse 3- Qualité de l’hypothèse ? x

Evaluation y B Prob. Err.= ? A Problème ? C x

Evaluation y 1- Pas d’accès à Prob. Err. ! 2- Uniquement Freq. Err.
3- Comment « assurer » qualité ? 4- Et si distrib. quelconque ?? Freq. Err. =0 5- Et si distrib. inconnue ??? Problème ! x

Solution: modèle PAC I y 1- Requérir Prob. Err. limitée
avec une forte probabilité 2- Sachant la distribution quelconque inconnue … mais fixe 3- Tirer suffisamment d’exemples x

Modèle PAC II 1- A partir de là, comment trouver la meilleure formule ? Indép. du nb d’exemples 2- Il suffirait de disposer d’un algorithme énumérant toutes les formules possibles Problème ? 3- Enumération souvent exponentielle donc inutilisable Problème !

Solution 1- Exiger que l’algorithme fonctionne rapidement
2- Exiger un algorithme polynomial Rectangles en 2D: facile

Modèle de Valiant (1984) Une classe de représentation de concepts C est apprenable au sens du modèle PAC ssi il existe un algorithme A vérifiant les deux conditions suivantes:

Modèle de Valiant cC, A a accès à un Oracle rétribuant des exemples selon c et une distribution D inconnue, quelconque, mais fixée, et, étant donnés deux paramètres 0<e,d<1, renvoie une hypothèse h de C telle que

Modèle de Valiant A fonctionne en temps polynomial Taille du concept
cible # Variables de description Confiance Fiabilité

Prouver que C n’est pas PAC
Trop d’exemples nécessaires pour satisfaire à la première condition Temps de calcul rhédibitoire pour satisfaire à la deuxième condition

Complexité algorithmique
Introduction

Les problèmes de décision
Problème de décision: Instance Ensemble d’exemples Question Formule de C consistante ? ? Oui

Les problèmes de décision
Problème de décision: Instance Ensemble d’exemples Question Formule de C consistante ? ? Non

P NP ? Classes de complexité Classe des problèmes de décision
admettant un algorithme de résolution de temps polynomial en la taille de l’instance NP Classe des problèmes de décision admettant un algorithme non déterministe de résolution de temps polynomial en la taille de l’instance ?

Hypothèse(s) fondamentale(s)
NP P =P +temps P=

QP NP QP= P QP QP …et bien sur

NP …pour un P QP …et bien sur

NP ??? …Qu’y a-t’il ici ? P QP …et bien sur

Problèmes « difficiles »
A B poly instances NP-Complets Oui Oui Hyp. de comp. Tous difficiles ! solutions Un est Poly Tous sont Poly

Complexité algorithmique
Décision et optimisation

Problème d ’optimisation
Définition: Instance Ensemble d’exemples LS Ens. Solutions Formules de C consistantes avec LS Fonction de Coût Taille de la formule Objectif Trouver une sol. min. (max.) la fonct. de coût Décision vs Optimisation: La plupart des problèmes de décision admettent (au moins) une version d ’optimisation « naturelle »

Problème d ’optimisation
Le coût d ’une instance est le coût optimal d ’une solution pour cette instance Un problème de minimisation est approximable à moins de ssi il existe un algorithme poly permettant, pour une instance de coût de trouver une solution de coût au plus Problèmes d ’optimisation difficiles Existence ? Procédure ?

Difficulté d ’approximation I
Coût des instances Prob. déc. NP-Complet Prob. Minimisation Non « gap » Oui Réduction

Difficulté d ’approximation II
Hypothèse: le problème de minimisation admet un algorithme d’approximation de ratio Comment arriver à une contradiction ?

Difficulté d ’approximation II
Etapes A B C Non Non Algorithme hypothétique On résoud le problème NP-Complet !! Oui d ’approximation Oui Instances Solutions

Difficulté d ’approximation III
Si il existe une réduction de temps polynomial depuis un prob. NP-Complet vers un problème de minimisation, t.q. Les instances « Oui » sont transformées en inst. de coût Les instances « Non » sont transformées en inst. de coût Alors, sous l ’hypothèse le prob. de minimisation n ’est pas approximable à moins de

Remplacement de P par QP
Si on remplace l ’exigence polynomiale par une exigence Quasi-Polynomiale Définition de l ’approximabilité Temps de la réduction Temps de l ’algorithme d ’approximation hypothétique Alors, sous l ’hypothèse le prob. de minimisation n ’est pas approximable à moins de

Pourquoi remplacer P par QP ?
Avantage direct: Les ratios d ’inapproximabilité peuvent être bcp + grands Inconvénient: Hypothèse bcp plus forte, et donc « moins » réaliste devient Avantage indirect: On peut aussi remplacer par …et (espérer) des ratios encore + grands !

Application à l ’apprentissage
Réductions « traditionnelles »

Preuves directes On part d’un problème difficile (NP-Complet) traditionnel On construit une instance difficile d ’un problème de classification, formulé comme un problème de décision, ou d ’optimisation

Exemple Kearns, Li, Pitt, Valiant (STOC ’87++) Problèmes:
Consistance (DNF): Instance Ensemble d’exemples, entier k>0 Question k-term-DNF consistante ? Optimisation (DNF): Instance Ensemble d’exemples Ens. Solutions DNF consistantes Fonction de Coût Nb de monomes de la DNF

(k-term-)DNF Un monome (Booléen): conjonction de littéraux:
Une DNF: disjonction de monomes: Une k-term-DNF: disjonction d ’au plus k monomes 2 classes: exemples positifs et négatifs ( ,1) ( ,0)

Représentation du problème
LS 2-term-DNF cons. ?? « OUI »

La réduction Instance G=(X,E), entier k>0 Instance
Ech. d’ex., k>0 Question k-coloration de G ? Question k-term-DNF ? k=3 « Oui » « Oui »

La réduction Propriété: Le nombre minimal de couleurs =
taille minimale de la DNF consistante

Résultat d’inapproximabilité
Colorabilité minimale SAT Feige, Kilian ’96 Non « gap » Oui Réduction Nombre de couleurs

Théorème En utilisant Kearns & al. ’87 + Feige & Kilian ’96, on obtient: Théorème: La DNF minimale consistante pas approximable à moins de Renvoie Oui, Non, ? (Pr(?)=cst<1) Problème ?

Commentaires Sachant que la colorabilité est (trivialement) approximable à un ratio On ne peut donc pas obtenir de ratio d ’inapproximabilité pour la DNF consistante minimale De plus, on n ’obtient rien d ’intéressant en replaçant l ’hypothèse de complexité par une hypothèse plus forte

Réductions « self-improving »

Notre Solution A) Faire des réductions directement « à l’intérieur » du problème d’apprentissage. d fois Réduction ordinaire A B B B B Problèmes

Notre Solution B)S ’arranger pour que le ratio d ’inapproximabilité augmente « brutalement » avec les réductions d fois Réduction ordinaire ratio conservation Pb A B B B B

Notre Solution C)S ’arranger pour que le ratio d ’inapproximabilité « explose » en remplaçant l ’hypothèse de complexité Réduction ordinaire ratio conservation Pb A B

Propriété La complexité de la réduction est
Le ratio d’inapproximabilité est en

Synthèse Pour DNF

La réduction II + On combine les observations On combine les
classes par et-logique +

La réduction II On ajoute quelques astuces supplémentaires:
On a besoin de graphes très particuliers On combine en réalité 4 réductions

Conséquence I Si d est constant: La réduction est toujours polynomiale, Le ratio « explose »

Conséquence II Si d devient polylog
La réduction est quasi-polynomiale, Mais le ratio est « boosté » d’avantage Résultat « extrème » (d encore + gd):

Conséquence III Le résultat de complexité permet
de donner des bornes inférieures sur le complexité de tout algorithme PAC pour DNF de montrer la non-apprenabilité de larges sous-classes de DNF

Programmation Logique Inductive

Application II: ILP ILP= Programmation Logique Inductive
Formalisme puissant de représentation de connaissance Utilisation de Clauses de Horn plus ou moins contraintes, en présence de Background Knowledge

Application II: ILP Objectif: En utilisant:
…et réaliser le moins d’erreurs ! Couvrir le plus d’exemples positifs, Couvrir le moins d’exemples négatifs…

Application II: ILP Problème: Nom
Wapprox(g(.)-function-free-Horn-Clauses) Instance Ens. d’ex. LS, poids w/chaque exemple Ens. Solutions g(.)-function-free-Horn-Clauses Fonction de Coût (erreur de h sur LS)

Application II: ILP Théorème(s): Valeur de g(.) Ratio d’inapprox.
hypothèse constante polylog En utilisant les réductions « self-improving » Sans utiliser les réductions « self-improving »

Variables/Prototypes
Application à l ’apprentissage Sélection de Variables/Prototypes

Application III: Sélection de variables/prototypes
Blum’94: « nearly all results in machine learning deal with problems of separating relevant from irrelevant information in some way » Question: difficulté algorithmique de la tâche?

classe 1) enlève une variable 2) enlève un exemple exemples

Contrainte Mesure d’information Approximation d’un concept Fct. de coût #Exemples Réductions « self-improving » #Variables

Exemples/Mesure d’information: Fonction f permissible: f: [0,1][0,1] f symmétrique / x=1/2 f(1/2)=1, f(0)=f(1)=0 f concave Entropie bin. Critère de Gini Critère de Boosting

Exemples/Mesure d’information: Quantité « d’information » d’une variable Objectif (informel): Réduire le nombre d’exemples en assurant que les variables informatives le restent

Théorème(s): hypothèse Ratio d’inapprox. En utilisant les réductions « self-improving » Sans utiliser les réductions « self-improving »

Contrainte Mesure d’information Approximation d’un concept Fct. de coût #Exemples #Variables

Parallèle « Intéressant »
Une technique de classification récente extrèmement puissante (Breiman’96) combine les solutions d’algorithmes d’apprentissage modérément fiables, et retourne une nouvelle solution beaucoup plus fiable (Boosting).

Parallèle « Intéressant »
Notre technique combine les instances de problèmes d’optimisation en apprentissage/classification modérément difficiles, et retourne une nouvelle instance beaucoup plus difficile.

Autres résultats

Autres résultats de complexité
Kohavi et al.’98: l’erreur n’est pas le meilleur critère à optimiser pour le Data Mining. Utilisation de nouveaux critères (courbes ROC, contraintes, etc.). Quelle est la difficulté algorithmique de ces nouveaux critères ?

Autres résultats de complexité
En utilisant un sous-ensemble des clauses de Horn, on a montré que ces critères entrainent une difficulté algorithmique considérable (même si on autorise la multiplication arbitraire des clauses de Horn). que l’optimisation de l’erreur seule est « facile » en comparaison.

Publications directement concernées
International Conference on Inductive Logic Programming (ILP’98, ed. Springer Verlag) International Symposium on Algorithms and Computation (ISAAC’98, ed. Springer Verlag) International Conference on Algorithmic Learning Theory (ALT’99, ALT’00, ed. Springer Verlag) …et d’autres indirectement concernées.

Conclusion Apprenabilité et approximabilité de DNF=un des problèmes fondamentaux de la théorie de Valiant, conjecturé négatif par Valiant en 1985. En 1998, nous avions le ratio d’inapproximabilité le plus important pour DNF (mais encore très loin de l’ « optimum » !).

Conclusion Les problèmes d’apprentissage
semblent être de bons candidats aux réductions self-improving. …mais l’intérêt des résultats négatifs reste limité en apprentissage. …heureusement, je développe aussi des résultats positifs sur quelques problématiques de classification  (voir diapositive suivante)

Merci pour votre attention !
dans R.Nock, « Fast and Reliable Region Merging inspired by Decision-Tree Pruning » IEEE Int. Conf. on Computer Vision and Pattern Recognition (Décembre 2001)

Complexité et Classification

Présentations similaires

Présentation au sujet: "Complexité et Classification"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Complexité et Classification

Présentations similaires

Présentation au sujet: "Complexité et Classification"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back