1 Mettre tout ça ensemble Exemple de problème: Attachement du SP Le problème Méthodes possibles Implémentation en Perl Évaluation.

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Les Cases Cachées 3 2 Les Verbes ER Tu/ manger Je/ parler Elles/
Le Nom L’adjectif Le verbe Objectif: Orthogram
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
LES NOMBRES PREMIERS ET COMPOSÉS
[number 1-100].
Qualité du Premier Billot. 2 3 Défauts reliés à labattage.
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Distance inter-locuteur
Algorithmes et structures de données avancés
Classification et prédiction
Fonctions & procédures
Test statistique : principe
Reconnaissance de la parole
ACTIVITES Les fractions (10).
Cours n°2M2. IST-IE (S. Sidhom) UE 303 Promo. M2 IST-IE 2005/06 Conception dun système d'information multimédia Architecture trois-tiers : PHP/MySQL &
Architecture de réseaux
La diapo suivante pour faire des algorithmes (colorier les ampoules …à varier pour éviter le « copiage ») et dénombrer (Entoure dans la bande numérique.
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
ESIEE Paris © Denis BUREAU I N Initiation à la programmation avec le langage Java.
Analyse de la variance à un facteur
Par Clément en vacances sur la Côte d’Azur Le 17 décembre 2011
ORTH 1 CE2 Je sais écrire sans erreur les pluriels des noms se terminant par s, x, z.
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
Niveau 6ème Calcul mental Exercices Vrai / Faux Q. C. M.
Cours Systèmes logiques
Développement d’applications web
1 Cours numéro 3 Graphes et informatique Définitions Exemple de modélisation Utilisation de ce document strictement réservée aux étudiants de l IFSIC.
Probabilités.
le profil UML en temps réel MARTE
Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
1.2 COMPOSANTES DES VECTEURS
Détection de co-évolution de gènes Master 2 : Informatique à Finalité Professionnelle et Recherche Unifiée (IFPRU) Parcours Ingénierie de lIntelligence.
SUJET D’ENTRAINEMENT n°2
Tableaux de distributions
Tableaux de distributions
LES NOMBRES PREMIERS ET COMPOSÉS
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
Les Pourcentages.
Unit 4: Les animaux - Il y a - There is/are Unit 4: Les animaux.
Unit 4: Les animaux Unit 4: Les animaux.
RACINES CARREES Définition Développer avec la distributivité Produit 1
Mettre tout ça ensemble corpus et annotation fréquence et proportions n-grammes expressions régulières perl.
Représentation des systèmes dynamiques dans l’espace d’état
Représentation des systèmes dynamiques dans l’espace d’état
Représentation des systèmes dynamiques dans l’espace d’état
La Distribution des Données
1.1 LES VECTEURS GÉOMÉTRIQUES
Notre calendrier français MARS 2014
1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome.
3ème partie: les filtres
Excel (Partie 2).
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Les Nombres 0 – 100 en français.
Initiation à la conception des systèmes d'informations
Introduction à l’algèbre
Inéquations du premier degré à une inconnue
Résoudre une équation du 1er degré à une inconnue
SUJET D’ENTRAINEMENT n°4
Aire d’une figure par encadrement
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL

1. Présentation générale du système
Slide 1 of 39 Waterside Village Fête ses 20 ans.
LES PILES ET FILES.
Exercice de vérification 1 p
Les Chiffres Prêts?
Transcription de la présentation:

1 Mettre tout ça ensemble Exemple de problème: Attachement du SP Le problème Méthodes possibles Implémentation en Perl Évaluation

2 Le problème SP complément du nom ou du verbe? Jai vu lhomme avec les jumelles Jai vu lhomme au chapeau Je mange la pizza avec la fourchette Je mange la pizza au fromage Je mange la pizza avec une bière

3 Pourquoi faut-il résoudre ce problème? Environ 70% des erreurs de construction de structure syntaxique pendant une analyse automatique sont des erreurs dattachement de SP. Donc, si on améliorait la performance de la résolution de ce problème, toute lanalyse serait améliorée.

4 Comment faut-il résoudre ce problème? Jai vu lhomme avec les jumelles Jai vu lhomme au chapeau Je mange la pizza avec la fourchette Je mange la pizza au fromage Je mange la pizza avec une bière Y-a-t-il des régularités visibles qui distinguent entre attachement au nom et attachement au verbe? Linformation lexicale, quels mots sont utilisés dans la phrase, est cruciale.

5 Attachement du SP: méthode manuelle 1.Récolte dun petit corpus dexemples de SPs avec la distinction entre complément du nom ou complément du verbe. En général, par introspection ou récolte non-systématique de données observationnelles 2.Création de règles régissant les différences entre ces deux cas de figure par observation jusquà couverture des toutes les données observées 3.Implémentation dun système et extension aux exemples qui navaient pas été prévus

6 Méthode manuelle: problèmes 1.Récolte non-systématique des données observationnelles, donc pas garantie de représentativité 2.Possibilité de complexité excessive du système de règles, surtout si on veut tenir compte des mots 3.Pas de tests systématiques, ni de tests sur un ensemble séparé dexemples, pas dévaluation quantitative, difficile à comparer avec dautres méthodes

7 Structure dune expérience informatique Corpus dentraînement filtre données dentraînement apprenant modèle de classification Corpus dentraînement filtre données test classificateur données test classifiées évaluateur mésures de performance

8 Mesures de performance : exactitude Supposons quon ait un problème dapprentissage automatique où il sagit didentifier, parmi un certain nombre dobjets, lesquels ont la propriété X. Pour chaque objet, on obtient à laide dun modèle statistique la réponse « oui » ou la réponse « non ». Comment peut-on évaluer la performance de notre modèle? Il y a plusieurs méthodes. La plus simple est ce que nous appellerons lexactitude ou, parfois, la précisionmais attention, le mot « précision » est ici ambigu, comme on va le voir plus tard. Exactitude = Nombre de réponses correctes Nombre total de réponses

9 Mesures de performance : exactitude Parfois, lexactitude nest pas appropriée. Supposons quon évalue un engin de recherche comme Google et quil y ait de documents dont 100 mintéressent. Si je fais le recherche et Google me propose 50 documents dont 10 sont parmi ces 100, alors: Nombre de réponses correctes = 10 (oui qui sont exacts) (non qui sont exacts) Donc exactitude = / = !!! Pourtant, ce résultat est en fait mauvais, puisque jai 40 documents que je ne veux pas et il en manque 90 que je voudrais.

10 Mesures de performance : précision et rappel Réponse de lalgorithme ouinon Vraie réponse ouivp = Vrai positiffn = Faux négatif Nonfp = Faux positifvn = Vrai négatif Deux autres mesures sont plus utiles ici : la précision et le rappel. Étant donné les valeurs dans le tableau suivants : On définit ces mesures ainsi : Précision = # oui corrects = vp / vp + fp # de oui trouvés Rappel = # oui corrects = vp / vp + fn # de oui réels

11 Mesures de performance : précision et rappel Alors pour notre recherche sur Google, nous avons : Réponse de lalgorithme ouinon Vraie réponse oui1090 Non Précision = 10 / =.2 Rappel = 10 / =.1 Ces mesures sont plus utiles dans ce cas-ci que Exactitude = vp + vn / total

12 Mesures de performance : mesure F Une autre mesure est utile, résumant la précision et le rappel en une seule mesure : la mesure F. Si P est la précision et R est la rappel, alors F se définit comme: F = 2PR / P + R La mesure F nous donne un mesure de performance moyenne. Question: pourquoi F et non pas simplement une moyenne? F' = P + R /2

13 Mesures de performance : mesure F F se définit comme: F = 2PR / P + R Elle est la moyenne harmonique F = 2/ 1/P + 1/R Elle donne un mesure de performance équilibrée. On veut une mesure equilibrée car on sait que, en pratique, précision et rappel sont en rélation inverse. Précision inadéquate:Rappel inadéquat:« Équilibre »: vp = 100fn = 0 fp = 900vn = P =.1R = 1P = 1R =.4P =.8R =.8 F =.18F =.33F =.8 vp = 20fn = 80 fp = 0vn = vp = 80fn = 20 fp = 20vn =

14 Mesures de performance : mesure F P =.1R = 1P = 1R =.4 P =.8R =.8 F =.18F =.33 F =.8 M =.55 M =.7 M =.8 P R M F

15 Mesures de performance : mesure F P =.1R = 1P = 1R =.4 P =.8R =.8 F =.18F =.33 F =.8 M =.55 M =.7 M =.8 P R M F

16 Mesures de performance – exemple 2 Supposons davoir 20 verbes. En réalité la moitié des verbes appartient à la classe E, tandis que lautre moitié appartient à un mélange dautres classes qui ne nous intéressent pas. On lappelle O. E est la classe dobservations expérimentales, tandis que O est la classe de contrôle. Nous lançons notre algorithme et il nous dit que 8 verbes appartient à la classe E et 12 verbes appartient à la classe O. Voici un exemple des données résultats

17 Mesures de performance VerbeVeritéAlgorithme FloatedE O HikedEE HurriedEO JumpedEE LeapedEE MarchedEE ParadedEE RacedEE RushedEO SkippedEE VerbeVeritéAlgorithme BorrowedOO CarvedOO InheritedOO KickedOE KnittedOO OrganisedOO PaintedOO PlayedOO TypedOE WashedOO YelledOO

18 Mesures de performance Quel sont le critères de performance qui nous intéressent? Si lalgorithme me dit quun verbe est E, quel est la probabilité quil se trompe? Est-il précis? Pour tous les verbes E qui mintéressent, combien lalgorithme arrive-t-il à en trouver? A-t-il une bonne couverture? Quel sont les erreurs possibles? Verbes qui en réalité sont de E mais qui ont été classés comme O Verbes qui en réalité sont de O mais qui ont été classés comme E

19 Mesures de performance VerbeVeritéAlgorithme FloatedE O HikedEE HurriedEO JumpedEE LeapedEE MarchedEE ParadedEE RacedEE RushedEO SkippedEE VerbeVeritéAlgorithme BorrowedOO CarvedOO InheritedOO KickedOE KnittedOO OrganisedOO PaintedOO PlayedOO TypedOE WashedOO YelledOO Algorithme Effectifs EOTotal E7310 O28 Total91120

Mesures de performance Algorithme Verité EOTotal E7310 O28 Total91120 Précision E = 7 / 9 O = 8/11 Rappel E = 7/10 O = 8/10 Exactitude E+O = 7+8/20

21 Mesures de performance–-Formules générales Algorithme Verité XXTotal Xaba+b Xcdc+d Totala+cb+da+b+c+d Si la classe dobservation qui nous intéresse est X alors Précision: a/a+c Rappel:a/a+b Exactitude de lalgorithme: a+d/a+b+c+d

22 Attachement du SP: méthode basée sur le corpus 1.Annotation dun corpus dexemples de phrases spontanées. 2.Récolte de SPs dans le corpus avec la distinction entre complément du nom ou complément du verbe. 3.Création dun algorithme apprenant automatiquement les règles qui régissent les différences entre complément du nom ou complément du verbe. 4.Implémentation de lalgorithme et son entraînement sur la base dune partie du corpus. 5.Évaluation de la précision de lalgorithme sur la partie restante du corpus. Représentativité Exhaustivité, même si grande variabilité Fiabilité de lévaluation

23 Étape 1 1.Annotation dun corpus dexemples de phrases spontanées Questions: toutes le questions concernant lannotation vue auparavant. Années de travail de conception et annotation. Penn TreeBank annotation syntaxique qui distingue les deux types dattachement

24 Exemples dans la PTB ( (S (NP-SBJ (NP (NNP Pierre) (NNP Vinken) ) (VP (MD will) (VP (VB join) (NP (DT the) (NN board) ) (PP-CLR (IN as) (NP (DT a) (JJ nonexecutive) (NN director) )) (NP-TMP (NNP Nov.) (CD 29) ))) (..) )) ( (S (NP-SBJ (NNP Mr.) (NNP Vinken) ) (VP (VBZ is) (NP-PRD (NP (NN chairman) ) (PP (IN of) (NP (NP (NNP Elsevier) (NNP N.V.) ) (,,) (NP (DT the) (NNP Dutch) (VBG publishing) (NN group) ))))) (..) ))

25 Étape 2 2a. Récolte des SPs dans le corpus avec la distinction entre complément du nom ou complément du verbe Questions Quest-ce quon veut extraire? Sous-arbre qui couvre verbe, nom et SP Comment arrive-t-on à extraire le sous-arbre couvrant Verbe, nom et SP, étant donné les arbres de la PTB? Programme disponible tgrep2 (Essayez)

26 Étape 2 2b. Simplification et normalisation de données Tête dun syntagme: nom pour SN, verbe pour SV etc. Lemmatisation : on utilise le lemme, soit linfinitif pour les verbes et le singulier pour les noms. (Lemmatisation avec ER). On transforme le sous-arbre en une suite de têtes syntaxiques plus une valeur binaire qui indique le type dattachement. Exemple manger pizza avec fourchette 1 manger pizza au fromage 0

27 SP : n-uplets VERB NOUN PREP NOUN2 ATTACH abolish levy for concern 0 accept payment from Linear 0 accompany President on tour 0 accrue dividend at % 0 accumulate wealth across spectrum 0 yank balloon to ground 1 yield % at bank 1 yield % in offering 1 yield % in week 1 zip order into exchange 1

28 Étape 3 3. Création dun algorithme apprenant automatiquement les règles qui régissent les différences entre complément du nom ou complément du verbe Question: faut-il comprendre ce quon apprend ou pas? Autrement dit, faut-il apprendre grâce à une explication ou par imitation? La méthode basée sur les corpus utilise souvent lapprentissage par imitation.

29 Quel algorithme? Essayez VERB NOUN PREP NOUN2 abolish levy for concern 0 accept payment from Linear 0 accompany President on tour 0 accrue dividend at % 0 accumulate wealth across spectrum 0 yank balloon to ground 1 yield % at bank 1 yield % in offering 1 yield % in week 1 zip order into exchange 1

30 Étape 3 – Entraînement Mémoriser les données dentraînement, c-à-d mémoriser les n-uplets (têtes,attachement) si des exemples se répètent, mettre à jour un compteur On obtient une base de données composé par tous les n-uplets observés avec leur fréquence.

31 Étape 3 – Test (Collins et Brooks, 1995) Pour chaque donnée de test, on utilise la suite de back-offs suivante : si on a déjà vu la même donnée (la même séquence de 4 mots), alors attachement = attachement à lentraînement sinon si on a vu une (ou plusieurs) sous-séquence(s) des 3 mots à lentraînement, alors attachement = attachement majoritaire de la (moyenne des) sous-séquences des 3 mots sinon si on a vu une (ou plusieurs) sous-séquence(s) des 2 mots à lentraînement, alors attachement = attachement majoritaire de la (moyenne des) sous-séquences des 2 mots sinon si on a vu une (ou plusieurs) sous-séquence(s) dun mot à lentraînement, alors attachement = attachement majoritaire de la (moyenne des) sous-séquences dun mot sinon attachement majoritaire

32 Étape 3 – Test (Collins et Brooks, 1995) Pour chaque donnée de test if (verbe nom prép. nom2) in n-uplets dentraînement alors attachement = attachement du n-uplet elsif (verbe nom prép.), (nom prép. nom2) ou (verbe prép. nom2) in n-uplets dentraînement alors attachement = attachement majoritaire de (verbe nom prép.) + (nom prép. nom2) + (verbe prép. nom2) elsif (verbe prép.), (nom prép.) ou (prép. nom2) in n-uplets dentraînement alors attachement = attachement majoritaire de (verbe prép.) + (nom nom2) +(prép. nom2) elsif (prép.) in n-uplets dentraînement alors attachement = attachement majoritaire de prép. sinon attachement majoritaire dans le corpus dentraînement

33 Back-off Notes à propos de lalgorithme de Collins et Brooks (1995) : On utilise un suite de back-offs : sil ny a aucunes données à un niveau donné, on utilise plutôt de niveau suivant, plus général, moins précis (mais qui contient des données!). Cest un back-off « pur » : ici, on ne passe au niveau suivant que lorsquil ny a aucunes données. Collins et Brooks ont constaté que cétait le back-off optimal pour ce problème. Ce nest pas le cas pour la modélisation n-gram de langages, par exemple.

34 Back-off Autres méthodes de back-off : On passe au niveau suivant si il y a trop peu de données, par ex. « moins de 5 ». « Back-off smoothing » : une formule qui passe graduellement au niveau suivant quand la quantité de données diminue. Exemple : la méthode de Hindle et Rooth, 1993 : Premier niveau : f(n,p) / f(n) ou f(v,p) / f(v), c-à-d fréquence dutilisation de la préposition avec le nom ou le verbe donné. Deuxième niveau : f(N,p) / f(N) ou f(V,p) / f(V), c-à-d fréquence dutilisation de la préposition avec nimporte quel nom ou verbe. p(prép.|nom) estimé par [f(n,p) + f(N,p)/f(N)] / [f(n) + 1]. p(prép.|verbe) estimé par [f(v,p) + f(V,p)/f(V)] / [f(v) + 1]. Lattachement se fait là où la probabilité est plus élevée.

35 Étape 4 4. Implémentation de lalgorithme et son entraînement sur la base dune partie du corpus

36 Exemple #!/usr/bin/perl –w use strict; use warnings; # Computes: collects tuples and updates counts # Loads: n-uplets my (%noms, %verbes, $noms, $verbes); open(TRAINING, "training-quads") or die "Cant open training-quads: $!\n"; while ( ) { my ($v, $n, $p, $n2, $a) = split; if ($a == 0) { $noms{"$v $n $p $n2"}++; $noms{"$v $p $n"}++; $noms{"$n $p $n2"}++; $noms{"$v $p $n2"}++; $noms{"$v $p"}++; $noms{"$n $p"}++; $noms{"$p $n2"}++; $noms{$p}++; $noms++; } else … … { $verbes{"$v $n $p $n2"}++; $verbes{"$v $p $n"}++; $verbes{"$n $p $n2"}++; $verbes{"$v $p $n2"}++; $verbes{"$v $p"}++; $verbes{"$n $p"}++; $verbes{"$p $n2"}++; $verbes{$p}++; $verbes++; }

37 Étape 5 – Évaluation 5. Évaluation de la précision de lalgorithme sur un échantillon de nouvelles phrases Exemple partiel en Perl : open(TESTING, "testing-quads") or die "Cant open testing-quads: $!\n"; while ( ) { my ($v, $n, $p, $n2, $a) = split; deviner lattachement calculer la précision des réponses } imprimer les résultats

38 SP : évaluation Résultats de Collins et Brooks (1995) : NiveauTotalCorrectPrécision (%) Quadruplets Triplets Doublets Simplets Restant Total

39 SP : évaluation Performance minimum et maximum pour Collins et Brooks (1995) : MéthodePrécision (%) Attache toujours au nom59.0 Attachement majoritaire de prép.72.2 Moyenne de trois humains (quadruplets)88.2 Moyenne de trois humains (toute la phrase)93.2