Nymble: High-Performance Learning Name-finder 1 Plan Introduction Modèle –Modèle conceptuel –Caractéristiques de mots –Modèle formel –Rétrogradation de modèle Implémentation et résultats –Historique et implémentation actuelle –Mesure F –Scores obtenus –Impact de la taille du corpus d’apprentissage Conclusion
Nymble: High-Performance Learning Name-finder 2 Introduction (1) Permet de trouver dans un texte les catégories de noms suivantes (entités nommées : EN) : –Noms d’organisations –Noms de personnes –Noms de lieux –Heures –Dates –Pourcentages –Valeurs monétaires
Nymble: High-Performance Learning Name-finder 3 Introduction (2) Utilise une variante du modèle de Markov caché Actuellement utilisé en anglais et en espagnol Les noms recherchés sont des réponses aux questions : –Who (Qui) –Where (Où) –When (Quand) –How much (Combien)
Nymble: High-Performance Learning Name-finder 4 Introduction (3) Applications : –Délimiter les EN –Établir des relations entres les EN par des verbes Exemple : –Dans un moteur de recherche Internet, un utilisateur entre la requête : "When was Bill Gates born?" –La requête est transformée en : + born + (EN trouvée) (verbe) (EN à rechercher)
Nymble: High-Performance Learning Name-finder 5 Modèle (1) Modèle conceptuel Début-de-phrase Fin-de-phrase Personne Organisation Pas-un-nom (cinq autres classes de noms)
Nymble: High-Performance Learning Name-finder 6 Modèle (2) Caractéristiques de mots : Caractéristique de motExempleIntuition twoDigitNum90Année sur deux chiffres fourDigitNum1990Année sur quatre chiffres containsDigitAndAlphaA Code de produit containsDigitAndDash09-96Date containsDigitAndSlash11/9/89Date containsDigitAndComma23,000.00Montant containsDigitAndPeriod1.00Montant, pourcentage otherNum456789Autre nombre allCapsBBNOrganisation capPeriodM.Initiale de nom de personne firstWordpremier mot de la phrasePas d'information utile par une majuscule initCapEliseMot avec majuscule initiale lowerCasepouvoirMot sans majuscule other,Marque de ponctuation, tous les autres mots
Nymble: High-Performance Learning Name-finder 7 Modèle (3) Modèle formel Classe de noms : P(CN | CN -1, m -1 ) Premier mot dans la classe : P( premier | CN, CN -1 ) Autres mots dans la classe : P( | -1, CN) Dernier mot de la classe : P( | final, CN) m -1 = +fin+ si CN -1 = Début-de-phrase, m -1 = dernier mot observé sinon. avec
Nymble: High-Performance Learning Name-finder 8 Modèle (4) Rétrogradation de modèle Bigrammes pour la classe de noms Bigrammes pour le premier mot Bigrammes pour les autres mots P(CN | CN -1, m -1 ) P(CN | CN -1 ) P(CN) P( premier | CN, CN -1 ) P( |, CN) P( | CN) P(m | CN). P(c | CN) P( | -1, CN) P( | CN) P(m | CN). P(c | CN) 1 nombre de classes de mots 1 nombre de caractéristiques 1 1 |V|. 1 nombre de caractéristiques 1 1 |V|
Nymble: High-Performance Learning Name-finder 9 Implémentation et résultats (1) Historique –Peu de caractéristiques au départ –Ajout progressif de caractéristiques Implémentation actuelle –Cycle rapide de développement
Nymble: High-Performance Learning Name-finder 10 Implémentation et résultats (2) Mesure F Précision = nombre de réponses correctes nombre de réponses nombre de réponses correctes nombre de réponses correctes de la clé Rappel = (ß² + 1) Rappel Précision (ß² Rappel) + Précision Mesure F =
Nymble: High-Performance Learning Name-finder 11 Implémentation et résultats (3) Scores obtenus CasseLangageMeilleur score réalisé Nymble MélangeAnglais9693 MajusculeAnglais8991 MélangeEspagnol9390
Nymble: High-Performance Learning Name-finder 12 Implémentation et résultats (4) Impact de la taille du corpus d'apprentissage sur les r é sultats En anglais En espagnol
Nymble: High-Performance Learning Name-finder 13 Conclusion (1) Améliorations possibles –Listes de noms propres connus – (3,4,…)-grammes au lieu de 2-grammes –Algorithme de reconnaissance des alias (ex : IBM) Performance de haut niveau –Techniques connues –Modèle innovant
Nymble: High-Performance Learning Name-finder 14 Références Conclusion (2) Remerciements