1 Repérage des entités nommées et apprentissage automatique Thierry Poibeau INaLCO / CRIM Thales Recherche et Technologie.

1 Repérage des entités nommées et apprentissage automatique Thierry Poibeau INaLCO / CRIM Thales Recherche et Technologie

2 Traitement des textes et aides à la décision Les entreprises se trouvent en prise à des masses de textes qu’il faut traiter –indexer l’information pour la retrouver –marquer l’information dans les textes pour aider à prendre des décision L’extraction d’information a mis en évidence des tâches génériques utilisables seules dans les outils d’aide à la décision –Reconnaissance des entités nommées –Extraction « de surface »

3 Plan Système à base de règles SemTex –Analyse lexicale –Application de grammaires –Typage de mots inconnus Evaluation –MUC-6 –Autres corpus Quel type d’apprentissage pour quels besoins ?

4 Repérage des entités nommées : Un système à base de règles

5 Mode de fonctionnement du système 3 étapes principales : –Analyse lexicale (essentiellement consultation de dictionnaires) –Reconnaissance des séquences pertinentes par une grammaire dédiée –Intégration dynamique des mots inconnus (mécanismes d’acquisition et de révision)

6 Architecture du système Texte annoté Système à base de règles (1) Analyse lexicale (2) Passage de la grammaire dictionnaires grammaire (3) Mécanismes d’acquisition dynamique (4) Mécanismes de révision  MUC-6,  Reuters,  Courriers électroniques

7 1. Étape d’analyse lexicale Reconnaissance des nombres Reconnaissance des noms propres (listes de prénoms, de lieux…) Reconnaissance des amorces comme M. (pour Monsieur) ou SA (pour Société anonyme) Reconnaissance et normalisation des sigles comme I.B.M ou I.B.M. (avec ou sans point à la fin) Étiquetage des mots inconnus et des mots commençant par une majuscule Utilisation d’Intex (Silberztein 1993)

8 Étiquetage à partir de dictionnaire De nombreuses sources de données, disponibles ou acquises Utilisation de valeurs par défaut (limitation de l’ambiguïté)

9 Exemple après l’étape 1 Texte étiqueté avec éventuellement des ambiguïtés d’étiquetage : Consuela Washington, a longtime House staffer and an expert in securities laws...

10 2. Application d’une grammaire de reconnaissance d’entités nommées Grammaire écrite sous forme de transducteurs à états finis récursifs

11 Imbrications des grammaires Exemple : noms de personnes entrant dans des noms d’entreprises ou de lieu

12 Principes d’application de la grammaire Les règles s’appliquent en respectant certaines heuristiques :  Principe du « plus long patron » (longest match),  Une règle ne peut plus s’appliquer à l’intérieur d’une séquence précédemment reconnue  Si deux règles de même longueur peuvent s’appliquer, l’ordre d’application des grammaires joue le rôle d’arbitre

13 Exemple après l’étape 2 La séquence Consuela Washington est étiquetée comme Nom de Personne

14 3. Typage d’éléments inconnus isolés Typage d’après leur apparition dans des règles contextuelles –Règles de la grammaire avec mot inconnu –« Structure de discours » (énumération, …) Insertion dynamique dans le dictionnaire Une deuxième passe des dictionnaires et de la grammaire permet de les étiqueter correctement (ou non !)

15 Les mécanismes d’acquisition dynamique

16 Correction dynamique d’étiquettes Révision dynamique des étiquettes en fonction d’un contexte local (theory refinement, Mooney 1993, Dejean Coling 2000, Brill…) –Par défaut, Washington est un nom de lieu –D’après les contextes Consuela Washington et Mrs. Washington, retypage en nom de personne des occurrences isolées Bien adapté à des documents courts (domaine de localité)

17 Les mécanismes de révision

18 Exemple après l’étape 3

19 Balisage XML Les éléments reconnus sont étiquetés par un balisage XML transformé in fine en document HTML Les documents respectent une DTD prédéfinie La DTD rend compte de la grammaire (via les contraintes sur les balises) Une feuille de style est associée au document pour ne visualiser qu’une partie de l’information (paramétrable)

20 Evaluation Travail en commun avec L. Kosseim

21 Deux évaluation du système Évaluation sur le corpus MUC-6 (étalonnage) Évaluation d’autres corpus plus « informels » (courriers électroniques, messages issus de forum de discussion,...) Difficulté d’évaluation d’une catégorie particulière (du fait des interactions entre grammaires)

22 Étalonnage du système à base de règles sur le corpus MUC-6 RAPPELPRECISIONP&R BBN0,980,980,98 SRA0,970,990,98 NYU0,940,990,96 U. Sheffield0,840,960,90 Lexis0,860,950,90 Extraction des entités nommées dans le corpus MUC-6 ( enamex + dates, sans la troisième étape)

23 Tests sur d’autres corpus Effondrement des performances sur du courrier électronique (0,20 de P&R pour les dates et 0,40 à 0,50 pour les noms de personnes) La même chose est constatée sur des transcriptions manuscrites de l’oral (L. Kosseim, 0,44 P&R obtenu sur le corpus Valcartier) Cf. Expérience avec Alembic (Mitre, à base de règles) –MUC-6 86.12 P&R (pas le score officiel) –Valcartier 46.47 P&R –Courriers élec. :  30 P&R ??

24 Modifications apportées au système original Nécessité de complexifier la grammaire et d’étendre les ressources : –grammaires des dates : plus de 3.000 transitions –dictionnaire d’environ 25.000 entrées pour les noms de personnes Importance de l’analyse des mots inconnus –Ajouts dynamiques au dictionnaires –Sous-détermination de la grammaire

25 Performances sur du courrier électronique * * * SUMMARY SCORES * * * ------------------------------------------------------------------------------ POS ACT| COR PAR INC | MIS SPU NON| REC PRE UND OVG SUB ERR ------------------------+-------------+--------------+------------------------ SUBTASK SCORES | | | enamex | | | organizatio 240 167| 167 0 0| 73 0 0| 70 100 30 0 0 30 person 164 170| 155 0 0| 9 15 0| 95 91 5 9 0 13 location 112 93| 84 0 1| 27 8 0| 75 90 24 9 1 30 timex | | | date 68 61| 52 0 9| 8 0 0| 76 85 12 0 15 25 ------------------------+-------------+--------------+------------------------ ALL SLOTS 584 491| 458 0 10| 117 23 0| 78 93 20 5 2 25 P&R 2P&R P&2R F-MEASURES 84.84 87.39 82.43

26 Typologie des erreurs  Incomplétude de la grammaire ou du dictionnaire : Lloyd Bentsen ou Strobe Talbott  Transformations ayant échappé à l’analyse : Robert S. « Steve » Miller  Orthographe approximative  Usage d’abréviations : Ok pour Oklahoma, etc..  Mots fortement ambigus : Sun Tzu

27 Intégration dans un contexte applicatif

28 Facteurs influençant les performances

29 3 facteurs déterminants Les lexiques et les listes d’entités nommées Les « amorces » et la grammaire L’algorithme de regroupement et d’acquisition dynamique –Grammaire = ensemble de règles –Un modèle statistique –etc.  Quelle est leur importance relative ?

30 Importance des dictionnaires Importance soulignée par nombre d’auteurs (e.g. Sekine, Coling’2000) mais contestée par d’autres (Mikheev et al., EACL’99) –Résultats corrects avec des listes limitées… –à condition que ce soit les bonnes ! D’où nécessité de listes importantes (Cf. Mikheev et al. >25.000 noms de personnes)

31 Performances en fonction de la taille du dictionnaire Les performances augmentent régulièrement suivant la taille du dictionnaire

32 « Apprendre » les dictionnaires ? A partir de corpus annotés : –Coût d’annotation des corpus ? –Masse de données à annoter (cf. BBN : 30.000 mots  0,81 P&R ; 1,2 millions de mots  0,91 P&R, Miller et al., 1998) Plus rentable d’amorcer avec un dictionnaire Mais indispensable d’inclure un phénomène d’acquisition dynamique Des expériences sont en cours avec le LIP6 pour élaborer des modèles hybrides, nécessitant un corpus annoté de taille réduite

33 Importance des amorces (« trigger words ») Points d’ancrage indispensables de l’analyse Cf. Baisse de performance entre MUC-7 et MUC-6 (5 à 10 points) –Léger changement de domaine (et d’amorces !) –Certaines catégories sont plus difficile à extraire faute d’amorce (« artefacts ») Détecter le taux d’amorces permet d’évaluer partiellement les performances possibles de l’apprentissage

34 Importance de la grammaire Une seule grammaire mais des disparités dans la fréquence d’application des règles Des performances disparates suivant le corpus : de 0,87 P&R (MUC-6) à 0,58 P&R (Mail) Des phénomènes échappent à l’analyse (mots inconnus isolés)

35 Diversité de la grammaire Mesure du nombre de règles activées, et de la représentativité des principales règles activées

36 Importance des processus d’apprentissage Exploitation des règles de la grammaire, en général sous-spécifiées (cf. mots inconnus…) et dynamiques (acquisition de vocabulaire) Modèles issus d’un processus d’apprentissage –Chaînes de Markov (BBN, MUC-7 1998) –Entropie maximale (Mikheev et al., EACL’1999) –Arbres de décision (Paliouras et al., ML4IE ’2000) –Programmation logique inductive (Sasaki & Matsuo, Coling’2000)...

37 Quel type d’algorithme ? MUC, IREX (cf. Sekine, Coling’2000).... ont montré que différents types de systèmes obtiennent des performances équivalentes Hypothèse : différents algorithmes d’apprentissage permettent d’obtenir des performances proches car ils se fondent sur des indices identiques : –Mots inconnus –Majuscules ou non –Distance par rapport à une amorce...

38 Gain dû aux mécanismes d’acquisition Le module de repérage d’entités P&R Pallier les éventuelles carences des dictionnaires Homogénéiser les résultats entre les différents types de corpus Bien adapté à des documents courts

39 E = l’ensemble des entités nommées repérées grâce au dictionnaire et à la grammaire, ne comportant aucun mot inconnu ; P = l’ensemble des entités nommées repérées grâce au dictionnaire et à la grammaire mais comportant au moins un mot inconnu ; U’ = le nombre de mots inconnus qui apparaissent dans au moins une entité contenue dans P Choix d’une stratégie a priori Le module de repérage d’entités Offrir un critère objectif pour évaluer le gain dû à l’apprentissage suivant le corpus

40 Choix d’une stratégie a priori

41 Conclusion

42 Quel type de système ? (1/2) Préférence pour les systèmes hybrides (Velardi & Cucchiarelli, 1999) –Un premier étiquetage plus ou moins grossier –Des mécanismes d’acquisition dynamique Préférence pour les systèmes à base de règles pour l’analyse de l’écrit –Lisibilité –Évolutivité (ajout de vocabulaire, de règles…) –Pas de corpus d’apprentissage

43 Quel type de système ? (2/2) Les systèmes statistiques sont à l’inverse privilégiés pour l’analyse de l’oral : –Meilleure robustesse sur des données bruitées –Mieux adaptés aux formats de données utilisées pour l’oral (treillis de mots, modèle de langages…) –Notion de corpus d’apprentissage mieux admise Le type d’analyse à mettre en œuvre dépend aussi de l’application (veille, lecture rapide, Q/A…)

44 Perspectives

45 Aborder le multilinguisme Projet en cours à l’INaLCO : traiter les entités nommées en environnement multilingue –Une dizaine de langues sont actuellement concernées (dont japonais, arabe, russe...) –Une architecture partiellement commune –Les traitements respectent au maximum les standards (Unicode, XML automates à nombre fini d’états)

46 Stratégies d’acquisition et développement de ressources Des stratégies de développements variées –Ressources existantes ou non pour la langue visée (constitution de ressources par acquisition à partir de corpus) –Partage de grammaires entre langues proches Intégrer des modèles d’apprentissage plus complexes (collaboration avec M. Amini du LIP6)

1 Repérage des entités nommées et apprentissage automatique Thierry Poibeau INaLCO / CRIM Thales Recherche et Technologie.

Présentations similaires

Présentation au sujet: "1 Repérage des entités nommées et apprentissage automatique Thierry Poibeau INaLCO / CRIM Thales Recherche et Technologie."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

1 Repérage des entités nommées et apprentissage automatique Thierry Poibeau INaLCO / CRIM Thales Recherche et Technologie.

Présentations similaires

Présentation au sujet: "1 Repérage des entités nommées et apprentissage automatique Thierry Poibeau INaLCO / CRIM Thales Recherche et Technologie."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back