La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Thales Research and Technology Filtrage et Extraction dInformation 1 Évaluation comparative de ressources générales et de ressources spécifiques pour l'extraction.

Présentations similaires


Présentation au sujet: "Thales Research and Technology Filtrage et Extraction dInformation 1 Évaluation comparative de ressources générales et de ressources spécifiques pour l'extraction."— Transcription de la présentation:

1 Thales Research and Technology Filtrage et Extraction dInformation 1 Évaluation comparative de ressources générales et de ressources spécifiques pour l'extraction d'information Sophie Bizouard et Thierry Poibeau

2 Thales Research and Technology Filtrage et Extraction dInformation Contexte de létude Extraction dinformation sur le thème des cessions et acquisitions de sociétés au sein dun corpus financier Évaluer des outils de mise au points de ressources –Memodata –Asium Protocole dévaluation standard –Évaluation des résultats –Évaluation de ladéquation et de lutilisabilité

3 Thales Research and Technology Filtrage et Extraction dInformation Description de la tâche Lachat de la société Lotus par IBM => achat (arg1: IBM, arg2: Lotus) Lacquisition de Lotus par IBM => achat (arg1: IBM, arg2: Lotus) IBM a acheté Lotus hier => achat (arg1: IBM, arg2: Lotus)

4 Thales Research and Technology Filtrage et Extraction dInformation Patrons syntaxiques et classes sémantiques Un patron décrit une famille de variation : – sur la plan syntagmatique : insertion de modifieurs (N et V), actif/passif (N), relatives – sur le plan paradigmatique (variation lexicale) – Évaluation doutils dacquisition de ressources sémantiques – Asium (acquisition à partir du corpus) – Memodata (réseau sémantique général prédéfini)

5 Thales Research and Technology Filtrage et Extraction dInformation Une classe sémantique acquérir,.V+achat arroger,.V+achat céder,.V+Vente désengager,.V+Vente échanger,.V+Operation entrer,.V+CollAchat Fusionner,.V+Operation investir,.V+achat ……. accord,.N+Operation achat,.N+Achat acquisition,.N+Achat alliance,.N+Operation cession,.N+Vente désengagement,.N+Operation échange,.N+Operation engagement,.N+Operation …….

6 Thales Research and Technology Filtrage et Extraction dInformation Évaluation : Approches Existantes Mise en place dune évaluation pour tester lapport de telles ressources Évaluation « externe » (boîte noire, black box) Seules les sorties sont prises en compte Pas dévaluation de la méthode utilisée Évaluation « interne » (glass box) Évaluation de la méthode Utilisabilité, etc.

7 Thales Research and Technology Filtrage et Extraction dInformation Corpus Corpus de 300 dépêches sur le thème des rachats de sociétés au sein dun corpus financier, –divisé en corpus dentraînement (60 dépêches) et corpus de test (240) 12289. Rhodia cède des activités d Albright & Wilson. Le groupe cède les surfactants Europe d Albright & Wilson à Huntsman International. SOC¤ 2001-03-01 09:42:00.000.

8 Thales Research and Technology Filtrage et Extraction dInformation ASIUM (1/2) Acquisition de connaissances sémantiques à partir de corpus par apprentissage Initialement destiné à la construction dontologies : déduction de classes de mots par analyse distributionnelle Validation manuelle des classes proposées par Asium

9 Thales Research and Technology Filtrage et Extraction dInformation ASIUM (2/2)

10 Thales Research and Technology Filtrage et Extraction dInformation MEMODATA (1/2) Réseau sémantique général Accès direct aux éléments hyperonymes, hyponymes et synonymes dune entrée du réseau, potentiels constituants dune classe

11 Thales Research and Technology Filtrage et Extraction dInformation MEMODATA (2/2)

12 Thales Research and Technology Filtrage et Extraction dInformation Méthodologie Construction de la maquette dextraction : Élaboration dune fiche modèle Constitution dune base de fiches à la main (référence) Élaboration du système (dictionnaires, grammaires, etc.) Intégration des ressources élaborées : au moyen dASIUM au moyen de MEMODATA

13 Thales Research and Technology Filtrage et Extraction dInformation Adapter les outils à la tâche Choix des relations à activer dans Memodata –Synonyme > Spécifique > Générique > Autres relations –Pondérer les relations Filtrer les classes dAsium –Une acquisition sur tout le corpus est inadaptée –Nécessité de focaliser sur les éléments pertinents –Notion de « filtre » (apprentissage supervisé)

14 Thales Research and Technology Filtrage et Extraction dInformation Scores obtenus sur le corpus de test

15 Thales Research and Technology Filtrage et Extraction dInformation Résultats obtenus avec Asium Classes de base très fortement bruitées –Classe sémantique finalement obtenue répartie sur plus de 20 classes de base –Au maximum 30 % dune classe de base est pertinente Nettoyage progressif des classes par lutilisateur (10 heures pour 5 classes) Loutil finit par converger

16 Thales Research and Technology Filtrage et Extraction dInformation Résultats obtenus avec Asium Bonne couverture du corpus final –Corpus restreint mais… –(très fortement) homogène (régularités syntaxiques) Asium permet délaborer des classes de manière accélérée Peut-on améliorer la qualité des classes de base ?

17 Thales Research and Technology Filtrage et Extraction dInformation Réseau sémantique homogène Les classes obtenues sont généralement bonnes (peu de travail de validation) mais… Des éléments clés sont oubliés –Mots (techniques) absents (OPE, OPV…) –Relations manquantes Importance des mots clés servant à interroger le réseau Résultats obtenus avec Memodata

18 Thales Research and Technology Filtrage et Extraction dInformation Memodata permet dobtenir de nombreux mots qui ne figurent pas dans le corpus dentraînement Des oublis cruciaux (30 % de mots manquants 55 % de baisse de performance) Adapté à des corpus variés, moins homogènes sémantiquement (cf. expérience sur des récits dattentats) Résultats obtenus avec Memodata

19 Thales Research and Technology Filtrage et Extraction dInformation Des outils complémentaires ? Au moins partiellement… –Acquisition à partir dun corpus adaptation au domaine visé –Ressource générale élargissement au delà du corpus dentraînement (surtout si celui-ci est réduit) Mais comment ?

20 Thales Research and Technology Filtrage et Extraction dInformation Amorçage, guidage Des solutions : –Amorcer à partir du corpus, puis étendre avec des ressources générales –Guider lacquisition par une coopération étroite des deux outils Des limites : –Améliorer lanalyse distributionnelle (i.e. syntaxique) –Améliorer la description sémantique (le réseau), pouvoir ladapter


Télécharger ppt "Thales Research and Technology Filtrage et Extraction dInformation 1 Évaluation comparative de ressources générales et de ressources spécifiques pour l'extraction."

Présentations similaires


Annonces Google