Thales Research and Technology Filtrage et Extraction dInformation 1 Évaluation comparative de ressources générales et de ressources spécifiques pour l'extraction.

Slides:



Advertisements
Présentations similaires
Qu’est-ce que LingPro ? LingPro est la branche ingénierie linguistique de i-KM La collaboration i-KM / LingPro est le résultat d’un partenariat sous forme.
Advertisements

Conférence sur les comptes nationaux dans le contexte de la coopération au développement Luxembourg 6-8 mai 2008.
Managing Domain Knowledge and Multiple Models with Boosting Peng Zang – Charles Isbell.
Sandrine Peraldi (ISIT) Jean-Philippe KOTOWICZ (INSA Rouen)
LA DEMARCHE D’INVESTIGATION
1 Recherche, acquisition et adaptation des Ressources Numériques Rappel de latelier 2.
ECONOMIE BTS 1&2 LES OBJECTIFS
Rapport du groupe III sur le Thème la Recherche syndicale.
Educasources Paris, le 30 janvier 2007 Paris, le 30 janvier 2007.
2002 Compétitif XMiner : Plate-forme de structuration texte libre multi-approches par balisage XML de Tags Actifs Lobjectif du projet est de développer.
Modules Spécifiques Programme GENIE Atelier 3 Intégration méthodologique des Ressources Numériques dans des situations dapprentissage.
CS des IREM 12/12/2008 Jacques Douaire
Présentation de l’enseignement de « Gestion et Information » Présentation conçue par : Sophie Da Costa Philippe Louchet Éric Noël Marie-Claude Rialland.
Présentation générale "Information et gestion" Présentation générale des programmes d « Information et gestion » en première STG.
Journées Composants 2005 Gestion de la qualité de service de la conception à l’exécution dans les applications distribuées multimédias Sophie Laplace.
Amélioration du confort thermique Organisation du mini-projet
HORAIRES HEBDOMADAIRES PROPOSES Spécialité Gestion 3 heures en classe entière 2 heures en demi - groupe Soit 5 heures - élève Spécialité Communication.
LA DEMARCHE D’INVESTIGATION AU COLLEGE
Les Activités Pédagogiques Complémentaires
Documents investigation
Animation pédagogique – Mars 2010 Mme Sellier / M. Bogart CPC Avion Cycle 2 Découverte du monde Cycle 2 La démarche expérimentale d'investigation.
Technologie Collège Document d’accompagnement du programme de
Thème « Modélisation comportementale des Systèmes critiques »
Soutenance du rapport de stage
Présentation de la Coface
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
ORGANISATION INTERNATIONALE DU TRAVAIL Service des conditions de travail et demploi (TRAVAIL) 2012 Module 13: Evaluation de la protection de la maternité
Le cycle de conception Technologie.
SECURITE DU SYSTEME D’INFORMATION (SSI)
Introduction et informations Instruction relative au traitement du VCT Instruction relative à linsertion de documents Informations sur lutilisation de.
Pour un système formel de description linguistique
DURIBREUX, Michèle & COCQUEBERT & HOURIEZ, Bernard,
En Systèmes d’information
Annotations sémantiques pour le domaine des biopuces
SCIENCES DE L ’INGENIEUR
LES FICHES POUR METTRE EN OEUVRE DES DISPOSITIFS D'AIDE ET DE SOUTIEN
Présentation du deuxième document daccompagnement Ecole dété de Guidel 2010 Annie Journu.
Tigist Tesfaye Directeur de Programme AEMFI juillet, 2010 Berne, Suisse LExpérience de lAEMFI dans la Gestion de Performance Sociale ( SPM) Performance,
Un modèle sémantique pour linteropérabilité de systèmes dinformation Equipe Ingénierie informatique et base de données – Laboratoire LE2I Université de.
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
Séminaire Evaluation d'impact du 2 au 6 décembre, Phnom Penh
SEMINAIRE DE CONTACT novembre 2008 Outils de gestion de projet.
SÉMINAIRE NATIONAL – LYCÉE RASPAIL – 29 et 30 MAI 2006
La pratique des problèmes ouverts
Mai 2013 La codification des compétences collégiales dans le SOBEC Session 3 - Présentations en rencontre plénière sur le thème Exemples de pratiques.
EP1 – Première situation d’évaluation
LA DEMARCHE D’INVESTIGATION
« On apprend bien que ce qui répond aux questions que l’on se pose »
LA DEMARCHE D’INVESTIGATION EN SCIENCES
Méthode pour la gestion
27 septembre MM Consulting MM Consulting SARL au capital de 7500 Euros Michel Mabile gérant majoritaire Vous souhaitez dynamiser la capacité d’innovation.
Recherche en corpus de réponses à des questions définitoires Véronique Malaisé Thierry Delbecque Pierre Zweigenbaum TALN 2005, Dourdan.
Initiation à la conception des systèmes d'informations
Dominique LAURENT Patrick SEGUELA
Recherche d’information
Les épreuves du baccalauréat STG
Services en Text Mining. Introduction : Qui est Mentis ? Mentis a été fondée en 2005 comme une société spin-off du Laboratoire d'I ntelligence Artificielle.
JDD 2005 Utilisation et Constitution de Ressources Sémantiques pour la Recherche d'Informations Précises. Vincent Barbier, groupe LIR Langues, Information.
Stage à Ontomantics Master Pro TILDE
L’économie-droit en bac pro tertiaire
les compétences des élèves dans le domaine du vocabulaire
ECOLE DES HAUTES ETUDES COMMERCIALES RECHERCHE MARKETING Dr. KHERRI Abdenacer Mai
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
Démarche d’enseignement de l’APL : analyser
Modélisation des Actions Mécaniques Première sti2d
19 avril Spécification d’un cadre d’ingénierie pour les réseaux d’organisations Laboratoire de recherche : OMSI à l’EMSE.
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
Transcription de la présentation:

Thales Research and Technology Filtrage et Extraction dInformation 1 Évaluation comparative de ressources générales et de ressources spécifiques pour l'extraction d'information Sophie Bizouard et Thierry Poibeau

Thales Research and Technology Filtrage et Extraction dInformation Contexte de létude Extraction dinformation sur le thème des cessions et acquisitions de sociétés au sein dun corpus financier Évaluer des outils de mise au points de ressources –Memodata –Asium Protocole dévaluation standard –Évaluation des résultats –Évaluation de ladéquation et de lutilisabilité

Thales Research and Technology Filtrage et Extraction dInformation Description de la tâche Lachat de la société Lotus par IBM => achat (arg1: IBM, arg2: Lotus) Lacquisition de Lotus par IBM => achat (arg1: IBM, arg2: Lotus) IBM a acheté Lotus hier => achat (arg1: IBM, arg2: Lotus)

Thales Research and Technology Filtrage et Extraction dInformation Patrons syntaxiques et classes sémantiques Un patron décrit une famille de variation : – sur la plan syntagmatique : insertion de modifieurs (N et V), actif/passif (N), relatives – sur le plan paradigmatique (variation lexicale) – Évaluation doutils dacquisition de ressources sémantiques – Asium (acquisition à partir du corpus) – Memodata (réseau sémantique général prédéfini)

Thales Research and Technology Filtrage et Extraction dInformation Une classe sémantique acquérir,.V+achat arroger,.V+achat céder,.V+Vente désengager,.V+Vente échanger,.V+Operation entrer,.V+CollAchat Fusionner,.V+Operation investir,.V+achat ……. accord,.N+Operation achat,.N+Achat acquisition,.N+Achat alliance,.N+Operation cession,.N+Vente désengagement,.N+Operation échange,.N+Operation engagement,.N+Operation …….

Thales Research and Technology Filtrage et Extraction dInformation Évaluation : Approches Existantes Mise en place dune évaluation pour tester lapport de telles ressources Évaluation « externe » (boîte noire, black box) Seules les sorties sont prises en compte Pas dévaluation de la méthode utilisée Évaluation « interne » (glass box) Évaluation de la méthode Utilisabilité, etc.

Thales Research and Technology Filtrage et Extraction dInformation Corpus Corpus de 300 dépêches sur le thème des rachats de sociétés au sein dun corpus financier, –divisé en corpus dentraînement (60 dépêches) et corpus de test (240) Rhodia cède des activités d Albright & Wilson. Le groupe cède les surfactants Europe d Albright & Wilson à Huntsman International. SOC¤ :42:

Thales Research and Technology Filtrage et Extraction dInformation ASIUM (1/2) Acquisition de connaissances sémantiques à partir de corpus par apprentissage Initialement destiné à la construction dontologies : déduction de classes de mots par analyse distributionnelle Validation manuelle des classes proposées par Asium

Thales Research and Technology Filtrage et Extraction dInformation ASIUM (2/2)

Thales Research and Technology Filtrage et Extraction dInformation MEMODATA (1/2) Réseau sémantique général Accès direct aux éléments hyperonymes, hyponymes et synonymes dune entrée du réseau, potentiels constituants dune classe

Thales Research and Technology Filtrage et Extraction dInformation MEMODATA (2/2)

Thales Research and Technology Filtrage et Extraction dInformation Méthodologie Construction de la maquette dextraction : Élaboration dune fiche modèle Constitution dune base de fiches à la main (référence) Élaboration du système (dictionnaires, grammaires, etc.) Intégration des ressources élaborées : au moyen dASIUM au moyen de MEMODATA

Thales Research and Technology Filtrage et Extraction dInformation Adapter les outils à la tâche Choix des relations à activer dans Memodata –Synonyme > Spécifique > Générique > Autres relations –Pondérer les relations Filtrer les classes dAsium –Une acquisition sur tout le corpus est inadaptée –Nécessité de focaliser sur les éléments pertinents –Notion de « filtre » (apprentissage supervisé)

Thales Research and Technology Filtrage et Extraction dInformation Scores obtenus sur le corpus de test

Thales Research and Technology Filtrage et Extraction dInformation Résultats obtenus avec Asium Classes de base très fortement bruitées –Classe sémantique finalement obtenue répartie sur plus de 20 classes de base –Au maximum 30 % dune classe de base est pertinente Nettoyage progressif des classes par lutilisateur (10 heures pour 5 classes) Loutil finit par converger

Thales Research and Technology Filtrage et Extraction dInformation Résultats obtenus avec Asium Bonne couverture du corpus final –Corpus restreint mais… –(très fortement) homogène (régularités syntaxiques) Asium permet délaborer des classes de manière accélérée Peut-on améliorer la qualité des classes de base ?

Thales Research and Technology Filtrage et Extraction dInformation Réseau sémantique homogène Les classes obtenues sont généralement bonnes (peu de travail de validation) mais… Des éléments clés sont oubliés –Mots (techniques) absents (OPE, OPV…) –Relations manquantes Importance des mots clés servant à interroger le réseau Résultats obtenus avec Memodata

Thales Research and Technology Filtrage et Extraction dInformation Memodata permet dobtenir de nombreux mots qui ne figurent pas dans le corpus dentraînement Des oublis cruciaux (30 % de mots manquants 55 % de baisse de performance) Adapté à des corpus variés, moins homogènes sémantiquement (cf. expérience sur des récits dattentats) Résultats obtenus avec Memodata

Thales Research and Technology Filtrage et Extraction dInformation Des outils complémentaires ? Au moins partiellement… –Acquisition à partir dun corpus adaptation au domaine visé –Ressource générale élargissement au delà du corpus dentraînement (surtout si celui-ci est réduit) Mais comment ?

Thales Research and Technology Filtrage et Extraction dInformation Amorçage, guidage Des solutions : –Amorcer à partir du corpus, puis étendre avec des ressources générales –Guider lacquisition par une coopération étroite des deux outils Des limites : –Améliorer lanalyse distributionnelle (i.e. syntaxique) –Améliorer la description sémantique (le réseau), pouvoir ladapter