Analyse distributionnelle automatique

Slides:



Advertisements
Présentations similaires
Sintaks : Tentative de guide de mise en œuvre Michel Hassenforder.
Advertisements

Les Cases Cachées 3 2 Les Verbes ER Tu/ manger Je/ parler Elles/
Le moteur
Fonctions & procédures
LIRMM 1 Journée Deuxièmes années Département Microélectronique LIRMM.
Classe : …………… Nom : …………………………………… Date : ………………..
1 1 Momentum. 2 2 Tout objet en mouvement continuera son mouvement tant que rien nentrave sa progression.
Les Prepositions.
FR2 Leçons Les quantités.
1 V-Ingénierie… La compétence au service de lexigence… vous présente.
Architecture de réseaux
Génération interactive dimages projectives : Application à la Radiothérapie Pierre BLUNIER Du 01/12/2002 au 28/03/2003 Centre Léon Bérard.
1 Premier bilan de l utilisation de LinguaStream pour le rep é rage de la coh é sion nom-verbe Yu-Ting HUANG UE TAL Le 10/01/2006.
INSEE Auvergne. Page 2 La démographie : lAuvergne présente et à venir vieillissement : moins de jeunes, plus de seniors Lemploi une croissance modérée.
Systèmes Experts implémentation en Prolog
Construction des 3 hauteurs
JOME, un Composant Logiciel pour le Télé-Enseignement des Mathématiques via le WEB, Compatible OpenMath et MathML Laurent DIRAT OVE / I3S-UNSA.
Ordonnancement des mouvements de deux robots
Minimisation Techniques 1 Assimilation Algorithms: Minimisation Techniques Yannick Trémolet ECMWF Data Assimilation Training Course March 2006.
07/24/09 1.
5 Verbes au passé composé 1.Jai eu avoir 2. Jai du devoir.
Développement d’applications web
LES ÉLASTICITÉS DE LA DEMANDE ET DE L’OFFRE
PAFI Référentiel de données par Sonia Watts DGIF (Direction de la gestion et de linformation forestière) 27 octobre 2010 et 3 novembre 2010.
1 Cours numéro 3 Graphes et informatique Définitions Exemple de modélisation Utilisation de ce document strictement réservée aux étudiants de l IFSIC.
IAS 16 « Immobilisations corporelles »
Complete Grand-père’s story about something that happened when he was a boy with an imparfait or passé composé form of each verb in parentheses.   Quand.
Application des algorithmes génétiques
Les verbes auxiliaires Avoir ou être ?? Choisissez! Cest un verbe Dr Mrs Vandertrampp? Cest un verbe réfléchi?
Formation E – Learning: La Réanimation Cardio-Pulmonaire de base
CONJ 1 CE2 Je comprends les notions daction passée, présente, future.
Classification Multi Source En Intégrant La Texture
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
PC what happened? tell the sequence of events dabord ensuite, puis talk about a change or reaction to something Soudain, tout dun coup (suddenly) à ce.
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Traitements à base d’histogrammes Cours 6
Recherche Documentaire et traitement de l’information
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
SYSTEMES D’INFORMATION
1.3 COORDONNÉES DES POINTS
La Saint-Valentin Par Matt Maxwell.
SPI - Serial Peripheral Interface
Les modèles linéaires (Generalized Linear Models, GLM)
Match-up the numbers to the letters
1.1 LES VECTEURS GÉOMÉTRIQUES
Yasmina ABBAS EDF - Division Recherche et Développement (Division R&D)
Notre calendrier français MARS 2014
3ème partie: les filtres
C'est pour bientôt.....
Les nombres.
Veuillez trouver ci-joint
Résoudre une équation du 1er degré à une inconnue
2.2 PRODUIT SCALAIRE ET CALCUL D’ANGLES
SUJET D’ENTRAINEMENT n°4
Copyright 2011 – Les Chiffres Copyright 2011 –
Échantillonnage (STT-2000) Section 2 Tirage de Bernoulli (plan BE). Version: 4 septembre 2003.
NORMALISATION DES LANGAGES DE PROGRAMMATION des Automates Programmables Industriels CEI
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
LUNDI – MARDI – MERCREDI – JEUDI – VENDREDI – SAMEDI – DIMANCHE
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
10 paires -. 9 séries de 3 étuis ( n° 1 à 27 ) 9 positions à jouer 5 tables Réalisé par M..Chardon.
CALENDRIER-PLAYBOY 2020.
Mesurer l’intensité du courant continu qui circule dans ce circuit.
Quel est l’intérêt d’utiliser le diagramme de Gantt dans la démarche de projet A partir d’un exemple concret, nous allons pouvoir exploiter plusieurs parties.
Médiathèque de Chauffailles du 3 au 28 mars 2009.
Rappels de statistiques descriptives
TALN 2005, Dourdan1 Construction automatique de classes de sélection distributionnelle Guillaume Jacquet et Fabienne Venant Lattice-CNRS UMR 8094.
Sylwia Ozdowska1, Vincent Claveau2
Transcription de la présentation:

Analyse distributionnelle automatique Didier Bourigault Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr www.univ-tlse2.fr/erss/

Zellig S. Harris et les sous-langages Construction du sens Pas de sens a priori : « There is no usable classification and strucure of meaning per se, such as we could assign the words of a given language to an a priory organization of meaning. » (Harris, 1988, p. 62) Exemple : les verbes multiply et divide Le sens est analysable en étudiant les relations de dépendance qu’un mot a avec ses opérateurs et/ou opérandes dans un corpus Mais les restrictions de sélection qu’un opérateur donné impose à ses arguments : sont relativement floues en langue générale (« language as a whole ») ont des limites très tranchées dans les sous-langages (« sublanguages ») sublanguage : « language used by a particular community of speakers, say, those concerned with a particular subject matter or those engaged in a specialized occupation » (Sager, 1986, p. 2) D. BOURIGAULT Analyse distributionnelle

Opposition langue générale / sous-langage : exemple Corpus « langue générale » : 10 années du journal Le Monde sous-language : Comptes rendus de réanimation chirurgicale (anatomie pathologique) les sujets de montrer les objets de montrer exemple limite signe image voie volonté visage … LG épanchement hématome persistance absence contusion présence fracture … SL étude enquête sondage expérience film résultat image … LG scanner cérébral radiographie bilan échographie cardiaque ECG doppler fibroscopie … SL examen MONTRER problème D. BOURIGAULT Analyse distributionnelle

Méthodologie harrissienne Adaptation des méthodes de linguistique descriptive utilisées pour la découverte d’une grammaire d’une langue 4 étapes : 1. Analyse syntaxique manuelle (Harris), automatique (Sager) 2. Régularisation (normalisation) syntaxique ex. : passif actif 3. Interrogation d’un expert classes sémantiques de base 4. Mise au jour des classes et schémas caractéristiques du sous-langage par analyse des régularités opérateurs/arguments (ex. : verbe/objet) D. BOURIGAULT Analyse distributionnelle

TALN : analyse distributionnelle automatique Depuis le début des années 90 : (Hindle, 1990) (Greffenstete,1994) (Lin, 1998) (Habert et al.) Principe : « à partir d’un corpus analysé syntaxiquement, rapprocher des couples d’unités que l’on retrouve dans des contextes syntaxiques identiques » Pour mettre au jour les classes sémantiques d’un domaine terminologies, base de connaissances, ontologies [ plaie , cicatrice ] modifiés par les adjectifs : [ scanner , radiographie ] sujet des verbes : médiane propre sternal utérine abdominale droite confirmer montrer objectiver révéler retrouver D. BOURIGAULT Analyse distributionnelle

A l’ERSS… Analyseur syntaxique Syntex Analyseur distributionnel Upery Analyse en dépendance Français, anglais Analyseur distributionnel Upery 1. Extraction de couples Prédicats/Arguments 2. Calcul de proximités distributionnelles entre prédicats et entre arguments 3. Construction de classes de prédicats et d’arguments (doubles cliques) La chaîne d’analyse Syntex + Upery est utilisée De façon opérationnelle, sur des corpus spécialisés, pour la construction de terminologies De façon exploratoire, sur des corpus de « langue générale » de très grande taille, pour des recherches en sémantique lexicale (thèse E. Galy) D. BOURIGAULT Analyse distributionnelle

Extraction de couples (prédicat, argument) De l’analyse syntaxique en dépendance (Syntex) à la construction de couples (prédicat, argument) Un triplet syntaxique (recteur , relation , régi) … fournit un couple (prédicat , argument) = (recteur_relation , régi) rel suj obj mod AS Le scanner montre une lésion nodulaire. recteur régi ( montrer_suj , scanner) ( montrer_obj , lésion ) ( lésion_mod , nodulaire) AD (recteur_rel , régi) D. BOURIGAULT Analyse distributionnelle

L’analyse distributionnelle est duale : distinction prédicat / argument Rapprocher des prédicats qui partagent les mêmes arguments ET rapprocher des arguments qui partagent les mêmes prédicats Exemples (corpus médical) Rapprochement de prédicats Rapprochement d’arguments [ scanner, échographie ] [ montrer_suj , retrouver_suj ] effectuer_suj montrer_suj pratiquer_obj réaliser_obj radiographie doppler bilan scanner écographie D. BOURIGAULT Analyse distributionnelle

1. Extraction des couples (prédicat, argument) Cas standard : Une relation de dépendance syntaxique fournit un couple : suj obj mod Le scanner montre une lésion nodulaire. ( montrer_suj , scanner) ( montrer_obj , lésion ) ( lésion_mod , nodulaire) D. BOURIGAULT Analyse distributionnelle

1. Extraction des couples (prédicat, argument) Traitement des prépositions : 2 relations syntaxiques : 1 couple elle est associée à une pneumoconiose. Un traitement par adriamycine ( associer_à , pneumoconiose) ( traitement_par , adriamycine) D. BOURIGAULT Analyse distributionnelle

1. Extraction des couples (prédicat, argument) Traitement du passif : rétablissement de la construction active Le diagnostic est confirmé par le scanner. ( confirmer_obj , diagnostic ) ( confirmer_suj , scanner ) D. BOURIGAULT Analyse distributionnelle

1. Extraction des couples (prédicat, argument) Traitement de la coordination : distribution On a réalisé un scanner et une échographie ( réaliser_obj , scanner ) ( réaliser_obj , échographie ) D. BOURIGAULT Analyse distributionnelle

1. Extraction des couples (prédicat, argument) Structure à contrôle V + VINF : aller, venir, savoir, pouvoir, devoir, vouloir, croire, aimer, compter, daigner, désirer, espérer, etc. V + à + VINF : arriver, chercher, commencer, consentir, continuer, hésiter, , etc. L’ échographie va peut-être le confirmer La tension commence à diminuer ( confirmer_suj , échographie ) ( diminuer_suj , tension ) D. BOURIGAULT Analyse distributionnelle

1. Extraction des couples (prédicat, argument) Prise en compte de syntagmes nominaux arguments Le scanner montre une lésion nodulaire. ( montrer_suj , scanner) ( montrer_obj , lésion ) ( montrer_obj , lésion nodulaire ) ( lésion_mod , nodulaire) D. BOURIGAULT Analyse distributionnelle

2. Calcul des proximités distributionnelles : Jaccard Productivité d’un prédicat : nombre d’arguments différents avec lesquels on le trouve d’un argument : nombre de prédicats différents avec lesquels on le trouve Jaccard Soit p1 et p2 deux prédicats Soit n1 la productivité de p1 et n2 la productivité de p2 Soit a le nombre d’arguments partagés par p1 et p2 a proxjacc (p1,p2)= n1 + n2 - a D. BOURIGAULT Analyse distributionnelle

2. Calcul des proximités distributionnelles : exemple scanner_mod échographie_mod abdominal cérébral cervical hélicoïdal hépatique négatif spiralé thoracique abdominal hépatique normal thoracique 3 proxjacc = = 0.33 8 + 4 - 3 productivité = 8 productivité = 4 nb d’arguments en commun = 3 D. BOURIGAULT Analyse distributionnelle

3. Calcul des doubles cliques : principe Double clique : un ensemble de prédicats et un ensemble d’arguments tels que (presque) tous les prédicats se trouvent avec (presque) tous les arguments. Exemple : Prédicats Arguments échographie_mod radiographie_mod scanner_mod abdominal cérébral cervical hélicoïdal hépatique négatif 16 couples présents sur 18 couples possibles (3x6) : couples ABSENTS D. BOURIGAULT Analyse distributionnelle

3. Calcul des doubles cliques : cohésion Définition de la cohésion d’une double clique à partir de la notion de proximité entre prédicats et entre arguments Soit P = l’ensemble des prédicats de la DC. On définit aP comme l’argument fictif qui a pour prédicats l’ensemble P Soit A = l’ensemble des arguments de la DC. On définit pA comme le prédicat fictif qui a pour arguments l’ensemble A Pour chaque prédicat p de P, on calcule la proximité entre p et le prédicat pA Pour chaque argument a de A, on calcule la proximité entre a et l’argument aP La cohésion de la double clique est calculée comme la moyenne de ces proximités  p Є P prox (p, pA) +  a Є A prox (a,aP) NP + NA cohésion(P,A) = NP = card(P) NA = card(A) D. BOURIGAULT Analyse distributionnelle

3. Calcul des doubles cliques : cohésion Soit la double clique : P = {échographie_mod, radiographie_mod, scanner_mod} A = {abdominal, cérébral, cervical, hélicoïdal, hépatique, négatif} scanner_mod pA abdominal aP abdominal cérébral cervical hélicoïdal hépatique négatif spiralé thoracique abdominal cérébral cervical hélicoïdal hépatique négatif affection_mod douleur-_mod examen_mod échographie_mod expansion_mod masse_mod mouvement_mod respiration_mod scanner_mod échographie_mod radiographie_mod scanner_mod proxjacc = 6 / ( 8 + 6 - 6 ) = 0.75 proxjacc = 2 / ( 9 + 3 - 2 ) = 0.20 Idem avec les autres prédicats de P Idem avec les autres arguments de A puis calcul de la moyenne des proximités D. BOURIGAULT Analyse distributionnelle

3. Calcul des doubles cliques : algorithme Descente de gradient sur la cohésion A partir des prédicats Initialisation : soit p un prédicat, on construit la double clique DC0 telle que : A est constitué de l’ensemble des arguments de p P est constitué du prédicat p et du prédicat le plus proche de pA. Itération : pour passer DCi à DCi+1, Effectuer la meilleure des 4 actions possibles : ôter de P le « moins bon » prédicat (prox avec pA la plus faible) ôter de A le « moins bon » argument (prox avec aP la plus faible) intégrer à P le « meilleur » prédicat (prox avec pA la plus forte) intégrer à A le « meilleur » argument (prox avec aP la plus forte) Arrêter quand on ne peut plus augmenter la cohésion Idem à partir des arguments Fusion des doubles cliques « proches » D. BOURIGAULT Analyse distributionnelle

Analyse distributionnelle de corpus de langue générale de grande taille 2 gros corpus : LM10 : 10 années du journal Le monde (1991-2000) 200 millions de mots Vendu par l’agence ELA, nettoyé et balisé par B. Habert Frantext 20e 515 romans 30 millions de mots Founri par l’ATILF Résultats quantitatifs : la masse ! LM10 : 6 183 862 couples de mots rapprochés Frantext20 : 792 354 couples de mots rapprochés D. BOURIGAULT Analyse distributionnelle

D. BOURIGAULT Analyse distributionnelle

D. BOURIGAULT Analyse distributionnelle

D. BOURIGAULT Analyse distributionnelle

D. BOURIGAULT Analyse distributionnelle

D. BOURIGAULT Analyse distributionnelle

D. BOURIGAULT Analyse distributionnelle

D. BOURIGAULT Analyse distributionnelle