La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Analyse distributionnelle automatique

Présentations similaires


Présentation au sujet: "Analyse distributionnelle automatique"— Transcription de la présentation:

1 Analyse distributionnelle automatique
Didier Bourigault Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail

2 Zellig S. Harris et les sous-langages
Construction du sens Pas de sens a priori : « There is no usable classification and strucure of meaning per se, such as we could assign the words of a given language to an a priory organization of meaning. » (Harris, 1988, p. 62) Exemple : les verbes multiply et divide Le sens est analysable en étudiant les relations de dépendance qu’un mot a avec ses opérateurs et/ou opérandes dans un corpus Mais les restrictions de sélection qu’un opérateur donné impose à ses arguments : sont relativement floues en langue générale (« language as a whole ») ont des limites très tranchées dans les sous-langages (« sublanguages ») sublanguage : « language used by a particular community of speakers, say, those concerned with a particular subject matter or those engaged in a specialized occupation » (Sager, 1986, p. 2) D. BOURIGAULT Analyse distributionnelle

3 Opposition langue générale / sous-langage : exemple
Corpus « langue générale » : 10 années du journal Le Monde sous-language : Comptes rendus de réanimation chirurgicale (anatomie pathologique) les sujets de montrer les objets de montrer exemple limite signe image voie volonté visage LG épanchement hématome persistance absence contusion présence fracture SL étude enquête sondage expérience film résultat image LG scanner cérébral radiographie bilan échographie cardiaque ECG doppler fibroscopie SL examen MONTRER problème D. BOURIGAULT Analyse distributionnelle

4 Méthodologie harrissienne
Adaptation des méthodes de linguistique descriptive utilisées pour la découverte d’une grammaire d’une langue 4 étapes : 1. Analyse syntaxique manuelle (Harris), automatique (Sager) 2. Régularisation (normalisation) syntaxique ex. : passif actif 3. Interrogation d’un expert classes sémantiques de base 4. Mise au jour des classes et schémas caractéristiques du sous-langage par analyse des régularités opérateurs/arguments (ex. : verbe/objet) D. BOURIGAULT Analyse distributionnelle

5 TALN : analyse distributionnelle automatique
Depuis le début des années 90 : (Hindle, 1990) (Greffenstete,1994) (Lin, 1998) (Habert et al.) Principe : « à partir d’un corpus analysé syntaxiquement, rapprocher des couples d’unités que l’on retrouve dans des contextes syntaxiques identiques » Pour mettre au jour les classes sémantiques d’un domaine terminologies, base de connaissances, ontologies [ plaie , cicatrice ] modifiés par les adjectifs : [ scanner , radiographie ] sujet des verbes : médiane propre sternal utérine abdominale droite confirmer montrer objectiver révéler retrouver D. BOURIGAULT Analyse distributionnelle

6 A l’ERSS… Analyseur syntaxique Syntex Analyseur distributionnel Upery
Analyse en dépendance Français, anglais Analyseur distributionnel Upery 1. Extraction de couples Prédicats/Arguments 2. Calcul de proximités distributionnelles entre prédicats et entre arguments 3. Construction de classes de prédicats et d’arguments (doubles cliques) La chaîne d’analyse Syntex + Upery est utilisée De façon opérationnelle, sur des corpus spécialisés, pour la construction de terminologies De façon exploratoire, sur des corpus de « langue générale » de très grande taille, pour des recherches en sémantique lexicale (thèse E. Galy) D. BOURIGAULT Analyse distributionnelle

7 Extraction de couples (prédicat, argument)
De l’analyse syntaxique en dépendance (Syntex) à la construction de couples (prédicat, argument) Un triplet syntaxique (recteur , relation , régi) … fournit un couple (prédicat , argument) = (recteur_relation , régi) rel suj obj mod AS Le scanner montre une lésion nodulaire. recteur régi ( montrer_suj , scanner) ( montrer_obj , lésion ) ( lésion_mod , nodulaire) AD (recteur_rel , régi) D. BOURIGAULT Analyse distributionnelle

8 L’analyse distributionnelle est duale : distinction prédicat / argument
Rapprocher des prédicats qui partagent les mêmes arguments ET rapprocher des arguments qui partagent les mêmes prédicats Exemples (corpus médical) Rapprochement de prédicats Rapprochement d’arguments [ scanner, échographie ] [ montrer_suj , retrouver_suj ] effectuer_suj montrer_suj pratiquer_obj réaliser_obj radiographie doppler bilan scanner écographie D. BOURIGAULT Analyse distributionnelle

9 1. Extraction des couples (prédicat, argument)
Cas standard : Une relation de dépendance syntaxique fournit un couple : suj obj mod Le scanner montre une lésion nodulaire. ( montrer_suj , scanner) ( montrer_obj , lésion ) ( lésion_mod , nodulaire) D. BOURIGAULT Analyse distributionnelle

10 1. Extraction des couples (prédicat, argument)
Traitement des prépositions : 2 relations syntaxiques : 1 couple elle est associée à une pneumoconiose. Un traitement par adriamycine ( associer_à , pneumoconiose) ( traitement_par , adriamycine) D. BOURIGAULT Analyse distributionnelle

11 1. Extraction des couples (prédicat, argument)
Traitement du passif : rétablissement de la construction active Le diagnostic est confirmé par le scanner. ( confirmer_obj , diagnostic ) ( confirmer_suj , scanner ) D. BOURIGAULT Analyse distributionnelle

12 1. Extraction des couples (prédicat, argument)
Traitement de la coordination : distribution On a réalisé un scanner et une échographie ( réaliser_obj , scanner ) ( réaliser_obj , échographie ) D. BOURIGAULT Analyse distributionnelle

13 1. Extraction des couples (prédicat, argument)
Structure à contrôle V + VINF : aller, venir, savoir, pouvoir, devoir, vouloir, croire, aimer, compter, daigner, désirer, espérer, etc. V + à + VINF : arriver, chercher, commencer, consentir, continuer, hésiter, , etc. L’ échographie va peut-être le confirmer La tension commence à diminuer ( confirmer_suj , échographie ) ( diminuer_suj , tension ) D. BOURIGAULT Analyse distributionnelle

14 1. Extraction des couples (prédicat, argument)
Prise en compte de syntagmes nominaux arguments Le scanner montre une lésion nodulaire. ( montrer_suj , scanner) ( montrer_obj , lésion ) ( montrer_obj , lésion nodulaire ) ( lésion_mod , nodulaire) D. BOURIGAULT Analyse distributionnelle

15 2. Calcul des proximités distributionnelles : Jaccard
Productivité d’un prédicat : nombre d’arguments différents avec lesquels on le trouve d’un argument : nombre de prédicats différents avec lesquels on le trouve Jaccard Soit p1 et p2 deux prédicats Soit n1 la productivité de p1 et n2 la productivité de p2 Soit a le nombre d’arguments partagés par p1 et p2 a proxjacc (p1,p2)= n1 + n2 - a D. BOURIGAULT Analyse distributionnelle

16 2. Calcul des proximités distributionnelles : exemple
scanner_mod échographie_mod abdominal cérébral cervical hélicoïdal hépatique négatif spiralé thoracique abdominal hépatique normal thoracique 3 proxjacc = = 0.33 productivité = 8 productivité = 4 nb d’arguments en commun = 3 D. BOURIGAULT Analyse distributionnelle

17 3. Calcul des doubles cliques : principe
Double clique : un ensemble de prédicats et un ensemble d’arguments tels que (presque) tous les prédicats se trouvent avec (presque) tous les arguments. Exemple : Prédicats Arguments échographie_mod radiographie_mod scanner_mod abdominal cérébral cervical hélicoïdal hépatique négatif 16 couples présents sur 18 couples possibles (3x6) : couples ABSENTS D. BOURIGAULT Analyse distributionnelle

18 3. Calcul des doubles cliques : cohésion
Définition de la cohésion d’une double clique à partir de la notion de proximité entre prédicats et entre arguments Soit P = l’ensemble des prédicats de la DC. On définit aP comme l’argument fictif qui a pour prédicats l’ensemble P Soit A = l’ensemble des arguments de la DC. On définit pA comme le prédicat fictif qui a pour arguments l’ensemble A Pour chaque prédicat p de P, on calcule la proximité entre p et le prédicat pA Pour chaque argument a de A, on calcule la proximité entre a et l’argument aP La cohésion de la double clique est calculée comme la moyenne de ces proximités  p Є P prox (p, pA) +  a Є A prox (a,aP) NP + NA cohésion(P,A) = NP = card(P) NA = card(A) D. BOURIGAULT Analyse distributionnelle

19 3. Calcul des doubles cliques : cohésion
Soit la double clique : P = {échographie_mod, radiographie_mod, scanner_mod} A = {abdominal, cérébral, cervical, hélicoïdal, hépatique, négatif} scanner_mod pA abdominal aP abdominal cérébral cervical hélicoïdal hépatique négatif spiralé thoracique abdominal cérébral cervical hélicoïdal hépatique négatif affection_mod douleur-_mod examen_mod échographie_mod expansion_mod masse_mod mouvement_mod respiration_mod scanner_mod échographie_mod radiographie_mod scanner_mod proxjacc = 6 / ( ) = 0.75 proxjacc = 2 / ( ) = 0.20 Idem avec les autres prédicats de P Idem avec les autres arguments de A puis calcul de la moyenne des proximités D. BOURIGAULT Analyse distributionnelle

20 3. Calcul des doubles cliques : algorithme
Descente de gradient sur la cohésion A partir des prédicats Initialisation : soit p un prédicat, on construit la double clique DC0 telle que : A est constitué de l’ensemble des arguments de p P est constitué du prédicat p et du prédicat le plus proche de pA. Itération : pour passer DCi à DCi+1, Effectuer la meilleure des 4 actions possibles : ôter de P le « moins bon » prédicat (prox avec pA la plus faible) ôter de A le « moins bon » argument (prox avec aP la plus faible) intégrer à P le « meilleur » prédicat (prox avec pA la plus forte) intégrer à A le « meilleur » argument (prox avec aP la plus forte) Arrêter quand on ne peut plus augmenter la cohésion Idem à partir des arguments Fusion des doubles cliques « proches » D. BOURIGAULT Analyse distributionnelle

21 Analyse distributionnelle de corpus de langue générale de grande taille
2 gros corpus : LM10 : 10 années du journal Le monde ( ) 200 millions de mots Vendu par l’agence ELA, nettoyé et balisé par B. Habert Frantext 20e 515 romans 30 millions de mots Founri par l’ATILF Résultats quantitatifs : la masse ! LM10 : couples de mots rapprochés Frantext20 : couples de mots rapprochés D. BOURIGAULT Analyse distributionnelle

22 D. BOURIGAULT Analyse distributionnelle

23 D. BOURIGAULT Analyse distributionnelle

24 D. BOURIGAULT Analyse distributionnelle

25 D. BOURIGAULT Analyse distributionnelle

26 D. BOURIGAULT Analyse distributionnelle

27 D. BOURIGAULT Analyse distributionnelle

28 D. BOURIGAULT Analyse distributionnelle


Télécharger ppt "Analyse distributionnelle automatique"

Présentations similaires


Annonces Google