La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Analyse distributionnelle automatique Didier Bourigault Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail

Présentations similaires


Présentation au sujet: "Analyse distributionnelle automatique Didier Bourigault Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail"— Transcription de la présentation:

1 Analyse distributionnelle automatique Didier Bourigault Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail

2 D. BOURIGAULT Analyse distributionnelle 2 Zellig S. Harris et les sous-langages Harris (1988, 1990, 1991) Construction du sens Pas de sens a priori : « There is no usable classification and strucure of meaning per se, such as we could assign the words of a given language to an a priory organization of meaning. » (Harris, 1988, p. 62) Exemple : les verbes multiply et divide Le sens est analysable en étudiant les relations de dépendance quun mot a avec ses opérateurs et/ou opérandes dans un corpus Mais les restrictions de sélection quun opérateur donné impose à ses arguments : sont relativement floues en langue générale (« language as a whole ») ont des limites très tranchées dans les sous-langages (« sublanguages ») sublanguage : « language used by a particular community of speakers, say, those concerned with a particular subject matter or those engaged in a specialized occupation » (Sager, 1986, p. 2)

3 D. BOURIGAULT Analyse distributionnelle 3 Opposition langue générale / sous-langage : exemple les sujets de montrer Corpus « langue générale » : 10 années du journal Le Monde sous-language : Comptes rendus de réanimation chirurgicale (anatomie pathologique) les objets de montrer étude enquête sondage expérience film résultat image … LG exemple limite signe image voie volonté visage … LG scanner cérébral radiographie bilan échographie cardiaque ECG doppler fibroscopie … SL épanchement hématome persistance absence contusion présence fracture … SL examen MONTRER problème

4 D. BOURIGAULT Analyse distributionnelle 4 Méthodologie harrissienne Adaptation des méthodes de linguistique descriptive utilisées pour la découverte dune grammaire dune langue 4 étapes : 1. Analyse syntaxique manuelle (Harris), automatique (Sager) 2. Régularisation (normalisation) syntaxique ex. : passif actif 3. Interrogation dun expert classes sémantiques de base 4. Mise au jour des classes et schémas caractéristiques du sous-langage par analyse des régularités opérateurs/arguments (ex. : verbe/objet)

5 D. BOURIGAULT Analyse distributionnelle 5 TALN : analyse distributionnelle automatique Depuis le début des années 90 : (Hindle, 1990) (Greffenstete,1994) (Lin, 1998) (Habert et al.) Principe : « à partir dun corpus analysé syntaxiquement, rapprocher des couples dunités que lon retrouve dans des contextes syntaxiques identiques » Pour mettre au jour les classes sémantiques dun domaine terminologies, base de connaissances, ontologies [ plaie, cicatrice ] modifiés par les adjectifs : médiane propre sternal utérine abdominale droite [ scanner, radiographie ] sujet des verbes : confirmer montrer objectiver révéler retrouver

6 D. BOURIGAULT Analyse distributionnelle 6 A lERSS… Analyseur syntaxique Syntex Analyse en dépendance Français, anglais Analyseur distributionnel Upery 1. Extraction de couples Prédicats/Arguments 2. Calcul de proximités distributionnelles entre prédicats et entre arguments 3. Construction de classes de prédicats et darguments (doubles cliques) La chaîne danalyse Syntex + Upery est utilisée De façon opérationnelle, sur des corpus spécialisés, pour la construction de terminologies De façon exploratoire, sur des corpus de « langue générale » de très grande taille, pour des recherches en sémantique lexicale (thèse E. Galy)

7 D. BOURIGAULT Analyse distributionnelle 7 Extraction de couples (prédicat, argument) De lanalyse syntaxique en dépendance (Syntex) à la construction de couples (prédicat, argument) Un triplet syntaxique (recteur, relation, régi) … fournit un couple (prédicat, argument) = (recteur_relation, régi) Le scanner montre une lésion nodulaire. sujmodobj ( montrer_suj, scanner) ( montrer_obj, lésion ) ( lésion_mod, nodulaire) recteur régi rel (recteur_rel, régi) AS AD

8 D. BOURIGAULT Analyse distributionnelle 8 Lanalyse distributionnelle est duale : distinction prédicat / argument Rapprocher des prédicats qui partagent les mêmes arguments ET rapprocher des arguments qui partagent les mêmes prédicats Exemples (corpus médical) [ montrer_suj, retrouver_suj ] radiographie doppler bilan scanner écographie Rapprochement de prédicats Rapprochement darguments [ scanner, échographie ] effectuer_suj montrer_suj pratiquer_obj réaliser_obj

9 D. BOURIGAULT Analyse distributionnelle 9 1. Extraction des couples (prédicat, argument) Cas standard : Une relation de dépendance syntaxique fournit un couple : Le scanner montre une lésion nodulaire. sujmodobj ( montrer_suj, scanner) ( montrer_obj, lésion ) ( lésion_mod, nodulaire)

10 D. BOURIGAULT Analyse distributionnelle Extraction des couples (prédicat, argument) Traitement des prépositions : 2 relations syntaxiques : 1 couple elle est associée à une pneumoconiose. ( associer_à, pneumoconiose) Un traitement par adriamycine ( traitement_par, adriamycine)

11 D. BOURIGAULT Analyse distributionnelle Extraction des couples (prédicat, argument) Traitement du passif : rétablissement de la construction active Le diagnostic est confirmé par le scanner. ( confirmer_obj, diagnostic ) ( confirmer_suj, scanner )

12 D. BOURIGAULT Analyse distributionnelle Extraction des couples (prédicat, argument) Traitement de la coordination : distribution On a réalisé un scanner et une échographie ( réaliser_obj, scanner ) ( réaliser_obj, échographie )

13 D. BOURIGAULT Analyse distributionnelle Extraction des couples (prédicat, argument) Structure à contrôle V + VINF : aller, venir, savoir, pouvoir, devoir, vouloir, croire, aimer, compter, daigner, désirer, espérer, etc. V + à + VINF : arriver, chercher, commencer, consentir, continuer, hésiter,, etc. L échographie va peut-être le confirmer ( confirmer_suj, échographie ) La tension commence à diminuer ( diminuer_suj, tension )

14 D. BOURIGAULT Analyse distributionnelle Extraction des couples (prédicat, argument) Prise en compte de syntagmes nominaux arguments Le scanner montre une lésion nodulaire. ( montrer_suj, scanner) ( montrer_obj, lésion ) ( montrer_obj, lésion nodulaire ) ( lésion_mod, nodulaire)

15 D. BOURIGAULT Analyse distributionnelle Calcul des proximités distributionnelles : Jaccard Productivité dun prédicat : nombre darguments différents avec lesquels on le trouve dun argument : nombre de prédicats différents avec lesquels on le trouve Jaccard Soit p 1 et p 2 deux prédicats Soit n 1 la productivité de p 1 et n 2 la productivité de p 2 Soit a le nombre darguments partagés par p 1 et p 2 a prox jacc (p 1,p 2 )= n1 + n2 - a

16 D. BOURIGAULT Analyse distributionnelle Calcul des proximités distributionnelles : exemple Exemple abdominal cérébral cervical hélicoïdal hépatique négatif spiralé thoracique scanner_mod productivité = 8 abdominal hépatique normal thoracique échographie_mod productivité = 4 nb darguments en commun = 3 3 prox jacc = =

17 D. BOURIGAULT Analyse distributionnelle Calcul des doubles cliques : principe Double clique : un ensemble de prédicats et un ensemble darguments tels que (presque) tous les prédicats se trouvent avec (presque) tous les arguments. Exemple : abdominal cérébral cervical hélicoïdal hépatique négatif échographie_mod radiographie_mod scanner_mod PrédicatsArguments : couples ABSENTS 16 couples présents sur 18 couples possibles (3x6)

18 D. BOURIGAULT Analyse distributionnelle Calcul des doubles cliques : cohésion Définition de la cohésion dune double clique à partir de la notion de proximité entre prédicats et entre arguments Soit P = lensemble des prédicats de la DC. On définit a P comme largument fictif qui a pour prédicats lensemble P Soit A = lensemble des arguments de la DC. On définit p A comme le prédicat fictif qui a pour arguments lensemble A Pour chaque prédicat p de P, on calcule la proximité entre p et le prédicat p A Pour chaque argument a de A, on calcule la proximité entre a et largument a P La cohésion de la double clique est calculée comme la moyenne de ces proximités p Є P prox (p, p A ) + a Є A prox (a,a P ) N P + N A N P = card(P) N A = card(A) cohésion(P,A) =

19 D. BOURIGAULT Analyse distributionnelle Calcul des doubles cliques : cohésion abdominal cérébral cervical hélicoïdal hépatique négatif échographie_mod radiographie_mod scanner_mod aPaP Soit la double clique : P = {échographie_mod, radiographie_mod, scanner_mod} A = {abdominal, cérébral, cervical, hélicoïdal, hépatique, négatif} pApA abdominal cérébral cervical hélicoïdal hépatique négatif spiralé thoracique scanner_mod prox jacc = 6 / ( ) = 0.75 affection_mod douleur-_mod examen_mod échographie_mod expansion_mod masse_mod mouvement_mod respiration_mod scanner_mod abdominal Idem avec les autres prédicats de PIdem avec les autres arguments de A prox jacc = 2 / ( ) = 0.20 puis calcul de la moyenne des proximités

20 D. BOURIGAULT Analyse distributionnelle Calcul des doubles cliques : algorithme Descente de gradient sur la cohésion A partir des prédicats Initialisation : soit p un prédicat, on construit la double clique DC 0 telle que : A est constitué de lensemble des arguments de p P est constitué du prédicat p et du prédicat le plus proche de p A. Itération : pour passer DC i à DC i+1, Effectuer la meilleure des 4 actions possibles : ôter de P le « moins bon » prédicat (prox avec p A la plus faible) ôter de A le « moins bon » argument (prox avec a P la plus faible) intégrer à P le « meilleur » prédicat (prox avec p A la plus forte) intégrer à A le « meilleur » argument (prox avec a P la plus forte) Arrêter quand on ne peut plus augmenter la cohésion Idem à partir des arguments Fusion des doubles cliques « proches »

21 D. BOURIGAULT Analyse distributionnelle 21 Analyse distributionnelle de corpus de langue générale de grande taille « langue générale » ? 2 gros corpus : LM10 : 10 années du journal Le monde ( ) 200 millions de mots Vendu par lagence ELA, nettoyé et balisé par B. Habert Frantext 20e 515 romans 30 millions de mots Founri par lATILF Résultats quantitatifs : la masse ! LM10 : couples de mots rapprochés Frantext20 : couples de mots rapprochés

22 D. BOURIGAULT Analyse distributionnelle 22

23 D. BOURIGAULT Analyse distributionnelle 23

24 D. BOURIGAULT Analyse distributionnelle 24

25 D. BOURIGAULT Analyse distributionnelle 25

26 D. BOURIGAULT Analyse distributionnelle 26

27 D. BOURIGAULT Analyse distributionnelle 27

28 D. BOURIGAULT Analyse distributionnelle 28


Télécharger ppt "Analyse distributionnelle automatique Didier Bourigault Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail"

Présentations similaires


Annonces Google