Analyse distributionnelle automatique Didier Bourigault Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr www.univ-tlse2.fr/erss/
Zellig S. Harris et les sous-langages Construction du sens Pas de sens a priori : « There is no usable classification and strucure of meaning per se, such as we could assign the words of a given language to an a priory organization of meaning. » (Harris, 1988, p. 62) Exemple : les verbes multiply et divide Le sens est analysable en étudiant les relations de dépendance qu’un mot a avec ses opérateurs et/ou opérandes dans un corpus Mais les restrictions de sélection qu’un opérateur donné impose à ses arguments : sont relativement floues en langue générale (« language as a whole ») ont des limites très tranchées dans les sous-langages (« sublanguages ») sublanguage : « language used by a particular community of speakers, say, those concerned with a particular subject matter or those engaged in a specialized occupation » (Sager, 1986, p. 2) D. BOURIGAULT Analyse distributionnelle
Opposition langue générale / sous-langage : exemple Corpus « langue générale » : 10 années du journal Le Monde sous-language : Comptes rendus de réanimation chirurgicale (anatomie pathologique) les sujets de montrer les objets de montrer exemple limite signe image voie volonté visage … LG épanchement hématome persistance absence contusion présence fracture … SL étude enquête sondage expérience film résultat image … LG scanner cérébral radiographie bilan échographie cardiaque ECG doppler fibroscopie … SL examen MONTRER problème D. BOURIGAULT Analyse distributionnelle
Méthodologie harrissienne Adaptation des méthodes de linguistique descriptive utilisées pour la découverte d’une grammaire d’une langue 4 étapes : 1. Analyse syntaxique manuelle (Harris), automatique (Sager) 2. Régularisation (normalisation) syntaxique ex. : passif actif 3. Interrogation d’un expert classes sémantiques de base 4. Mise au jour des classes et schémas caractéristiques du sous-langage par analyse des régularités opérateurs/arguments (ex. : verbe/objet) D. BOURIGAULT Analyse distributionnelle
TALN : analyse distributionnelle automatique Depuis le début des années 90 : (Hindle, 1990) (Greffenstete,1994) (Lin, 1998) (Habert et al.) Principe : « à partir d’un corpus analysé syntaxiquement, rapprocher des couples d’unités que l’on retrouve dans des contextes syntaxiques identiques » Pour mettre au jour les classes sémantiques d’un domaine terminologies, base de connaissances, ontologies [ plaie , cicatrice ] modifiés par les adjectifs : [ scanner , radiographie ] sujet des verbes : médiane propre sternal utérine abdominale droite confirmer montrer objectiver révéler retrouver D. BOURIGAULT Analyse distributionnelle
A l’ERSS… Analyseur syntaxique Syntex Analyseur distributionnel Upery Analyse en dépendance Français, anglais Analyseur distributionnel Upery 1. Extraction de couples Prédicats/Arguments 2. Calcul de proximités distributionnelles entre prédicats et entre arguments 3. Construction de classes de prédicats et d’arguments (doubles cliques) La chaîne d’analyse Syntex + Upery est utilisée De façon opérationnelle, sur des corpus spécialisés, pour la construction de terminologies De façon exploratoire, sur des corpus de « langue générale » de très grande taille, pour des recherches en sémantique lexicale (thèse E. Galy) D. BOURIGAULT Analyse distributionnelle
Extraction de couples (prédicat, argument) De l’analyse syntaxique en dépendance (Syntex) à la construction de couples (prédicat, argument) Un triplet syntaxique (recteur , relation , régi) … fournit un couple (prédicat , argument) = (recteur_relation , régi) rel suj obj mod AS Le scanner montre une lésion nodulaire. recteur régi ( montrer_suj , scanner) ( montrer_obj , lésion ) ( lésion_mod , nodulaire) AD (recteur_rel , régi) D. BOURIGAULT Analyse distributionnelle
L’analyse distributionnelle est duale : distinction prédicat / argument Rapprocher des prédicats qui partagent les mêmes arguments ET rapprocher des arguments qui partagent les mêmes prédicats Exemples (corpus médical) Rapprochement de prédicats Rapprochement d’arguments [ scanner, échographie ] [ montrer_suj , retrouver_suj ] effectuer_suj montrer_suj pratiquer_obj réaliser_obj radiographie doppler bilan scanner écographie D. BOURIGAULT Analyse distributionnelle
1. Extraction des couples (prédicat, argument) Cas standard : Une relation de dépendance syntaxique fournit un couple : suj obj mod Le scanner montre une lésion nodulaire. ( montrer_suj , scanner) ( montrer_obj , lésion ) ( lésion_mod , nodulaire) D. BOURIGAULT Analyse distributionnelle
1. Extraction des couples (prédicat, argument) Traitement des prépositions : 2 relations syntaxiques : 1 couple elle est associée à une pneumoconiose. Un traitement par adriamycine ( associer_à , pneumoconiose) ( traitement_par , adriamycine) D. BOURIGAULT Analyse distributionnelle
1. Extraction des couples (prédicat, argument) Traitement du passif : rétablissement de la construction active Le diagnostic est confirmé par le scanner. ( confirmer_obj , diagnostic ) ( confirmer_suj , scanner ) D. BOURIGAULT Analyse distributionnelle
1. Extraction des couples (prédicat, argument) Traitement de la coordination : distribution On a réalisé un scanner et une échographie ( réaliser_obj , scanner ) ( réaliser_obj , échographie ) D. BOURIGAULT Analyse distributionnelle
1. Extraction des couples (prédicat, argument) Structure à contrôle V + VINF : aller, venir, savoir, pouvoir, devoir, vouloir, croire, aimer, compter, daigner, désirer, espérer, etc. V + à + VINF : arriver, chercher, commencer, consentir, continuer, hésiter, , etc. L’ échographie va peut-être le confirmer La tension commence à diminuer ( confirmer_suj , échographie ) ( diminuer_suj , tension ) D. BOURIGAULT Analyse distributionnelle
1. Extraction des couples (prédicat, argument) Prise en compte de syntagmes nominaux arguments Le scanner montre une lésion nodulaire. ( montrer_suj , scanner) ( montrer_obj , lésion ) ( montrer_obj , lésion nodulaire ) ( lésion_mod , nodulaire) D. BOURIGAULT Analyse distributionnelle
2. Calcul des proximités distributionnelles : Jaccard Productivité d’un prédicat : nombre d’arguments différents avec lesquels on le trouve d’un argument : nombre de prédicats différents avec lesquels on le trouve Jaccard Soit p1 et p2 deux prédicats Soit n1 la productivité de p1 et n2 la productivité de p2 Soit a le nombre d’arguments partagés par p1 et p2 a proxjacc (p1,p2)= n1 + n2 - a D. BOURIGAULT Analyse distributionnelle
2. Calcul des proximités distributionnelles : exemple scanner_mod échographie_mod abdominal cérébral cervical hélicoïdal hépatique négatif spiralé thoracique abdominal hépatique normal thoracique 3 proxjacc = = 0.33 8 + 4 - 3 productivité = 8 productivité = 4 nb d’arguments en commun = 3 D. BOURIGAULT Analyse distributionnelle
3. Calcul des doubles cliques : principe Double clique : un ensemble de prédicats et un ensemble d’arguments tels que (presque) tous les prédicats se trouvent avec (presque) tous les arguments. Exemple : Prédicats Arguments échographie_mod radiographie_mod scanner_mod abdominal cérébral cervical hélicoïdal hépatique négatif 16 couples présents sur 18 couples possibles (3x6) : couples ABSENTS D. BOURIGAULT Analyse distributionnelle
3. Calcul des doubles cliques : cohésion Définition de la cohésion d’une double clique à partir de la notion de proximité entre prédicats et entre arguments Soit P = l’ensemble des prédicats de la DC. On définit aP comme l’argument fictif qui a pour prédicats l’ensemble P Soit A = l’ensemble des arguments de la DC. On définit pA comme le prédicat fictif qui a pour arguments l’ensemble A Pour chaque prédicat p de P, on calcule la proximité entre p et le prédicat pA Pour chaque argument a de A, on calcule la proximité entre a et l’argument aP La cohésion de la double clique est calculée comme la moyenne de ces proximités p Є P prox (p, pA) + a Є A prox (a,aP) NP + NA cohésion(P,A) = NP = card(P) NA = card(A) D. BOURIGAULT Analyse distributionnelle
3. Calcul des doubles cliques : cohésion Soit la double clique : P = {échographie_mod, radiographie_mod, scanner_mod} A = {abdominal, cérébral, cervical, hélicoïdal, hépatique, négatif} scanner_mod pA abdominal aP abdominal cérébral cervical hélicoïdal hépatique négatif spiralé thoracique abdominal cérébral cervical hélicoïdal hépatique négatif affection_mod douleur-_mod examen_mod échographie_mod expansion_mod masse_mod mouvement_mod respiration_mod scanner_mod échographie_mod radiographie_mod scanner_mod proxjacc = 6 / ( 8 + 6 - 6 ) = 0.75 proxjacc = 2 / ( 9 + 3 - 2 ) = 0.20 Idem avec les autres prédicats de P Idem avec les autres arguments de A puis calcul de la moyenne des proximités D. BOURIGAULT Analyse distributionnelle
3. Calcul des doubles cliques : algorithme Descente de gradient sur la cohésion A partir des prédicats Initialisation : soit p un prédicat, on construit la double clique DC0 telle que : A est constitué de l’ensemble des arguments de p P est constitué du prédicat p et du prédicat le plus proche de pA. Itération : pour passer DCi à DCi+1, Effectuer la meilleure des 4 actions possibles : ôter de P le « moins bon » prédicat (prox avec pA la plus faible) ôter de A le « moins bon » argument (prox avec aP la plus faible) intégrer à P le « meilleur » prédicat (prox avec pA la plus forte) intégrer à A le « meilleur » argument (prox avec aP la plus forte) Arrêter quand on ne peut plus augmenter la cohésion Idem à partir des arguments Fusion des doubles cliques « proches » D. BOURIGAULT Analyse distributionnelle
Analyse distributionnelle de corpus de langue générale de grande taille 2 gros corpus : LM10 : 10 années du journal Le monde (1991-2000) 200 millions de mots Vendu par l’agence ELA, nettoyé et balisé par B. Habert Frantext 20e 515 romans 30 millions de mots Founri par l’ATILF Résultats quantitatifs : la masse ! LM10 : 6 183 862 couples de mots rapprochés Frantext20 : 792 354 couples de mots rapprochés D. BOURIGAULT Analyse distributionnelle
D. BOURIGAULT Analyse distributionnelle
D. BOURIGAULT Analyse distributionnelle
D. BOURIGAULT Analyse distributionnelle
D. BOURIGAULT Analyse distributionnelle
D. BOURIGAULT Analyse distributionnelle
D. BOURIGAULT Analyse distributionnelle
D. BOURIGAULT Analyse distributionnelle