Un dictionnaire multilingue de collocations

Slides:



Advertisements
Présentations similaires
Un thésaurus des services généraux pour l'Arseg
Advertisements

MOT Éditeur de modèles de connaissances par objets typés
Le modèle de communication
Sandrine Peraldi (ISIT) Jean-Philippe KOTOWICZ (INSA Rouen)
Introduction au langage C++
Olivier Kraif, Agnès Tutin LIDILEM
UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE
Niveau: 4ème Math Prof: Donia JEBALI Année Scolaire 2007/2008
Objectifs généraux de la 4e par compétences Le Niveau B1 + correspond à un degré élevé du Niveau seuil. Compréhension orale Comprendre le message global,
En ville M. Rocque. 1/23/20142 le supermarché 1/23/20143 le parc.
DOCUMENTS DE FORMATION CODEX FAO/OMS SECTION DEUX COMPRENDRE LORGANISATION DU CODEX Module 2.5 Comment les comités du Codex fonctionnent-ils ?
La Convention internationale sur la protection des droits de tous les travailleurs migrants et des membres de leur famille.
Urbanisation de Systèmes d'Information
Les tests et les logiciels de gestion de tests
M.E.D.A.L. Module dEnseignement à Distance pour lArchitecture Logicielle Alain VAILLY Diapositive n° 1 IUP MIAGE - Université de NANTES IUP-MIAGE 3ème.
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
OLST — Université de Montréal
L'étiquetage morpho-syntaxique d'un corpus oral Claudia-Mariana Ionescu Ripoll.
EVALUATIONS NATIONALES CM2
BTS MANAGEMENT DES UNITES COMMERCIALES
"Recherche de scénarios redoutés à partir d'un modèle réseau de Petri"
Veuillez sélectionner une question:
SFADA : Projet d’un Système de Formation à Distance de l’Arabe
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
ARC RAPSODIS Reconnaissance Automatique de la Parole Suivie et Orientée par Des Informations Syntaxico-Sémantiques PAROLE – METISS – TALARIS – TEXMEX –
L’observation réfléchie de la langue au cycle 3
Tout Comme Une Vieille Chanson
Directive 98/8/CE « Biocides »
Pour un système formel de description linguistique
Exploitation du modèle holonique dans un cadre combinant IAD et IHM
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
Du dictionnaire informatisé au système dinformation lexical intégré Serge Verlinde Institut des langues vivantes K.U.Leuven X papier Le dictionnaire nouveau.
Tout Comme Une Vieille Chanson
SOCLE COMMUN LIRE ET COMPRENDRE
Techniques de test Boulanger Jean-Louis.
Tout Comme Une Vieille Chanson
Nature ou fonction d’un mot
MOT Éditeur de modèles de connaissances par objets typés
Mamadou Dieye, Mohamed Rafik Doulache,
Vers des composants TAL réutilisables
Présentation du mémoire
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Systeme Question-Reponse SQR
Mise en oeuvre dun outil original daide en ligne à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP)
Forum des Industries de la Langue, 17 mars 2010
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
LA DIFFÉRENCE ENTRE L’ÉTUDE D’UNE PHRASE ET D’UN ENONCÉ
Les techniques des moteurs de recherche
NORMALISATION DES LANGAGES DE PROGRAMMATION des Automates Programmables Industriels CEI
Le FLE en contexte migratoire
La syntaxe du primaire au secondaire : portrait des élèves et pistes d’interventions Pascale Lefrançois, Isabelle Montésinos- Gelet, Dominic Anctil, Darrin.
Présenté par : Attia Hamza Merzouk Abdelkrim 2003/2004
Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.
Vers une analyse syntaxique à granularité variable Tristan Van rullen
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
Intégration de schémas
DOCUMENTS DE FORMATION CODEX FAO/OMS SECTION TROIS LES BASES DES ACTIVITES NATIONALES DU CODEX Module 3.2 Comment mettre au point des positions nationales.
1 Management des unités commerciales Management des unités commerciales LANGUE VIVANTE ÉTRANGÈRE I - coefficient 3 L’usage d’un dictionnaire bilingue est.
Programmation annuelle: Etude de la langue
Sylwia Ozdowska1, Vincent Claveau2
Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Collocations en contexte: étude et analyse contrastive.
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Le Traitement Automatique des Langues (TAL)
Conférences (CR) PACLING'03 Pacific Association for Computational LINGuistics 22 au 25 août 2003 Halifax, côte Est Canada RANLP Recent Advances in Natural.
Ecole _______________________________________________
 Persuasive Essay Unité 1- Les valeurs sociales et les traditions Le Télétravail.
NEDERLEX : un outil en ligne d'aide à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP) L. Dumortier.
Mise en oeuvre d’un outil original d’aide en ligne à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP)
Transcription de la présentation:

Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr

Plan Le projet "Collocations en contexte" Les collocations verbo-nominales Le dictionnaire L'extraction à partir des corpus monolingues L'extraction de candidats à partir des corpus multilingues alignés Evaluation Conclusion et perspectives 26/03/2017

Le projet objectifs: le développement d'un système d'extraction semi-automatique de collocations à partir des corpus paramétrable pour plusieurs langues(français, roumain, allemand) information contextuelle Création d'un dictionnaire multilingue des collocations Une classe spécifique de collocations projet du réseau "Lexicologie, Terminologie, Traduction", Agence Universitaire pour la Francophonie Université Marc Bloch de Strasbourg (UdS) Université de Stuttgart Académie Roumaine de Bucarest INSA Strasbourg 26/03/2017

Motivation Collocations TAL Traduction Lexicographie Apprentissage d'une langue étrangère 26/03/2017

Motivation (II) difficultés choix lexical a lua decizii mais make decisions donner une conférence mais pas tenir une conférence préferences morpho-syntaxiques faire l'objet de, porter atteinte sémantique sens non-compositionnel: faire la tête, make good any damage aspect: entamer une disscusion pragmatique: donner/flanquer + gifle 26/03/2017

Contexte Nombreux travaux sur les collocations propriétés des collocations (Grossmann et Tutin, 2003) dictionnaires monolingues ou bilingues Dico (Polguère 2000, Mel'čuk & al, 1994), LAF (Polguère, 2006) BLF (Verlinde et al., 2003) Dictionnaire combinatoire (Zinglé 2003) Dictionnaire français-allemand (Blumenthal 2007) Dictionnaire danois (Braasch et Olsen 2000) DiCE (Alonso Ramos, 2003) systèmes d'extraction automatique Statistiques (Quasthoff, 1998) Linguistiques (Seretan et al 2004, Seretan 2009, Tutin 2004) Hybrides (Smadja, 1991, Krenn 2000, Heid 1998) 26/03/2017

Collocations et contextes Approche contextualiste (Halliday, 1985, Williams, 2003) Expressions poly-lexicales, semi-figées, parfois discontinues, ayant un comportement morpho-syntaxique et sémantique propre, imprévisible Lua o decizie/prendre une décision mais pas *a face o decizie/*faire une décision Faire une conférence mais pas *tenir une conférence pour s'en convaincre est une cooccurrence fréquente de il suffit de Trois points de vue (Gledhill, 2007): cooccurence construction expression 26/03/2017

Méthodologie une méthode d'extraction appliquée pour l'allemand (Heid&Ritz 2005, Ritz&Heid 2006) Les collocations sont caracterisées par le contexte Propriétés morpho-syntaxiques L'identification des propriétés à partir des corpus de grande taille (français, allemand, roumain) corpus monolingues corpus multilingues 26/03/2017

Méthodologie (II) Méthodes d'extraction Monolingue Module statistique + filtres linguistiques Approche symbolique (allemand) Multilingue corpus alignés Validation manuelle des candidats Sélection des informations linguistiques pour le dictionnaire 26/03/2017

26/03/2017

Les corpus Corpus multilingue, aligné: AcquisCommunautaire (ACQ) Documents communs pour les langues étudiées (16 millions mots/langue) : français, allemand, roumain, anglais Étiquetage + lemmatization TreeTagger (Schmid, 1994) pour le français, l'allemand et l'anglais Flemm (Namer, 1994) pour un étiquetage plus fin TTL (Ion, 2007) pour le roumain Alignement propositionnnel et lexical (partiel) Corpus spécialisé Corpus monolingues (journaux, textes littéraires, manuels d'utilisation) 26/03/2017

Plan Le projet "Collocations en contexte" Les collocations verbo-nominales Le dictionnaire L'extraction à partir des corpus monolingues L'extraction de candidats à partir des corpus multilingues alignés Evaluation Conclusion et perspectives 26/03/2017

Les constructions Verbe-Nom Une analyse linguistique sur trois niveaux (Gledhill, 2007) inspirée par le modèle (Halliday 1985): Structure lexico-grammaticale propriétés spécifiques au verbe et au nom (Giry-Schneider 1987, Kearns 1989, Allerton 2002) Fonction syntaxique Rôle sémantique 26/03/2017

Propriétés du verbe (Gledhill, 2007) V1 (Equivalence). faire du travail = travailler, mais faire froid n'est synonyme à refroidir A face obiectul/'faire l'objet' = ?obiecta/'faire des objections' V2 (Valence). Les constructions VN comportent des complements directs ou indirects Guvernul nu face faţă situaţiei /’Le gouvernement n'est gère pas la situation’ Pierre fait peur à Jean V3 (Passivation) Un résumé de ton livre a été fait par Jean mais pas ??La fuite a été prise 26/03/2017

Propriétés spécifiques au nom N1(détermination). Le déterminant est absent ou fixe prendre la fuite mais pas ?prendre une fuite a face apel/'faire appel' (le déterminant est absent) N2 (clivage). Le nom d'une VN ne peut pas servir du focus dans une structure clivée (fr) C’est la caisse qu’il a prise mais pas ?C’est la fuite qu’il a prise N3 (expansion). Le nom ne peut pas étre modifié par une clause relative A luat decizia care era necesară /’ Il a pris la décision qui était nécessaire’, mais *A făcut obiectul care era necesar / ‘a fait l’objet qui s’imposait’ N4 (conversion). La nominalisation du V n'est pas toujours possible A luat măsuri/'il a pris des mesures' = luarea măsurilor/'la prise de mesures' Il a fait l'hypothèse mais non *son fait de l'hypothèse 26/03/2017

Quelques propriétés morpho-syntaxiques Figement morpho-syntaxique partiel Propriétés du nom: nombre, genre, cas Propriétés du verbe: diathèse, temps La commission a fait appel aux experts… (fr) Absence du déterminant Complément indirect: préference pour 'à' Préférence pour le singulier Statele membre fac faţă situaţiei…/ 'Les états membres font face à la situation…' (ro) l'absence du déterminant préférence pour le singulier Complément indirect : préference pour le datif 26/03/2017

Constructions Verbe-Nom (II) Les classes (Todirascu et Gledhill, 2008) Prédicateur complexe (1) construction Verbe+Nom qui joue le rôle de prédicat Ex. faire l'objet, a ţine cont/'tenir compte', Gebrauch machen/'faire usage de…' Figement morpho-syntaxique élévé Complément de portée Prédicat+complément (2) Ex. prendre des mesures/a lua măsuri/Maβnahmen ergreifen Variabilité morpho-syntaxique (modifieurs, passif/actif) compositionalité 26/03/2017

Structure lexicale Prédicat complex vs. prédicateur complexe (Gledhill 2007) le nom d'un prédicat complexe peut être passivisé Paul fait un gateau/ Le gâteau a été fait par Paul. S P C Agent Process Range - le nom d'un predicateur complexe ne peut pas être passivisé El şi-a luat zborul/*Zborul a fost luat 'il lui a pris vol-DET/Vol-DET a été pris' Ben Process Range le complément du prédicateur complexe peut être relativisé we had a look at the screenshots... the screenshots which we had a look at were interesting.

Propriétés sémantiques Le procès est exprimé par la phrase: Les participants: agent, affecté, bénéficiaire etc; Les non-participants: portée, temps, instrument, place… La portée: les éléments qui précisent le procès (Halliday & Matthiessen 2004) Jean fait un gateau. Agent(Acteur) Procès Matériel Médium(Affecté) Jean fait une remarque. Médium(Annonceur)Procès Mental(Communicatif) Portée L’examen fait peur aux étudiants. Phénomène Procès Mental Portée Médium 26/03/2017

Collocatifs du verbe 'a face'/faire Fréq. ACQ Art Nb Cas Classe Fréq RoGen Obiectul/ ’objet-le’ 3092 Déf Sg Datif Pred Parte/ ’partie’ 1571 - sg Acc (Din/’de’) Oui Referire/ ’référence’ 1416 sg, pl Acc (La) înscrieri/ ’inscriptions’ 422 -, déf pl Acc (La/’en’) Non 1268 Acc (din) Baza/ ’base-la’ 362 Trimitere/ ’référence’ 691 Sg,pl Acc(la) pred Loc/’lieu’ 160 Sg, pl P+C Dovada/ ’preuve’ 178 Cursuri / ’cours’ 142 Posibilă/ ’possible’ 170 Acc/nom Faţă/’face’ 137 Necesară/ ’necessaire’ 155 Obiectul/ ’objet’ 127 -, déf, indéf 150 Datif, Acc (la) Precizări/ ’précisions’ 124 26/03/2017

Collocatifs du verbe 'faire' Fréq. ACQ Art. Nr Prép Fréq. FrGen Nr. Prép. Faire, font, fait, fais, faisons Objet 2378 l’ sg de Face 2578 null Sg à Partie 871 1419 référence 753 881 L’ De Usage 271 Null, un Preuve 801 null, une 204 Part 787 À, de Appel 192 741 Rapport 170 Un à, sur Etat 665 Obstacle 132 Sorte 583 En…que 93 usage 458 26/03/2017

D'autres classes Simples co-occurences V-N (prédicat+complément) Nom+verbe au participe articolul adoptat/ l’article adopté Sujet+prédicat Le présent article ne vise que le commerce et la distribution des produits toxiques conditionnés qui sont destinés Prédicat+complément circonstanciel La référence à cette norme figure en annexe. 26/03/2017

Plan Le projet "Collocations en contexte" Les collocations verbo-nominales Le dictionnaire L'extraction à partir des corpus monolingues L'extraction de candidats à partir des corpus multilingues alignés Evaluation Conclusion et perspectives 26/03/2017

Quels objectifs? Production de textes Compréhension de textes Utilisations possibles Systèmes TAL (analyse et génération) Aide à la traduction Apprentissage d'une langue etrangère 26/03/2017

Quels fonctions? rechercher les collocations dans une langue par la base par le collocatif recherche par l'ensemble des élements recherches des exemples d'utilisation recherches multilingues retrouver les equivalents de traduction les propriétés morpho-syntaxiques spécifiques 26/03/2017

Quelques propriétés Les lemmes du nom et du verbe les propriétés contextuelles : Les propriétés du nom (détermination, nombre, cas…) Les propriétés du verbe (actif/passif, temps, mode,…) Les informations collocationnels prépositions la valence les propriétés des arguments (le cas, le nombre de ces arguments) exemples 26/03/2017

Quels candidats? Entrées trilingues Tri manuel des listes fournies par une extraction automatique candidats identifiés à partir des corpus monolingues équivalents de traduction obtenus dans les 3 langues obtenus à partir des corpus alignés Entrées trilingues classes: prédicats et prédicateurs complexes 26/03/2017

Plan Le projet "Collocations en contexte" Les collocations verbo-nominales Le dictionnaire L'extraction à partir des corpus monolingues L'extraction de candidats à partir des corpus multilingues alignés Evaluation Conclusion et perspectives 26/03/2017

L'extraction à partir des corpus monolingues Module statistique - détection des paires de mots non adjacents (Stefanescu et al, 2006): indépendant de langue liste de candidats Verbe+Nom triée par LL et leurs contextes Filtrage à base de patrons morpho-syntaxiques Exclusion manuelle des certains classes (Todirascu et Gledhill 2008) Prédicat+Sujet Prédicat+Complément Circonstaciel 26/03/2017

-------------------------------------------------- avea vedere dist=2 LL=108759.176 -------------------------------------------------- având/vg/avea în/s/în vedere/nsrn/vedere 17786 avut/vp/avea în/s/în vedere/nsrn/vedere 130 aibă/v3/avea în/s/în vedere/nsrn/vedere 128 avea/vn/avea în/s/în vedere/nsrn/vedere 51 au/va3p/avea în/s/în vedere/nsrn/vedere 41 au/v3/avea în/s/în vedere/nsrn/vedere 31 având/vg/avea in/nsn/in vedere/nsrn/vedere 11 avea/v3/avea în/s/în vedere/nsrn/vedere 6 aibă/v3/avea o/tsr/un vedere/nsrn/vedere 4 avea/vn/avea o/tsr/un vedere/nsrn/vedere 1 propriétés morpho-syntaxiques invariables fréquences des propriétés: sg (100%), prep (în 97%), déterminant (null 99%, indéfini 1%) 26/03/2017

Variabilité morpho-syntaxique contenir référence dist=2 LL=4658.77015127078 666 -------------------------------------------- contiennent/Vmip3p/contenir une/da3sf/un référence/Ncfs/référence 642 contenir/Vmn/contenir une/da3sf/un référence/Ncfs/référence 4 contiennent/Vmip3p/contenir une/da3sf/un référence/Ncfs/référence 4 contient/Vmip3s/contenir une/da3sf/un référence/Ncfs/référence 4 contient/Vmip3s/contenir des/Sp+p/du/ références/Ncfp/référence 3 contienne/Vmsp3s/contenir une/da3sf/un référence/Ncfs/référence 2 contient/Vmip3s/contenir/ les/da3p-/le références/Ncfp/référence 2 Variabilité morpho-syntaxique fréquences des propriétés: sg (98%), pl (2%), prep (null), déterminant (défini 1%, indéfini 99 %) 26/03/2017

Filtrage (I) Prédicateur complexe Utiliser les contextes et les propriétés morpho-syntaxiques Exemple de filtres (ro): «V NSRY *{1,3} NxOY» NSRY = substantif défini (sg), accusatif/nominatif; NxOY = substantif défini, génitif/datif; {1,3} = entre 1 et 3 mots entre le complément direct et indirect 98,8% des contextes Exemples: a menţine părerea/'maintenir son opinion', a face dovada/'faire preuve de‘; 26/03/2017

Filtrage (II) Prédicat+complément Préférences pour une propriété (cas, nombre): plus de 85% Testes: filtres pour le passif (fr): « Det:art Nom {2,3}* Ver:pper par» Nom = substantif, accusatif/nominatif; Det:art = article défini, sg ou pl; {2,3} = entre 1 et 3 mots entre le nom et le verbe Exemples: prendre des mesures, donner un avis, faire des commentaires ; 26/03/2017

Plan Le projet "Collocations en contexte" Les collocations verbo-nominales Le dictionnaire L'extraction à partir des corpus monolingues L'extraction de candidats à partir des corpus multilingues alignés Evaluation Conclusion et perspectives 26/03/2017

L'extraction multilingue (I) Corpus alignés (ACQ): fr, de, en, ro (Ceausu et al, 2006) au niveau propositionnel Alignements bilingues: de-en, fr-en, ro-en 64352 phrases alignés 1-1 Alignement lexical partiel Anglais: langue pivot Corpus étiquétés et lemmatisés, en format XCES 26/03/2017

Exemple <s num="980" lang="fr">3. Un état membre concerné peut demander à la Commission d' examiner, dans un délai de deux mois après qu' un transporteur aérien a informé le coordonnateur de son intention de faire usage de la souplesse prévue à l' article 8 paragraphe 4 , si les dispositions du présent article sont respectées.</s> <s num="980" lang="en">3. A Member State concerned may request the Commission to investigate the application of this Article within two months of an air carrier informing the coordinator of its intention to use the flexibility provided for in Article?8 ( 4 ).</s> <s num="980" lang="ro">( 3 ) Un stat membru interesat poate solicita Comisiei să analizeze , în decurs de două luni de la data la care transportatorul aerian a informat coordonatorul cu privire la intenţia sa de a face uz de flexibilitatea prevăzută în art. 8 alin. ( 4 ) , dacă se respectă dispoziţiile prezentului articol.</s> 26/03/2017

L'extraction multilingue (II) les outils d'alignement lexical: COWAL (Tufis et al, 2006) pour l'alignement ro-en Règles héuristiques mots contenus étiquettes entités nommées position GIZA++ (Och et Ney, 2003) pour l'alignement des corpus de-en et fr-en Transfer des alignements lexicaux (Tufis et Koeva, 2007) : fr-ro, ro-fr, fr-de, de-fr, ro-de, de-ro Extraction des listes d'équivalents de traduction pour chaque paire de langues (l'outil ColTrans): ro-fr, fr-ro 26/03/2017

L'alignement lexical (I) Validation manuelle de l'alignement à l'aide de l'éditeur MtKit (Tufis et al, 2006) un corpus de 1000 phrases pour les corpus fr-en, de-en, ro-en; Phrases de longueur et structure variables (20 a 100 mots); Methodologie d'alignement inspiré par le projet Blinker (Melamed, 2000) annotation des classes ouvertes (N, Adj, V,...); bonne couverture des mots grammaticaux unités polylexicales 26/03/2017

Erreurs d'alignement Problèmes linguistiques Termes du domaine Structures syntaxiques différentes <s num="750" lang="fr">tous droits d' importation pour les réactifs pour la détermination des groupes tissulaires <s num="750" lang="ro">orice drepturi de import a reactivilor utilizaţi pentru determinarea grupelor tisulare Ordre de constituents <s num=996>l' Observatoire doit réparer , conformément aux principes généraux communs aux droits des états membres , les dommages…</s> <s num=996>în concordanţă cu principiile generale comune legislaţiilor statelor membre , Centrul trebuie să compenseze orice pierdere provocată 26/03/2017

Erreurs d'alignement (II) Liens multiples Groupe verbal: infinitif (fr) traduit par un subjonctif (ro) exercer | să recurgă Groupe nominal : le determinant défini est un suffixe rajouté au nom (en roumain) la Comission | Comisiei Aggregats (préposition+déterminant) aux prescriptions | dispoziţiile collocations préposition non aligné la Commission n'a pas pris de mesures raisonnables Comisia nu a luat măsurile necesare 26/03/2017

Extraction de candidats l'outil ColTrans les lemmes (verbe et nom) la direction de recherche fr->ro, ro->fr le corpus aligné au niveau lexical résultats croisés erreurs d'alignement erreurs d'étiquetage 26/03/2017

Plan Le projet "Collocations en contexte" Les collocations verbo-nominales Le dictionnaire L'extraction à partir des corpus monolingues L'extraction de candidats à partir des corpus multilingues alignés Evaluation Conclusion et perspectives 26/03/2017

Résultats de l'extraction évaluation sur 1000 phrases malgré les filtres, beaucoup de candidats qui sont des simples co-occurences (prédicat+complément direct, prédicat+circonstanciel) fr environ 38% de candidats éliminés par filtrage ro 36,7% candidats éliminés par filtrage 26/03/2017

Résultats de l'extraction (II) évaluer sur l'ensemble du corpus les premiers 1000 noms les plus fréquents dans l'Acquis (fr,ro) extraire les verbes qui co-occurent beaucoup de noms spécifiques au domaine (fr,ro) comission/comisie, article/articol, paragraphe/paragraf, directive/directivă pas beaucoup de candidats de la classe 1 ou 2 quelques noms fr lieu (avoir, donner), vigueur (entrer, mettre), compte (prendre, tenir) ro parte (face) vigoare (intra) et măsură (lua, anula)  26/03/2017

Prédicateurs complexes (ro) Candidats (ro) Prep LL aduce atingere - 51571,1211771531 lua considerare în 26697,2875383302 ţine cont 26637,3033729519 pune aplicare 12989,9639878404 veni contact 3009,72649488981 26/03/2017

Prédicateurs complexes (fr) Candidats (fr) Prep, Art LL avoir lieu - 45860.0441745073 faire objet l' 39398.1847211485 tenir compte 39310.6736511725 mettre oeuvre en 22733.427464941 prendre considération 13100.3090319577 26/03/2017

Résultats Les 10 classes de constructions et coocurrences V-N et leurs répartition sur les 1000 premiers candidats 26/03/2017

Extraction d'équivalents (I) Extraire les listes d'équivalents de traduction (études des alignements fr-ro, ro-fr): Prédicateurs complexes traduits par des prédicateurs complexes dans la langue source fait/Vmip3s/faire l'/Da3ms/le objet/Nc-s--/objet= face/Vmip3s/face obiectul/Ncmsry/obiect dă/Vmip3s/da naştere/Ncfsrn/naştere= donnerait/Vmic3s/donner lieu/Ncms--/lieu Prédicats+compléments équivalents dans les deux langues émis/Vmps-sm/émettre un/Da-ms/un avis/Nc-s--/avis=emis/Vmp--sm/emite avizul/Ncmsry/aviz 26/03/2017

Extraction d'équivalents (II) Prédicateur complexe traduit par un verbe ou un nom a/Vaip3s/avea reparat/Vmps-sm/repara pagubele/Ncmp--/pagubă=a/Vaip3s/avoir dédommagé/Vmps-sm/dedommager donnent/Vmip3p/donner lieu/Nc-s--/lieu =generează/Vmip3s/genera aducă/Vmsp3/aduce atingere/Ncfsrn/atingere= préjudice/Nc-s--/préjudice 26/03/2017

Extraction d’équivalents (III) Entrées multiples Plusieurs équivalents A face referire = faire référence à, faire mention, définir, mentionner plusieurs sens dă/Vmip3s/da naştere/Ncfsrn/naştere = donner lieu Conflits, débats, interventions dă/Vmip3s/da naştere/Ncfsrn/naştere=accoucher 26/03/2017

Le dictionnaire 150 entrées/langue (en cours) entrées trilingues possibilité d'extensions vers d'autres langues (l'anglais) informations sur la fréquence de chaque propriété (si > 85%) possibilité de représenter les cas d'équivalence entre collocations et unités lexicales simples interopérabilité de données format XML, DTD définie 26/03/2017

26/03/2017 <?xml version="1.0" encoding="utf-8"?> <collocations> <entry id="1"> <te lang="fr"> <construction>tenir compte</construction> <v_lemma>tenir</v_lemma> <v_spec> <form></form><active>oui</active> </v_spec> <prep>null</prep> <n_lemma>compte</n_lemma> <n_spec> <det freq="90%">null</det> <number freq="80%">sg</number> <modifier freq="76%">null</modifier> <case>nospec<case> </n_spec> <colloc_spec> <c_spec> <required_args case="Acc" prep="de">OD</required_args> <lexical_head></lexical_head> <colloc_type>prédicateur complexe</colloc_type> <examples>la commission a tenu compte du rapport de l'expert… </examples> </colloc_spec> </te> <te lang="ro"></te> <te lang="de"></te> </entry> </collocations> 26/03/2017

26/03/2017 <?xml version="1.0" encoding="utf-8"?> <collocations> <entry id="1"> <te lang="ro"> <construction>lua considerare</construction> <v_lemma>lua</v_lemma> <v_spec> <form></form><active>oui</active> </v_spec> <prep>în</prep> <n_lemma>considerare</n_lemma> <n_spec> <det freq="98%">null</det> <number freq="100%">sg</number> <modifier freq="97%">null</modifier> <case>nospec<case> </n_spec> <colloc_spec> <c_spec> <required_args case="Acc" det="déf">OD</required_args> <lexical_head></lexical_head> <colloc_type>prédicateur complexe</colloc_type> <examples>comisia a luat în considerare… </examples> </colloc_spec> </te> <te lang="fr"></te> <te lang="de"></te> </entry> </collocations> 26/03/2017

Conclusion et perspectives Identification des propriétés morpho-syntaxiques spécifique pour chaque langue Définition des filtres linguistiques quelques classes de collocations validation manuelle des données extraites Utilisation de corpus alignés pour alimenter le dictionnaire équivalents de traduction 26/03/2017

Conclusion et perspectives (II) enrichir le dictionnaire avec d'autres entrées transformation vers le format LMF développement d'interfaces Web pour interroger le dictionnaire utilisation du dictionnaire comme ressource pour un système de traduction automatique factorisé fr-ro utilisation du corpus annoté syntaxiquement pour automatiser le remplissage du dictionnaire 26/03/2017

Réferences BRAASCH, (Anna), OLSEN (Sussi) : 2000, "Formalised Representation of Collocations in a Danish Computational Lexicon", in Heid (U.) et al., eds. The Ninth EURALEX Congress, Proceedings, Vol. II, (Stuttgart), pp. 475-488. CEAUSU (Alin), ŞTEFANESCU (Dan) and TUFIS (Dan) : 2006, « Acquis Communautaire Sentence Alignment using Support Vector Machines», in Proceedings of LREC 2006, (Genoa). GROSSMANN (Francis), TUTIN (Agnès), dir. : 2003, « Les collocations: analyse et traitement», Numéro special : « Travaux et Recherches en Linguistique Appliquée ». HAUSMANN (Franz Josef) : 2004, « Was sind eigentlich Kollokationen? », in STEYER (K), eds., Wortverbindungen – mehr oder weniger fest, pp. 309-334 HALLIDAY (Michael) : 1985, An Introduction to Functional Grammar, (London, Arnold). HEID (Ulrich) and RITZ (Julia) : 2005, « Extracting collocations and their contexts from corpora», in Actes de Conference on Computational Lexicography and Text Research, (Budapest). 26/03/2017

Références (II) POLGUERE (Alain) : 2006, « Structural properties of Lexical Systems: Monolingual and Multilingual Perspectives», in Proceedings of the Workshop on Multilingual Language Resources and Interoperability (COLING/ACL 2006, Sydney), pp. 50-59. RITZ (Julia) and HEID (Ulrich) : 2006, « Extraction tools for collocations and their morphosyntactic specificities», in Proceedings of the Linguistic Resources and Evaluation Conference, (Genova). SERETAN (Violeta), NERIMA (Luka) and WEHRLI (Eric) : 2004, « A tool for multi-word collocation extraction and visualization in multilingual corpora», in Proceedings of EURALEX’2004, (Lorient, France), vol. 2, pp.755-766 TUTIN (Agnès) : 2004, « Pour une modélisation dynamique des collocations dans les textes», in Actes du congrès EURALEX’2004, (Lorient, France), vol. 1, pp. 207-221. TODIRASCU(Amalia), Heid (Ulrich), Ştefănescu (Dan), Tufiş(Dan), Gledhill(Christopher), Weller(Marion), Rousselot (François): 2008, « Vers un dictionnaire de collocations multilingue », Cahiers de linguistique, Université de Louvain 26/03/2017

Notions de grammaire roumaine 5 cas Identification par les articles définis Nominatif/Accusatif: suffixe: calul, casa, oamenii, casele Genitif/Datif: suffixe: calului, casei, oamenilor, caselor Identification par les article indéfinis Nominatif/Accusatif: un cal, o casă, nişte case Genitif/Datif: unui cal, unei case, unor case préposition pe (lit. 'sur') – accusatif clitiques et compléments peuvent être utilisés ensemble Paul vede pe Maria (sans clitique) 'Paul voit Maria' Paul o vede pe Maria (clitique + CD) 'Paul la voit Maria' Paul o vede 'Paul la voit' 26/03/2017

Grammaire roumaine (II) Le subjonctif identifié par la particule ‘să’ suivi de la forme présent, mode indicatif - Trebuie să mergem / ‘Il faut qu'on aille’ Le passif est composé à l'aide de l'auxiliaire a fi /être:  Florin citeşte cartea. ’Florin lire-PRESENT livre-le' ‘Florin lit le livre’ Cartea a fost citită de Florin. Livre-le a été lue par Florin L'ordre est libre:  S (or Ø) + P + C (direct) + C (indirect) 26/03/2017

Exemple le complément indirect précise la portée. En français, identifié par une préposition faire l'objet d'une procedure.... En roumain, le complément indirect est au datif ...să facă faţă situaţiei... 'qu'on fasse face à la situation' 26/03/2017

N1. Détermination (I) Verbe + l’article défini+ Nom Corpus Acquis Communautaire : Français (procès matériel): il n’est pas nécessaire de conditionner les spécimens ni de faire les analyses dans une atmosphère … le nombre de points où il y a lieu de faire les prélèvements sera déterminé en conformité avec la règle… Roumain (procès relationnel) : …care este recunoscut pe plan internaţional şi care face obiectul unui audit./'…qui est mondialement reconnu et qui fait l’objet d’un audit…' …Trece peste graniţa dintre statele membre şi care face legătura între sistemele de transport…/'…traverse les frontières entre les états membres et qui fait le lien entre les systèmes de transport… 26/03/2017

N1.Détermination (II) Article indéfini Corpus Acquis Communautaire : Français (procès mental ou communicatif) la Commission peut faire des commentaires et, le cas échéant, présenter des propositions au comité … La Commission peut faire des suggestions aux États membres en ce qui concerne la coordination de … Roumain (procès matériel ou mental) (Procès matériel) Comisia poate să facă orice modificări la prezentul Regulament care … 'La commission peut faire des changements sur le present règlement…'  (Procès mental) Acest raportor face o evaluare preliminară al recursului. 'Ce rapporteur fait une évaluation préliminaire du recours… ‘ 26/03/2017

N1. Détermination (III) Verbe + Nom (sans article) Corpus AcquisCommunautaire : Français (procès relationnel) Le comité fait fonction de comité de gestion selon la procédure prévue à l’article 47, paragraphe 3, l… La couverture des risques peut faire partie des activités tant de sociétés d’assurance vie que de sociétés… Afin de faire face à ces difficultés, il y a lieu d’autoriser la Commission à adopter des mesures transitoires, La présente disposition ne fait pas obstacle à ce que lesdites mentions soient indiquées en plusieurs langues. Roumain (procès relationnel ou matériel) (relationnel) Pentru a putea face faţă unor situaţii de urgenţă …/‘pour faire face aux situations d’urgence’ (matériel) Organismul autorizat poate face vizite inopinante la producător/‘L’organisme autorisé peut faire des visites-surprises chez le producteur’ 26/03/2017