Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Collocations en contexte: étude et analyse contrastive.

Slides:



Advertisements
Présentations similaires
MOT Éditeur de modèles de connaissances par objets typés
Advertisements

Un dictionnaire multilingue de collocations
La Gestion de la Configuration
Prof. Assist. Dr Penphan THIPKONG
Interaction et intégration des ressources Internet dans un dispositif dapprentissage autonome de langues Mercedes Sanz Gil Universitat.
Olivier Kraif, Agnès Tutin LIDILEM
Le discours indirect.
Le passif.
DOCUMENTS DE FORMATION CODEX FAO/OMS SECTION DEUX COMPRENDRE LORGANISATION DU CODEX Module 2.8 Existe-t-il un format pour les normes du Codex ?
La politique de Sécurité
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Par Aline Mahot et Charlyne Routier
Cordial, le TAL et les aides à la rédaction
LITTERATURE SCIENTIFIQUE STRATÉGIES DE RECHERCHE PMSS
Pour un système formel de description linguistique
PROJET D'ACTIVITE RIVIS-TIPEI LAURA.
UE : 3.4. S4 Initiation à la démarche de recherche
L’enseignement en terminale S, un an après la réforme
Le français dans tous les sens
EVALUATION EVALUATION DES MANUELS SCOLAIRES Evaluer signifie :
Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.
SOCLE COMMUN LIRE ET COMPRENDRE
Le langage oral en maternelle
Nature ou fonction d’un mot
MOT Éditeur de modèles de connaissances par objets typés
Les pronoms objets directs et indirects
Mamadou Dieye, Mohamed Rafik Doulache,
Vers des composants TAL réutilisables
Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
La motivation et l’engagement dans les tâches de lecture
Forum des Industries de la Langue, 17 mars 2010
Travail préparatoire > Processus de recherche dinformation LeBlanc, L.; Boisvert, D.; Séguin, C. ; Laframboise, M.-R. et Tardif, G. (2007). Méthodes de.
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
LA DIFFÉRENCE ENTRE L’ÉTUDE D’UNE PHRASE ET D’UN ENONCÉ
Kampala, Uganda, June 2014 Documents d’Edition et de Révision Hiroshi Ota and Vijay Mauree ITU/TSB Forum de normalisation pour l'Afrique (Kampala,
Le FLE en contexte migratoire
Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.
L’observation réfléchie de la langue
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
Les classes grammaticales
Recherche en corpus de réponses à des questions définitoires Véronique Malaisé Thierry Delbecque Pierre Zweigenbaum TALN 2005, Dourdan.
L’INFINITIF : DEUXIEME PARTIE
1 Management des unités commerciales Management des unités commerciales LANGUE VIVANTE ÉTRANGÈRE I - coefficient 3 L’usage d’un dictionnaire bilingue est.
Une communication efficace au cœur de la démarche d’apprentissage et d’évaluation Intention: Prendre conscience qu’une communication efficace.
Dominique LAURENT Patrick SEGUELA
Recherche d’information
Du discours aux modèles… Une tentative d’articulation
Modélisation des documents: DTD et Schéma
Quelques notions à voir et revoir
JDD 2005 Utilisation et Constitution de Ressources Sémantiques pour la Recherche d'Informations Précises. Vincent Barbier, groupe LIR Langues, Information.
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Le Traitement Automatique des Langues (TAL)
Approche de tutorat par niveaux Préparation aux rédactions littéraires Julie Beauchemin en collaboration avec Dominique Lemay.
ELABORATION D’UN GUIDE OPERATOIRE RELATIF A LA TRACABILITE (REALISATION) DES PRODUITS DU CEAM Bonjour. Ma présentation portera sur l’élaboration d’un.
Progressivité de l’enseignement grammatical A partir d’un document rédigé par : - Claudine GARCIA-DEBANC - Véronique PAOLICCI - Nicole RAMIREZ - Pierre.
les mots variables et les mots invariables.
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
Un mode impersonnel Les infinitifs présents et passés
L’adverbe et le syntagme adverbial. Adverbe  Classe résiduelle, difficile à définir par un ensemble de propriétés syntaxiques et morphologiques homogènes.
NEDERLEX : un outil en ligne d'aide à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP) L. Dumortier.
COMMISSION FRANCOPHONE DES RELATIONS INTERNATIONALES.
MES STRATÉGIES DE LECTURE
Le Verbe Transitif et intransitif. Définition  Le verbe (du latin verbum : mot, verbe) et le nom, ensemble constituent la partie du discours principale.
Le syntagme prépositionnel
+ Recherche documentaire & Voyage d’étude AA: Recherche documentaire.
CURSUL 9 VI. LES COMPÉTENCES DE L’APPRENANT Le Développement des compétences linguistiques, sociolinguistiques, pragmatiques.
Transcription de la présentation:

Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Collocations en contexte: étude et analyse contrastive Amalia Todirascu & Christopher Gledhill LILPA, Université Marc Bloch, Strasbourg JLC'2007, Lorient

Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Plan Motivation et contexte Les constructions VN Les constructions VN en français et en roumain Conclusion et perspectives

Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Collocations Collocations: séquences de mots qui apparaîssent ensemble et qui ont un comportement syntaxique et un sens bien définis utilisation correcte difficile pour –Les apprenants etrangers –systèmes TAL quelques dictionnaires proposent l'information sur le comportement morpho-syntaxique des collocations système d'extraction automatique (Smadja, 1991, Seretan et al 1994, Tutin 2004, Daille 1996)

Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Collocations (II) Plusieurs définitions possibles –co-occurences fréquentes (Cowie 1981) –Expressions figées (Grossmann, Tutin, 2003) –"a conventional way of saying things" (Manning, Schütze, 1999) Interpretations divers –cooccurence (Sinclair 1991) –construction (colligation): relations lexico-syntaxiques (Goldberg 1995, Hausmann 2004, Hunston & Francis 2000) –expression, une unité sémiotique du point de vue pragmatique (Moon, 1998, Gledhill & Frath 2007)

Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Collocations en contexte: extraction et analyse contrastive objectif: le développement d'un système semi-automatique d'extraction de collocations à partir des textes, parametrable pour plusieurs langues (français, roumain, allemand, anglais) Les collocations sont des constructions/'colligations' –composées par une base et un collocatif (Hausmann 2004), réliés par des relations syntaxiques –Propriétés morpho-syntaxiques contextuelles Projet financé par l'AUF (Agence Universitaire pour la Francophonie) Partenaires: Université Marc Bloch de Strasbourg, l'Académie Roumaine, IMS Stuttgart

Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Collocations et contextes Français: –"La commission a fait appel aux experts…" Absence du déterminant Complément indirect: préference pour la préposition 'à' Préference pour le singulier Roumain: –"Statele membre vor face faţă situaţiei…"/' Les états membres vont faire face à la situation…' l'absence du déterminant préférence pour le singulier Complément indirect : préference pour le datif

Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Méthodologie une méthode déjà appliquée pour l'allemand (Heid&Ritz 2005, Ritz&Heid 2006) –Les collocations sont caracterisées par des informations contextuelles spécifiques à chaque langue –L'identification de ces properties à partir des corpus de grande taille (en français, allemand, roumain, anglais) –Une combinaison des méthods d'extraction statistiques et des filtres linguistiques –une validation manuelle des candidats

Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Les corpus Corpus multilingue, aligné: AcquisCommunautaire (ACC) –Normes adoptées par les membres UE depuis 1950 –Étude des corpus français, allemand, roumain, anglais –documents communs pour les langues étudiées (16 millions mots/langue) –Alignement au niveau des propositions (et au niveau des mots en cours de réalisation) Corpus spécialisé –Termes spécifiques au domaine et expressions figées –Style impersonnel une analyse linguistique pour definir des filtres linguistiques

Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Les corpus (II) L'utilisation des corpus monolingues pour comparer les résultats extraits de ACC (en cours): –français: journaux (Le Monde, Le Monde Diplomatique), littérature (Frantext) (40 millions mots) –roumain: 2 romans, journaux, textes médicaux et techniques (15 millions mots) –anglais: BNC Baby, Brown (7 millions mots) –allemand: journaux, littérature (60 millions mots)

Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Etiquetage et annotation étiquetage et lemmatisation des corpus pour retrouver l'information pertinente –TreeTagger (Schmid 1994) pour français, anglais, allemand ACC et pour les corpus monolingues –QTAG (Mason, Tufis 2000) pour le corpus roumain (ACC + corpus monolingue) Annotation syntaxique partielle –Annotation des syntagmes: français, roumain, allemand adapter les ressources pour le domaine –correction des lemmas inconnus et des catégories lexicales (pour les mots spécifiques au domaine et pour les noms propres)

Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Plan Motivation et contexte Les constructions VN Les constructions VN en français et en roumain Conclusion et perspectives

Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Les collocations Verbe-Nom une étude des collocations V-N trois catégories de collocations (Gledhill et al., 2007) –cooccurence (éléments permutables) faire: un gâteau –constructions (éléments commutables) faire + face –expression (éléments invariables) [kick the bucket]

Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Constructions VN Propriétés spécifiques au verbe: –V1 (Morphologie). Est-ce que c'est possible de remplacer les constructions par un verbe? faire du travail = travailler, mais faire froid n'est synonyme à refroidir A face obiectul/'faire l'objet' = ?obiecta/'faire des objections' –V2 (Arguments). Les constructions VN comportent des complements directs ou indirects –Jean fait du bruit, Copiii fac gălăgie /’Les enfants font du bruit’ –Pierre fait peur à Jean, El face apel la colegi /’Il fait appel aux collègues’ –V3 (Passivation). Les constructions VN peuvent être passivisées? Un résumé de ton livre a été fait par Jean mais pas *La fuite a été prise –V4 (Aspect). Les constructions VN expriment souvent un aspect perfectif She laughed / She gave a laugh / She laughed for hours / ?She gave a laugh for hours

Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Constructions VN (II) Propriétés spécifiques au nom –N1(détermination). Le déterminant est absent ou fixe prendre la fuite mais pas ?prendre une fuite a face apel/'faire appel' (le déterminant est absent) –N2 (clivage). Le nom d'une VN ne peut pas servir du focus dans une structure clivée C’est la caisse qu’il a prise mais pas ?C’est la fuite qu’il a prise –N3 (expansion). Le nom ne peut pas étre modifié par une clause relative A luat decizia care era necesară /’ Il a pris la décision qui était nécessaire’, mais *A făcut obiectul care era necesar / ‘a fait l’objet qui s’imposait’ –N4 (conversion). La nominalisation du V n'est pas toujours possible Elle a vérifié l’hypothèse = sa vérification de l’hypothèse / Elle a fait l’hypothèse = ?son fait de l’hypothèse A făcut faţă situaţiei dificile cu bine / Il a fait face à la situation difficile=*Faţa a fost făcută cu bine /*La face a été faite

Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 La grammaire fonctionnelle systémique Toutes les catégories des constructions VN Trois niveaux d'analyse (Halliday 1985, Banks 2000): –structure lexicale (prédicat complex vs. Prédicateur complex) –rôle fonctionnel (Sujet, Prédicat, Complément) –semantique (le complément exprime la portée du verbe)

Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Structure lexicale Prédicat complex vs. prédicateur complexe (Gledhill 2007) –le nom d'un prédicat complexe peut être passivisé Paul fait un gateau/ Le gâteau a été fait par Paul. S P C noun verb det noun Agent Process Range - le nom d'un predicateur complexe ne peut pas être passivisé El şi-a luat zborul/*Zborul a fost luat 'il lui a pris vol-DET/Vol-DET a été pris' S P C pro verb noun Ben Process Range –le complément du prédicateur complexe peut être relativisé we had a look at the screenshots... the screenshots which we had a look at were interesting.

Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Propriétés sémantiques Le procès est exprimé par la phrase: –Les participants: agent, affecté, bénéficiaire etc; –Les non-participants: portée, temps, instrument, place etc. La portée: les éléments qui précisent le procès (Halliday & Matthiessen 2004) –le complément indirect précise la portée. En français, identifié par une préposition faire l'objet d'une procedure.... En roumain, le complément indirect est au datif...să facă faţă situaţiei... 'qu'on fasse face à la situation'

Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Plan Motivation et contexte Les constructions VN Les constructions VN en français et en roumain Conclusion et perspectives

Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Les données Une étude des verbes a face/faire –Identification des propriétés morpho- syntaxiques contextuelles (V1-V4;N1-N4) dans le corpus multilingue et les corpus monolingues –Identification des procès exprimés par la base 'a face/faire' et les collocatifs –La relation entre le type de procès et les testes syntaxiques

Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Notions de grammaire roumaine 5 cas Identification par les articles définis –Nominatif/Accusatif: suffixe: calul, casa, oamenii, casele –Genitif/Datif: suffixe: calului, casei, oamenilor, caselor Identification par les article indéfinis –Nominatif/Accusatif: un cal, o casă, nişte case –Genitif/Datif: unui cal, unei case, unor case préposition pe (lit. 'sur') – accusatif clitiques et compléments peuvent être utilisés ensemble Paul vede pe Maria (sans clitique) 'Paul voit Maria' Paul o vede pe Maria (clitique + CD) 'Paul la voit Maria' Paul o vede 'Paul la voit'

Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Grammaire roumaine (II) Le subjonctif identifié par la particule ‘să’ suivi de la forme présent, mode indicatif - Trebuie să mergem / ‘Il faut qu'on aille’ Le passif est composé à l'aide de l'auxiliaire a fi /être: –Florin citeşte cartea. –’Florin lire-PRESENTlivre-le' –‘Florin lit le livre’ –Cartea a fost citită de Florin. –Livre-le a été lue par Florin L'ordre est libre: –S (or Ø) + P + C (direct) + C (indirect)

Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Quelques propriétés Identifiés dans les corpus (ACC+ monolingues) Vérification des propriétés V1-V4, N1-N4 –V4, N2 ne s'applique pas au roumain les propriétés contextuelles: –Le marqueurs de cas du complément indirect –Le marqueurs de N ou V

Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Types de procès ProcèsVerbeExemples materialtransitiveface: măsurători, faire: un rapport materialnon-transitiveface+comerţ, faire + le nécessaire mentalcognitiveFace:evaluări, faire+une idée verbaltextual communication face+trimitere, faire+mention verbaloral communicationface+recomandări, faire:declarations relationalcircumstantial[face obiectul] [faire face, partie, obstacle]

Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 N1. Détermination (I) Verbe + l’article défini+ Nom –Corpus Acquis Communautaire : Français (procès matériel): –il n’est pas nécessaire de conditionner les spécimens ni de faire les analyses dans une atmosphère … –le nombre de points où il y a lieu de faire les prélèvements sera déterminé en conformité avec la règle… Roumain (procès relationnel) : –…care este recunoscut pe plan internaţional şi care face obiectul unui audit./'…qui est mondialement reconnu et qui fait l’objet d’un audit…' –…Trece peste graniţa dintre statele membre şi care face legătura între sistemele de transport…/'…traverse les frontières entre les états membres et qui fait le lien entre les systèmes de transport…

Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 N1.Détermination (II) Article indéfini –Corpus Acquis Communautaire : Français (procès mental ou communicatif) –la Commission peut faire des commentaires et, le cas échéant, présenter des propositions au comité … –La Commission peut faire des suggestions aux États membres en ce qui concerne la coordination de … Roumain (procès matériel ou mental) –(Procès matériel) »Comisia poate să facă orice modificări la prezentul Regulament care … »'La commission peut faire des changements sur le present règlement…' –(Procès mental) »Acest raportor face o evaluare preliminară al recursului. »'Ce rapporteur fait une évaluation préliminaire du recours… ‘

Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 N1. Détermination (III) Verbe + Nom (sans article) –Corpus AcquisCommunautaire : Français (procès relationnel) –Le comité fait fonction de comité de gestion selon la procédure prévue à l’article 47, paragraphe 3, l… –La couverture des risques peut faire partie des activités tant de sociétés d’assurance vie que de sociétés… –Afin de faire face à ces difficultés, il y a lieu d’autoriser la Commission à adopter des mesures transitoires, –La présente disposition ne fait pas obstacle à ce que lesdites mentions soient indiquées en plusieurs langues. Roumain (procès relationnel ou matériel) –(relationnel) Pentru a putea face faţă unor situaţii de urgenţă …/‘pour faire face aux situations d’urgence’ vizite –(matériel) Organismul autorizat poate face vizite inopinante la producător/‘L’organisme autorisé peut faire des visites-surprises chez le producteur’

Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 CollocatifFréq. ACC ArtNbCasV comp. CollocatifFréq RoGen ArtNbCasV comp Obiectul/ ’objet-le’ 3092DéfSgDatifOuiParte/ ’partie’ 1571-sgAcc (Din/’ de’) Oui Referire/ ’référence’ 1416-sg, pl Acc (La/’à’) Ouiînscrieri/ ’inscriptions ’ 422-, défplAcc (La/’e n’) Non Parte/ ’partie’ 1268-SgAcc (din/ ’de’) OuiBaza/ ’base-la’ 362-, défsgDatifNon Trimitere/’ référence’ 691-Sg, pl Acc(la/’à ’) OuiLoc/’lieu’160-, défSg, plDatifNon Dovada/ ’preuve’ 178DéfSgDatifNonCursuri / ’cours’ 142-, défpl-Non Posibilă/ ’possible’ 170-SgAcc/nomOuiFaţă/’face’137-sgDatifOui Necesară/’ necessaire ’ 155-Sg, pl Acc/nomOuiObiectul/ ’objet’ 127-, déf, indéf Sg, plDatifOui Faţă/’face’150-SgDatif, Acc(la/’à ’) OuiPrecizãri/ ’précisions’ 124-, déf, indéf Sg, plDatifNon

Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 VerbeCollocatifFréq. ACC Art.NrPrépCollocatifFréq. FrGen Art.Nr.Prép. Faire, font, fait, fais, faisons Objet2378l’sgde, du, des Face2578nullSgAu, aux, à Partie871nullsgde, des, d’ Partie1419nullSgde, du référence753nullSgà, au, aux Objet881L’SgDe, des, du Usage271Null, un sgDe, des, d’ Morts801 desPl- Face204nullsgau, à, aux Preuve787null, une SgDe, des, du Appel192nullsgau, aux, à Part741nullSgA, au, aux Rapport170UnsgAu, aux, à, sur Appel665nullSgAu, aux, à Obstacle132nullsgAux, à, au Etat583nullSgDe, des Etat93nullsgDeSorte458nullSgEn…que

Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Conclusion et perspectives Propriétés morpho-syntaxiques communes pour plusieurs langues Définir des filtres linguistiques pour chaque langue (en cours) Module d'extraction en cours d'évalutaion validation manuelle des données extraites