La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Collocations en contexte: étude et analyse contrastive.

Présentations similaires


Présentation au sujet: "Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Collocations en contexte: étude et analyse contrastive."— Transcription de la présentation:

1 Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Collocations en contexte: étude et analyse contrastive Amalia Todirascu & Christopher Gledhill LILPA, Université Marc Bloch, Strasbourg JLC'2007, Lorient

2 Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Plan Motivation et contexte Les constructions VN Les constructions VN en français et en roumain Conclusion et perspectives

3 Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Collocations Collocations: séquences de mots qui apparaîssent ensemble et qui ont un comportement syntaxique et un sens bien définis utilisation correcte difficile pour –Les apprenants etrangers –systèmes TAL quelques dictionnaires proposent l'information sur le comportement morpho-syntaxique des collocations système d'extraction automatique (Smadja, 1991, Seretan et al 1994, Tutin 2004, Daille 1996)

4 Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Collocations (II) Plusieurs définitions possibles –co-occurences fréquentes (Cowie 1981) –Expressions figées (Grossmann, Tutin, 2003) –"a conventional way of saying things" (Manning, Schütze, 1999) Interpretations divers –cooccurence (Sinclair 1991) –construction (colligation): relations lexico-syntaxiques (Goldberg 1995, Hausmann 2004, Hunston & Francis 2000) –expression, une unité sémiotique du point de vue pragmatique (Moon, 1998, Gledhill & Frath 2007)

5 Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Collocations en contexte: extraction et analyse contrastive objectif: le développement d'un système semi-automatique d'extraction de collocations à partir des textes, parametrable pour plusieurs langues (français, roumain, allemand, anglais) Les collocations sont des constructions/'colligations' –composées par une base et un collocatif (Hausmann 2004), réliés par des relations syntaxiques –Propriétés morpho-syntaxiques contextuelles Projet financé par l'AUF (Agence Universitaire pour la Francophonie) Partenaires: Université Marc Bloch de Strasbourg, l'Académie Roumaine, IMS Stuttgart

6 Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Collocations et contextes Français: –"La commission a fait appel aux experts…" Absence du déterminant Complément indirect: préference pour la préposition 'à' Préference pour le singulier Roumain: –"Statele membre vor face faţă situaţiei…"/' Les états membres vont faire face à la situation…' l'absence du déterminant préférence pour le singulier Complément indirect : préference pour le datif

7 Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Méthodologie une méthode déjà appliquée pour l'allemand (Heid&Ritz 2005, Ritz&Heid 2006) –Les collocations sont caracterisées par des informations contextuelles spécifiques à chaque langue –L'identification de ces properties à partir des corpus de grande taille (en français, allemand, roumain, anglais) –Une combinaison des méthods d'extraction statistiques et des filtres linguistiques –une validation manuelle des candidats

8 Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Les corpus Corpus multilingue, aligné: AcquisCommunautaire (ACC) –Normes adoptées par les membres UE depuis 1950 –Étude des corpus français, allemand, roumain, anglais –documents communs pour les langues étudiées (16 millions mots/langue) –Alignement au niveau des propositions (et au niveau des mots en cours de réalisation) Corpus spécialisé –Termes spécifiques au domaine et expressions figées –Style impersonnel une analyse linguistique pour definir des filtres linguistiques

9 Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Les corpus (II) L'utilisation des corpus monolingues pour comparer les résultats extraits de ACC (en cours): –français: journaux (Le Monde, Le Monde Diplomatique), littérature (Frantext) (40 millions mots) –roumain: 2 romans, journaux, textes médicaux et techniques (15 millions mots) –anglais: BNC Baby, Brown (7 millions mots) –allemand: journaux, littérature (60 millions mots)

10 Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Etiquetage et annotation étiquetage et lemmatisation des corpus pour retrouver l'information pertinente –TreeTagger (Schmid 1994) pour français, anglais, allemand ACC et pour les corpus monolingues –QTAG (Mason, Tufis 2000) pour le corpus roumain (ACC + corpus monolingue) Annotation syntaxique partielle –Annotation des syntagmes: français, roumain, allemand adapter les ressources pour le domaine –correction des lemmas inconnus et des catégories lexicales (pour les mots spécifiques au domaine et pour les noms propres)

11 Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Plan Motivation et contexte Les constructions VN Les constructions VN en français et en roumain Conclusion et perspectives

12 Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Les collocations Verbe-Nom une étude des collocations V-N trois catégories de collocations (Gledhill et al., 2007) –cooccurence (éléments permutables) faire: un gâteau –constructions (éléments commutables) faire + face –expression (éléments invariables) [kick the bucket]

13 Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Constructions VN Propriétés spécifiques au verbe: –V1 (Morphologie). Est-ce que c'est possible de remplacer les constructions par un verbe? faire du travail = travailler, mais faire froid n'est synonyme à refroidir A face obiectul/'faire l'objet' = ?obiecta/'faire des objections' –V2 (Arguments). Les constructions VN comportent des complements directs ou indirects –Jean fait du bruit, Copiii fac gălăgie /’Les enfants font du bruit’ –Pierre fait peur à Jean, El face apel la colegi /’Il fait appel aux collègues’ –V3 (Passivation). Les constructions VN peuvent être passivisées? Un résumé de ton livre a été fait par Jean mais pas *La fuite a été prise –V4 (Aspect). Les constructions VN expriment souvent un aspect perfectif She laughed / She gave a laugh / She laughed for hours / ?She gave a laugh for hours

14 Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Constructions VN (II) Propriétés spécifiques au nom –N1(détermination). Le déterminant est absent ou fixe prendre la fuite mais pas ?prendre une fuite a face apel/'faire appel' (le déterminant est absent) –N2 (clivage). Le nom d'une VN ne peut pas servir du focus dans une structure clivée C’est la caisse qu’il a prise mais pas ?C’est la fuite qu’il a prise –N3 (expansion). Le nom ne peut pas étre modifié par une clause relative A luat decizia care era necesară /’ Il a pris la décision qui était nécessaire’, mais *A făcut obiectul care era necesar / ‘a fait l’objet qui s’imposait’ –N4 (conversion). La nominalisation du V n'est pas toujours possible Elle a vérifié l’hypothèse = sa vérification de l’hypothèse / Elle a fait l’hypothèse = ?son fait de l’hypothèse A făcut faţă situaţiei dificile cu bine / Il a fait face à la situation difficile=*Faţa a fost făcută cu bine /*La face a été faite

15 Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 La grammaire fonctionnelle systémique Toutes les catégories des constructions VN Trois niveaux d'analyse (Halliday 1985, Banks 2000): –structure lexicale (prédicat complex vs. Prédicateur complex) –rôle fonctionnel (Sujet, Prédicat, Complément) –semantique (le complément exprime la portée du verbe)

16 Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Structure lexicale Prédicat complex vs. prédicateur complexe (Gledhill 2007) –le nom d'un prédicat complexe peut être passivisé Paul fait un gateau/ Le gâteau a été fait par Paul. S P C noun verb det noun Agent Process Range - le nom d'un predicateur complexe ne peut pas être passivisé El şi-a luat zborul/*Zborul a fost luat 'il lui a pris vol-DET/Vol-DET a été pris' S P C pro verb noun Ben Process Range –le complément du prédicateur complexe peut être relativisé we had a look at the screenshots... the screenshots which we had a look at were interesting.

17 Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Propriétés sémantiques Le procès est exprimé par la phrase: –Les participants: agent, affecté, bénéficiaire etc; –Les non-participants: portée, temps, instrument, place etc. La portée: les éléments qui précisent le procès (Halliday & Matthiessen 2004) –le complément indirect précise la portée. En français, identifié par une préposition faire l'objet d'une procedure.... En roumain, le complément indirect est au datif...să facă faţă situaţiei... 'qu'on fasse face à la situation'

18 Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Plan Motivation et contexte Les constructions VN Les constructions VN en français et en roumain Conclusion et perspectives

19 Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Les données Une étude des verbes a face/faire –Identification des propriétés morpho- syntaxiques contextuelles (V1-V4;N1-N4) dans le corpus multilingue et les corpus monolingues –Identification des procès exprimés par la base 'a face/faire' et les collocatifs –La relation entre le type de procès et les testes syntaxiques

20 Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Notions de grammaire roumaine 5 cas Identification par les articles définis –Nominatif/Accusatif: suffixe: calul, casa, oamenii, casele –Genitif/Datif: suffixe: calului, casei, oamenilor, caselor Identification par les article indéfinis –Nominatif/Accusatif: un cal, o casă, nişte case –Genitif/Datif: unui cal, unei case, unor case préposition pe (lit. 'sur') – accusatif clitiques et compléments peuvent être utilisés ensemble Paul vede pe Maria (sans clitique) 'Paul voit Maria' Paul o vede pe Maria (clitique + CD) 'Paul la voit Maria' Paul o vede 'Paul la voit'

21 Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Grammaire roumaine (II) Le subjonctif identifié par la particule ‘să’ suivi de la forme présent, mode indicatif - Trebuie să mergem / ‘Il faut qu'on aille’ Le passif est composé à l'aide de l'auxiliaire a fi /être: –Florin citeşte cartea. –’Florin lire-PRESENTlivre-le' –‘Florin lit le livre’ –Cartea a fost citită de Florin. –Livre-le a été lue par Florin L'ordre est libre: –S (or Ø) + P + C (direct) + C (indirect)

22 Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Quelques propriétés Identifiés dans les corpus (ACC+ monolingues) Vérification des propriétés V1-V4, N1-N4 –V4, N2 ne s'applique pas au roumain les propriétés contextuelles: –Le marqueurs de cas du complément indirect –Le marqueurs de N ou V

23 Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Types de procès ProcèsVerbeExemples materialtransitiveface: măsurători, faire: un rapport materialnon-transitiveface+comerţ, faire + le nécessaire mentalcognitiveFace:evaluări, faire+une idée verbaltextual communication face+trimitere, faire+mention verbaloral communicationface+recomandări, faire:declarations relationalcircumstantial[face obiectul] [faire face, partie, obstacle]

24 Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 N1. Détermination (I) Verbe + l’article défini+ Nom –Corpus Acquis Communautaire : Français (procès matériel): –il n’est pas nécessaire de conditionner les spécimens ni de faire les analyses dans une atmosphère … –le nombre de points où il y a lieu de faire les prélèvements sera déterminé en conformité avec la règle… Roumain (procès relationnel) : –…care este recunoscut pe plan internaţional şi care face obiectul unui audit./'…qui est mondialement reconnu et qui fait l’objet d’un audit…' –…Trece peste graniţa dintre statele membre şi care face legătura între sistemele de transport…/'…traverse les frontières entre les états membres et qui fait le lien entre les systèmes de transport…

25 Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 N1.Détermination (II) Article indéfini –Corpus Acquis Communautaire : Français (procès mental ou communicatif) –la Commission peut faire des commentaires et, le cas échéant, présenter des propositions au comité … –La Commission peut faire des suggestions aux États membres en ce qui concerne la coordination de … Roumain (procès matériel ou mental) –(Procès matériel) »Comisia poate să facă orice modificări la prezentul Regulament care … »'La commission peut faire des changements sur le present règlement…' –(Procès mental) »Acest raportor face o evaluare preliminară al recursului. »'Ce rapporteur fait une évaluation préliminaire du recours… ‘

26 Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 N1. Détermination (III) Verbe + Nom (sans article) –Corpus AcquisCommunautaire : Français (procès relationnel) –Le comité fait fonction de comité de gestion selon la procédure prévue à l’article 47, paragraphe 3, l… –La couverture des risques peut faire partie des activités tant de sociétés d’assurance vie que de sociétés… –Afin de faire face à ces difficultés, il y a lieu d’autoriser la Commission à adopter des mesures transitoires, –La présente disposition ne fait pas obstacle à ce que lesdites mentions soient indiquées en plusieurs langues. Roumain (procès relationnel ou matériel) –(relationnel) Pentru a putea face faţă unor situaţii de urgenţă …/‘pour faire face aux situations d’urgence’ vizite –(matériel) Organismul autorizat poate face vizite inopinante la producător/‘L’organisme autorisé peut faire des visites-surprises chez le producteur’

27 Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 CollocatifFréq. ACC ArtNbCasV comp. CollocatifFréq RoGen ArtNbCasV comp Obiectul/ ’objet-le’ 3092DéfSgDatifOuiParte/ ’partie’ 1571-sgAcc (Din/’ de’) Oui Referire/ ’référence’ 1416-sg, pl Acc (La/’à’) Ouiînscrieri/ ’inscriptions ’ 422-, défplAcc (La/’e n’) Non Parte/ ’partie’ 1268-SgAcc (din/ ’de’) OuiBaza/ ’base-la’ 362-, défsgDatifNon Trimitere/’ référence’ 691-Sg, pl Acc(la/’à ’) OuiLoc/’lieu’160-, défSg, plDatifNon Dovada/ ’preuve’ 178DéfSgDatifNonCursuri / ’cours’ 142-, défpl-Non Posibilă/ ’possible’ 170-SgAcc/nomOuiFaţă/’face’137-sgDatifOui Necesară/’ necessaire ’ 155-Sg, pl Acc/nomOuiObiectul/ ’objet’ 127-, déf, indéf Sg, plDatifOui Faţă/’face’150-SgDatif, Acc(la/’à ’) OuiPrecizãri/ ’précisions’ 124-, déf, indéf Sg, plDatifNon

28 Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 VerbeCollocatifFréq. ACC Art.NrPrépCollocatifFréq. FrGen Art.Nr.Prép. Faire, font, fait, fais, faisons Objet2378l’sgde, du, des Face2578nullSgAu, aux, à Partie871nullsgde, des, d’ Partie1419nullSgde, du référence753nullSgà, au, aux Objet881L’SgDe, des, du Usage271Null, un sgDe, des, d’ Morts801 desPl- Face204nullsgau, à, aux Preuve787null, une SgDe, des, du Appel192nullsgau, aux, à Part741nullSgA, au, aux Rapport170UnsgAu, aux, à, sur Appel665nullSgAu, aux, à Obstacle132nullsgAux, à, au Etat583nullSgDe, des Etat93nullsgDeSorte458nullSgEn…que

29 Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Conclusion et perspectives Propriétés morpho-syntaxiques communes pour plusieurs langues Définir des filtres linguistiques pour chaque langue (en cours) Module d'extraction en cours d'évalutaion validation manuelle des données extraites


Télécharger ppt "Amalia Todirascu & Christopher Gledhill Journées de Linguistique de Corpus, Lorient, septembre 2007 Collocations en contexte: étude et analyse contrastive."

Présentations similaires


Annonces Google