Introduction à la linguistique de corpus

Slides:



Advertisements
Présentations similaires
Primary French Presentation 2 Saying How You Are.
Advertisements

Module lexicographie II
C’est quel métier? Sans ouvrir les livres, essayez de trouver la définition anglais de chaque métier: Un acteur/actrice un agent de police/un policier.
Negation… I go… I do not go. = Je vais… Je ne vais pas.
Du dictionnaire informatisé au système dinformation lexical intégré Serge Verlinde Institut des langues vivantes K.U.Leuven X papier Le dictionnaire nouveau.
OIL & UPML DREVET - HUMBERT Introduction OIL : un langage de description dontologies UPML : un langage de description de systèmes à base.
Introduction à la linguistique de corpus
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Les Expressions Négatives
Pour mieux écrire. 1. Do not use on-line translators (except as a dictionary for a single word) 2. Be very careful using a dictionary (be sure youre finding.
1 er décembre 2005IFT6010 – Jean-Yves Guyomarc’h Colorless green ideas…. Une « guerre de religion »
Un Sourire ... Texte original en français : Raoul Follereau
STARTER - Fill in the blanks using the words in the box below (N.B. Your sentences have to make sense! If you finish this quickly you need to translate.
LINGUISTIQUE APPLIQUÉE À L’ENSEIGNEMENT-APPRENTISSAGE DU FRANÇAIS
Essential Questions How can you express the verb “ to be” in French?
Notes les novembre SAVOIR et CONNAÎTRE The verbs savoir and connaître both mean to know, but they are not interchangeable.
Edulang juin 2002 ATELIER CYBERLANGUES EDULANG Offre actuelle des logiciels de langues PACKLANG Une idée pas si nouvelle que ça… 144 ans plus tard... Conclusion.
L’infinitif By: Cassandra Lieberman and Alexa Bleicken.
Le passé composé The perfect tense Eg: J’ai mangé une pizza I have eaten/ate a pizza.
Les nÉgations.
Quelle force que celle de s’accepter comme on est !
WALT: To talk about the internet in French.
Le Comparatif et le Superlatif
Let’s go back to the verb endings. What are our 3 infinitive endings? ER IR RE What is an infinitive? An unconjugated verb In other words, a verb in the.
Les pronoms objets indirects.  Peux-tu identifier les règles des ‘pronoms objets indirects’ en regardant les exemples suivants?
Qui est présent? Écoutons Les préférences Vocabulaire: les activités Panorama Culturel.
Forming questions in French
French 101 Important Verbs. The most important French verbs – avoir (to have), être (to be), and faire (to do/make) They are used in some of the ways.
Français 1441 Chapître 3 Révision d’Examen.  Someone tells you where things on campus are located. You listen and fill in the blank with the missing.
2 La négation Les normes: –Communication 1.2 –Comparisons 4.1:
Les Pronoms Direct & Indirect.
Pile-Face 1. Parlez en français! (Full sentences) 2. One person should not dominate the conversation 3. Speak the entire time The goal: Practice! Get better.
J’aime: I like Je n’aime pas: I don’t like
Mots du jour Pauvre Riche L’homme Le Femme Pannier vagabond.
Les verbes réfléchis -au présent -à l’impérative (command) -avec l’infinitif Rouge, Unit 1, Part 1 Page 44.
Year 10. Bon appetit unit. Introducing ‘en’. ‘en’ – ‘some of it’ or ‘some of them’ ‘En’ is a small but important word in French that is commonly used.
Jeunes, qui êtes-vous? Using reading strategies for comprehension, comparisons, and preparation for Café français.
Les pronoms objets Mme Zakus. Les pronoms objets When dealing with sentences, subjects are part of the action of the verb. In other words, they “ do ”
La mémoire(1): Comment bien travailler
En français, every NOUN has a gender. It is either MASCULINE or FEMININE. It has NOTHING to do with who uses it more, what color it is, etc. It is just.
Irregular Adjectives Not all adjectives are made the same.
To prepare for a discussion on school uniforms in French.
Les verbes réfléchis.
lundi 17 novembre Tu es comment? What do you look like? Starter: Dictionary challenge: Look up the words in the dictionary. You need the masculine and.
Bienvenue and Welcome to Our French II Live Lesson! We will begin shortly!
FLASH! Power Point Sample. Use FLASH! with any level I put a variety of topics in here so you can see how to make a FLASH! with different levels of learners.
Christina Arecy April 10 th  In the standard dictionary, the term legacy is define as a gift by will especially of money or other personal property.
Je peux traduire le français au l’anglais!
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Let’s enjoy making Session 2. Let’s enjoy making: Session 2 Les déménageurs sont arrivés !
Object pronouns How to say “him”, “her”, “it”, “them”
Les noms et les articles
1. Est-ce que Est-ce que, literally translated "is it that," can be placed at the beginning of any affirmative sentence to turn it into a question: Je.
Write your answer in French
Unité 6 Leçon B. Forming yes/no questions  To form a yes/no question in French in the simplest way, add a question mark at the end of the sentence, and.
Nous parlons des matières Buts: To be able to give extended opinions on school subjects To express agreement or disagreement.
The Passé Composé Objective: to talk about things we have done on a visit to explain what events happened to speak and write about events in the past.
Lundi 14 septembre Parle-moi de toi! la première activité: Vérifiez les devoirs. dé e st e e g a r d e h b i t e oy ag e doro ns am e ap pe le c o l e.
Sciences du langage et de la communication Responsable du pilier : Corinne Rossari Professeure de linguistique française Présentation : Tobias von Waldkirch.
Flash-on-flash-off! You will see some French text in a minute but it will only be on the board for a minute then it will disappear.
The 4th Power Places and Forms of power How reliable are our sources of information today ? The media.
AVOIR Quick review of the conjugation of the verb AVOIR  J’ai  tu as  Il/elle a  Nous avons  Vous avez  Ils/ells ont.
OBJECT PRONOUNS WITH THE PASSÉ COMPOSÉ Page 122. Placement  With all object pronouns, placement is the same. DirectIndirectPlaces De+ nouns or ideas.
Negative sentences Questions
O WHY IS IT IMPORTANT TO PLAN AHEAD FOR THE FUTURE?
Le Passif...getting to know the Passive Voice in French!
Deux facteurs: l’œuf et la poule Position théorique: décrire la langue au niveau de la performance Position théorique: décrire la langue au niveau de la.
Qu’est-ce que tu as dans ta trousse?
Question formation In English, you can change a statement into a question by adding a helping verb (auxiliary): does he sing? do we sing? did they sing.
Transcription de la présentation:

Introduction à la linguistique de corpus De la définition, élaboration et application des corpus dans l ’étude des langues naturelles

Concordances LDP terms don't allow modification ( other than translation), modified ver­ sions can I said that there had to be something better than xmag, well this is it. See section way of this. If you are using a Kernel newer than 1.3.75, just type linux no-scroll at included it, so if you get a version later than 740, you probably won't have to do patch. This does not apply to kernels earlier than 1.3.75. *** console.c~ Fri Mar 15 Braille Lite This is more a portable computer than a terminal. It could, however, be used

Définition 1981: Sinclair,Corpus, Concordance,Collocation = Ouvrage définitoire de la linguistique de corpus: env. 15 ans après l’apparition des premiers corpus informatisés tels que le Survey of English Usage ou le Brown Corpus Collecte, annotation et utilisation de corpus de langue parlée ou écrite pour étudier les phénomènes de la langue à l'aide de logiciels d'interrogation ne nécessitant pas de connaissances informatiques approfondies.

Domaines connexes En anglais: distinction entre Corpus linguistics, computational philology, computational linguistics, language engineering. En français: on parle surtout de traitement automatique du langage (TAL). Il y a parfois confusion entre TAL et linguistique de corpus.

Définition des trois autres disciplines "Philologie computationnelle": L'utilisation de matériau textuel sur support électronique afin d'étudier les phénomènes linguistiques et l'enseignement des langues. Traitement automatique du langage: l'analyse et la modélisation automatiques du langage en utilisant des langages de programmation. Ingénierie linguistique: la création et l'application de corpus dans des logiciels de traitement du langage, tels que la traduction automatique, etc.

La linguistique de corpus et la linguistique Approche IA vs Approche probabiliste

Deux facteurs: l’œuf et la poule Position théorique: décrire la langue au niveau de la performance Disponibilité croissante de documents sur support électronique, ainsi que d’outils de manipulation des données

Deux « camps » Linguistique de corpus / approche probabiliste Grammaire générative / approche IA

Approche probabiliste Basée sur des propriétés statistiques du langage S ’appuie sur des données authentiques extraites de tous les domaines du discours

Le courant générativiste N. Chomsky: Syntactic Structures l ’intuition du locuteur natif rejet des corpus TAL Intelligence Artificielle psychologie cognitive

Noam Chomsky 1957: Syntactic Structures, The Hague: Mouton, p. 159 Any natural corpus will be skewed. Some sentences won’t occur because they are obvious […], false, […] impolite. […]the description […] would be no more than a mere list.

Systèmes « jouets » Whatever is linguistic is interesting A ticket was bought by every man The man with the telescope and the umbrella kicked the ball Hans bekommt von dieser Frau ein Buch Maria è andata a Roma con Anna

Fillmore: The corpus linguist He has all the primary facts that he needs, in the form of a corpus of approximately one zillion running words, and he sees his job as that of deriving secondary facts from his primary facts. At the moment, he is busy determining the relative frequencies of the eleven parts of speech for the first word of a sentence versus the second word of a sentence

Fillmore: The armchair linguist He sits in a deep soft armchair, with his eyes closed and his hands clasped behind his head. Once in a while he opens his eyes, sits abruptly shouting, ‘Wow, what a neat fact!’, grabs his pencil, and writes something down… having come close to knowing what language is really like.

Guerre de territoire Plus personne ne nie la nécessité des corpus en lexicologie et terminologie… … en syntaxe et sémantique, les deux écoles survivent: Les jugements portés par les locuteurs natifs sur la grammaticalité d’une phrase vs toute description doit se fonder sur des faits observables => Incidences sur la position par rapport aux stuctures figées vs libres dans la langue

Tournant en TAL Besoins très vastes en données lexicales et syntaxiques Description syntaxique très précise Extraire les informations directement des données authentiques Analyses quantitatives

Qu’est-ce qu ’un corpus? I. Définition Qu’est-ce qu ’un corpus?

Corpus Ensemble de textes dans une base de données sur support électronique... Ensemble structuré de textes assemblés spécifiquement pour l ’analyse linguistique... Vaste ensemble de textes... Ensemble de textes représentatifs du langage en général...

Mais... Historiquement, les premiers corpus n’existaient même pas sous forme électronique. Un corpus pouvant servir à l’étude linguistique n’a pas forcément été rassemblé dans ce but.

De plus... Un corpus n’a pas forcément besoin d ’être gigantesque, ni de constituer un échantillon représentatif de toute la langue. Sa taille et son contenu dépendent de l ’usage que l’on veut en faire.

Un corpus peut être composé de: Texte complet Ensemble de textes complets Echantillons extraits de textes complets Ensembles de citations Dictionnaire Gigantesque archive non structurée de textes

Archives et Bases de données Corpus : compilation systématique et structurée archive: assemblage gigantesque, non structuré de textes généralement récoltés un peu au hasard

Une archive est composée de Les oeuvres complètes d’un ou de plusieurs auteurs Tous les numéros d ’un journal sur une ou plusieurs années Tous les textes connus d’une période historique particulière Peut être utilisée dans les mêmes buts qu’un corpus

Définitions par les experts Sinclair 1994: A collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language

Experts II Francis 1992: a collection of texts assumed to be representative of a given language, dialect, or other subset of language, to be used for linguistic analysis

Experts III Mc Ennery and Wilson 1996: (1) (loosely) any body of text; (2) (most commonly) a body of machine-readable text; (3) (more strictly) a finite collection of machine readable text, sampled to be maximally representative of a language or variety

Donc... Un corpus est sélectionné et assemblé à l’aide de critères explicites. Il est stocké sous forme électronique. L’usage pour lequel le corpus est prévu, peut parfois, plutôt que sa conception, servir à définir ce qu’est un corpus.

Corpus pré-électroniques Un peu d’histoire…

Tradition d’études de corpus Biblique ou littéraire Lexicologie Dialectologie Enseignement des langues Grammaire descriptive

La Bible 1736 Alexander Cruden publie la première édition de concordances mots à contenu sémantique plein mots grammaticaux mots composé (how long, how many) et expressions figées ? (all the nations) (collocations) Sur le même modèle: Oeuvres littéraires (Shakespeare)

Lexicographie Début du 17e en Grande-Bretagne: Dictionary of the English Language: 40 000 entrées, 150 000 citations sur fiches Oxford English Dictionary: environ 70 ans, dernier volume en 1928 Oeuvres littéraires remontant jusqu ’à l’an mille: 414 825 entrées, 5 millions de citations

Dialectologie Récolte systématique de données du langage parlé Textes écrits dans les variantes ou patois 1921-1926: Dictionnaire historique du parler neuchâtelois et suisse romand = premier dictionnaire différentiel scientifique de la francophonie

L’enseignement des langues Käding (1890): 11 millions de mots : informations statistiques sur la fréquence d’apparition de lettres et de séquences de lettres => améliorer les performances des sténographes Thorndike 1921 et 1944 (avec Lorge): de 4,5 à 18 millions de mots: listes de fréquences => enseignement de l ’anglais aux natifs et non natifs

Grammaire descriptive Jespersen: journaux et romans Fries: précurseur en linguistique descriptive et sociolinguistique 1940: American English Grammar (lettres envoyées au gouvernement des E.-U., toutes origines socio-culrturelles) 1952: The Structure of English retranscriptions de conversations téléphoniques enregistrées

Objectifs Corpus généraux ou à objectifs généraux corpus équilibrés corpus spécialisés corpus d ’entrainement corpus de test corpus régionaux, de dialectes, non standard corpus d ’apprenants corpus écrits vs de langue parlée

. Corpus écrit Corpus de langue parlée Corpus échantillonné Corpus annoté vs non annoté (données brutes) corpus statique vs dynamique (moniteur) corpus saturé