Apprentissage automatique des morphologies: Pourquoi et comment John Goldsmith Université de Chicago Projet MoDyCo / CNRS.

Slides:



Advertisements
Présentations similaires
Être un parent!.
Advertisements

Primary French Presentation 2 Saying How You Are.
1 2 y en II I me le te la nous les lui vous leur l’
Mission X Superfli Emily Roberts Cette présentation sera écrit en français avec sous-titres anglais violet de couleur. This presentation will be written.
Vers un nouvel empirisme: lapprentissage automatique John Goldsmith Université de Chicago Projet MoDyCo / CNRS.
Aller. Sortez vos schémas dhier. Demadez aux autres: Quest-ce que tu as écrit? Quand on a fini, on sassoit Quand tout le monde a fini le schéma, on va.
C’est lundi, le 25 novembre 2013 Les Objectifs: NS 1.1 Students engage in conversations, provide & obtain info. Express feelings & emotions, and exchange.
Le subjonctif.
1 er décembre 2005IFT6010 – Jean-Yves Guyomarc’h Colorless green ideas…. Une « guerre de religion »
WEIRDOS!WEIRDOS! and other strange conjunctions ….
Information Theory and Radar Waveform Design Mark R. bell September 1993 Sofia FENNI.
Vers un nouvel empirisme: l’ancien et le nouvel empirisme John Goldsmith Université de Chicago CNRS MoDyCo.
L’inversion --another way to make a question.. What are some ways to form a question? Est-ce que... N’est-ce pas? Voice inflection.
Bonjour!! Pour être prêt: Répondez aux questions:
Mon uniforme scolaire WALT: Revise words for clothes and be able to give opinions about my school uniform. WILF: Using more complex descriptions and opinions.
© Copyright Showeet.com S OCIAL M EDIA T HINKING.
Laboratoire des outils informatiques pour la conception et la production en mécanique (LICP) ÉCOLE POLYTECHNIQUE FÉDÉRALE DE LAUSANNE 1 Petri nets for.
3 Les Verbes -ER Talking about people’s activities Les normes: –Communication 1.2: Understanding the written and spoken language –Comparisons 4.1: Understanding.
Le passé composé The perfect tense Eg: J’ai mangé une pizza I have eaten/ate a pizza.
 The compound past tense (past indefinite), more commonly known as the passé composé, refers to an action or event completed in the past.  The word “compound”
Le Comparatif et le Superlatif
Let’s go back to the verb endings. What are our 3 infinitive endings? ER IR RE What is an infinitive? An unconjugated verb In other words, a verb in the.
Les pronoms objets indirects.  Peux-tu identifier les règles des ‘pronoms objets indirects’ en regardant les exemples suivants?
Qui est présent? Écoutons Les préférences Vocabulaire: les activités Panorama Culturel.
THE ADJECTIVES: BEAU, NOUVEAU AND VIEUX 1.
Les Mots Interrogatifs
Greetings, formal and informal
French 101 Important Verbs. The most important French verbs – avoir (to have), être (to be), and faire (to do/make) They are used in some of the ways.
Les Pronoms Direct & Indirect.
2 Le verbe « être » au pluriel Les normes: Communication 1.2 Comparisons 4.1 Les questions essentielles: - What are the plural subject pronouns in French?
Le passe composé.
Français 2, 5 janvier 2015 Describe your holiday break, use the past tense. Things you did or ate. What is the difference between here and there? Sage.
Les verbes réfléchis au passé composé
Les verbes réfléchis -au présent -à l’impérative (command) -avec l’infinitif Rouge, Unit 1, Part 1 Page 44.
Gains from trade Principle # 5: Trades improve the well-being of all.
Year 10. Bon appetit unit. Introducing ‘en’. ‘en’ – ‘some of it’ or ‘some of them’ ‘En’ is a small but important word in French that is commonly used.
Structures de données et algorithmes – TP7 Maria-Iuliana Dascalu, PhD
MINI-LECTURE SUR LA GRAMMAIRE (LA DEUXIÈME) Présentée par Megan Brown.
Les pronoms objets Mme Zakus. Les pronoms objets When dealing with sentences, subjects are part of the action of the verb. In other words, they “ do ”
La mémoire(1): Comment bien travailler
Irregular Adjectives Not all adjectives are made the same.
Les verbes réfléchis.
Bienvenue and Welcome to Our French II Live Lesson! We will begin shortly!
Welcome to our French II Live Lesson! Today we will talk about: Lessons 03.05, 03.06, Des Verbes Irréguliers Le Négatif.
Welcome everyone.
Celebrity Photo Album by M. Rocque. La Description You are going to see several celebrities. For each celebrity say one or two adjectives to describe.
Let’s enjoy making Session 2. Let’s enjoy making: Session 2 Les déménageurs sont arrivés !
Object pronouns How to say “him”, “her”, “it”, “them”
Mettre. First, let’s review the irregular verbs we know. Think of as many as you can, while I hand out whiteboards.
1. Est-ce que Est-ce que, literally translated "is it that," can be placed at the beginning of any affirmative sentence to turn it into a question: Je.
Français 2, 27 octobre 2014 Ouvrez vos livres á la page 43. Use these sentences to describe your floor plan. What do you get if you cross an alley cat.
Le matériel scolaire. Vocabulaire Un compas Un sac Un stylo Un cahier.
Unité 6 Leçon B. Forming yes/no questions  To form a yes/no question in French in the simplest way, add a question mark at the end of the sentence, and.
Nous parlons des matières Buts: To be able to give extended opinions on school subjects To express agreement or disagreement.
ECS1 – COURS D’ECONOMIE ECS1 –
THE IMPERATIVE Commands Row! Estiell e presentations.
Clique Percolation Method (CPM)
Negative sentences Questions
ever for This presentation requires PowerPoint XP or later.
Un petit peu de grammaire… Le passé composé. On récapitule…le verbe “être” Jesuis Tu es Il est Elle est Nous sommes Vous êtes Ils sont Elles sont.
O WHY IS IT IMPORTANT TO PLAN AHEAD FOR THE FUTURE?
UNITÉ II: LEÇON 6 PARTIE B: LES MOIS ET LA DATE. LES MOIS DE L’ANNÉE janvier January.
Le Passif...getting to know the Passive Voice in French!
The imparfait can be translated several ways into English.
Put these phrases into 4 categories, and decide on a title for each category. There may be more than one possible answer! boire de l’eau manger des fruits.
There are so many types of sports. For example-: Basketball,volleyball, cricket, badminton, table tennis, football, lawn tennis etc.
F RIENDS AND FRIENDSHIP Project by: POPA BIANCA IONELA.
Révision – Phrases Importantes
Question formation In English, you can change a statement into a question by adding a helping verb (auxiliary): does he sing? do we sing? did they sing.
WRITING A PROS AND CONS ESSAY. Instructions 1. Begin your essay by introducing your topic Explaining that you are exploring the advantages and disadvantages.
Transcription de la présentation:

Apprentissage automatique des morphologies: Pourquoi et comment John Goldsmith Université de Chicago Projet MoDyCo / CNRS

Merci 1.Introduction: Remarques générales sur une perspective empiriste, et sur ses implications pour la linguistique. 2.L’apprentissage automatique de la structure morphologique, implémenté dans un logiciel.

Une citation de Syntactic Structures, Noam Chomsky 1957 The strongest requirement that could be placed on the relation between a theory of linguistic structure and particular grammars is that the theory must provide a practical and mechanical method for actually constructing the grammar, given a corpus of utterances. Let us say that such a theory provides us with a discovery procedure.

corpus grammar

A weaker requirement would be that the theory must provide a practical and mechanical method for determining whether or not a grammar proposed for a given corpus is, in fact, the best grammar of the language from which the corpus is drawn (a decision procedure).

corpus yes/no grammar

An even weaker requirement would be that given a corpus and given two proposed grammars G 1 and G 2, the theory must tell us which is the better grammar....an evaluation procedure.

"G 1 " or "G 2 " G1G1 G2G2 corpus

The point of view adopted here is that it is unreasonable to demand of linguistic theory that it provide anything more than a practical evaluation procedure for grammars. That is, we adopt the weakest of the three positions described above...

I think that it is very questionable that this goal is attainable in any interesting way, and I suspect that any attempt to meet it will lead into a maze of more and more elaborate and complex analytic procedures that will fail to provide answers for many important questions about the nature of linguistic structure. I believe that by lowering our sights….

lowering oursights to the more modest goal of developing an evaluation procedure for grammars we can focus attention more clearly on truly crucial problems...The correctness of this judgment can only be determined by the actual development and comparison of theories of these various sorts.

Notice, however, that the weakest of these three requirements is still strong enough to guarantee significance for a theory that meets it. There are few areas of science in which one would seriously consider the possibility of developing a general, practical, mechanical method for choosing among several theories, each compatible with the available data. Noam Chomsky, Syntactic Structures 1957

2. L’apprentissage automatique de la grammaire Plan général –Un corpus C –Une famille de grammaires possibles G –Une façon de mesurer la relation entre un corpus C et une grammaire particulière g: Complexité de g (indépendamment du corpus) La complexité du corpus selon grammaire g. Notre but est de minimiser la somme de ces deux éléments. ( MDL = “Longueur de déscription minimale”). Nous en revenons!

Plus contrètement: Une heuristique initiale (amorce) qui prend un corpus comme input et en crée une grammaire préliminaire (sans doute trop simple). Une série de heuristiques de modifie la grammaire. Une facon d’appeler la mesure du slide précédent: est-ce que la modification est pour le meilleur? (MDL)

Corpus Nous choississons un corpus naturel d’une langue naturelle (5,000- 1,000,000 mots)

Corpus Heuristique “amorce” Nous introduisons le corpus à la heuristique “bootstrap”

Corpus Cela nous donne une morphologie, qui n’est pas forcément très bonne. morphologie Heuristique “amorce”

Corpus Heuristiques incrémentieles Nous l’envoyons aux heuristiques incrémentielles. Heuristique “amorce” morphologie

Corpus Sortie: une morphologie modifiée Heuristique “amorce” morphologie Heuristiques incrémentieles morphologie modifiée

Corpus morphologie modifiée Est-ce que la modification est un amélioration? Notre expression MDL donne la réponse. Heuristique “amorce” morphologie Heuristiques incrémentieles

Corpus morphologie S’il s’agit d’une amélioration,elle remplace la vieille morphologie. Poubelle Heuristique “amorce” morphologie modifiée

Corpus Send it back to the incremental heuristics again... Heuristique “amorce” Heuristiques incrémentieles morphologie modifiée

morphologie Continuez jusqu’au moment où il n’existe plus d’améliorations à tester. Heuristiques incrémentieles morphologie modifiée

Reprise Nous avons vu la méthode algorithmique. Pour chaque domaine linguistique, il nous faut préciser: 1.La heuristique “amorce”; 2.Les heuristiques incrémentielles; 3.Le modéle MDL (Longueur de déscription minimale).

1. L’heuristique amorce Elle se fait en deux temps: A.Elle trouve des coupures potentielles en utilisant une suggestion de Zellig Harris. B.Elle acceptent une coupure potentielle si et seulement si elle fait partie d’une signature propre.

Zellig Harris: successor frequency Successor frequency of jum : 2 jum p ( jump, jumping, jumps, jumped, jumpy ) b (jumble) Successor frequency of jump : 5 e (jumped) i (jumping) jumps (jumps) y (jumpy) # (jump)

Zellig Harris:Successor Frequency a c c e p t i n g able ing lerate (“accelerate”) nted (“accented”) ident (“accident”) laim (“acclaim”) omodate (“accomodate”) reditated (“accredited”) used (“accused”) coupure prévue

5 Zellig Harris: Successor frequency d a e i o 9 a b debate, debuting c decade, december, decide d dedicate, deduce, deduct e deep f edefeat, defend, defer ideficit, deficiency rdefraud ddead fdeaf ldeal ndean tdeath 18 3 prédictions fausses bonnes prédictions

Zellig Harris:Successor frequencies c o n s e r v a t i v e s incorrecte correcteincorrecte

Problèmes Si 2+ suffixes commencent par le même phoneme/lettre: donn ais ait a donna is it NULL Analyse basée sur successor frequency

Amorce B: Signatures Nous acceptons la dernière coupure dans chaque mot: –Racine (potentiel) + suffixe (potentiel) Avec chaque racine (potentiel) nous associons l’ensemble de ses suffixes (potentiels):

Signatures Toutes les racines qui possèdent le même ensemble de suffixes forment l’ensemble de racines dans une signature:

Finite state automaton (FSA) jump walk NULL ed ing

Signature propre Une signature propre contient au moins deux racines et au moins deux suffixes. Nous gardons (maintenant) seulement les signatures propres, et jetent les autres. (Certaines d’entres elles vont revenir plus tard.)

Reprise Pour chaque domaine linguistique, il nous faut préciser: 1.La heuristique “amorce”; 2.Les heuristiques incrémentielles; 3.Le modéle MDL (Longueur de déscription minimale).

Exemples Bientôt --

Reprise Pour chaque domaine linguistique, il nous faut préciser: 1.La heuristique “amorce”; 2.Les heuristiques incrémentielles; 3.Le modéle MDL (Longueur de déscription minimale).

Modèle MDL La longueur de déscription se compose de deux termes: [La longueur de la grammaire, en bits ] + [La quantité d’information dans le corpus qui n’est pas expliquée totalement par la grammaire, en bits ] Ici, grammaire = morphologie

[La longueur de la grammaire, en bits ] + [La quantité d’information dans le corpus qui n’est pas expliquée totalement par la grammaire, en bits ] L’idée centrale: une analyse extrait toujours des redondances. Par exemple…

Longueur de description (version naïve!) Corpus: jump, jumps, jumping laugh, laughed, laughing sing, sang, singing the, dog, dogs totale: 62 lettres Analyse: Racines : jump laugh sing sang dog (20 lettres) Suffixes : s ing ed (6 lettres) Non analysés : the (3 lettres) totale: 29 lettres.

Pour decrire le corpus, il vaut mieux extraire un lexicon structuré, et décrire le corpus à travers la structure du lexicon.

Pourquoi minimiser ? Si la longueur de la grammaire est trop longue, on risque “overfitting”: la grammaire décrit le message, non pas le système qui a crée le message. Si la description des données est trop longue, on risque de ne pas avoir capté des généralisations inhérentes dans les données.

Essence of MDL…

Mesurer la longueur de la morphologie La morphologie est composée de trois composantes: 1.Une liste de racines 2.Une liste d’affixes 3.Une list de signatures. Nous calculons d’abord (1) et (2).

La longueur d’une liste de morphèmes La longueur d’une list (de longueur N) de morphèmes = –log N +  longueur de chaque morphème ] La longueur d’un morphème m: 1.log|m| +  [-1 * log 2 freq de chaque lettre] 2.log |m| +  [-1 * log 2 freq de chaque lettre, donné la lettre précédente] autrement dit:

Mesurer la longueur de la morphologie La morphologie est composée de trois composantes: 1.Une liste de racines 2.Une liste d’affixes 3.Une list de signatures. Nous calculons (3).

Nous remplaçons chaque morphème par un pointeur au morphème, qui coûte moins cher (en bits). La longueur optimale d’un pointeur est basé sa fréquence: -log 2 fréquence(m). Une signature consiste de deux listes de pointers, et nous sommes en mesure de tout mesurer:

L’Information contenue dans toutes les signatures

Source plus profonde de MDL Le but de tout sysème rationel est de trouver le meilleur explication des observations. On interprète ceci dans un contexte probabiliste: Trouver l’analyse la plus probable, étant données les faits.

La règle de Bayes h = hypothèse; D = données. Trouver l’hypothèse la plus probable = trouver celle dans le produit de sa probabilité et de la probabilité qu’elle donne aux données est maximale.

Nous pouvons maintenant regarder le fonctionnement de cet algorithme.

Conclusion Comment définir ce type d’analyse linguistique? Aucun linguiste générative à l’heure actuelle ne l’identifierait comme une analyse générative. Et pourtant… C’est une interprétation empiriste du programme original générativiste.