Introduction au traitement automatique de l’arabe

Slides:



Advertisements
Présentations similaires
Relative pronouns Relative pronouns are used as replacements for a repeated noun or pronoun in a subordinate clause. TWO SENTENCES: I am looking for my.
Advertisements

Français I Mme Larson-Horne
1 ENSEIGNER – APPRENDRE LORTHOGRAPHE Plan Constats Enjeux Du côté de lenseignant : ce quil faut connaître : le plurisystème graphique du français les programmes.
Le démonstratif.
L’interrogation par mot interrogatif
Apprendre à lire.
Chap 1 Grammaires et dérivations.
L’observation réfléchie de la langue au cycle 3
Mardi 26 avril 2011 Today we are going to use pronouns that function as indirect pronouns. We are going to learn how to make the distinction between direct.
En Avant grammaire interactive_2 C HAPITRE 1 : Pour commencer.
STRESS PRONOUNS AND POSSESSIVES. WHAT IS A PRONOUN IN ENGLISH? A pronoun A subject pronoun Ex Replaces a noun Replaces a subject I I You He/She We Yall.
LES REGLES DE BASE DE L’ORTHOGRAPHE
Bases de données lexicales
LES FICHES POUR METTRE EN OEUVRE DES DISPOSITIFS D'AIDE ET DE SOUTIEN
Maîtrise de la langue française
Systeme Question-Reponse SQR
Chapitre 3 Syntaxe et sémantique.
Chapitre 2 La description du langage
LE DEVELOPPEMENT DU LANGAGE
(A. Meurant - UCL )1 Chapitre Quatrième Quelques définitions de base.
Présentation des objectifs de 2P
8èmes Journées INTEX/NooJ
Le démonstratif adjectif et pronom.
6th INTEX Workshop - Sofia, Bulgarie, May 2003 La Conjugaison des verbes arabes avec Intex Ibtihal FARAWI Laboratoire LASELDI Université de Franche.
LA FAMILLE NIVEAU 1 ET AB INITIO 1.
Possessive Adjectives What is a possessive adjective? – It's a word that tells who things belong to... my cell phone.
L’inversion --another way to make a question.. What are some ways to form a question? Est-ce que... N’est-ce pas? Voice inflection.
10/8/2014.  Le mot du jour: mes amis  L’objectif: Falcons can describe themselves and understand how adjectives and nouns agree.  La question: Tu es.
Les Pronoms Objet: indirect et direct Rachel Mojdehbakhsh AP French - 2.
Discovering French Nouveau
Programmation annuelle: Etude de la langue
Essential Questions  How to the French express possession?  How does it compare with English?
Let’s go back to the verb endings. What are our 3 infinitive endings? ER IR RE What is an infinitive? An unconjugated verb In other words, a verb in the.
THE ADJECTIVES: BEAU, NOUVEAU AND VIEUX 1.
Les adjectifs possessifs
“Which one” are you talking about?.  Ce, cet, cette, ces  Un article qui est le plus spécifique Les types d’articles…  Un/ une/ des – général  Le/
Chapitre 1 Une amie et un ami. Objectifs In this chapter, students will communicate in spoken and written French to: 1. Identify and describe themselves.
Écrire au cycle 2.
Le pronom « On » pour éviter la voix passive.
French II Chapter 5 Review. Relative Pronouns: qui means “who” for people means “which” “that” for places and things replaces a noun or phrase which is.
Français 1441 Chapître 3 Révision d’Examen.  Someone tells you where things on campus are located. You listen and fill in the blank with the missing.
Références La lettre flash du 20 octobre La circulaire sur la rénovation de l’enseignement des langues vivantes étrangères du 08 juin Le Cadre.
2 Le verbe « être » au pluriel Les normes: Communication 1.2 Comparisons 4.1 Les questions essentielles: - What are the plural subject pronouns in French?
Le passe composé.
Questions to consider: How are French nouns different from nouns in English? What is the difference between saying, “I have a pen.” and saying, “I have.
Les Pronoms Relatifs (The relative pronouns qui, que, où, dont, lequel)
Warm-up Write six sentences in French showing the difference in life- style between a young girl living in a village in Tunisia and your life style in.
Bienvenue and Welcome to Our French II Live Lesson! We will begin shortly!
dlcnstrctn dcrps prlls
Le Traitement Automatique des Langues (TAL)
EDL GRAMMAIRE GRAMMAIRE CONJUGAISON CE1 GRAM 11 GRAM 12 GRAM 13
Les noms et les articles
A Les articles pp. R4-R5 In French, articles and adjectives agree with the nouns they introduce. They are MASCULINE or FEMININE, SINGULAR or PLURAL. Definite.
1. Est-ce que Est-ce que, literally translated "is it that," can be placed at the beginning of any affirmative sentence to turn it into a question: Je.
Les différentes sortes.
Progression/Programmation – Français (1/3)
Progressivité de l’enseignement grammatical A partir d’un document rédigé par : - Claudine GARCIA-DEBANC - Véronique PAOLICCI - Nicole RAMIREZ - Pierre.
Français I – Leçon 6A Structures demonstrative adjectives passé composé with avoir.
AVOIR Quick review of the conjugation of the verb AVOIR  J’ai  tu as  Il/elle a  Nous avons  Vous avez  Ils/ells ont.
Les objectifs: - to learn pronouns - To learn the verb ‘avoir’ (to have)
LES PRONOMS D’OBJET DIRECT. WHAT IS A SUBJECT? In a sentence, the person or thing that performs the action of the verb is called the SUBJECT.
Un petit peu de grammaire… Le passé composé. On récapitule…le verbe “être” Jesuis Tu es Il est Elle est Nous sommes Vous êtes Ils sont Elles sont.
To insert your company logo on this slide From the Insert Menu Select “Picture” Locate your logo file Click OK To resize the logo Click anywhere inside.
Direct object pronouns le la l’ les. A direct object is the “what” of a sentence. Example: I am reading the book. What am I reading? the book The book.
1 Notes de Grammaire 1 Les nombres de 30 à 60 trente trente et un trente-deux trente-trois trente-quatre trente-cinq trente-six trente-sept trente-huit.
Dispositif d’évaluation CE1. Champs repérés par l’épreuve 2: En français  Lecture reconnaissance de mots  Lecture compréhension  Ecriture.
LES DÉTERMINANTS POSSESSIFS FSL9 - RÉVISION. QU’EST-CE QUE C’EST? As we have learned so far, determinants are used before nouns – they indicate some sort.
LES PRONOMS D’OBJET DIRECT
Transcription de la présentation:

Introduction au traitement automatique de l’arabe Owen Rambow Columbia University Center for Computational Learning Systems

Remerciements CADIM (Columbia Arabic and its Dialects Modeling Group): Mona Diab et Nizar Habash Nizar Habash pour des transparents Geared towards non-arab researchers working on Arabic NLP Focus on MT! Orthography discussion is necessary to understand later concepts and phenomena

Plan Situation sociolinguistique Orthographe Morphologie Syntaxe Available MT systems? slide on last mt eval arabic no asr discussed

لم يشتر نزار طاولة جديدة lam jaʃtari nizār ţawilatan ζadīdatan لم يشتر نزار طاولة جديدة ne-pas acheter Nizar table nouvelle Nizar n’ a pas acheté la nouvelle table نزار ماشتراش طربيزة جديدة nizār maʃtarāʃ ţarabēza gidīda نزار ماشتراش طاولة جديدة nizār maʃtarāʃ ţawile ζdīde نزار ماشراش ميدة جديدة nizar maʃrāʃ mida ζdīda

Variation phonologique ASM ā ʔ t b ʤ θ x ħ δ d z r s ṣ ʃ ṭ ḍ ʕ k ʁ q f l m ت ث ا ب ج ح خ د ذ ر ز س ش ص ض ط ظ ع غ ف ق ك ل م ن ه و ي ى ء أ آ إ ؤ ئ ة h n w j ū ī δ̣ LEV ت ث ا ب ج ح خ د ذ ر ز س ش ص ض ط ظ ع غ ف ق ك ل م ن ه و ي ى ء أ آ إ ؤ ئ ة Arabic 40 connections => Ambiguity of reading = 4/36 (11%) 2 each Ambig of writing = 3/40 (8%) each with 4 variants! Hebrew has 37 connections => Ambiguity of reading = 9/22 (41%) 3 each writing ambiguity = 10/24 (42%) .. Avergae of 2.6 each Dialects of hebrew sephardic… 24 phones, 22 -allophones -hamza -Morphophonemic كبيرة ♀ هوى هوا 31 phones 36 graphemes 2 ambiguous ī j ū w h n m l k q f ʁ ʕ δ̣ ṭ ḍ ṣ ʃ s z r δ d x ħ ʤ θ t b ā ʔ ē ō ẓ No dialect-specific standard orthography

Variation lexicale L’orthographe arabe permet de consolider quelques variations

Classification des dialectes Dialectes Régionaux Arabe maghrébin (MAG) Arabe égyptien (EGY) Arabe levantin (LEV) Arabe du Golfe (GLF) Arabe iraqien, yéménite, sudanais; le maltais? Dialectes sociaux Citadin/paysan/bédouin Sexe Religion …

La diglossie dans le monde arabe Qu’est-ce qu’un ‘dialecte’? Facteurs politiques et religieux Arabe Standard Moderne (ASM, MSA en anglais): Documents écrits Discours officiels, médias traditionnels (lu) Pas de production orale spontanée Appris à l’école (règles) Dialectes: Oral spontanée Médias électroniques Appris à la maison

Le mélange des codes (code switching) ASM LEV Discours sur Al-Jazeera phonologie, morphologie et syntaxe لا أنا ما بعتقد لأنه عملية اللي عم بيعارضوا اليوم تمديد للرئيس لحود هم اللي طالبوا بالتمديد للرئيس الهراوي وبالتالي موضوع منه موضوع مبدئي على الأرض أنا بحترم أنه يكون في نظرة ديمقراطية للأمور وأنه يكون في احترام للعبة الديمقراطية وأن يكون في ممارسة ديمقراطية وبعتقد إنه الكل في لبنان أو أكثرية ساحقة في لبنان تريد هذا الموضوع، بس بدي يرجع لحظة على موضوع إنجازات العهد يعني نعم نحكي عن إنجازات العهد لكن هل النظام في لبنان نظام رئاسي النظام في لبنان من بعد الطائف ليس نظام رئاسي وبالتالي السلطة هي عمليا بيد الحكومة مجتمعة والرئيس لحود أثبت خلال ممارسته الأخيرة بأنه لما بيكون في شخص مسؤول في منصب معين وأنا عشت هذا الموضوع شخصيا بممارستي في موضوع الاتصالات لما بياخد مواقف صالحة ضمن خطاب ومبادئ خطاب القسم هو إلى جانبه إنما مش مطلوب من رئيس جمهورية هو يكون رئيس السلطة التنفيذية لأنه منه بقى في لبنان ما بعد إتفاق الطائف رئيس السلطة التنفيذية عليه التوجيه عليه إبداء الملاحظات عليه القول ما هو خطأ وما هو صح عليه تثمير جهود الوطنية الشاملة كي يظل في مصالحة وطنية كي يظل في توافق ما بين المسلم والمسيحي في لبنان يحتضن أبناء هذا البلد ما يترك المسار يروح باتجاه الخطأ نعم إنما خطاب القسم كان موضوع مبادئ طرحت هو ملتزم فيها اللي مشيوا معه وآمنوا فيها التزموا فيها أنا أثبت خلال الأربع سنوات بالممارسة الحكومية أني التزمت فيها ولما التزمنا بهذا الموضوع كان الرئيس لحود إلى جنبنا في هذا الموضوع، أما الموضوع الديمقراطي أنا بتفهم تماما هذا هالوجهة النظر بس ما ممكن نقول إنه الدستور أو تعديله هو أو إمكانية فتح إعادة انتخاب ديمقراطي ضمن المجلس والتصويت إلى ما هنالك لرئيس جمهورية بولاية ثانية هو مسح هيئة في جوهر الديمقراطية هذا بالأقل يعني قناعتي في هذا الموضوع. Aljazeera Transcript http://www.aljazeera.net/programs/op_direction/articles/2004/7/7-23-1.htm

Les niveaux de Badawi Badawi: Polyglossie Arabe traditionnel Arabe moderne Arabe vernaculaire éduqué Arabe vernaculaire moyen Arabe vernaculaire analphabète Polyglossie Arabe classique Dialecte Langue étrangère

Une situation unique? Suisse allemande Chine France?

Pourquoi s’intéresser aux dialectes en TAL? Reconnaissance automatique de la parole Systèmes de dialogue Traduction automatique à partir de la parole, de textes écrits en dialecte Aides à l’apprentissages Pour étrangers (apprentissage des dialectes) Pour arabes (apprentissage de l’ASM)

La diglossie, la linguistique, et le TAL L’ASM n’est pas « une langue naturelle » (?) Il y a peu de travaux linguistiques sur les dialectes Il y a peu de textes écrits dans les dialectes Les domaines dans lesquels sont employés ASM et dialectes sont complémentaires (il n’y a pas de corpus ASM-dialecte) Il y a peu d’intérêt dans le monde arabe à étudier les dialectes Pour TAL des dialectes, il faut: Commencer par l’ASM Employer des modèles et des connaissances venant de la linguistique théorique et descriptive « Scholar-seeded learning »

Plan Situation sociolinguistique Orthographe Morphologie Syntaxe Available MT systems? slide on last mt eval arabic no asr discussed

L’arabe écrit L’arabe s’écrit avec un alphabète avec des variantes allographiques, des diacritiques optionnelles, et des ligatures spéciales L’alphabète arabe (variations) est aussi utilise pour écrire d’autres langues : le persan, le kurde,l’urdu, le pashto, etc الخَطُ العَرَبِي Letters Body Shape Connective Disconnective Dots Diacritics oblig/optiona; Vocalic/consonantal font others… Short/long writing Script feature

L’arabe écrit ﺪ د ﺎ ا ﺰ ز ﻦ ﻨ ﻧ ن ﻎ ﺶ ﻢ ﻚ ﺐ ﻐ ﺸ ﻤ ﻜ ﺒ ﻏ ﺷ ﻣ ﻛ ﺑ ﻍ ش م Les lettres De droite a gauche Pas de majuscules 4 variantes par lettre ﺪ د ﺎ ا ﺰ ز ﻦ ﻨ ﻧ ن final medial initial isolé ﻎ ﺶ ﻢ ﻚ ﺐ ﻐ ﺸ ﻤ ﻜ ﺒ ﻏ ﺷ ﻣ ﻛ ﺑ ﻍ ش م ك ب Con / dis Similar shapes Very different forms

بً بٌ بٍ بَ بُ بِ L’arabe écrit Diacritiques optionelles Nunation بً /ban/ بٌ /bun/ بٍ /bin/ Voyelle بَ /ba/ بُ /bu/ بِ /bi/ Diacritiques optionelles Sur ou sous les lettres Voyelles courtes Morphème de d’indétermination (« nunation ») كِتَابٌ /kitābun/ ‘un livre’ There are additional ones for koranic text that are not discussed here

بْ بّ L’arabe écrit بُّ بٍّ بًّ Diacritiques مَكْتَب /maktab/ ‘bureau’ Marqueur d’absence de voyelle (sukun) مَكْتَب /maktab/ ‘bureau’ Gémination (double consonne) (shadda) كَتَّب /kattab/ ‘dicter’ Combinable No Vowel بْ /b/ Double Consonant بّ /bb/ There are additional ones for koranic text that are not discussed here بُّ بٍّ بًّ /bbu/ /bbin/ /bban/

 عَرَب = عرب  ع َر َب غَرْب = غرب  غ َر ْب سلام ﺳﻠﺎم  س ل ا م L’arabe écrit Exemples de combinaison simple Ligatures عَرَب = عرب  ع َر َب Arabe /ʕarab/ غَرْب = غرب  غ َر ْب Ouest /ʁarb/ سلام ﺳﻠﺎم  س ل ا م Paix /salām/ 

Phonologie et orthographe de l’ASM 28 consonnes 3 voyelles courtes, 3 voyelles longues, 2 diphtongues L’orthographe arabe suit largement la phonologie My work on palestinian, arabic mt and arabic hebrew mt Highlight similarities and differences A lot of similarities/differences not included ā ʔ t b ʤ θ x ħ δ d z r s ṣ ʃ ṭ ḍ ʕ k ʁ q f l m ت ث ا ب ج ح خ د ذ ر ز س ش ص ض ط ظ ع غ ف ق ك ل م ن ه و ي ى ء أ آ إ ؤ ئ ة h n w j ū ī δ̣

Ambiguïté de l’orthographe arabe Problème: absence de diacritiques بين (byn) /bayyana/ ‘il déclara’ /bayyanna/ ‘elles déclarèrent’ /bayyin/ ‘évident’ /bayna/ ‘parmi’ /bīn/ Ben (nom propre) Application TAL arabe: diacritisation, un système pour désambiguïser l’orthographe selon le contexte en ajoutant des diacritiques Indefiniteness (Nunation تنوين) (tashdid تشديد, dagesh דגש)

Plan Situation sociolinguistique Orthographe Morphologie Syntaxe Faits linguistiques Analyseur morphologique (TAL) Désambiguïsation morphologique (TAL) Syntaxe Available MT systems? slide on last mt eval arabic no asr discussed

Morphologie Types Fonctions (universelles) Concatenative: préfixe, suffixe, circonfixe -- universel « Radicale » (templatic): racine+gabarit – sémitique Fonctions (universelles) Dérivationelle Création de lexèmes nouveaux (nouveau sens lexical) Largement morphologie gabaritique Inflectionelle Variation des traits des mots (ne change pas le sens lexical) Temps, nombre, personne, aspect, mode Largement morphologie concatenative « Lexème »: ensemble de mots qui ne varient que dans leur morphologie inflectionelle

Morphologie dérivationelle gabaritique (par gabarits) ب ت ك Racine b t k Patron 3 و 2 1 مَ 3 ِ2 ا 1 Psycholinguistic reality format  فرمت farmat Dictionary ordered Not all combinations possible ū ma i ā مكتوب كاتب Lexème maktūb écrit kātib écrivain

Morphologie dérivationelle La signification des radicales ك ت ب KTB = notion: ‘écriture’ كتاب /kitāb/ book كتب /katab/ write مكتوب /maktūb/ written مكتبة /maktaba/ library مكتوب /maktūb/ letter مكتب /maktab/ office كاتب /kātib/ writer

Morphologie dérivationelle Signification des gabarits La signification des gabarits est assez floue Patron (Forme) Signification du gabarit Exemple Traduction I 1a2a3 Sens de base ktb  katab écrire II 1a22a3 Intensification, causatif ktb  kattab dicter III 1aA2a3 Interaction avec d’autres ktb  kaAtab correspondre avec IV Aa12a3 Causatif jls  Ajlas Asseoir qq V ta1a22a3 Réflexif du gabarit II Elm  taEal~am apprendre VI ta1aA2a3 Réflexif du gabarit III ktb  takaAtab correspondre VII Ain1a2a3 Passif (de-accusatif) du gabarit I ktb  Ainkatab s’abonner, s’inscrire VIII Ai1ta2a3 Acquiescence, exagération ktb  Aiktatab S’inscrire IX Ai12a33 Transformation Hmr  AiHmarr rougir X Aista12a3 Besoin ktb  Aistaktab Demande d’écrire

Signification des lexèmes Signification d’un lexème: Signification des radicales + Signification du gabarit + Idiosyncrasie lexicale La morphologie derivationelle n’est pas sémantiquement déterministe! Le paradigme n’est pas complet Contraste: morphologie inflectionelle

Morphologie inflectionelle Définition de « mot »: orthographe Mot = lexème + traits Parties du discours Grammaires arabes traditionnelles: Nom, Verbe, Particule Grammaires modernes computationelles: N, NP, V, Adj, Adv, P, Pron, Nom, Conj, Det , Aux, Pon, IJ Traits Pour tous les mots Conjonctions clitiques Prépositions clitiques

Morphologie inflectionelle: Traits Pour les noms Nombre: singulier, dual, pluriel, collectif Genre: masculin, féminin, neutre État: défini, indéfini, constructif (=tête de construction génitive) Cas: nominatif, accusatif, génitif Clitique possessive Pour les verbes Aspect: perfectif, imparfait Voix: actif, passif Mode: indicatif, subjonctif, jussif, impératif Sujet (personne, nombre, genre) Clitique objet

Morphologie inflectionelle: noms conj prep noun poss plural article وكبيوتنا /wakabiyūtinā/ نا + بيوت + ك + و wa+ka+biyūt+nā and+like+houses+our ‘et comme nos maisons’ وللمكتبات /walilmaktabāt/ و+ل+ال+مكتبة+ات wa+li+al+maktaba+āt and+for+the+library+plural ‘et pour les bibliothèques’ Article or poss Case Arabic Broken Plurals Intersection of Derivational and Inflectional Morphology Règles morphologiques (exemple: ل+ال  لل) Pluriel « rompu » (irrégulier): se fait avec des gabarits, non pas avec des suffixes

Morphologie inflectionelle: verbes objet suj verbe futur conj فقلناها /faqulnāhā/ ف+ قال+ نا+ ها fa+qul+na+hā so+said+we+it ‘ainsi nous le dîmes’ وسنقولها /wasanaqūluhā/ و+ س+ ن+ قول + ها wa+sa+na+qūl+u+hā and+will+we+say+it ‘et nous le dirons’ Aspect PA circumfix negation Object, iobj

Morphologie inflectionelle Conjugaison de l’accord avec le sujet pour le perfectif Singular Dual Plural 1 كتبتُ katabtu كتبنا katabnā 2 كتبتَ katabta كتبتما katabtumā كتبتم katabtum 3 كتب َ kataba كتبا katabā كتبوا katabtū Conjugaison de l’accord avec le sujet pour l’imparfait Singular Dual Plural 1 اكتب ُ aktubu نكتب ُ naktubu 2 تكتب ُ taktubu تكتبان taktubān تكتبون taktubūn 3 يكتب ُ yaktubu يكتبان yaktubān يتكتبون yaktubūn Stems are different Distribution of features Feminine form and other verb moods not shown

Le lexème en arabe Lexème = radicales + classe de comportement morphologique Classe de comportement morphologique: Fonction qui associe des morphèmes à des traits linguistiques Ordre de généralisation: Radicales > lexème > mot

Classe de comportement morphologique MBC::Verb-I-au ( katab/yaktub ) cnj=wa  wa+ tense=fut  sa+ per=1, num=sg  ‘+ per=1, num=pl  n+ mood=indic  +u mood=sub  +a aspect=imper  V12V3 aspect=perf  1V2V3 voice=act  a-u voice=pass  u-a obj=3FS  +hA obj=1P  +nA …

Hiérarchie des classes de comportement morphologique Word Verb … Noun … Form-I Form-II Form-X … VerbTr VerbIntr Form-I-aa Form-I-ii … Verb-I-aa-tr Verb-I-aa-Intr Verb-X-Intr Verb-X-tr

Hiérarchie des classes de comportement morphologique Word Verb … Noun … Form-I Form-II Form-X … VerbTr VerbIntr Form-I-aa Form-I-ii … Verb-I-aa-tr Verb-I-aa-Intr Verb-X-Intr Verb-X-tr cnj:f CONJ:f cnj:w CONJ:w cnj:0 CONJ:nil prt:0 PART:nil

Hiérarchie des classes de comportement morphologique Word Verb … Noun … Form-I Form-II Form-X … VerbTr VerbIntr Form-I-aa Form-I-ii … Verb-I-aa-tr Verb-I-aa-Intr Verb-X-Intr Verb-X-tr cnj:f CONJ:f cnj:w CONJ:w cnj:0 CONJ:nil prt:0 PART:nil prt:l PART:RESULT prt:s PART:FUT asp:P per:1 num:s  SUBJSUF_PV:1S

Hiérarchie des classes de comportement morphologique Word Verb … Noun … Form-I Form-II Form-X … VerbTr VerbIntr Form-I-aa Form-I-ii … Verb-I-aa-tr Verb-I-aa-Intr Verb-X-Intr Verb-X-tr cnj:f CONJ:f cnj:w CONJ:w cnj:0 CONJ:nil prt:0 PART:nil prt:l PART:RESULT prt:s PART:FUT asp:P per:1 num:s  SUBJSUF_PV:1S pro:0 OBJ:nil pro:1S OBJ:1S Pro:1P OBJ:1P

Hiérarchie des classes de comportement morphologique Word Verb … Noun … Form-I Form-II Form-X … VerbTr VerbIntr Form-I-aa Form-I-ii asp:imp V12V3 asp:p 1V2V3 … Verb-I-aa-tr Verb-I-aa-Intr Verb-X-Intr Verb-X-tr cnj:f CONJ:f cnj:w CONJ:w cnj:0 CONJ:nil prt:0 PART:nil prt:l PART:RESULT prt:s PART:FUT asp:P per:1 num:s  SUBJSUF_PV:1S pro:0 OBJ:nil pro:1S OBJ:1S Pro:1P OBJ:1P

La morphologie des dialectes Morphologie gabaritique et concatenative, comme pour l’ASM Noms Perte des cas Perte de la distinction entre masculin & féminin au pluriel Verbes Perte des formes duales Perte de la distinction ndicatif/subjonctif/jussif Perte de la distinction entre masculin & féminin au pluriel (2e et 3e personnes) Clitiques pour l’objet indirecte Négation par préfixe, suffixe, ou circonfixe Formes pour le progressif, l’habituel

La morphologie des dialectes: exemple verbal object subj verb tense conj IOBJ neg ASM ولم تكتبوها له walam taktubūhā lahu wa+lam taktubū+hā la+hu and+not_past write_you+it for+him EGY وماكتبتوهالوش wimakatabtuhalūʃ wi+ma+katab+tu+ha+lū+ʃ and+not+wrote+you+it+for_him+not Aspect PA circumfix negation Object, iobj ‘et tu ne le lui as pas écrit’

La morphologie des dialectes Perfectif Imparfait ASM كتب kataba Past يكتب jaktubu Present سيكتب sajaktubu Future L E V katab jiktob 0-Tense بيكتب bjoktob habitual عم بيكتب ʕam bjoktob progressive حيكتب ħajiktob Tense variations Tense and negative interaction

Plan Situation sociolinguistique Orthographe Morphologie Syntaxe Faits linguistiques Analyseur morphologique (TAL) Désambiguïsation morphologique (TAL) Syntaxe Available MT systems? slide on last mt eval arabic no asr discussed

Application TAL: Analyseur morphologique Système qui: Prend en entrée un mot écrit, donc une forme fléchie Génère un lexème (=radicales, classe de comportement morphologique) et des traits linguistiques (+pluriel, +accusatif, …) Donne tous les analyses possible (sans égard au contexte) Nous voulons: Système bidirectionnel Fonctionne avec les dialectes

Travail précédent Problème: morphologie se fait avec automates ou transducteurs à états finis (FST) Insuffisant pour la morphologie gabaritique Beesley, Buckwalter & Newton 1989: two-level morphology with “detouring” Beesley & Karttunen 2000: compile-replace Buckwalter 2002: morphologie concatenative Comment adapter aux dialectes?

Notre implémentation: Automates à bandes multiples MAGEAD, Habash & Rambow 2006 Suivant le travail de Kiraz (1996,2000) 5 bandes: Patron Radicales Vocalisme Forme de surface phonologique Forme de surface orthographique

Les étapes de la génération morphologique Lexeme and Features Morpheme-Feature Mapping Dialect Independent Root + Abstract Morphemes Abstract Morpheme Ordering Dialect Independent Root + Ordered Abst. Morph. Abstract-Concrete Mapping Dialect Dependent Root + Concrete Morphemes Morphophonemic rules Dialect Dependent Phonemic Form Orthographic rules Orthography Dependent Orthographic Form

Exemple V 1 t 2 3 Pattern z h r Root i a Vocalism Phonology Orthography

Exemple Règles générique pour la phonologie V 1 t 2 3 Pattern z h r Root i a Vocalism i z t a h r Phonology Orthography

Exemple Règles morpho-phonémiques V 1 t 2 3 Pattern z h r Root i a Vocalism i z d a h r Phonology Orthography

Exemple Copier au niveau orthographique V 1 t 2 3 Pattern z h r Root i Vocalism i z d a h r Phonology i z d a h r Orthography

Example Règles orthographiques V 1 t 2 3 Pattern z h r Root i a Vocalism i z d a h r Phonology A i z d a h r Orthography

Un analyseur pour un dialecte Créer la relation morphèmes abstraits – morphèmes concrets pour le dialecte Créer les règles morpho-phonémiques Créer les règles orthographiques Créer le lexique: Ajuster la hiérarchie des classes de comportement morphologique Donner une liste de lexèmes: <radicales, CCM> Alternative: postuler des lexèmes, utiliser un modèle probabiliste base sur des règles de changement de sons (exemple: /q/  /’/) Fait pour les verbes levantins

Plan Situation sociolinguistique Orthographe Morphologie Syntaxe Faits linguistiques Analyseur morphologique (TAL) Désambiguïsation morphologique (TAL) Syntaxe Available MT systems? slide on last mt eval arabic no asr discussed

Ambiguïté de la morphologie arabe Exemple: analyses possible de بين (byn) Diac PdD Traits Lexème Signification bayyana V asp:pf g:m n:s bayyana ‘il déclara’ bayyanna V asp:pf g:f n:p bayyana ‘elles déclarèrent’ bayyinu Adj g:m n:s cas:nom bayyin ‘évident’ bayna P bayna ‘parmi’ biyini NP prep:b yin ‘en Yen’ biynu NP cas:nom biyn ‘Ben’ biyni NP cas:gen biyn ‘Ben’ … Applications TAL arabe: Choix de la partie du discours et des traits morphologiques (= étiqueteur morphologique) Choix des diacritiques (=diacritisation) Choix du lexème (=lemmatisation) Indefiniteness (Nunation تنوين) (tashdid تشديد, dagesh דגש)

Ambiguïté de la morphologie arabe Average overall ambiguity* is 2.5 analyses/word (sans cas/mode) Compare to English ENGTWOL ambiguity (1.7-2.2 analyses/word) Ambiguity (depends on granularity!) http://www.ling.helsinki.fi/~avoutila/cg/doc/icame93/node3.html The first module in the system is the preprocessor that identifies sentence boundaries and fixed syntagms - idioms, such as multiword prepositions, and compound nouns. The current list of fixed syntagms contains some 6,000 items. The ENGTWOL morphological analyser uses a lexicon which contains about 56,000 entries. It accounts for all inflections and central derivations, and the number of entries is adequate to cover the core vocabulary of English. Usually ENGTWOL is capable of recognising and analysing more than 95% of input word forms, and even in more technical texts the percentage is typically over 90%. The correctness of the readings produced by ENGTWOL is near 100% (see the test results reported in Section 3.1). For the analysis of those words not represented in the ENGTWOL description, there is a rule-based heuristic program that assigns ENGTWOL-style readings. Also this utility is highly reliable (see Section 3.1 and Voutilainen 1994b). Since many English word forms can belong to more than one part of speech in isolation, the morphological analysis produces ambiguity; on an average, the ENGTWOL analyser provides each word with 1.7-2.2 alternative morphological readings. Ambiguity is, of course, highly dependent on the linguistic description adopted. The ENGTWOL description is mainly based on Quirk et al. (1985). We have systematically introduced categorial ambiguity, and we have also generously used other features to provide ample information - the total number of features used is approximately 150. Hence, ENGTWOL typically makes somewhat finer distinctions than the tag set of the Brown University Corpus. Uninflected verb forms, for example, are ambiguous over the present tense, imperative, infinitive and subjunctive readings, whereas the Brown tag set only gives one uninflected verb form reading. Also, pronoun/determiner ambiguities (e.g., much, this) have been spelt out in ENGTWOL, while the Brown tag set often subsumes these categories under the same tag. On the other hand, the Brown tag set divides -ing-forms into participles, nouns and adjectives - ENGTWOL subsumes these under the feature PCP1. The ENGTWOL feature system is well specified in the sense that linguists familiar with the ENGTWOL description tend to agree in virtually 100% of the cases when they (manually) apply the description to running text (Voutilainen 1994a). Without a well-specified `underlying' descriptive practice or parsing scheme, the development or evaluation of a parsing grammar could obviously not be satisfactory. * In Arabic Penn Treebank 1

Étiquetage morphologique Jeu d’étiquettes pour l’anglais: 46 Jeu d’étiquettes pour l’arabe: 3000+ On ne peut pas simplement entraîner un étiqueteur traditionnel, par exemple basé sur machine de Markov cachée (HMM) 2 options: Réduire la taille du jeu d’étiquettes en éliminant des distinctions (Diab et al 2004) Utiliser un analyseur morphologique pour réduire les possibilités (Hajič 2001)

MADA (Habash & Rambow 2005) Utilise un analyseur morphologique (BAMA) qui produit les analyses possible du mot d’entrée, par exemple بين (byn) Diac PdD Traits Lexème Signification bayyana V asp:pf g:m n:s bayyana ‘il déclara’ bayna P bayna ‘parmi’ biyini NP prep:b yin ‘en Yen’ biyni NP cas:gen biyn ‘Ben’ … MADA fait un choix parmi les analyses; en MEME TEMPS: Étiquetage morphologique Diacritisation Lemmatisation

Formatted Arabic Text (Buckwalter) Sets of Analyses & Features MADA (Habash & Rambow 2005) Arabic Text Formatted Arabic Text (Buckwalter) Formatting Script Sets of Analyses & Features Morphological Analyzer SVM Classifiers Feature Predictions MADA Analysis Ranker Sets of Ranked Analyses & Features Tokenized Buckwalter Text TOKAN User Applications

Traits utilisés par MADA Noms Nombre Genre Cas Défini/indéfini Clitique possessive Présence de ‘Al’ Tous les mots Clitique de conjonction Préposition/particule clitique Modèle 4-gram des lexèmes Verbes Aspect Voix Mode Accord sujet Clitique Objet

MADA: Choix de la meilleure analyse W-4 W-3 W-2 W-1 W0 W1 W2 W3 W4 3rd 4th 5th 1st 2nd CLASSIFIEURS MORPHOLOGIQUES RANKER ANALYSEUR MORPHOLOGIQUE Entrainés sur corpus Entrainé sur corpus Créé a la main Règles

Performance des classificateurs Classifiers: Art, Aspect, Case, Clitic, Conj, Def, Gen, Idafa, Mood, Num, Part, Per, Pos, Voice SVMTools does slightly worse than Yamcha, but is x13 faster

Diacritiques correctes (toutes les diac) Choix d’analyse correcte Résultats pour MADA Métrique D’évaluation Correction de MADA (%) PdD correct 96.4 Lexème correct Diacritiques correctes (toutes les diac) 86.2 Choix d’analyse correcte 83.9 Note: si on exclut le cas et le mode, les résultats sont nettement meilleurs

Plan Situation sociolinguistique Orthographe Morphologie Syntaxe

Syntaxe de la Phrase Deux types de phrase en arabe Phrase verbale [Verb Subject Object] (VSO) كتب الاولاد الاشعار Wrote the-boys the-poems The boys wrote the poems Phrase à copule [Topic Complement] الاولاد شعراء the-boys poets The boys are poets Traditional analysis

Phrases verbale Verb agreement with gender only كتب الولد\الاولاد wrote3MascSing the-boy/the-boys كتبت البنت\البنات wrote3FemSing the-girl/the-girls Pronominal subjects are conjugated كتبتُ wrote-youMascSing كتبتم wrote-youMascPlur كتبوا wrote-theyMascPlur Passive verbs Same structure: Verbpassive SubjectunderlyingObject Agreement with surface subject

Phrases à copule [Topic Complement] Definite Topic, Indefinite Complement الولد شاعر the-boy poet The boy is a poet [Auxiliary Topic Complement] Auxiliaries (kāna and her sisters) Tense, Negation, Transformation, Persistence كان الولد شاعرا was the-boy poet The boy was a poet ليس الولد شاعرا is-not the-boy poet The boy is not a poet Inverted order is expected in certain cases Indefinite topic عندي كتاب /ʕandi kitābun/ at-me a-book I have a book Past tense??

Phrases à copule: types de compléments Nom/Adjectif الولد ذكي the-boy smart The boy is smart Syntagme prepositionnel الولد في المكتبة the-boy in the-library The boy is in the library Phrases à copule الولد كتابه كبير [the-boy [book-his big]] The boy, his book is big Phrase verbale الاولاد كتبوا الاشعار [the-boys [wrote-they poems]] The boys wrote the poems Full agreement in this order (SVO) الاشعار كتبها الاولاد (OVS) [the-poems [wrote-it the boys]] The poems, the boys wrote Past tense??

Syntaxe du nom La modification par adjectif: N Adj Accord en nombre, genre, cas, définition La construction possessive « Idafa » (اضافة): ‘N1 de N2’ N1-constructif N2-génitif ملك الاردن roi Jordanie ‘le roi de Jordanie’ N1 hérite la définition de N2 (défini, indéfini) Chaines d’Idafa N1constr N2constr … Nn-1constr Nndef ou indef ابن عم جار رئيس مجلس ادارة الشركة fils oncle voisin chef comite administation l’entreprise Le cousin du voisin du PDG de l’entreprise

La syntaxe des dialectes: noms Idafa construction Noun1 of Noun2 encoded structurally ملك الاردن king Jordan the king of Jordan / Jordan’s king Dialects have an additional common construct Noun1 <particle> Noun2 LEV: الملك تبع الاردن the-king belonging-to Jordan <particle> differs widely among dialects Pre/post-modifying demonstrative article MSA: هذا الرجل this the-man this man EGY: الراجل ده the-man this this man

La syntaxe des dialectes: phrases The children wrote poems MSA Verb Subject Object (Partial agreement) كتب الاولاد الاشعار wrotemasc the-boys the-poems Subject Verb Object (Full agreement) الاولاد كتبوا الاشعار the-boys wrotemascPlural the-poems LEV, EGY Subject Verb Object الاولاد كتبو الاشعار The-boys wrotemascPlural the-poems Less present: Verb Subject Object كتبو الاولاد الاشعار wrotemascPlural the-boys the-poems Full agreement in both order

L’analyse des dialectes arabes: le problème pour le TAL - ASM - الازلام بيحبو ش الشغل هادا Banque d’arbres Petit corpus ? بيحبو الازلام ش الشغل هادا men like work this not Parser Gros corpus

TAG = Tree Adjoining Grammar La transduction de la grammaire (Chiang et al 2006, Chiang & Rambow 2006) - Dialect - - MSA - Probabilistic TAG Treebank الازلام بيحبو ش الشغل هادا Probabilistic TAG Parser Tree Transduction بيحبو الازلام ش الشغل هادا TAG = Tree Adjoining Grammar

La transduction de la grammaire Transformer le modèle d;analyse pour ASM en un modèle d’analyse pour le dialecte Plus précisément: en un modèle d’analyse synchrone ASM-dialecte Le modèle d’analyse est défini en termes de dérivations en TAG (tree adjoining grammar)

Tree-Adjoining Grammar

La transformation d’une TAG Nous spécifions des transformations sur des arbres elementaires

Les probabilités de transformation Ajouter des probabilités de correspondance P(TLev|TMSA)

Appris dans la banque d’arbres pour l’ASM Modèle de probabilité Pour analyser, trouver: arg max P(TLev) ≈ arg max P(TLev, TASM) = arg max P(TLev|TASM) P(TASM) Appris dans la banque d’arbres pour l’ASM Probas de correspondence

Modèle de probabilité La lexicalisation crée un ensemble de correspondences LEV > SMA qui est enorme Faire un backoff: modéliser independemment la correspondance de la partie non-lexicalisée et des mots

Transformations Transformation VSO à SVO Négation:

Transformations ‘want’

Resultats Recall Prec F1 Baseline 62.5 63.9 63.2 Petit lexique 67.0 VSO→SVO 66.7 66.9 66.8 negation ‘want’ 67.4 67.2 negation+‘want’ 67.1 67.3

Conclusion Pour faire le TAL de l’arabe, il faut: comprendre les faits linguistiques; les modéliser de façon adéquate; et maîtriser des techniques formelles et computationelles diverses! La linguistique est importante!