Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parSylvie Bourgoin Modifié depuis plus de 10 années
1
Introduction au traitement automatique de l’arabe
Owen Rambow Columbia University Center for Computational Learning Systems
2
Remerciements CADIM (Columbia Arabic and its Dialects Modeling Group): Mona Diab et Nizar Habash Nizar Habash pour des transparents Geared towards non-arab researchers working on Arabic NLP Focus on MT! Orthography discussion is necessary to understand later concepts and phenomena
3
Plan Situation sociolinguistique Orthographe Morphologie Syntaxe
Available MT systems? slide on last mt eval arabic no asr discussed
4
لم يشتر نزار طاولة جديدة
lam jaʃtari nizār ţawilatan ζadīdatan لم يشتر نزار طاولة جديدة ne-pas acheter Nizar table nouvelle Nizar n’ a pas acheté la nouvelle table نزار ماشتراش طربيزة جديدة nizār maʃtarāʃ ţarabēza gidīda نزار ماشتراش طاولة جديدة nizār maʃtarāʃ ţawile ζdīde نزار ماشراش ميدة جديدة nizar maʃrāʃ mida ζdīda
5
Variation phonologique
ASM ā ʔ t b ʤ θ x ħ δ d z r s ṣ ʃ ṭ ḍ ʕ k ʁ q f l m ت ث ا ب ج ح خ د ذ ر ز س ش ص ض ط ظ ع غ ف ق ك ل م ن ه و ي ى ء أ آ إ ؤ ئ ة h n w j ū ī δ̣ LEV ت ث ا ب ج ح خ د ذ ر ز س ش ص ض ط ظ ع غ ف ق ك ل م ن ه و ي ى ء أ آ إ ؤ ئ ة Arabic 40 connections => Ambiguity of reading = 4/36 (11%) 2 each Ambig of writing = 3/40 (8%) each with 4 variants! Hebrew has 37 connections => Ambiguity of reading = 9/22 (41%) 3 each writing ambiguity = 10/24 (42%) .. Avergae of 2.6 each Dialects of hebrew sephardic… 24 phones, 22 -allophones -hamza -Morphophonemic كبيرة ♀ هوى هوا 31 phones 36 graphemes 2 ambiguous ī j ū w h n m l k q f ʁ ʕ δ̣ ṭ ḍ ṣ ʃ s z r δ d x ħ ʤ θ t b ā ʔ ē ō ẓ No dialect-specific standard orthography
6
Variation lexicale L’orthographe arabe permet de consolider quelques variations
7
Classification des dialectes
Dialectes Régionaux Arabe maghrébin (MAG) Arabe égyptien (EGY) Arabe levantin (LEV) Arabe du Golfe (GLF) Arabe iraqien, yéménite, sudanais; le maltais? Dialectes sociaux Citadin/paysan/bédouin Sexe Religion …
8
La diglossie dans le monde arabe
Qu’est-ce qu’un ‘dialecte’? Facteurs politiques et religieux Arabe Standard Moderne (ASM, MSA en anglais): Documents écrits Discours officiels, médias traditionnels (lu) Pas de production orale spontanée Appris à l’école (règles) Dialectes: Oral spontanée Médias électroniques Appris à la maison
9
Le mélange des codes (code switching)
ASM LEV Discours sur Al-Jazeera phonologie, morphologie et syntaxe لا أنا ما بعتقد لأنه عملية اللي عم بيعارضوا اليوم تمديد للرئيس لحود هم اللي طالبوا بالتمديد للرئيس الهراوي وبالتالي موضوع منه موضوع مبدئي على الأرض أنا بحترم أنه يكون في نظرة ديمقراطية للأمور وأنه يكون في احترام للعبة الديمقراطية وأن يكون في ممارسة ديمقراطية وبعتقد إنه الكل في لبنان أو أكثرية ساحقة في لبنان تريد هذا الموضوع، بس بدي يرجع لحظة على موضوع إنجازات العهد يعني نعم نحكي عن إنجازات العهد لكن هل النظام في لبنان نظام رئاسي النظام في لبنان من بعد الطائف ليس نظام رئاسي وبالتالي السلطة هي عمليا بيد الحكومة مجتمعة والرئيس لحود أثبت خلال ممارسته الأخيرة بأنه لما بيكون في شخص مسؤول في منصب معين وأنا عشت هذا الموضوع شخصيا بممارستي في موضوع الاتصالات لما بياخد مواقف صالحة ضمن خطاب ومبادئ خطاب القسم هو إلى جانبه إنما مش مطلوب من رئيس جمهورية هو يكون رئيس السلطة التنفيذية لأنه منه بقى في لبنان ما بعد إتفاق الطائف رئيس السلطة التنفيذية عليه التوجيه عليه إبداء الملاحظات عليه القول ما هو خطأ وما هو صح عليه تثمير جهود الوطنية الشاملة كي يظل في مصالحة وطنية كي يظل في توافق ما بين المسلم والمسيحي في لبنان يحتضن أبناء هذا البلد ما يترك المسار يروح باتجاه الخطأ نعم إنما خطاب القسم كان موضوع مبادئ طرحت هو ملتزم فيها اللي مشيوا معه وآمنوا فيها التزموا فيها أنا أثبت خلال الأربع سنوات بالممارسة الحكومية أني التزمت فيها ولما التزمنا بهذا الموضوع كان الرئيس لحود إلى جنبنا في هذا الموضوع، أما الموضوع الديمقراطي أنا بتفهم تماما هذا هالوجهة النظر بس ما ممكن نقول إنه الدستور أو تعديله هو أو إمكانية فتح إعادة انتخاب ديمقراطي ضمن المجلس والتصويت إلى ما هنالك لرئيس جمهورية بولاية ثانية هو مسح هيئة في جوهر الديمقراطية هذا بالأقل يعني قناعتي في هذا الموضوع. Aljazeera Transcript
10
Les niveaux de Badawi Badawi: Polyglossie Arabe traditionnel
Arabe moderne Arabe vernaculaire éduqué Arabe vernaculaire moyen Arabe vernaculaire analphabète Polyglossie Arabe classique Dialecte Langue étrangère
11
Une situation unique? Suisse allemande Chine France?
12
Pourquoi s’intéresser aux dialectes en TAL?
Reconnaissance automatique de la parole Systèmes de dialogue Traduction automatique à partir de la parole, de textes écrits en dialecte Aides à l’apprentissages Pour étrangers (apprentissage des dialectes) Pour arabes (apprentissage de l’ASM)
13
La diglossie, la linguistique, et le TAL
L’ASM n’est pas « une langue naturelle » (?) Il y a peu de travaux linguistiques sur les dialectes Il y a peu de textes écrits dans les dialectes Les domaines dans lesquels sont employés ASM et dialectes sont complémentaires (il n’y a pas de corpus ASM-dialecte) Il y a peu d’intérêt dans le monde arabe à étudier les dialectes Pour TAL des dialectes, il faut: Commencer par l’ASM Employer des modèles et des connaissances venant de la linguistique théorique et descriptive « Scholar-seeded learning »
14
Plan Situation sociolinguistique Orthographe Morphologie Syntaxe
Available MT systems? slide on last mt eval arabic no asr discussed
15
L’arabe écrit L’arabe s’écrit avec un alphabète avec des variantes allographiques, des diacritiques optionnelles, et des ligatures spéciales L’alphabète arabe (variations) est aussi utilise pour écrire d’autres langues : le persan, le kurde,l’urdu, le pashto, etc الخَطُ العَرَبِي Letters Body Shape Connective Disconnective Dots Diacritics oblig/optiona; Vocalic/consonantal font others… Short/long writing Script feature
16
L’arabe écrit ﺪ د ﺎ ا ﺰ ز ﻦ ﻨ ﻧ ن ﻎ ﺶ ﻢ ﻚ ﺐ ﻐ ﺸ ﻤ ﻜ ﺒ ﻏ ﺷ ﻣ ﻛ ﺑ ﻍ ش م
Les lettres De droite a gauche Pas de majuscules 4 variantes par lettre ﺪ د ﺎ ا ﺰ ز ﻦ ﻨ ﻧ ن final medial initial isolé ﻎ ﺶ ﻢ ﻚ ﺐ ﻐ ﺸ ﻤ ﻜ ﺒ ﻏ ﺷ ﻣ ﻛ ﺑ ﻍ ش م ك ب Con / dis Similar shapes Very different forms
17
بً بٌ بٍ بَ بُ بِ L’arabe écrit Diacritiques optionelles
Nunation بً /ban/ بٌ /bun/ بٍ /bin/ Voyelle بَ /ba/ بُ /bu/ بِ /bi/ Diacritiques optionelles Sur ou sous les lettres Voyelles courtes Morphème de d’indétermination (« nunation ») كِتَابٌ /kitābun/ ‘un livre’ There are additional ones for koranic text that are not discussed here
18
بْ بّ L’arabe écrit بُّ بٍّ بًّ Diacritiques مَكْتَب /maktab/ ‘bureau’
Marqueur d’absence de voyelle (sukun) مَكْتَب /maktab/ ‘bureau’ Gémination (double consonne) (shadda) كَتَّب /kattab/ ‘dicter’ Combinable No Vowel بْ /b/ Double Consonant بّ /bb/ There are additional ones for koranic text that are not discussed here بُّ بٍّ بًّ /bbu/ /bbin/ /bban/
19
عَرَب = عرب ع َر َب غَرْب = غرب غ َر ْب سلام ﺳﻠﺎم س ل ا م
L’arabe écrit Exemples de combinaison simple Ligatures عَرَب = عرب ع َر َب Arabe /ʕarab/ غَرْب = غرب غ َر ْب Ouest /ʁarb/ سلام ﺳﻠﺎم س ل ا م Paix /salām/
20
Phonologie et orthographe de l’ASM
28 consonnes 3 voyelles courtes, 3 voyelles longues, 2 diphtongues L’orthographe arabe suit largement la phonologie My work on palestinian, arabic mt and arabic hebrew mt Highlight similarities and differences A lot of similarities/differences not included ā ʔ t b ʤ θ x ħ δ d z r s ṣ ʃ ṭ ḍ ʕ k ʁ q f l m ت ث ا ب ج ح خ د ذ ر ز س ش ص ض ط ظ ع غ ف ق ك ل م ن ه و ي ى ء أ آ إ ؤ ئ ة h n w j ū ī δ̣
21
Ambiguïté de l’orthographe arabe
Problème: absence de diacritiques بين (byn) /bayyana/ ‘il déclara’ /bayyanna/ ‘elles déclarèrent’ /bayyin/ ‘évident’ /bayna/ ‘parmi’ /bīn/ Ben (nom propre) Application TAL arabe: diacritisation, un système pour désambiguïser l’orthographe selon le contexte en ajoutant des diacritiques Indefiniteness (Nunation تنوين) (tashdid تشديد, dagesh דגש)
22
Plan Situation sociolinguistique Orthographe Morphologie Syntaxe
Faits linguistiques Analyseur morphologique (TAL) Désambiguïsation morphologique (TAL) Syntaxe Available MT systems? slide on last mt eval arabic no asr discussed
23
Morphologie Types Fonctions (universelles)
Concatenative: préfixe, suffixe, circonfixe -- universel « Radicale » (templatic): racine+gabarit – sémitique Fonctions (universelles) Dérivationelle Création de lexèmes nouveaux (nouveau sens lexical) Largement morphologie gabaritique Inflectionelle Variation des traits des mots (ne change pas le sens lexical) Temps, nombre, personne, aspect, mode Largement morphologie concatenative « Lexème »: ensemble de mots qui ne varient que dans leur morphologie inflectionelle
24
Morphologie dérivationelle gabaritique (par gabarits)
ب ت ك Racine b t k Patron 3 و 2 1 مَ 3 ِ2 ا 1 Psycholinguistic reality format فرمت farmat Dictionary ordered Not all combinations possible ū ma i ā مكتوب كاتب Lexème maktūb écrit kātib écrivain
25
Morphologie dérivationelle La signification des radicales
ك ت ب KTB = notion: ‘écriture’ كتاب /kitāb/ book كتب /katab/ write مكتوب /maktūb/ written مكتبة /maktaba/ library مكتوب /maktūb/ letter مكتب /maktab/ office كاتب /kātib/ writer
26
Morphologie dérivationelle Signification des gabarits
La signification des gabarits est assez floue Patron (Forme) Signification du gabarit Exemple Traduction I 1a2a3 Sens de base ktb katab écrire II 1a22a3 Intensification, causatif ktb kattab dicter III 1aA2a3 Interaction avec d’autres ktb kaAtab correspondre avec IV Aa12a3 Causatif jls Ajlas Asseoir qq V ta1a22a3 Réflexif du gabarit II Elm taEal~am apprendre VI ta1aA2a3 Réflexif du gabarit III ktb takaAtab correspondre VII Ain1a2a3 Passif (de-accusatif) du gabarit I ktb Ainkatab s’abonner, s’inscrire VIII Ai1ta2a3 Acquiescence, exagération ktb Aiktatab S’inscrire IX Ai12a33 Transformation Hmr AiHmarr rougir X Aista12a3 Besoin ktb Aistaktab Demande d’écrire
27
Signification des lexèmes
Signification d’un lexème: Signification des radicales + Signification du gabarit + Idiosyncrasie lexicale La morphologie derivationelle n’est pas sémantiquement déterministe! Le paradigme n’est pas complet Contraste: morphologie inflectionelle
28
Morphologie inflectionelle
Définition de « mot »: orthographe Mot = lexème + traits Parties du discours Grammaires arabes traditionnelles: Nom, Verbe, Particule Grammaires modernes computationelles: N, NP, V, Adj, Adv, P, Pron, Nom, Conj, Det , Aux, Pon, IJ Traits Pour tous les mots Conjonctions clitiques Prépositions clitiques
29
Morphologie inflectionelle: Traits
Pour les noms Nombre: singulier, dual, pluriel, collectif Genre: masculin, féminin, neutre État: défini, indéfini, constructif (=tête de construction génitive) Cas: nominatif, accusatif, génitif Clitique possessive Pour les verbes Aspect: perfectif, imparfait Voix: actif, passif Mode: indicatif, subjonctif, jussif, impératif Sujet (personne, nombre, genre) Clitique objet
30
Morphologie inflectionelle: noms
conj prep noun poss plural article وكبيوتنا /wakabiyūtinā/ نا + بيوت + ك + و wa+ka+biyūt+nā and+like+houses+our ‘et comme nos maisons’ وللمكتبات /walilmaktabāt/ و+ل+ال+مكتبة+ات wa+li+al+maktaba+āt and+for+the+library+plural ‘et pour les bibliothèques’ Article or poss Case Arabic Broken Plurals Intersection of Derivational and Inflectional Morphology Règles morphologiques (exemple: ل+ال لل) Pluriel « rompu » (irrégulier): se fait avec des gabarits, non pas avec des suffixes
31
Morphologie inflectionelle: verbes
objet suj verbe futur conj فقلناها /faqulnāhā/ ف+ قال+ نا+ ها fa+qul+na+hā so+said+we+it ‘ainsi nous le dîmes’ وسنقولها /wasanaqūluhā/ و+ س+ ن+ قول + ها wa+sa+na+qūl+u+hā and+will+we+say+it ‘et nous le dirons’ Aspect PA circumfix negation Object, iobj
32
Morphologie inflectionelle
Conjugaison de l’accord avec le sujet pour le perfectif Singular Dual Plural 1 كتبتُ katabtu كتبنا katabnā 2 كتبتَ katabta كتبتما katabtumā كتبتم katabtum 3 كتب َ kataba كتبا katabā كتبوا katabtū Conjugaison de l’accord avec le sujet pour l’imparfait Singular Dual Plural 1 اكتب ُ aktubu نكتب ُ naktubu 2 تكتب ُ taktubu تكتبان taktubān تكتبون taktubūn 3 يكتب ُ yaktubu يكتبان yaktubān يتكتبون yaktubūn Stems are different Distribution of features Feminine form and other verb moods not shown
33
Le lexème en arabe Lexème = radicales + classe de comportement morphologique Classe de comportement morphologique: Fonction qui associe des morphèmes à des traits linguistiques Ordre de généralisation: Radicales > lexème > mot
34
Classe de comportement morphologique
MBC::Verb-I-au ( katab/yaktub ) cnj=wa wa+ tense=fut sa+ per=1, num=sg ‘+ per=1, num=pl n+ mood=indic +u mood=sub +a aspect=imper V12V3 aspect=perf 1V2V3 voice=act a-u voice=pass u-a obj=3FS +hA obj=1P +nA …
35
Hiérarchie des classes de comportement morphologique
Word Verb … Noun … Form-I Form-II Form-X … VerbTr VerbIntr Form-I-aa Form-I-ii … Verb-I-aa-tr Verb-I-aa-Intr Verb-X-Intr Verb-X-tr
36
Hiérarchie des classes de comportement morphologique
Word Verb … Noun … Form-I Form-II Form-X … VerbTr VerbIntr Form-I-aa Form-I-ii … Verb-I-aa-tr Verb-I-aa-Intr Verb-X-Intr Verb-X-tr cnj:f CONJ:f cnj:w CONJ:w cnj:0 CONJ:nil prt:0 PART:nil
37
Hiérarchie des classes de comportement morphologique
Word Verb … Noun … Form-I Form-II Form-X … VerbTr VerbIntr Form-I-aa Form-I-ii … Verb-I-aa-tr Verb-I-aa-Intr Verb-X-Intr Verb-X-tr cnj:f CONJ:f cnj:w CONJ:w cnj:0 CONJ:nil prt:0 PART:nil prt:l PART:RESULT prt:s PART:FUT asp:P per:1 num:s SUBJSUF_PV:1S
38
Hiérarchie des classes de comportement morphologique
Word Verb … Noun … Form-I Form-II Form-X … VerbTr VerbIntr Form-I-aa Form-I-ii … Verb-I-aa-tr Verb-I-aa-Intr Verb-X-Intr Verb-X-tr cnj:f CONJ:f cnj:w CONJ:w cnj:0 CONJ:nil prt:0 PART:nil prt:l PART:RESULT prt:s PART:FUT asp:P per:1 num:s SUBJSUF_PV:1S pro:0 OBJ:nil pro:1S OBJ:1S Pro:1P OBJ:1P
39
Hiérarchie des classes de comportement morphologique
Word Verb … Noun … Form-I Form-II Form-X … VerbTr VerbIntr Form-I-aa Form-I-ii asp:imp V12V3 asp:p 1V2V3 … Verb-I-aa-tr Verb-I-aa-Intr Verb-X-Intr Verb-X-tr cnj:f CONJ:f cnj:w CONJ:w cnj:0 CONJ:nil prt:0 PART:nil prt:l PART:RESULT prt:s PART:FUT asp:P per:1 num:s SUBJSUF_PV:1S pro:0 OBJ:nil pro:1S OBJ:1S Pro:1P OBJ:1P
40
La morphologie des dialectes
Morphologie gabaritique et concatenative, comme pour l’ASM Noms Perte des cas Perte de la distinction entre masculin & féminin au pluriel Verbes Perte des formes duales Perte de la distinction ndicatif/subjonctif/jussif Perte de la distinction entre masculin & féminin au pluriel (2e et 3e personnes) Clitiques pour l’objet indirecte Négation par préfixe, suffixe, ou circonfixe Formes pour le progressif, l’habituel
41
La morphologie des dialectes: exemple verbal
object subj verb tense conj IOBJ neg ASM ولم تكتبوها له walam taktubūhā lahu wa+lam taktubū+hā la+hu and+not_past write_you+it for+him EGY وماكتبتوهالوش wimakatabtuhalūʃ wi+ma+katab+tu+ha+lū+ʃ and+not+wrote+you+it+for_him+not Aspect PA circumfix negation Object, iobj ‘et tu ne le lui as pas écrit’
42
La morphologie des dialectes
Perfectif Imparfait ASM كتب kataba Past يكتب jaktubu Present سيكتب sajaktubu Future L E V katab jiktob 0-Tense بيكتب bjoktob habitual عم بيكتب ʕam bjoktob progressive حيكتب ħajiktob Tense variations Tense and negative interaction
43
Plan Situation sociolinguistique Orthographe Morphologie Syntaxe
Faits linguistiques Analyseur morphologique (TAL) Désambiguïsation morphologique (TAL) Syntaxe Available MT systems? slide on last mt eval arabic no asr discussed
44
Application TAL: Analyseur morphologique
Système qui: Prend en entrée un mot écrit, donc une forme fléchie Génère un lexème (=radicales, classe de comportement morphologique) et des traits linguistiques (+pluriel, +accusatif, …) Donne tous les analyses possible (sans égard au contexte) Nous voulons: Système bidirectionnel Fonctionne avec les dialectes
45
Travail précédent Problème: morphologie se fait avec automates ou transducteurs à états finis (FST) Insuffisant pour la morphologie gabaritique Beesley, Buckwalter & Newton 1989: two-level morphology with “detouring” Beesley & Karttunen 2000: compile-replace Buckwalter 2002: morphologie concatenative Comment adapter aux dialectes?
46
Notre implémentation: Automates à bandes multiples
MAGEAD, Habash & Rambow 2006 Suivant le travail de Kiraz (1996,2000) 5 bandes: Patron Radicales Vocalisme Forme de surface phonologique Forme de surface orthographique
47
Les étapes de la génération morphologique
Lexeme and Features Morpheme-Feature Mapping Dialect Independent Root + Abstract Morphemes Abstract Morpheme Ordering Dialect Independent Root + Ordered Abst. Morph. Abstract-Concrete Mapping Dialect Dependent Root + Concrete Morphemes Morphophonemic rules Dialect Dependent Phonemic Form Orthographic rules Orthography Dependent Orthographic Form
48
Exemple V 1 t 2 3 Pattern z h r Root i a Vocalism Phonology
Orthography
49
Exemple Règles générique pour la phonologie V 1 t 2 3 Pattern z h r
Root i a Vocalism i z t a h r Phonology Orthography
50
Exemple Règles morpho-phonémiques V 1 t 2 3 Pattern z h r Root i a
Vocalism i z d a h r Phonology Orthography
51
Exemple Copier au niveau orthographique V 1 t 2 3 Pattern z h r Root i
Vocalism i z d a h r Phonology i z d a h r Orthography
52
Example Règles orthographiques V 1 t 2 3 Pattern z h r Root i a
Vocalism i z d a h r Phonology A i z d a h r Orthography
53
Un analyseur pour un dialecte
Créer la relation morphèmes abstraits – morphèmes concrets pour le dialecte Créer les règles morpho-phonémiques Créer les règles orthographiques Créer le lexique: Ajuster la hiérarchie des classes de comportement morphologique Donner une liste de lexèmes: <radicales, CCM> Alternative: postuler des lexèmes, utiliser un modèle probabiliste base sur des règles de changement de sons (exemple: /q/ /’/) Fait pour les verbes levantins
54
Plan Situation sociolinguistique Orthographe Morphologie Syntaxe
Faits linguistiques Analyseur morphologique (TAL) Désambiguïsation morphologique (TAL) Syntaxe Available MT systems? slide on last mt eval arabic no asr discussed
55
Ambiguïté de la morphologie arabe
Exemple: analyses possible de بين (byn) Diac PdD Traits Lexème Signification bayyana V asp:pf g:m n:s bayyana ‘il déclara’ bayyanna V asp:pf g:f n:p bayyana ‘elles déclarèrent’ bayyinu Adj g:m n:s cas:nom bayyin ‘évident’ bayna P bayna ‘parmi’ biyini NP prep:b yin ‘en Yen’ biynu NP cas:nom biyn ‘Ben’ biyni NP cas:gen biyn ‘Ben’ … Applications TAL arabe: Choix de la partie du discours et des traits morphologiques (= étiqueteur morphologique) Choix des diacritiques (=diacritisation) Choix du lexème (=lemmatisation) Indefiniteness (Nunation تنوين) (tashdid تشديد, dagesh דגש)
56
Ambiguïté de la morphologie arabe
Average overall ambiguity* is 2.5 analyses/word (sans cas/mode) Compare to English ENGTWOL ambiguity ( analyses/word) Ambiguity (depends on granularity!) The first module in the system is the preprocessor that identifies sentence boundaries and fixed syntagms - idioms, such as multiword prepositions, and compound nouns. The current list of fixed syntagms contains some 6,000 items. The ENGTWOL morphological analyser uses a lexicon which contains about 56,000 entries. It accounts for all inflections and central derivations, and the number of entries is adequate to cover the core vocabulary of English. Usually ENGTWOL is capable of recognising and analysing more than 95% of input word forms, and even in more technical texts the percentage is typically over 90%. The correctness of the readings produced by ENGTWOL is near 100% (see the test results reported in Section 3.1). For the analysis of those words not represented in the ENGTWOL description, there is a rule-based heuristic program that assigns ENGTWOL-style readings. Also this utility is highly reliable (see Section 3.1 and Voutilainen 1994b). Since many English word forms can belong to more than one part of speech in isolation, the morphological analysis produces ambiguity; on an average, the ENGTWOL analyser provides each word with alternative morphological readings. Ambiguity is, of course, highly dependent on the linguistic description adopted. The ENGTWOL description is mainly based on Quirk et al. (1985). We have systematically introduced categorial ambiguity, and we have also generously used other features to provide ample information - the total number of features used is approximately 150. Hence, ENGTWOL typically makes somewhat finer distinctions than the tag set of the Brown University Corpus. Uninflected verb forms, for example, are ambiguous over the present tense, imperative, infinitive and subjunctive readings, whereas the Brown tag set only gives one uninflected verb form reading. Also, pronoun/determiner ambiguities (e.g., much, this) have been spelt out in ENGTWOL, while the Brown tag set often subsumes these categories under the same tag. On the other hand, the Brown tag set divides -ing-forms into participles, nouns and adjectives - ENGTWOL subsumes these under the feature PCP1. The ENGTWOL feature system is well specified in the sense that linguists familiar with the ENGTWOL description tend to agree in virtually 100% of the cases when they (manually) apply the description to running text (Voutilainen 1994a). Without a well-specified `underlying' descriptive practice or parsing scheme, the development or evaluation of a parsing grammar could obviously not be satisfactory. * In Arabic Penn Treebank 1
57
Étiquetage morphologique
Jeu d’étiquettes pour l’anglais: 46 Jeu d’étiquettes pour l’arabe: 3000+ On ne peut pas simplement entraîner un étiqueteur traditionnel, par exemple basé sur machine de Markov cachée (HMM) 2 options: Réduire la taille du jeu d’étiquettes en éliminant des distinctions (Diab et al 2004) Utiliser un analyseur morphologique pour réduire les possibilités (Hajič 2001)
58
MADA (Habash & Rambow 2005) Utilise un analyseur morphologique (BAMA) qui produit les analyses possible du mot d’entrée, par exemple بين (byn) Diac PdD Traits Lexème Signification bayyana V asp:pf g:m n:s bayyana ‘il déclara’ bayna P bayna ‘parmi’ biyini NP prep:b yin ‘en Yen’ biyni NP cas:gen biyn ‘Ben’ … MADA fait un choix parmi les analyses; en MEME TEMPS: Étiquetage morphologique Diacritisation Lemmatisation
59
Formatted Arabic Text (Buckwalter) Sets of Analyses & Features
MADA (Habash & Rambow 2005) Arabic Text Formatted Arabic Text (Buckwalter) Formatting Script Sets of Analyses & Features Morphological Analyzer SVM Classifiers Feature Predictions MADA Analysis Ranker Sets of Ranked Analyses & Features Tokenized Buckwalter Text TOKAN User Applications
60
Traits utilisés par MADA
Noms Nombre Genre Cas Défini/indéfini Clitique possessive Présence de ‘Al’ Tous les mots Clitique de conjonction Préposition/particule clitique Modèle 4-gram des lexèmes Verbes Aspect Voix Mode Accord sujet Clitique Objet
61
MADA: Choix de la meilleure analyse
W-4 W-3 W-2 W-1 W0 W1 W2 W3 W4 3rd 4th 5th 1st 2nd CLASSIFIEURS MORPHOLOGIQUES RANKER ANALYSEUR MORPHOLOGIQUE Entrainés sur corpus Entrainé sur corpus Créé a la main Règles
62
Performance des classificateurs
Classifiers: Art, Aspect, Case, Clitic, Conj, Def, Gen, Idafa, Mood, Num, Part, Per, Pos, Voice SVMTools does slightly worse than Yamcha, but is x13 faster
63
Diacritiques correctes (toutes les diac) Choix d’analyse correcte
Résultats pour MADA Métrique D’évaluation Correction de MADA (%) PdD correct 96.4 Lexème correct Diacritiques correctes (toutes les diac) 86.2 Choix d’analyse correcte 83.9 Note: si on exclut le cas et le mode, les résultats sont nettement meilleurs
64
Plan Situation sociolinguistique Orthographe Morphologie Syntaxe
65
Syntaxe de la Phrase Deux types de phrase en arabe Phrase verbale
[Verb Subject Object] (VSO) كتب الاولاد الاشعار Wrote the-boys the-poems The boys wrote the poems Phrase à copule [Topic Complement] الاولاد شعراء the-boys poets The boys are poets Traditional analysis
66
Phrases verbale Verb agreement with gender only
كتب الولد\الاولاد wrote3MascSing the-boy/the-boys كتبت البنت\البنات wrote3FemSing the-girl/the-girls Pronominal subjects are conjugated كتبتُ wrote-youMascSing كتبتم wrote-youMascPlur كتبوا wrote-theyMascPlur Passive verbs Same structure: Verbpassive SubjectunderlyingObject Agreement with surface subject
67
Phrases à copule [Topic Complement]
Definite Topic, Indefinite Complement الولد شاعر the-boy poet The boy is a poet [Auxiliary Topic Complement] Auxiliaries (kāna and her sisters) Tense, Negation, Transformation, Persistence كان الولد شاعرا was the-boy poet The boy was a poet ليس الولد شاعرا is-not the-boy poet The boy is not a poet Inverted order is expected in certain cases Indefinite topic عندي كتاب /ʕandi kitābun/ at-me a-book I have a book Past tense??
68
Phrases à copule: types de compléments
Nom/Adjectif الولد ذكي the-boy smart The boy is smart Syntagme prepositionnel الولد في المكتبة the-boy in the-library The boy is in the library Phrases à copule الولد كتابه كبير [the-boy [book-his big]] The boy, his book is big Phrase verbale الاولاد كتبوا الاشعار [the-boys [wrote-they poems]] The boys wrote the poems Full agreement in this order (SVO) الاشعار كتبها الاولاد (OVS) [the-poems [wrote-it the boys]] The poems, the boys wrote Past tense??
69
Syntaxe du nom La modification par adjectif:
N Adj Accord en nombre, genre, cas, définition La construction possessive « Idafa » (اضافة): ‘N1 de N2’ N1-constructif N2-génitif ملك الاردن roi Jordanie ‘le roi de Jordanie’ N1 hérite la définition de N2 (défini, indéfini) Chaines d’Idafa N1constr N2constr … Nn-1constr Nndef ou indef ابن عم جار رئيس مجلس ادارة الشركة fils oncle voisin chef comite administation l’entreprise Le cousin du voisin du PDG de l’entreprise
70
La syntaxe des dialectes: noms
Idafa construction Noun1 of Noun2 encoded structurally ملك الاردن king Jordan the king of Jordan / Jordan’s king Dialects have an additional common construct Noun1 <particle> Noun2 LEV: الملك تبع الاردن the-king belonging-to Jordan <particle> differs widely among dialects Pre/post-modifying demonstrative article MSA: هذا الرجل this the-man this man EGY: الراجل ده the-man this this man
71
La syntaxe des dialectes: phrases
The children wrote poems MSA Verb Subject Object (Partial agreement) كتب الاولاد الاشعار wrotemasc the-boys the-poems Subject Verb Object (Full agreement) الاولاد كتبوا الاشعار the-boys wrotemascPlural the-poems LEV, EGY Subject Verb Object الاولاد كتبو الاشعار The-boys wrotemascPlural the-poems Less present: Verb Subject Object كتبو الاولاد الاشعار wrotemascPlural the-boys the-poems Full agreement in both order
72
L’analyse des dialectes arabes: le problème pour le TAL
- ASM - الازلام بيحبو ش الشغل هادا Banque d’arbres Petit corpus ? بيحبو الازلام ش الشغل هادا men like work this not Parser Gros corpus
73
TAG = Tree Adjoining Grammar
La transduction de la grammaire (Chiang et al 2006, Chiang & Rambow 2006) - Dialect - - MSA - Probabilistic TAG Treebank الازلام بيحبو ش الشغل هادا Probabilistic TAG Parser Tree Transduction بيحبو الازلام ش الشغل هادا TAG = Tree Adjoining Grammar
74
La transduction de la grammaire
Transformer le modèle d;analyse pour ASM en un modèle d’analyse pour le dialecte Plus précisément: en un modèle d’analyse synchrone ASM-dialecte Le modèle d’analyse est défini en termes de dérivations en TAG (tree adjoining grammar)
75
Tree-Adjoining Grammar
76
La transformation d’une TAG
Nous spécifions des transformations sur des arbres elementaires
77
Les probabilités de transformation
Ajouter des probabilités de correspondance P(TLev|TMSA)
78
Appris dans la banque d’arbres pour l’ASM
Modèle de probabilité Pour analyser, trouver: arg max P(TLev) ≈ arg max P(TLev, TASM) = arg max P(TLev|TASM) P(TASM) Appris dans la banque d’arbres pour l’ASM Probas de correspondence
79
Modèle de probabilité La lexicalisation crée un ensemble de correspondences LEV > SMA qui est enorme Faire un backoff: modéliser independemment la correspondance de la partie non-lexicalisée et des mots
80
Transformations Transformation VSO à SVO Négation:
81
Transformations ‘want’
82
Resultats Recall Prec F1 Baseline 62.5 63.9 63.2 Petit lexique 67.0
VSO→SVO 66.7 66.9 66.8 negation ‘want’ 67.4 67.2 negation+‘want’ 67.1 67.3
83
Conclusion Pour faire le TAL de l’arabe, il faut:
comprendre les faits linguistiques; les modéliser de façon adéquate; et maîtriser des techniques formelles et computationelles diverses! La linguistique est importante!
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.