La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems.

Présentations similaires


Présentation au sujet: "Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems."— Transcription de la présentation:

1 Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems

2 Remerciements CADIM (Columbia Arabic and its Dialects Modeling Group): Mona Diab et Nizar Habash Nizar Habash pour des transparents

3 Plan Situation sociolinguistique Orthographe Morphologie Syntaxe

4 ne-pas acheter Nizar table nouvelle لم يشتر نزار طاولة جديدة lam ja ʃ tari nizār ţawilatan ζ adīdatan Nizar n a pas acheté la nouvelle table نزار ماشتراش طربيزة جديدة nizār ma ʃ tarā ʃ ţarabēza gidīda نزار ماشراش ميدة جديدة nizar ma ʃ rā ʃ mida ζdīda نزار ماشتراش طاولة جديدة nizār ma ʃ tarā ʃ ţawile ζdīde

5 Variation phonologique ā ʔ tb ʤ θxħδdzrs ṣ ʃ ṭḍʕ δ̣ k ʁ qflm تثابجحخدذرزسشصضطظعغفقكلمنهوي ىءأآإؤئ ة hnwjūī LEV ōē ẓ No dialect-specific standard orthography ASM

6 Variation lexicale Lorthographe arabe permet de consolider quelques variations

7 Classification des dialectes Dialectes Régionaux –Arabe maghrébin (MAG) –Arabe égyptien (EGY) –Arabe levantin (LEV) –Arabe du Golfe (GLF) –Arabe iraqien, yéménite, sudanais; le maltais? Dialectes sociaux –Citadin/paysan/bédouin –Sexe –Religion –…

8 La diglossie dans le monde arabe Quest-ce quun dialecte? –Facteurs politiques et religieux Arabe Standard Moderne (ASM, MSA en anglais): –Documents écrits –Discours officiels, médias traditionnels (lu) –Pas de production orale spontanée –Appris à lécole (règles) Dialectes: –Oral spontanée –Médias électroniques –Appris à la maison

9 Le mélange des codes (code switching) لا أنا ما بعتقد لأنه عملية اللي عم بيعارضوا اليوم تمديد للرئيس لحود هم اللي طالبوا بالتمديد للرئيس الهراوي وبالتالي موضوع منه موضوع مبدئي على الأرض أنا بحترم أنه يكون في نظرة ديمقراطية للأمور وأنه يكون في احترام للعبة الديمقراطية وأن يكون في ممارسة ديمقراطية وبعتقد إنه الكل في لبنان أو أكثرية ساحقة في لبنان تريد هذا الموضوع، بس بدي يرجع لحظة على موضوع إنجازات العهد يعني نعم نحكي عن إنجازات العهد لكن هل النظام في لبنان نظام رئاسي النظام في لبنان من بعد الطائف ليس نظام رئاسي وبالتالي السلطة هي عمليا بيد الحكومة مجتمعة والرئيس لحود أثبت خلال ممارسته الأخيرة بأنه لما بيكون في شخص مسؤول في منصب معين وأنا عشت هذا الموضوع شخصيا بممارستي في موضوع الاتصالات لما بياخد مواقف صالحة ضمن خطاب ومبادئ خطاب القسم هو إلى جانبه إنما مش مطلوب من رئيس جمهورية هو يكون رئيس السلطة التنفيذية لأنه منه بقى في لبنان ما بعد إتفاق الطائف رئيس السلطة التنفيذية عليه التوجيه عليه إبداء الملاحظات عليه القول ما هو خطأ وما هو صح عليه تثمير جهود الوطنية الشاملة كي يظل في مصالحة وطنية كي يظل في توافق ما بين المسلم والمسيحي في لبنان يحتضن أبناء هذا البلد ما يترك المسار يروح باتجاه الخطأ نعم إنما خطاب القسم كان موضوع مبادئ طرحت هو ملتزم فيها اللي مشيوا معه وآمنوا فيها التزموا فيها أنا أثبت خلال الأربع سنوات بالممارسة الحكومية أني التزمت فيها ولما التزمنا بهذا الموضوع كان الرئيس لحود إلى جنبنا في هذا الموضوع، أما الموضوع الديمقراطي أنا بتفهم تماما هذا هالوجهة النظر بس ما ممكن نقول إنه الدستور أو تعديله هو أو إمكانية فتح إعادة انتخاب ديمقراطي ضمن المجلس والتصويت إلى ما هنالك لرئيس جمهورية بولاية ثانية هو مسح هيئة في جوهر الديمقراطية هذا بالأقل يعني قناعتي في هذا الموضوع. Discours sur Al-Jazeera phonologie, morphologie et syntaxe Aljazeera Transcript ASM LEV

10 Les niveaux de Badawi Badawi: –Arabe traditionnel –Arabe moderne –Arabe vernaculaire éduqué –Arabe vernaculaire moyen –Arabe vernaculaire analphabète Polyglossie Arabe classique DialecteLangue étrangère

11 Une situation unique? Suisse allemande Chine France?

12 Pourquoi sintéresser aux dialectes en TAL? Reconnaissance automatique de la parole Systèmes de dialogue Traduction automatique à partir de la parole, de textes écrits en dialecte Aides à lapprentissages –Pour étrangers (apprentissage des dialectes) –Pour arabes (apprentissage de lASM)

13 La diglossie, la linguistique, et le TAL LASM nest pas « une langue naturelle » (?) Il y a peu de travaux linguistiques sur les dialectes Il y a peu de textes écrits dans les dialectes Les domaines dans lesquels sont employés ASM et dialectes sont complémentaires (il ny a pas de corpus ASM-dialecte) Il y a peu dintérêt dans le monde arabe à étudier les dialectes Pour TAL des dialectes, il faut: –Commencer par lASM –Employer des modèles et des connaissances venant de la linguistique théorique et descriptive –« Scholar-seeded learning »

14 Plan Situation sociolinguistique Orthographe Morphologie Syntaxe

15 Larabe écrit Larabe sécrit avec un alphabète avec des variantes allographiques, des diacritiques optionnelles, et des ligatures spéciales Lalphabète arabe (variations) est aussi utilise pour écrire dautres langues : le persan, le kurde,lurdu, le pashto, etc الخَطُ العَرَبِي

16 Larabe écrit Les lettres De droite a gauche Pas de majuscules 4 variantes par lettre د ا ز ن final medial initial isolé شمكب

17 Larabe écrit Nunation بً /ban/ بٌ /bun/ بٍ /bin/ Diacritiques optionelles Sur ou sous les lettres 1. Voyelles courtes 2.Morphème de dindétermination (« nunation ») كِتَابٌ /kitābun/ un livre Voyelle بَ /ba/ بُ /bu/ بِ /bi/

18 Larabe écrit Double Consonant بّ /bb/ بُّبٍّبًّ /bbu//bbin//bban/ Diacritiques 3. Marqueur dabsence de voyelle (sukun) مَكْتَب /maktab/ bureau 4. Gémination (double consonne) (shadda) كَتَّب /kattab/ dicter Combinable No Vowel بْ /b/

19 Larabe écrit عَرَب = عرب ع َر َب Exemples de combinaison simple Ligatures غَرْب = غرب غ َر ْب Ouest / ʁ arb/ Arabe / ʕ arab/ م س ل ا م Paix /salām/ سلام

20 Phonologie et orthographe de lASM Phonologie –28 consonnes –3 voyelles courtes, 3 voyelles longues, 2 diphtongues Lorthographe arabe suit largement la phonologie

21 Ambiguïté de lorthographe arabe Problème: absence de diacritiques بين (byn) –/bayyana/ il déclara –/bayyanna/ elles déclarèrent –/bayyin/ évident –/bayna/parmi –/bīn/ Ben (nom propre) Application TAL arabe: diacritisation, un système pour désambiguïser lorthographe selon le contexte en ajoutant des diacritiques

22 Plan Situation sociolinguistique Orthographe Morphologie –Faits linguistiques –Analyseur morphologique (TAL) –Désambiguïsation morphologique (TAL) Syntaxe

23 Morphologie Types –Concatenative: préfixe, suffixe, circonfixe -- universel –« Radicale » (templatic): racine+gabarit – sémitique Fonctions (universelles) –Dérivationelle Création de lexèmes nouveaux (nouveau sens lexical) Largement morphologie gabaritique –Inflectionelle Variation des traits des mots (ne change pas le sens lexical) – Temps, nombre, personne, aspect, mode Largement morphologie concatenative « Lexème »: ensemble de mots qui ne varient que dans leur morphologie inflectionelle

24 Morphologie dérivationelle gabaritique (par gabarits) مكتوب b 1ومَ23 k t كاتب 1اِ2ِ23 maktūb écrit kātib écrivain بكت maūāi Racine Patron Lexème

25 Morphologie dérivationelle La signification des radicales ك ت ب KTB = notion: écriture كتب /katab/ write كاتب /kātib/ writer مكتوب /maktūb/ letter كتاب /kitāb/ book مكتبة /maktaba/ library مكتب /maktab/ office مكتوب /maktūb/ written

26 Morphologie dérivationelle Signification des gabarits Patron (Forme) Signification du gabaritExempleTraduction I 1a2a3 Sens de basektb katab é crire II 1a22a3 Intensification, causatifktb kattab dicter III 1aA2a3 Interaction avec d autresktb kaAtab correspondre avec IV Aa12a3 Causatifjls Ajlas Asseoir qq V ta1a22a3 R é flexif du gabarit IIElm taEal~am apprendre VI ta1aA2a3 R é flexif du gabarit IIIktb takaAtab correspondre VII Ain1a2a3 Passif (de-accusatif) du gabarit Iktb Ainkatab s abonner, s inscrire VIII Ai1ta2a3 Acquiescence, exag é rationktb Aiktatab S inscrire IX Ai12a33 TransformationHmr AiHmarr rougir X Aista12a3 Besoinktb Aistaktab Demande d é crire La signification des gabarits est assez floue

27 Signification des lexèmes Signification dun lexème: –Signification des radicales + –Signification du gabarit + –Idiosyncrasie lexicale La morphologie derivationelle nest pas sémantiquement déterministe! Le paradigme nest pas complet Contraste: morphologie inflectionelle

28 Morphologie inflectionelle –Définition de « mot »: orthographe –Mot = lexème + traits Parties du discours –Grammaires arabes traditionnelles: Nom, Verbe, Particule –Grammaires modernes computationelles: N, NP, V, Adj, Adv, P, Pron, Nom, Conj, Det, Aux, Pon, IJ Traits –Pour tous les mots Conjonctions clitiques Prépositions clitiques

29 Morphologie inflectionelle: Traits Pour les noms –Nombre: singulier, dual, pluriel, collectif –Genre: masculin, féminin, neutre –État: défini, indéfini, constructif (=tête de construction génitive) –Cas: nominatif, accusatif, génitif –Clitique possessive Pour les verbes –Aspect: perfectif, imparfait –Voix: actif, passif –Mode: indicatif, subjonctif, jussif, impératif –Sujet (personne, nombre, genre) –Clitique objet

30 Morphologie inflectionelle: noms وللمكتبات /walilmaktabāt/ و+ل+ال+مكتبة+ات wa+li+al+maktaba+āt and+for+the+library+plural et pour les bibliothèques conjprepnounposs plural article وكبيوتنا /wakabiyūtinā/ نا + بيوت + ك + و wa+ka+biyūt+nā and+like+houses+our et comme nos maisons Règles morphologiques (exemple: ل+ال لل) Pluriel « rompu » (irrégulier): se fait avec des gabarits, non pas avec des suffixes

31 Morphologie inflectionelle: verbes فقلناها /faqulnāhā/ ف+ قال+ نا+ ها fa+qul+na+hā so+said+we+it ainsi nous le dîmes conj verbe objet sujfutur وسنقولها /wasanaqūluhā/ و+ س+ ن+ قول + ها wa+sa+na+qūl+u+hā and+will+we+say+it et nous le dirons

32 Morphologie inflectionelle Conjugaison de laccord avec le sujet pour le perfectif SingularDualPlural 1كتبتُ katabtuكتبنا katabnā 2كتبتَ katabta كتبتما katabtumāكتبتم katabtum 3كتب َ katabaكتبا katabāكتبوا katabtū Conjugaison de laccord avec le sujet pour limparfait Feminine form and other verb moods not shown SingularDualPlural 1اكتب ُ aktubuنكتب ُ naktubu 2تكتب ُ taktubuتكتبان taktubānتكتبون taktubūn 3يكتب ُ yaktubuيكتبان yaktubānيتكتبون yaktubūn

33 Le lexème en arabe Lexème = radicales + classe de comportement morphologique Classe de comportement morphologique: –Fonction qui associe des morphèmes à des traits linguistiques Ordre de généralisation: Radicales > lexème > mot

34 Classe de comportement morphologique MBC::Verb-I-au ( katab/yaktub ) cnj=wa wa+ tense=fut sa+ per=1, num=sg + per=1, num=pl n+ mood=indic +u mood=sub +a aspect=imper V12V3 aspect=perf 1V2V3 voice=act a-u voice=pass u-a obj=3FS +hA obj=1P +nA …

35 Hiérarchie des classes de comportement morphologique Verb-I-aa-Intr Word Verb VerbTrVerbIntr Noun … Form-I Form-I-aaForm-I-ii … Form-IIForm-X … Verb-I-aa-tr … Verb-X-trVerb-X-Intr

36 Hiérarchie des classes de comportement morphologique Verb-I-aa-Intr Word Verb VerbTrVerbIntr Noun … Form-I Form-I-aaForm-I-ii … Form-IIForm-X … Verb-I-aa-tr … Verb-X-trVerb-X-Intr cnj:f CONJ:f cnj:w CONJ:w cnj:0 CONJ:nil prt:0 PART:nil

37 Hiérarchie des classes de comportement morphologique Verb-I-aa-Intr Word Verb VerbTrVerbIntr Noun … Form-I Form-I-aaForm-I-ii … Form-IIForm-X … Verb-I-aa-tr … Verb-X-trVerb-X-Intr cnj:f CONJ:f cnj:w CONJ:w cnj:0 CONJ:nil prt:0 PART:nil prt:l PART:RESULT prt:s PART:FUT asp:P per:1 num:s SUBJSUF_PV:1S

38 Hiérarchie des classes de comportement morphologique Verb-I-aa-Intr Word Verb VerbTrVerbIntr Noun … Form-I Form-I-aaForm-I-ii … Form-IIForm-X … Verb-I-aa-tr … Verb-X-trVerb-X-Intr cnj:f CONJ:f cnj:w CONJ:w cnj:0 CONJ:nil prt:0 PART:nil prt:l PART:RESULT prt:s PART:FUT asp:P per:1 num:s SUBJSUF_PV:1S pro:0 OBJ:nil pro:1S OBJ:1S Pro:1P OBJ:1P

39 Hiérarchie des classes de comportement morphologique Verb-I-aa-Intr Word Verb VerbTrVerbIntr Noun … Form-I Form-I-aaForm-I-ii … Form-IIForm-X … Verb-I-aa-tr … Verb-X-trVerb-X-Intr cnj:f CONJ:f cnj:w CONJ:w cnj:0 CONJ:nil prt:0 PART:nil prt:l PART:RESULT prt:s PART:FUT asp:P per:1 num:s SUBJSUF_PV:1S pro:0 OBJ:nil pro:1S OBJ:1S Pro:1P OBJ:1P asp:imp V12V3 asp:p 1V2V3

40 La morphologie des dialectes Morphologie gabaritique et concatenative, comme pour lASM Noms –Perte des cas –Perte de la distinction entre masculin & féminin au pluriel Verbes –Perte des formes duales –Perte de la distinction ndicatif/subjonctif/jussif –Perte de la distinction entre masculin & féminin au pluriel (2e et 3e personnes) –Clitiques pour lobjet indirecte –Négation par préfixe, suffixe, ou circonfixe –Formes pour le progressif, lhabituel

41 La morphologie des dialectes: exemple verbal conj verb object subjtense IOBJneg ASM ولم تكتبوها له walam taktubūhā lahu wa+lam taktubū+hā la+hu and+not_past write_you+it for+him EGY وماكتبتوهالوش wimakatabtuhalū ʃ wi+ma+katab+tu+ha+lū+ ʃ and+not+wrote+you+it+for_him+not et tu ne le lui as pas écrit

42 PerfectifImparfait ASMASM كتب kataba Past يكتب jaktubu Presen t سيكتب sajaktubu Future LEVLEV كتب katab Past يكتب jiktob 0- Tense بيكتب bjoktob Present habitual عم بيكتب ʕ am bjoktob Present progressive حيكتب ħajiktob Future La morphologie des dialectes

43 Plan Situation sociolinguistique Orthographe Morphologie –Faits linguistiques –Analyseur morphologique (TAL) –Désambiguïsation morphologique (TAL) Syntaxe

44 Application TAL: Analyseur morphologique Système qui: –Prend en entrée un mot écrit, donc une forme fléchie –Génère un lexème (=radicales, classe de comportement morphologique) et des traits linguistiques (+pluriel, +accusatif, …) –Donne tous les analyses possible (sans égard au contexte) Nous voulons: –Système bidirectionnel –Fonctionne avec les dialectes

45 Travail précédent Problème: morphologie se fait avec automates ou transducteurs à états finis (FST) –Insuffisant pour la morphologie gabaritique Beesley, Buckwalter & Newton 1989: two- level morphology with detouring Beesley & Karttunen 2000: compile-replace Buckwalter 2002: morphologie concatenative –Comment adapter aux dialectes?

46 Notre implémentation: Automates à bandes multiples MAGEAD, Habash & Rambow 2006 Suivant le travail de Kiraz (1996,2000) 5 bandes: –Patron –Radicales –Vocalisme –Forme de surface phonologique –Forme de surface orthographique

47 Les étapes de la génération morphologique Lexeme and Features Root + Abstract Morphemes Root + Concrete Morphemes Phonemic Form Orthographic Form Orthographic rules Morphophonemic rules Abstract Morpheme Ordering Morpheme-Feature Mapping Root + Ordered Abst. Morph. Abstract-Concrete Mapping Dialect Independent Dialect Dependent Orthography Dependent

48 Exemple V1tV2V3zhriaa Pattern Root Vocalism Phonology Orthography

49 Exemple Règles générique pour la phonologie V1tV2V3zhriaaiztahar Pattern Root Vocalism Phonology Orthography

50 Exemple Règles morpho-phonémiques V1tV2V3zhriaaizdahar Pattern Root Vocalism Phonology Orthography

51 Exemple Copier au niveau orthographique V1tV2V3zhriaaizdaharizdahar Pattern Root Vocalism Phonology Orthography

52 Example Règles orthographiques V1tV2V3zhriaaizdaharizdahar Pattern Root Vocalism Phonology Orthography A

53 Un analyseur pour un dialecte Créer la relation morphèmes abstraits – morphèmes concrets pour le dialecte Créer les règles morpho-phonémiques Créer les règles orthographiques Créer le lexique: –Ajuster la hiérarchie des classes de comportement morphologique –Donner une liste de lexèmes: –Alternative: postuler des lexèmes, utiliser un modèle probabiliste base sur des règles de changement de sons (exemple: /q/ //) Fait pour les verbes levantins

54 Plan Situation sociolinguistique Orthographe Morphologie –Faits linguistiques –Analyseur morphologique (TAL) –Désambiguïsation morphologique (TAL) Syntaxe

55 Ambiguïté de la morphologie arabe Exemple: analyses possible de بين (byn) DiacPdD TraitsLexème Signification bayyana V asp:pf g:m n:sbayyanail déclara bayyanna V asp:pf g:f n:pbayyanaelles déclarèrent bayyinu Adj g:m n:scas:nombayyinévident baynaP baynaparmi biyiniNP prep:byinen Yen biynuNP cas:nombiynBen biyniNP cas:genbiynBen … Applications TAL arabe: –Choix de la partie du discours et des traits morphologiques (= étiqueteur morphologique) –Choix des diacritiques (=diacritisation) –Choix du lexème (=lemmatisation)

56 Ambiguïté de la morphologie arabe Average overall ambiguity* is 2.5 analyses/word (sans cas/mode) Compare to English ENGTWOL ambiguity ( analyses/word) * In Arabic Penn Treebank 1

57 Étiquetage morphologique Jeu détiquettes pour langlais: 46 Jeu détiquettes pour larabe: On ne peut pas simplement entraîner un étiqueteur traditionnel, par exemple basé sur machine de Markov cachée (HMM) 2 options: –Réduire la taille du jeu détiquettes en éliminant des distinctions (Diab et al 2004) –Utiliser un analyseur morphologique pour réduire les possibilités (Hajič 2001)

58 MADA (Habash & Rambow 2005) Utilise un analyseur morphologique (BAMA) qui produit les analyses possible du mot dentrée, par exemple بين (byn) DiacPdD TraitsLexème Signification bayyana V asp:pf g:m n:sbayyanail déclara baynaP baynaparmi biyiniNP prep:byinen Yen biyniNP cas:genbiynBen … MADA fait un choix parmi les analyses; en MEME TEMPS: –Étiquetage morphologique –Diacritisation –Lemmatisation

59 MADA (Habash & Rambow 2005) Morphological Analyzer TOKAN User Applications Formatted Arabic Text (Buckwalter) Arabic Text Sets of Ranked Analyses & Features Tokenized Buckwalter Text MADA Feature Predictions SVM Classifiers Formatting Script Analysis Ranker Sets of Analyses & Features

60 Traits utilisés par MADA Noms Nombre Genre Cas Défini/indéfini Clitique possessive Présence de Al Tous les mots Clitique de conjonction Préposition/particule clitique Modèle 4-gram des lexèmes Verbes Aspect Voix Mode Accord sujet Clitique Objet

61 W -3 W -2 W -1 W0W0 W1W1 W2W2 W3W3 W4W4 W -4 ANALYSEUR MORPHOLOGIQUE CLASSIFIEURS MORPHOLOGIQUES Créé a la main Règles Entrainés sur corpus 2nd 3rd 5th 4th 1st RANKER Entrainé sur corpus MADA: Choix de la meilleure analyse

62 Performance des classificateurs Classifiers: Art, Aspect, Case, Clitic, Conj, Def, Gen, Idafa, Mood, Num, Part, Per, Pos, Voice SVMTools does slightly worse than Yamcha, but is x13 faster

63 Résultats pour MADA Métrique Dévaluation Correction de MADA (%) PdD correct 96.4 Lexème correct 96.4 Diacritiques correctes (toutes les diac) 86.2 Choix danalyse correcte 83.9 Note: si on exclut le cas et le mode, les résultats sont nettement meilleurs

64 Plan Situation sociolinguistique Orthographe Morphologie Syntaxe

65 Syntaxe de la Phrase Deux types de phrase en arabe Phrase verbale –[Verb Subject Object] (VSO) –كتب الاولاد الاشعار Wrote the-boys the-poems The boys wrote the poems Phrase à copule –[Topic Complement] –الاولاد شعراء the-boys poets The boys are poets

66 Phrases verbale Verb agreement with gender only –كتب الولد\الاولاد wrote 3MascSing the-boy/the-boys –كتبت البنت\البنات wrote 3FemSing the-girl/the-girls Pronominal subjects are conjugated –كتبتُ wrote-you MascSing –كتبتم wrote-you MascPlur –كتبوا wrote-they MascPlur Passive verbs –Same structure: Verb passive Subject underlyingObject –Agreement with surface subject

67 Phrases à copule [Topic Complement] Definite Topic, Indefinite Complement –الولد شاعر the-boy poet The boy is a poet [Auxiliary Topic Complement] Auxiliaries (kāna and her sisters) –Tense, Negation, Transformation, Persistence –كان الولد شاعراwas the-boy poet The boy was a poet –ليس الولد شاعراis-not the-boy poet The boy is not a poet Inverted order is expected in certain cases –Indefinite topic عندي كتاب / ʕ andi kit ā bun/ at-me a-book I have a book

68 Phrases à copule: types de compléments Nom/Adjectif –الولد ذكي the-boy smart The boy is smart Syntagme prepositionnel –الولد في المكتبة the-boy in the-library The boy is in the library Phrases à copule –الولد كتابه كبير [the-boy [book-his big]] The boy, his book is big Phrase verbale –الاولاد كتبوا الاشعار [the-boys [wrote-they poems]] The boys wrote the poems –Full agreement in this order (SVO) –الاشعار كتبها الاولاد (OVS) [the-poems [wrote-it the boys]] The poems, the boys wrote

69 Syntaxe du nom La modification par adjectif: –N Adj –Accord en nombre, genre, cas, définition La construction possessive « Idafa » (اضافة): N1 de N2 –N1-constructif N2-génitif –ملك الاردن roi Jordanie le roi de Jordanie N1 hérite la définition de N2 (défini, indéfini) Chaines dIdafa –N 1 constr N 2 constr … N n-1 constr N n def ou indef –ابن عم جار رئيس مجلس ادارة الشركة fils oncle voisin chef comite administation lentreprise Le cousin du voisin du PDG de lentreprise

70 La syntaxe des dialectes: noms Idafa construction –Noun1 of Noun2 encoded structurally –ملك الاردن king Jordan the king of Jordan / Jordans king Dialects have an additional common construct –Noun1 Noun2 –LEV: الملك تبع الاردن the-king belonging-to Jordan – differs widely among dialects Pre/post-modifying demonstrative article –MSA: هذا الرجلthis the-manthis man –EGY: الراجل دهthe-man thisthis man

71 La syntaxe des dialectes: phrases The children wrote poems MSA –Verb Subject Object (Partial agreement) كتب الاولاد الاشعار wrote masc the-boys the-poems –Subject Verb Object (Full agreement) الاولاد كتبوا الاشعار the-boys wrote mascPlural the-poems LEV, EGY – Subject Verb Object الاولاد كتبو الاشعار The-boys wrote mascPlural the-poems –Less present: Verb Subject Object كتبو الاولاد الاشعار wrote mascPlural the-boys the-poems –Full agreement in both order

72 Lanalyse des dialectes arabes: le problème pour le TAL Banque darbres Parser Gros corpus - Dialecte - - ASM - الازلام بيحبو ش الشغل هادا بيحبو الازلام ش الشغل هادا men like work this not ? Petit corpus

73 La transduction de la grammaire (Chiang et al 2006, Chiang & Rambow 2006) - Dialect - - MSA - TAG = Tree Adjoining Grammar Probabilistic TAG Tree Transduction Treebank Parser Probabilistic TAG الازلام بيحبو ش الشغل هادا بيحبو الازلام ش الشغل هادا

74 La transduction de la grammaire Transformer le modèle d;analyse pour ASM en un modèle danalyse pour le dialecte Plus précisément: en un modèle danalyse synchrone ASM-dialecte Le modèle danalyse est défini en termes de dérivations en TAG (tree adjoining grammar)

75 Tree-Adjoining Grammar

76 La transformation dune TAG Nous spécifions des transformations sur des arbres elementaires

77 Les probabilités de transformation Ajouter des probabilités de correspondance P(T Lev |T MSA )

78 Modèle de probabilité arg max P(T Lev ) arg max P(T Lev, T ASM ) = arg max P(T Lev |T ASM ) P(T ASM ) Appris dans la banque darbres pour lASM Probas de correspondence Pour analyser, trouver:

79 Modèle de probabilité La lexicalisation crée un ensemble de correspondences LEV > SMA qui est enorme Faire un backoff: modéliser independemment la correspondance de la partie non-lexicalisée et des mots

80 Transformations Transformation VSO à SVO Négation:

81 Transformations want

82 Resultats RecallPrecF1 Baseline Petit lexique67.0 VSOSVO negation67.0 want negation+want

83 Conclusion Pour faire le TAL de larabe, il faut: –comprendre les faits linguistiques; –les modéliser de façon adéquate; –et maîtriser des techniques formelles et computationelles diverses! La linguistique est importante!


Télécharger ppt "Introduction au traitement automatique de larabe Owen Rambow Columbia University Center for Computational Learning Systems."

Présentations similaires


Annonces Google