La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 LALIC ( Langues, Logiques, Informatique, Cognition ) (Université de Paris Sorbonne-Paris IV) (ICAR/CNRS Université Lyon 2 ) Relations de causalité en.

Présentations similaires


Présentation au sujet: "1 LALIC ( Langues, Logiques, Informatique, Cognition ) (Université de Paris Sorbonne-Paris IV) (ICAR/CNRS Université Lyon 2 ) Relations de causalité en."— Transcription de la présentation:

1 1 LALIC ( Langues, Logiques, Informatique, Cognition ) (Université de Paris Sorbonne-Paris IV) (ICAR/CNRS Université Lyon 2 ) Relations de causalité en arabe et en français, dans une perspective de reconnaissance automatique Colloque: « Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) » Lyon, 27 mars 2010 Amani SABRA

2 2 Plan La cause et la veille stratégique Le sémantique dans la recherche dinformation Exploration Contextuelle : PDV « causalité » Nourrir une carte sémantique de causalité Application sur Excom

3 3 Pour élargir le champ dactivité : toute entreprise/territoire doit pouvoir modifier et actualiser ses acquis afin daméliorer son champ dinvestigation. En médecine, on constate que la causalité présente la loi de diagnostique et de thérapeutique; rechercher des causes possibles dune maladie émergente (par exemple, de la maladie de la vache folle) par une fouille des documents qui en parlent ; Juridiquement, la causalité représente le critère de recherche des causes et responsabilités ; Éviter les crises, connaître les causes dun phénomène économique par fouille de documents relatifs à ce phénomène (ex. la faillite dune grande banque) ; Ce qui rend la causalité si précieuse dans nos raisonnements de tous les jours, cest tout simplement son omniprésence dans tous les domaines La cause et la veille

4 4 La veille commerciale porte sur les clients et sur les fournisseurs de lentreprise; la connaissance de leurs clients permet de mieux identifier les causes de leur succés ou leur échec,rechercher les besoins futurs, de nouveaux clients ou fournisseurs. Dans la veille concurrentielle lentreprise cherche à caractériser son champ concurrentiel, actuel ou potentiel en analysant les principales difficultés et causes d'échec et les capacités de développement des concurrents et dexploiter leurs points faibles la veille sociétale, le veilleur cherche à identifier les évolutions cachées de la société et les causes de ces changements à partir de lanalyse des signaux faibles sur lévolution des comportements, des modes de vie… cause et stratégie

5 5 Dans le cas de la recherche dinformations par google ou yahoo: Requêtes par mots clés ou par dexpression Réponses sous la forme de liste de documents Trop dinformations = information nulle (tue linformation utile) Une grande partie des résultats nest pas pertinente avec la recerche Les résultats ne sont pas toujours recommandables La recherche dinformations

6 6 public information s réservée confidentielles Matière blanche Matière grise Matière noire source: crédibilité, contenu, accecibilté, bonne information etc… decideurs Traitement: Analystes et experts Statistique, sémantique, EC etc Figure 1: le processus de linformation

7 7 Méthode dexploration contextuelle (Desclés 91): LExploration Contextuelle est une méthode essentiellement sémantique fondée sur une étude contextuelle de certaines unités linguistiques saillantes. (Ghass 02) Selon Desclés (Desclés 97) cette méthode linguistique et informatique permet lannotation sémantique automatique de segments textuels selon des points de vue de fouille. PDV: « la citation, causalité, recontre, définition… » Le sémantique dans la recherche dinformations

8 8 Les indicateurs et les indices compl é mentaires sont des formes linguistiques de surface, par ex. morph è mes, mots, expressions. Ils peuvent être discontinus. Indicateur : un marqueur s é mantique, qui exprime un point de vue Indices : unit é s linguistiques qui ont pour fonction de d é sambig ü iser l occurrence de l indicateur et donc de confirmer ou d infirmer l annotation, ou bien d affiner l annotation. Indice positif : active l annotation Indice n é gatif : inhibe l annotation Espace de recherche : phrase, gauche / droit, paragraphe, titre, etc. Exploration contextuelle 1

9 9 Exploration contextuelle: Causalité La crise financiére est amplifi é e par Figure 2 : Exemple dune règle dexploration contextuelle (causalité). Annotation dune relation de causalité les politiques menées

10 10 Les indices d é clencheurs « indicateurs » :ce sont les expressions causales (verbes relateurs ou verbes efficients) des marqueurs explicites La signification s é mantique port é e par l indice d é clencheur : « influence » ta tir, « contribution » musâhama, « origine » al asal, « aboutissement » al gâya, « raison », « corr é lation » sila etc …. Les indices compl é mentaires : ce sont les indices qui accompagnent un indicateur dans un contexte donn é en levant l ind é termination s é mantique attach é e à un marqueur analys é li anna, anna, fa sabab î ya, lâm kay, lâm tawk î d etc, ou des d é terminants des relations causales : assâs î principale, mubâsar « direct », gayir mubâsar « indirect », n î hâ î « final », am î q « profond » etc …. La portée sémantique En arabe on trouve la causalité directe et la causlaité indirecte, la causalité explicite « morphologique » et celle implicite « périphrastique »

11 11 قال وزير الخزانة الأمريكي بول أونيل" إن التنسيق مع دولة الإمارات العربية لعب دورا هاما في مساعدة الولايات المتحدة على تحديد هوية الإرهابيين المشتبه بهم" Indice complémentaire indice déclencheur Si on trouve l indice d é clencheur لعب دورا في « ont jou é un rôle dans » (verbe causal) accompagn é à gauche par un indice compl é mentaire هاما, indice qui indique « l ampleur et l intensit é » ce qui enrichit parall è lement la fiabilit é de l indice d é clencheur en jugeant la validit é de la connaissance causale exprim é e, alors r é sultat : l é nonc é indique une causalit é. « le ministre américain de Trésor Paul Onil a dit que la coordination avec les Emirats Arabes Unis a joué un rôle important dans laide apporté aux Etats- Unis pour définir lidentité des terroristes suspects » EC: Causalité

12 12 Nourrir une carte sémantique de causalité en arabe

13 13 Organisations des marqueurs causaux Dans la première liste, les marqueurs sous forme (i) de verbes qui permettent détablir un lien causal, (ii) des marqueurs explicites dans les énoncés simples ou composés Verbes relateursVerbe jaala, taraka,..Verbes qui précisent leffet produit sabbaba « causer » wallada « engendrer » twallada min « naitre de » dafaa « pousser à » harrada « provoquer » inbataqa « émerger de » hatta alâ « inciter à » jarra ila« entrainer » …… jaala jaala + v taraka / + v ajbara haddada « limiter » sahhala «faciliter » dammara « detruire » zâda « augmenter » sâhama « contribuer à » daama « appuyer » jaddada« renouveller » azzaza « renforcer »….. awqafa « stopper » nammâ « accroitre »

14 14 Action ترك de non-changement sur p ex. ترك خالد هندا تتابع حل المشكة Action-CAUSE de non-changement sur p ex. Jean maintient Paul en vie Actionترك de changement de p pour ~p ex. ترك خالد هندا تموت Action-CAUSE de changement de p pour ~p ex. Jean fait oublier à Paul que… Action أعلم de changement de ~p pour p Ex: أعلم خالد هندا الموضوع Action-CAUSE de changement de ~p pour p ex. Jean apprend à Paul que … Action منع de non changement sur ~p منع خالد هندا ان تطلع على الموضوع ex. Action- CAUSE de non changement sur ~p ex. Jean laisse Paul dans l'ignorance du fait que …

15 15 Marqueurs simplesMarqueurs composés lianna parce que anna que fa sababîya fa causal lâm kay lâm tawkîd lâm dargumentation hattâ qad tahqîq etc. sababu dâlika « être cause de » lahu tatir « avoir pour effet » hunâka alâqa « il y a une relation » rudûd fil « réactions » min ajil « pour » bi-sababi « à cause » bi-hadafi « en but de » bi-fadli « grâce à » bialâqa « en relation avec » nâtij an « résulte de » taht tatir « sous linfluence » etc. les vocabulaires causaux : (les adjectifs et les adverbes) qui constituent les indices complémentairs. Ces indices qui enrichient ou modifient de façon significative les connaissances causales exprimées (i) ampleur ou intensité : katîran « beaucoup » (ii) manière : bisaklin sarîin « rapidement », (iii) appréciation : bisaklin mufîdin « utilement », (iv) autres : mubâsaratan, bisaklin mubâsirin « directement »

16 16 Radical verb/sub rad Dérivé verb dér/sub x Opérateur : ver rad : هز ver der ll : قلل ver der III ضايق ver der IV: ازال ver der V : تخلص ver der VI تلاشى ver der VII : انطوى ver der VIII : اختزل ver der X : استعمل Substantif: sub rad : زيادة sub derlI :تحويل sub derIII : معالجة Sub der IV : اعاقة sub derV :تغيير sud derVl تفاقم sub derVII : انطلاق sub derVIII: ازدياد sub derX : استيلاء subo op :جعل Code arabe

17 17 Lien Sans ligature spéciale Juxtaposition lien jux Ponctuation lien ponc Adjectif superposé lien adj Participe présent lien par Relatif lien rela Adverbe lien adv Avec ligature spéciale coordination Cause lien lig co caus Conséquence lien lig co cons But lien lig co but Temps lien lig co tem Concession lien lig co conc interrogation cause Lien lig Int cause Coordination lien co subordination

18 18 lien par : remembering, ayant, اقراء Iien rel : that, qui, الذي lien co : and, et, و lien adv : en effet lien lig co caus: for, car, ف lien lig co con : غير أن lien lig co but : pour lien lig co cons: so, donc, ومن ثم lien tig co temp : next, بعد ان lien lig sub caus: because, parce que, لأن Iien lig sub but : pour que, ل lien lig sub cons: ف lien lig sub temp: after, à mesure que

19 19 Ambiguité sémantique de causalité en arabe Les constructions de causation: en français VOV et VVO En arabe on trouve les 3 constructions: VOV avec les verbes ( laisser faire et obliger à faire)/Taraka, ʼ aĝbara Celle morphologiques de (faire faire) avec une des deux formes verbales ʼ afala et faala La causation molle de faire faire avec le verbe ĝaala Dans les deux langues, il faut séparer entre les constructions causatives, permissives, reflexives, réciproques, passives et anticausatives. Formes agglutinées: la structure du mot arabe est donc décomposable en cinq éléments : proclitique, préfixe base, suffixe et enclitique. Analyse des séquences textuelles: présence dune citation, mécanisme causal, réponse a une question causale, énumération deffets, séquence argumentative etc …

20 20 Ambiguité sémantique de causalité en arabe Catégories syntaxiques : Organiser les catégories (i) des listes déléments invariables (adverbes, prépositions, …) ou à forme variable (noms, adjectifs…); (ii) les flexions morphologiques des indices ce qui facilite le travail du système dEC. La synonymie : pour causer /سبب sabbaba, par exemple on trouve أحدث / جلب ; ahdata, jalaba La flexion : Genre : muâlij, muâlija (traitant, traitante) Nombre : sabab, asbâb (cause, causes) La conjugaison : âlaja, âlajnâ (traiter, nous avons traité) Dérivations : natîja, nâtij, mantûj, natâij (résultat) Indices négatifs « indices négatifs ou éliminatoire » indices qui facilitent la prise de la décision comme « minal-mustahîli impossible, lâ alâka … aucune relation…

21 21 Jackiewicz A [JACK 98] distingue quatre approches particulières de la causalité : l approche qualitative (ou h é t é rog è ne), Le lien qui unit cet effet à sa cause nest pas un lien déductif : leffet ne suit pas la cause comme la conclusion dun raisonnement découle des hypothèses ( présenter, considérer, désigner comme origine de, etc…) l approche fonctionnelle (ou homog è ne), Son originalité réside dans le fait quelle efface la distinction entre cause et effet dans une relation basée sur la régularité des dépendances ou des corrélations constantes ( dépendre de, varier, evoluer, décliner etc…) Approches de la causalité

22 22 Lapproche analytique basée sur lidée de contribution causale, elle est donc fondée sur la reconnaissance de plusieurs facteurs qui entrent simultanément dans la cause ( Contribuer à ; Participer dans ; Jouer un rôle dans etc…) Lapproche synthétique cette relation cherche avant tout à relier des situations qui, aux premiers abords, ne semblent pas compatibles ( établir, démontrer, déterminer, relier etc…) Lapproche argumentative ces connecteurs considerés comme un étayage argumentatif dun lien causal déjà établi (A.Jack) ( Parce que, parce qu', puisque, puisqu', car etc…) Approches de la causalité

23 23 Malgré la particularité de la langue arabe, nous avons essayé le plus possible danalyser logiquement selon lEC les données linguistiques, en suggérant deux solutions: lune est classique où la prise de décision dépend de lutilisateur, lautre est plus intentionnelle, le système consiste à la prise de décision automatiquement. la première, décision classique consistant à guider lutilisateur aux informations identifiées selon les indices pertinents, en lui laissant le choix dattribuer à chaque étiquette une valeur sémantique et la prise de décision pour chaque séquence potentiellement causale. Prise de décision

24 24 ExemplesIndice après Lin2 Indice avant Lin1 Tâcheمؤشر لغوي أساسي Indicateur LId مؤشر لغوي مكمل indice إن التدني المستمر للقدرة الشرائية للأسر نتيجة لتدني الأجور لام حرف جر + اسم اسم+ان السببية نتيجة ان التدني Regle: Si LId نتيجة dans une phrase Et si LIn1 إن + اسم se trouve avant Et si LIn2 لام حرف جر + اسم se trouve apr è s Alors attribuer é tiquette causalit é à la phrase « La baisse continue du pouvoir d'achat des familles résulte de la baisse des salaires »

25 25 A ce stade, pas de rôle pour lutilisateur ici. Cest le système qui consiste à la prise de décision automatiquement. Elle dépend dune étude des informations sémantiques attachées aux séquences, qui leur affecte, compte tenu de la fiabilité des indices identifiés, une valeur sémantique spécifique. Cette solution ayant la capacité de produire une appréciation globale de la « teneur en causalité » de la séquence examinée. Prise de décision: Automatique

26 26 les différentes séquences textuelles :(citation, argumentative, article scientifique, mécanisme causale etc.) les vocabulaires causaux: -adverbe (modalité) simple -adverbe composé Les modélisations des règles les marqueurs causaux :verbes (relateurs /efficient marqueurs explicite(simple/ compos é les 4 approches causales (façon dappréhender les relations causales par un sujet humain) Les étiquettes semantiques: Règles pour lannotation

27 27 Exemple 2 وبدأ العلماء أخيرا يعتقدون إن القذف ألنيزكي الذي تتعرض له الأرض من المذنبات قد ساهم بنسبة كبيرة في تشكل المياه الموجودة في المحيطات والغازات المختلفة في الجو وحتى الجزيئات العضوية المولدة للحياة Valeur : relation causale Propriétés sémantiques : Approche de la causalité : «sâhama b î » qualificative / verbe efficient (fiable) Séquence textuelle : mécanisme causale / citation (forte) Indice complémentaire « binisbatin kabiratin » (forte) Décision : relation certaine « Enfin, les scientifiques ont commencé à croire que le bombardement de météorites sur la terre a participé à la création de leau dans les oceans, les gaz différents dans lair et même les particules organiques qui produisent la vie. »

28 28 La plate-forme EXCOM-2 (Alrahabi et Descl é s, 2008) est une impl é mentation de la m é thode d exploration contextuelle, r é alis é e en Java. EXCOM effectue la segmentation automatique des textes en sections, paragraphes et phrases ; Il prend en Entr é e : fichiers TXT sortie : fichiers XML annot é s le syst è me exploite les r è gles d exploration contextuelle et les marqueurs linguistiques stock é s dans la carte s é mantique pour effectuer l annotation. Le moteur dannotations: EXCOM -2

29 29 Corpus (.html,.doc,.pdf…..) Corpus (.txt, UTF-8) Prétraitement manuel Corpus segmenté (fichier.xml) Segmentation automatique Marqueurs linguistiques de la causalité (indices et indicateurs) Carte sémantique de la causalité Règles dExploration Contextuelle Corpus annoté et extraction des relations de causalité (fichier.xml) Annotation automatique Figure 3 : Architecture fonctionnelle du système dextraction des relations de causalité

30 30 ( parce que )|( parce qu' )|( puisque )|( puisqu')|(car )|( Parce que )|(Parce qu')|( Puisque )|( Puisqu' )|( Car ) ( en raison | à cause | du fait | en vertu | En raison | Du fait | En vertu | A cause ) ( de | de la | du | des |d') ( grâce | Grâce ) ( à | au | aux | à la |à l') Figure 4 : Exemple dun fichier dindicateur Exemple dun fichier dindicateur causale

31 31 les r è gles d exploration contextuelle sont organis é es dans des fichiers XML, ils exploitent directement les fichiers d indicateur et d indices sur lesquelles elles pointent. Le syst è me utilise environs 100 r è gles, le rôle de ces r è gles qui s ex é cutent s é quentiellement l une derri è re l autre en essayant de trouver des indicateurs et des indices dans ce même segment. Dans chaque corpus on peut aussi choisir l espace de recherche à annoter « les textes, les paragraphes, les phrases, titre inclus ou non etc … » Règles dexploration contextuelle

32 32 annoter TOUT C:\Users\Desktop\lalic\data\ressources\carte causalite\Analytique2\indicateurs C:\Users\ Desktop\lalic\data\ressources\carte causalite\Analytique2\indicesPositifsApres C:\Users\ Desktop\lalic\data\ressources\carte causalite\Analytique2\indicesNegatifsApres Figure 5 : Exemple dun fichier règle

33 33. Figure 6 : Exemple dannotation des relations de causalité sous EXCOM.

34 34 Bibliographie Alrahabi M., Mourad G., Djioua B., « Filtrage sémantique de textes en arabe en vue dun prototype de résumé automatique, Le traitement automatique de larabe », JEP-TALN 2004, Fès, avril [DESC 97] Desclés J-P., « Systèmes d'exploration contextuelle ». Co-texte et calcul du sens. (ed. Claude Guimier), Presses Universitaires de Caen, pp , 1997 Desclés J.-P., Guenycheva Z. « Causalité, causativité, transitivité ». In Typology of Verbal Categories (Papers presented to Vladimir Nedjalkov on the occasion of his 70th birthday). Eds. Léonid Kulikov and Heinz Vater. Liguistische Arbeiten, Tübingen: Niemeyer. pp. 7-27, Garcia D., COATIS, un système de traitement automatique du langage naturel qui localise les expressions dactions reliées causalement, Thèse de doctorat en cours, Université de Paris-Sorbonne, Paris, Jackiewicz A., Lexpression de la causalité dans les textes : Contribution au filtrage sémantique par une méthode informatique dexploration contextuelle, Thèse de doctorat, Université de Paris-Sorbonne, Paris, 1998.

35 35 Merci


Télécharger ppt "1 LALIC ( Langues, Logiques, Informatique, Cognition ) (Université de Paris Sorbonne-Paris IV) (ICAR/CNRS Université Lyon 2 ) Relations de causalité en."

Présentations similaires


Annonces Google