La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008. Segmentation et étiquetage.

Présentations similaires


Présentation au sujet: "Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008. Segmentation et étiquetage."— Transcription de la présentation:

1 Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril Segmentation et étiquetage des textes par la méthode dexploration contextuelle

2 Plan Éléments définitoires Problématiques générales La méthode dExploration Contextuelle Exemple de segmentation Exemple de filtrage Présentation et exemples danalyse par Sarfiyya

3 1)La citation : terme générique ; tout fragment textuel rapporté, écrit ou prononcé, avec ou sans guillemets; 2) Information Citationnelle : la citation dans son co(n)texte La citation proprement dite, le cité, et lintroducteur (verbe, préposition, autres marqueurs) Éléments de définition et corpus Corpus de repérage assafir Corpus de validation : al ahram وقد أعربت جمعية مرض الرعاش - باركنسون - عن سعادتها بالتقرير. وقال متحدث باسمها إن الاستنساخ العلاجي قد يمكن من التوصل إلى علاج لمرض باركنسون.

4 La méthode dexploration contextuelle LEC relève de lanalyse sémantique de texte. Elle permet de prendre en compte des indices contextuels internes au texte pour : - lever des indéterminations sémantiques - prendre certaines décisions dans la construction du sens et le filtrage de certaines informations, la segmentation, etc. [Desclés & al. 91, Desclés 93, 97, Jouis 93, Berri 96…] Un système dEC fait appel à des connaissances exclusivement linguistiques - indices déclencheurs ou indicateurs - indices complémentaires et à un ensemble de règles dEC

5 Contexte interne, ou contexte indépendant du domaine (J.-P. Desclés)

6 Chaque règle est de la forme : SI U (indicateur) est identifié dans un espace de recherche E et SI l'on constate la présence des indices complémentaires (V1,..., Vn)&/ou (W1,..., Wm) avant et/ou après U ALORS prendre la décision D

7 Indices gauches Indices droits Marqueurs déclencheurs Décision Méthode dEC

8 ماذا فلان قال questionnement

9 Indices gauches Indices droits Marqueurs déclencheurs Décision Méthode dEC ماذافلان قال questionnement

10 ان فلان قال DR ou citation

11 Indices gauches Indices droits Marqueurs déclencheurs Décision Méthode dEC ان فلان قال DR ou citation

12 Principe de base de segmentation Coordination و، ف, ثمّ Coordination و، ف, ثمّ Connecteurs بينما, لكن, إذ, هكذا،... Connecteurs بينما, لكن, إذ, هكذا،... Contexte gauche Marqueurs déclencheurs Contexte droit Signes de ponctuation ؛ /: /, / !/ ? / \r /.. Signes de ponctuation ؛ /: /, / !/ ? / \r /.. Règles de segmentation en phrases

13 Règle de segmentation La virgule Contexte gaucheMarqueurContexte gauche verbeespace, SI une virgule est suivie dune espace ET SI lespace est suivi dun verbe Alors la virgule marque une fin de phrase

14 وفي صباح مشرق من اصباح الصّيف, مرّ بابن عمّه إسماعيل CGMCD مر Verbe Espace, وفي صباحmarq. Temp. SI la virgule est suivie par un espace ET Si lespace est suivi dun verbe ET SI le contexte droit de la virgule commence par un marqueur temporel وفي صباح, وحـوالي الظّهر, في يوم من الأيّام, ذات يوم, ذات ليلة, وذات يوم, ALORS la virgule ne marque pas la fin de la phrase La segmentation de textes arabes nécessité des connaissances morpho-syntaxiques, indices temporels, des connecteurs, etc.

15 ... قـبل سـنين كـثـيرة, كـانت الجـبال المـحـيطة بالطّـيبة خضـراء مثـل البساتين, لكنّ النّاس كـانوا يـريـدون خـشـبا, ولا يـهمّهم من أيـن. Texte source Texte segmenté... قبل سنين كثيرة, كانت الجبال المحيطة بالطّيبة خضراء مثل البساتين, لكنّ النّاس كانوا يريدون خشبا, ولا يهمّهم من أين. Règles de segmentation La virgule Exemple dapplication:

16 Filtrage de citations Par des règles dexploration contextuelle, Mais exprimée par des automates selon Sarfiyya

17 SI la classe de verbe de dire qâla (U : indicateur) est identifiée dans un espace de recherche E (segment textuel = Phrase graphique) et SI l'on constate la présence des indices complémentaires inna après U qâla ALORS le segment textuel E est une inf. Cit Par de règle dexploration contextuelle

18 qâla mot* inna (a-dit mot* que) Identification sous forme dexpression régulière ou automate &ClasseDeVerbeIntrocduteur de la forme Dire + CDC* + inna

19 Le filtrage dautres notions sémantiques Exemple dannonces thématiques min el ….. anna, « Il est ….. que », Ex : Min el (mouhem+ moufid+darouri+mouhtamal) anna… Ex : Il est ( possible + probable + sûr + …..) que…

20 Il est nécessaire davoir des ressources linguistiques fiables ; et une bonne organisation de ces ressources : Marqueurs déclencheurs ou indicateurs, Indices complémentaires Règles dEC; LEC permet le parcours du texte selon le contexte, en dautres termes, il est facile de voir le contexte gauche et droit ; Les schémas préétablis parcourent souvent dans un seul sens ; la vision et la modélisation linguistique ne sont pas très visibles ; Le retour vers le contexte droit après lidentification de marqueurs déclencheurs nest pas, à ma connaissance, très évident ; Il est important de trouver une solution danalyse et de parcours … Conclusion

21 Linguistique Informatique Linguistique Informatique Observation, description, théorisation, … Dans la LI se déploient le caractère théorique de la linguistique et leffectivité de linformatique Effectivité «Pensée informatique» La linguistique informatique comme discipline…

22 Connaissances « intuitives » sur une notion donnée Formalisatio n opératoire Informatisatio n opérationnelle Observable s Expérimentation, validation Expression réelle de la notion dans les textes Observation réelle Faire de la Linguistique informatique

23 Problématiques générales dans le cadre de la LI (mais aussi en TAL) Texte(s) Un segment de texte précis analyser générer annoter … Frontières Identification Et portée Analyser, traiter, extraire Pour …

24 TexteTexte balisé (segmenté/structuré) 1e Problématique : passer dun texte non segmenté à un texte segmenté (balisé), selon des règles de segmentation

25 Texte segmenté structuré Texte étiqueté par des notions sémantiques et discursives 2e Problématique, annoter le texte par des balises… XML ou autre, selon les marques linguistiques

26 Nécessite des modules de pré-traitement de textes, ou des modules de segmentations La réalisation demande une étude systématique des signes typographiques pour trouver une certaine régularité dutilisation, & létude de contextes de certains connecteurs (Ar) 1a Problématique Définir les frontières – formelles - des segments à traiter

27 Nécessite une étude systématique de texte donc de ses composants linguistiques - par une étude et fouille sémantique des ses composants typographiques - par une étude sémantique de la ponctuation, de larchitecture de texte et de la disposition spatiale de certains segments 2e Problématique Lidentification et le filtrage de certains segments textuels Ex. la citation


Télécharger ppt "Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008. Segmentation et étiquetage."

Présentations similaires


Annonces Google