La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et

Présentations similaires


Présentation au sujet: "Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et"— Transcription de la présentation:

1 Segmentation et étiquetage des textes par la méthode d’exploration contextuelle
Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008.

2 Plan Éléments définitoires Problématiques générales La méthode d’Exploration Contextuelle Exemple de segmentation Exemple de filtrage Présentation et exemples d’analyse par Sarfiyya

3 Éléments de définition et corpus
La citation : terme générique ; tout fragment textuel rapporté, écrit ou prononcé, avec ou sans guillemets; Information Citationnelle : la citation dans son co(n)texte La citation proprement dite, le cité, et l’introducteur (verbe, préposition, autres marqueurs) وقد أعربت جمعية مرض الرعاش - باركنسون - عن سعادتها بالتقرير. وقال متحدث باسمها إن الاستنساخ العلاجي قد يمكن من التوصل إلى علاج لمرض باركنسون . Corpus de repérage assafir Corpus de validation : al ahram

4 La méthode d’exploration contextuelle
L’EC relève de l’analyse sémantique de texte. Elle permet de prendre en compte des indices contextuels internes au texte pour : - lever des indéterminations sémantiques - prendre certaines décisions dans la construction du sens et le filtrage de certaines informations, la segmentation, etc. [Desclés & al. 91, Desclés 93, 97, Jouis 93, Berri 96…] Un système d’EC fait appel à des connaissances exclusivement linguistiques - indices déclencheurs ou indicateurs - indices complémentaires et à un ensemble de règles d’EC La méthode d’ec est une méthode essentiellement sémantique fondée sur une étude contextuelle de certains unités linguistiques saillantes, appelées indices pertinents, et sur d’autres unités d’informations associées à ces indices, appelés indices complémentaires, qui guide la prise de décision pour l’étiquetage de de certains segments par rapport à une tache.

5 Contexte interne, ou contexte indépendant du domaine (J.-P. Desclés)

6 Chaque règle est de la forme :
SI U (indicateur) est identifié dans un espace de recherche E et SI l'on constate la présence des indices complémentaires (V1, ..., Vn)&/ou (W1, ..., Wm) avant et/ou après U ALORS prendre la décision D

7 Méthode d’EC Décision Marqueurs déclencheurs Indices gauches Indices droits

8 questionnement قال ماذا فلان

9 Méthode d’EC Décision questionnement Marqueurs déclencheurs Indices gauches Indices droits قال فلان ماذا

10 DR ou citation قال ان فلان

11 Méthode d’EC Décision DR ou citation Marqueurs déclencheurs Indices gauches قال Indices droits ان فلان

12 Marqueurs déclencheurs
Principe de base de segmentation Marqueurs déclencheurs Signes de ponctuation ؛ /: / , / !/ ? / \r /.. Contexte gauche Coordination و، ف, ثمّ Contexte droit Connecteurs بينما, لكن, إذ, هكذا،... Suite à l’étude du corpus nous avons trouvé que les marqueurs nécessaires pour décomposer un texte en phrases sont les signes de ponctuation tel que le point, la virgule, etc., les conjonction de coordination tel que le waw, le fa et le thomma et certains mots connecteurs tel que بينما, لكن,إذ etc. et ces règles permettent de tenir en compte le plus possible d’ambiguïté de segmentation. Pour la segmentation des textes en paragraphes, nous prenons en compte uniquement les marques de ponctuation et principalement le \r Règles de segmentation en phrases

13 Règle de segmentation La virgule ,
Contexte gauche Marqueur verbe espace , SI une virgule est suivie d’une espace ET SI l’espace est suivi d’un verbe Alors la virgule marque une fin de phrase

14 La segmentation de textes arabes
nécessité des  connaissances morpho-syntaxiques, indices temporels, des connecteurs, etc. وفي صباح مشرق من اصباح الصّيف , مرّ بابن عمّه إسماعيل CG M CD مرVerbe Espace , وفي صباحmarq. Temp. SI la virgule est suivie par un espace ET Si l’espace est suivi d’un verbe ET SI le contexte droit de la virgule commence par un marqueur temporel وفي صباح, وحـوالي الظّهر, في يوم من الأيّام, ذات يوم, ذات ليلة, وذات يوم, ALORS la virgule ne marque pas la fin de la phrase

15 Règles de segmentation
La virgule Exemple d’application: Texte source ... قـبل سـنين كـثـيرة, كـانت الجـبال المـحـيطة بالطّـيبة خضـراء مثـل البساتين, لكنّ النّاس كـانوا يـريـدون خـشـبا, ولا يـهمّهم من أيـن. Texte segmenté <a>...قبل سنين كثيرة, كانت الجبال المحيطة بالطّيبة خضراء مثل البساتين,</a >  <a>لكنّ النّاس كانوا يريدون خشبا,</a> <a>ولا يهمّهم من أين. </a>

16 Filtrage de citations Par des règles d’exploration contextuelle, Mais exprimée par des automates selon Sarfiyya

17 Par de règle d’exploration contextuelle
SI la classe de verbe de dire qâla (U : indicateur) est identifiée dans un espace de recherche E (segment textuel = Phrase graphique) et SI l'on constate la présence des indices complémentaires inna après U qâla ALORS le segment textuel E est une inf. Cit

18 Identification sous forme d’expression régulière ou automate
&ClasseDeVerbeIntrocduteur de la forme Dire + CDC* + inna qâla mot* inna (a-dit mot* que)

19 Le filtrage d’autres notions sémantiques
Exemple d’annonces thématiques min el ….. anna, « Il est ….. que », Ex : Min el (mouhem+ moufid+darouri+mouhtamal) anna… Ex : Il est ( possible + probable + sûr + …..) que…

20 Conclusion Il est nécessaire d’avoir des ressources linguistiques fiables ; et une bonne organisation de ces ressources : Marqueurs déclencheurs ou indicateurs, Indices complémentaires Règles d’EC; L’EC permet le parcours du texte selon le contexte, en d’autres termes, il est facile de voir le contexte gauche et droit ; Les schémas préétablis parcourent souvent dans un seul sens ; la vision et la modélisation linguistique ne sont pas très visibles ; Le retour vers le contexte droit après l’identification de marqueurs déclencheurs n’est pas, à ma connaissance, très évident ; Il est important de trouver une solution d’analyse et de parcours …

21 Linguistique Informatique
La linguistique informatique comme discipline… Effectivité Observation, description, théorisation, … Informatique Linguistique «Pensée informatique» Linguistique Informatique Dans la LI se déploient le caractère théorique de la linguistique et l’effectivité de l’informatique

22 Faire de la Linguistique informatique
Expression réelle de la notion dans les textes  Connaissances « intuitives » sur une notion donnée Formalisation opératoire Informatisation opérationnelle Observation réelle Expérimentation, validation Observables

23 Problématiques générales dans le cadre de la LI (mais aussi en TAL)
Pour … Texte(s) Un segment de texte précis analyser générer annoter Frontières Identification Et portée Analyser, traiter, extraire

24 1e Problématique : passer d’un texte non segmenté à
un texte segmenté (balisé), selon des règles de segmentation Texte Texte balisé (segmenté/structuré) <t> </t> <s><p><a> </a><a>-----</a> </a><p> <li> </li> <li> </li> <p> <t2> </t2> </p> <p><a> </a> <a> </a></p></s> La problématique est de passer automatiquement d’un format texte sans balises explicites à un format texte balisé

25 2e Problématique, annoter le texte par des balises…
XML ou autre, selon les marques linguistiques Texte étiqueté par des notions sémantiques et discursives Texte segmenté structuré <t> </t> <s><p><a> </a><a>-----</a> </a><p> <li> </li> <li> </li> <p> <t2> </t2> </p> <p><a> </a> <a> </a></p></s> <t> </t> <s><p><a> <AT> </AT> </a><a>-----</a> <INT> </INT> - <CIT> </CIT> </a><p> <li> </li> <li> </li> <p> <t2> </t2> <CON> </CON> </p> <p><a> </a> <a> </a></p></s>

26 1a Problématique Définir les frontières – formelles - des segments à traiter Nécessite des modules de pré-traitement de textes, ou des modules de segmentations La réalisation demande une étude systématique des signes typographiques pour trouver une certaine régularité d’utilisation, & l’étude de contextes de certains connecteurs (Ar)

27 L’identification et le filtrage de certains segments textuels
2e Problématique L’identification et le filtrage de certains segments textuels Ex. la citation Nécessite une étude systématique de texte donc de ses composants linguistiques - par une étude et fouille sémantique des ses composants typographiques - par une étude sémantique de la ponctuation, de l’architecture de texte et de la disposition spatiale de certains segments


Télécharger ppt "Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et"

Présentations similaires


Annonces Google