Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et

Slides:



Advertisements
Présentations similaires
Les acquis dapprentissage Définition et conception Outil de communication conçu à partir des documents développés pour lorganisation des réunions du projet.
Advertisements

Les présentateurs doivent souvent transmettre des informations techniques à des auditeurs qui connaissent moins bien le sujet et le vocabulaire spécifique.
L’exemple de Mulhouse Conseil de l’Europe et Ville de Mulhouse
APPRENDRE A LIRE Présentation par : Marie-Christine Ratez CPC Chauny Roselyne Cail CPC Guise.
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
XML - Henry Boccon-Gibod 1 XML, Langage de description La question du choix de formalismes Les entités et leur représentations modalités de modèles et.
Urbanisation de Systèmes d'Information
INTRODUCTION Grande quantité de données
LAHOUDERE Julien le 23 novembre Contexte Programme spatiale européen AURORA (2002) Première mission ExoMars (départ 2013) Un objectif du Rover PASTEUR.
UML - Présentation.
CS des IREM 12/12/2008 Jacques Douaire
L’apprentissage de la lecture: Le CP
Analyse et structuration thématiques
Didactique des Sciences de l'Ingénieur
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Par Aline Mahot et Charlyne Routier
METHODOLOGIE.
Documents investigation
Séminaire BANQUE21 Novembre 2007La didactique professionnelle au service de lévaluation des compétences La didactique professionnelle au service de lévaluation.
L ’enseignement de la construction en BEP industriel
L’observation réfléchie de la langue au cycle 3
Université Paris I – Panthéon Sorbonne
INTELLIGENCE COLLECTIVE : RENCONTRES 2006Nîmes mai 2006 CENTRE DE RECHERCHE LGI2P 1- Doctorante Ecole des mines de Paris, 2- Maitre de Conférences.
Recherche Documentaire et traitement de l’information
Project de la langue française
Entre construction théorique et mise en œuvre opérationnelle
2nd Pro Maintenance des Véhicules Automobiles
MOT Éditeur de modèles de connaissances par objets typés
Introduction à la recherche en science politique
Passage à l’écrit en sciences
Gestion de classe Olivier Maulini & Etiennette Vellas 2008.
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
13-14 juin 2007 Synthèse du groupe 2 Les équipes participantes 3D Geom.net : géométrie dans lespace APLUSIX : les expressions algébriques, les transformations.
Létude de milieu : approche pédagogique dune situation complexe (C Benois)
LA DIFFÉRENCE ENTRE L’ÉTUDE D’UNE PHRASE ET D’UN ENONCÉ
la maîtrise de la langue française Inspection Pédagogique Régionale
Passage à l’écrit en sciences
Une évolution plus qu’une révolution.
LANGUE ET COMMUNICATION
Le parcours didactique
Vocabulaire La polysémie
Human Knowledge La nouvelle génération de moteurs sémantiques.
La formation des ressources humaines
Algorithmes et Programmation
Mise en forme efficace d’un document Logiciel Microsoft Word
Martine Toussaint Desir
Unified Modeling Langage
LA DEMARCHE DE RECHERCHE
Initiation à la conception des systèmes d'informations
Présentation RFIA janvier 2002
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
Unified Modeling Language
Modélisation des documents: DTD et Schéma
Thibault ROY & Olivier SAGIT Exposé du mercredi 17 décembre 2003 Apprentissage Interactif Apprentissage avec SpamAssassin UFR de Sciences Département d’Informatique.
Module 1 : Généralités sur les systèmes informatiques
Le Traitement Automatique des Langues (TAL)
Nouvelles Technologies Internet & Mobile
Initiation à des recherches dans le domaine de l’enseignement
But : avoir un regard réflexif sur le métier d’enseignant
INITIATION DES RECHERCHES DANS LE DOMAINE DES ENSEIGNEMENTS
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
LES TEXTES ET LES SHADOKS (Docs d’application et d’accompagnement)
Modélisation des Actions Mécaniques Première sti2d
EXALANG 3-6 ANS De Marie-Christel Helloin et Marie-Pierre Thibault
Comment réaliser un résumé? Section BAC instituteur préscolaire.
CM 4: sémiotricité. I- Caractéristiques des tâches et APS sémiotrices.
Élaboration d’un référentiel de compétences
Transcription de la présentation:

Segmentation et étiquetage des textes par la méthode d’exploration contextuelle Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008.

Plan Éléments définitoires Problématiques générales La méthode d’Exploration Contextuelle Exemple de segmentation Exemple de filtrage Présentation et exemples d’analyse par Sarfiyya

Éléments de définition et corpus La citation : terme générique ; tout fragment textuel rapporté, écrit ou prononcé, avec ou sans guillemets; Information Citationnelle : la citation dans son co(n)texte La citation proprement dite, le cité, et l’introducteur (verbe, préposition, autres marqueurs) وقد أعربت جمعية مرض الرعاش - باركنسون - عن سعادتها بالتقرير. وقال متحدث باسمها إن الاستنساخ العلاجي قد يمكن من التوصل إلى علاج لمرض باركنسون . Corpus de repérage assafir Corpus de validation : al ahram

La méthode d’exploration contextuelle L’EC relève de l’analyse sémantique de texte. Elle permet de prendre en compte des indices contextuels internes au texte pour : - lever des indéterminations sémantiques - prendre certaines décisions dans la construction du sens et le filtrage de certaines informations, la segmentation, etc. [Desclés & al. 91, Desclés 93, 97, Jouis 93, Berri 96…] Un système d’EC fait appel à des connaissances exclusivement linguistiques - indices déclencheurs ou indicateurs - indices complémentaires et à un ensemble de règles d’EC La méthode d’ec est une méthode essentiellement sémantique fondée sur une étude contextuelle de certains unités linguistiques saillantes, appelées indices pertinents, et sur d’autres unités d’informations associées à ces indices, appelés indices complémentaires, qui guide la prise de décision pour l’étiquetage de de certains segments par rapport à une tache.

Contexte interne, ou contexte indépendant du domaine (J.-P. Desclés)

Chaque règle est de la forme : SI U (indicateur) est identifié dans un espace de recherche E et SI l'on constate la présence des indices complémentaires (V1, ..., Vn)&/ou (W1, ..., Wm) avant et/ou après U ALORS prendre la décision D

Méthode d’EC Décision Marqueurs déclencheurs Indices gauches Indices droits

questionnement قال ماذا فلان

Méthode d’EC Décision questionnement Marqueurs déclencheurs Indices gauches Indices droits قال فلان ماذا

DR ou citation قال ان فلان

Méthode d’EC Décision DR ou citation Marqueurs déclencheurs Indices gauches قال Indices droits ان فلان

Marqueurs déclencheurs Principe de base de segmentation Marqueurs déclencheurs Signes de ponctuation ؛ /: / , / !/ ? / \r /.. Contexte gauche Coordination و، ف, ثمّ Contexte droit Connecteurs بينما, لكن, إذ, هكذا،... Suite à l’étude du corpus nous avons trouvé que les marqueurs nécessaires pour décomposer un texte en phrases sont les signes de ponctuation tel que le point, la virgule, etc., les conjonction de coordination tel que le waw, le fa et le thomma et certains mots connecteurs tel que بينما, لكن,إذ etc. et ces règles permettent de tenir en compte le plus possible d’ambiguïté de segmentation. Pour la segmentation des textes en paragraphes, nous prenons en compte uniquement les marques de ponctuation et principalement le \r Règles de segmentation en phrases

Règle de segmentation La virgule , Contexte gauche Marqueur verbe espace , SI une virgule est suivie d’une espace ET SI l’espace est suivi d’un verbe Alors la virgule marque une fin de phrase

La segmentation de textes arabes nécessité des  connaissances morpho-syntaxiques, indices temporels, des connecteurs, etc. وفي صباح مشرق من اصباح الصّيف , مرّ بابن عمّه إسماعيل CG M CD   مرVerbe Espace , وفي صباحmarq. Temp. SI la virgule est suivie par un espace ET Si l’espace est suivi d’un verbe ET SI le contexte droit de la virgule commence par un marqueur temporel وفي صباح, وحـوالي الظّهر, في يوم من الأيّام, ذات يوم, ذات ليلة, وذات يوم, ALORS la virgule ne marque pas la fin de la phrase

Règles de segmentation La virgule Exemple d’application: Texte source ... قـبل سـنين كـثـيرة, كـانت الجـبال المـحـيطة بالطّـيبة خضـراء مثـل البساتين, لكنّ النّاس كـانوا يـريـدون خـشـبا, ولا يـهمّهم من أيـن. Texte segmenté <a>...قبل سنين كثيرة, كانت الجبال المحيطة بالطّيبة خضراء مثل البساتين,</a >  <a>لكنّ النّاس كانوا يريدون خشبا,</a> <a>ولا يهمّهم من أين. </a>

Filtrage de citations Par des règles d’exploration contextuelle, Mais exprimée par des automates selon Sarfiyya

Par de règle d’exploration contextuelle SI la classe de verbe de dire qâla (U : indicateur) est identifiée dans un espace de recherche E (segment textuel = Phrase graphique) et SI l'on constate la présence des indices complémentaires inna après U qâla ALORS le segment textuel E est une inf. Cit

Identification sous forme d’expression régulière ou automate &ClasseDeVerbeIntrocduteur de la forme Dire + CDC* + inna qâla mot* inna (a-dit mot* que)

Le filtrage d’autres notions sémantiques Exemple d’annonces thématiques min el ….. anna, « Il est ….. que », Ex : Min el (mouhem+ moufid+darouri+mouhtamal) anna… Ex : Il est ( possible + probable + sûr + …..) que…

Conclusion Il est nécessaire d’avoir des ressources linguistiques fiables ; et une bonne organisation de ces ressources : Marqueurs déclencheurs ou indicateurs, Indices complémentaires Règles d’EC; L’EC permet le parcours du texte selon le contexte, en d’autres termes, il est facile de voir le contexte gauche et droit ; Les schémas préétablis parcourent souvent dans un seul sens ; la vision et la modélisation linguistique ne sont pas très visibles ; Le retour vers le contexte droit après l’identification de marqueurs déclencheurs n’est pas, à ma connaissance, très évident ; Il est important de trouver une solution d’analyse et de parcours …

Linguistique Informatique La linguistique informatique comme discipline… Effectivité Observation, description, théorisation, … Informatique Linguistique «Pensée informatique» Linguistique Informatique Dans la LI se déploient le caractère théorique de la linguistique et l’effectivité de l’informatique

Faire de la Linguistique informatique Expression réelle de la notion dans les textes  Connaissances « intuitives » sur une notion donnée Formalisation opératoire Informatisation opérationnelle Observation réelle Expérimentation, validation Observables

Problématiques générales dans le cadre de la LI (mais aussi en TAL) Pour … Texte(s) ---- --- -- -- -- ---- ---- -- -- ----- -- - - --- -- --- -- - -- - -- --- ---- -- -- - --- - ---- - -- --- -- ---- - -- Un segment de texte précis -- -- --- --- --- -- - -- --- - -- - analyser générer annoter … Frontières Identification Et portée Analyser, traiter, extraire

1e Problématique : passer d’un texte non segmenté à un texte segmenté (balisé), selon des règles de segmentation Texte Texte balisé (segmenté/structuré) ------- --------- ------ ----- ----------- - -------- ------ ----- ------- - ----- - --- ----- ----------- - ----- ---- ----- ----------- - -------- - ---- ----- ----------- - ------ - ---- ----- ----------- - -------- ------- ------ ----- --------- - -------- - ------ ----- -------- - -------- - -------- - ------------- ------ <t>------- --------- </t> <s><p><a>------ </a><a>-----</a> ----- ----- - -- - ---------- ----- ----- ------ ------</a><p> <li> ------ ----- ------- - ----- </li> <li> --- ----- ----------- - -----</li> <p>---- ----- ----------- - -------- - ------ ----- ----------- - -------- - <t2>--------</t2> ------- -- --- -- -- ---- ------- </p> <p><a>------ -----</a> <a>----------- ---- ----- ---- ---- ---- --- -------- - ------ ----- ---- - -------- -</a></p></s> La problématique est de passer automatiquement d’un format texte sans balises explicites à un format texte balisé

2e Problématique, annoter le texte par des balises… XML ou autre, selon les marques linguistiques Texte étiqueté par des notions sémantiques et discursives Texte segmenté structuré <t>------- --------- </t> <s><p><a>------ </a><a>-----</a> ----- ----- - -- - ---------- ----- ----- ------ ------</a><p> <li> ------ ----- ------- - ----- </li> <li> --- ----- ----------- - -----</li> <p>---- ----- ----------- - -------- - ------ ----- ----------- - -------- - <t2>--------</t2> ------- -- --- -- -- ---- ------- </p> <p><a>------ -----</a> <a>----------- ---- ----- ---- ---- ---- --- -------- - ------ ----- ---- - -------- -</a></p></s> <t>------- --------- </t> <s><p><a> <AT>------ </AT> </a><a>-----</a> <INT>-- ----</INT> - <CIT> ----- ------ </CIT> ------</a><p> <li> ------ ----- ------- - ----- </li> <li> --- ----- ----------- - -----</li> <p>---- ----- ----------- - --- - ------ ----- - - -------- - <t2>--------</t2> <CON>------- -- - </CON> ------- </p> <p><a>------ -----</a> <a>----------- ---- ----- ---- --- -------- - ------ - -------- -</a></p></s>

1a Problématique Définir les frontières – formelles - des segments à traiter Nécessite des modules de pré-traitement de textes, ou des modules de segmentations La réalisation demande une étude systématique des signes typographiques pour trouver une certaine régularité d’utilisation, & l’étude de contextes de certains connecteurs (Ar)

L’identification et le filtrage de certains segments textuels 2e Problématique L’identification et le filtrage de certains segments textuels Ex. la citation Nécessite une étude systématique de texte donc de ses composants linguistiques - par une étude et fouille sémantique des ses composants typographiques - par une étude sémantique de la ponctuation, de l’architecture de texte et de la disposition spatiale de certains segments