La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

recours à la description textuelle

Présentations similaires


Présentation au sujet: "recours à la description textuelle"— Transcription de la présentation:

0 Université Joseph Fourier - Doctorat en Informatique
Formalisation des connaissances documentaires et des connaissances conceptuelles à l'aide des ontologies : application à la description de documents audiovisuels Raphaël Troncy 5 Mars 2004 Université Joseph Fourier - Doctorat en Informatique

1 recours à la description textuelle
Contexte Le document audiovisuel : structuré spatio-temporel non symbolique Le document audiovisuel numérique : offre de nouvelles possibilités : recherche « intelligente » structuration de fonds publication et diffusion nécessite une instrumentation de la description : lier le contenu à la description recours à la description textuelle 05/03/2004 Raphaël Troncy

2 Plan suivi Problématique
Ingénierie documentaire ET ingénierie des connaissances Notre proposition : une architecture pour raisonner dans les descriptions documentaires Expérimentations Conclusion et perspectives 05/03/2004 Raphaël Troncy

3 La description du contenu AV
1. Problématique 2. Ingénierie documentaire et IC 3. Notre architecture 4. Expérimentations 5. Conclusion et perspectives La description du contenu AV Un processus en 3 étapes : identification ou catalogage du document : utilisation de méta données classiques localisation d’entités spatio-temporelles pertinentes pour une application donnée : utilisation de dates ou de coordonnées cartésiennes caractérisation sémantique et symbolique de ces entités : utilisation de listes d’autorités, de thésaurus ou du texte libre 05/03/2004 Raphaël Troncy

4 La description du contenu AV
1. Problématique 2. Ingénierie documentaire et IC 3. Notre architecture 4. Expérimentations 5. Conclusion et perspectives La description du contenu AV rendre compte d’une structure logique Localisation repérer et dater des événements Caractérisation typer ces entités selon un genre AV donner une thématique générale décrire la scène (qui, quand, où, quoi, …) décrire la sémantique du contenu 05/03/2004 Raphaël Troncy

5 1. Problématique 2. Ingénierie documentaire et IC 3. Notre architecture 4. Expérimentations 5. Conclusion et perspectives Exemple 13 [Plateau : 6ème partie] à 18:43:56: :09:06:00. - Eurosport Plateau composé de la suite de l'interview en direct de Nice de Sandy CASAR par Jean René GODART au sujet de la course cycliste Paris-Nice et d'une succession de brèves en images commentées par Alexandre BOYON et Laurent PUYAT. Q : Retrouver toutes les séquences AV dialogue d'un coureur cycliste dans le cadre d'une course à étapes Q : Retrouver toutes les séquences AV où Sandy Casar donne une interview dans le cadre d'une course cycliste réponse bruitée : il y a des brèves dans la séquence réponse incomplète : l’interview a commencé dans une séquence précédente requête non généralisable 05/03/2004 Raphaël Troncy

6 Problèmes  rendre les descriptions intelligibles pour les machines
1. Problématique 2. Ingénierie documentaire et IC 3. Notre architecture 4. Expérimentations 5. Conclusion et perspectives Problèmes Faible utilisation des structures documentaires Un cadre qui se prête mal au raisonnement  rendre les descriptions intelligibles pour les machines Besoins : contraindre la structure logique des descriptions un magazine contient des reportages qui contiennent des interview représenter le sens porté par la structure un dessin animé est une fiction sans personnage réel représenter le sens du contenu des documents le prologue est toujours le 1er contre la montre individuel  Quel(s) langage(s) faut-il utiliser pour satisfaire tous ces besoins ?  De quelle(s) structure(s) de connaissance(s) a-t-on besoin ? 05/03/2004 Raphaël Troncy

7 L'ingénierie documentaire
1. Problématique 2. Ingénierie documentaire et IC 3. Notre architecture 4. Expérimentations 5. Conclusion et perspectives L'ingénierie documentaire 2.1. Ingénierie documentaire 2.2. Ingénierie des connaissances Fournir des modèles, des langages et des outils pour traiter des collections de documents Encoder des documents et des données structurées : XML [W3C, 1998] & XML Schema [W3C, 2001] Distinguer le contenu de sa présentation Des langages pour présenter du multimédia : SMIL Des modèles pour décrire le multimédia de HyTime [ISO, 1997] à MPEG-7 [ISO, 2001] 05/03/2004 Raphaël Troncy

8 MPEG-7, le nouveau langage de description multimédia ?
2. Ingénierie documentaire et IC 2.1. Ingénierie documentaire 2.2. Ingénierie des connaissances MPEG-7, le nouveau langage de description multimédia ? Standard ISO depuis décembre 2001 Éléments principaux : Descripteurs (Ds) et Schémas de Description (DSs) DDL (XML Schema + extensions) Concerne tous types de média Part 5 - MDS 05/03/2004 Raphaël Troncy

9 Structure et sémantique
2. Ingénierie documentaire et IC 2.1. Ingénierie documentaire 2.2. Ingénierie des connaissances Structure et sémantique Structure Unité de base : le segment bornes temporelles ou masque Décomposition possible 05/03/2004 Raphaël Troncy

10 Structure et sémantique
2. Ingénierie documentaire et IC 2.1. Ingénierie documentaire 2.2. Ingénierie des connaissances Structure et sémantique Sémantique entités attributs relations Classification Schemes (CS) relations thésaurales 05/03/2004 Raphaël Troncy

11 Des modèles alternatifs
2. Ingénierie documentaire et IC 2.1. Ingénierie documentaire 2.2. Ingénierie des connaissances Des modèles alternatifs MPEG-7 = un ensemble de descripteurs, riche mais insuffisant pour couvrir tous les besoins de description Extension de MPEG-7 avec XML Schema : Exemple : TV Anytime, Mdéfi [Tran Thuong, 2003] Problème : ajout de structure sans sémantique Extension de MPEG-7 avec des CS : Exemple : le système COALA [Fatemi, 2003] Problème : expressivité très pauvre Annotation libre orientée « connaissance » Strates-IA [Prié, 1999] : pas de contrôle de structure E-SIA [Egyed-Zs, 2003] : perte de la base des connaissances  MPEG-7+XML Schema sont insuffisants ! … mais la RC apporte des solutions 05/03/2004 Raphaël Troncy

12 2. Ingénierie documentaire et IC
2.2. Ingénierie des connaissances Les ontologies en IC La spécification formelle d'un modèle conceptuel d'un domaine Un ensemble de concepts, de relations et d'axiomes Langages de représentation des connaissances Méthodologies de construction : Adaptation de principes de génie logiciel : Methontology [Gomez-Perez] Acquisition terminologique : [Bachimont], [Aussenac Gilles] Correction à l'aide de propriétés formelles : [Guarino] Outils : Protégé, WebODE, OilEd, OntoEdit, Terminae, DOE 05/03/2004 Raphaël Troncy

13 Langages de RC pour le Web
2. Ingénierie documentaire et IC 2.1. Ingénierie documentaire 2.2. Ingénierie des connaissances Langages de RC pour le Web RDF : [W3C, 1999 & W3C, 2004] un modèle de données pour annoter des ressources du Web triplets : ressource → propriété → valeur RDFS : [W3C, 2004] définition du vocabulaire utilisé OWL : [W3C, 2004] hiérarchie de classes et de relations axiomes : propriétés algébriques, définition de concepts, opérations ensemblistes, cardinalités <rdf:RDF> <ina:MagazineSportif rdf:about="Stade 2">     <ina:chaineDiff rdf:resource="France2"/>       <ina:dateDiff> </ina:dateDiff>    </ina:MagazineSportif> </rdf:RDF> (:"Stade 2" rdf:type ina:MagazineSportif) (:"Stade 2" ina:chaineDiff "France2") (:"Stade 2" ina:dateDiff ) 05/03/2004 Raphaël Troncy

14 Utilisation de OWL+RDF pour décrire des documents AV
2. Ingénierie documentaire et IC 2.1. Ingénierie documentaire 2.2. Ingénierie des connaissances Utilisation de OWL+RDF pour décrire des documents AV Définition de concepts et de relations Définition d’axiomes EmissionSimple  EmissionComposite =  Inférences si ONPP isA EmPlateau alors  seq  ONPP, seq isA SeqPlateau <owl:Class rdf:ID="EmissionTV"/> <owl:Class rdf:ID="EmissionPlateau"> <rdfs:subClassOf rdf:resource="#EmissionTV"/>   <rdfs:subClassOf>    <owl:Restriction>     <owl:onProperty rdf:resource="#contientSequence"/>     <owl:allValuesFrom rdf:resource="#SequencePlateau"/>     </owl:Restriction>   </rdfs:subClassOf> <owl:Class> <owl:ObjectProperty rdf:ID="contientSequence">    <rdf:type rdf:resource="&owl;TransitiveProperty"/>    <rdfs:domain rdf:resource="#EmissionTV"/>    <rdfs:range rdf:resource="#SequenceTV"/> </owl:ObjectProperty>  Problème : comment contrôler la structure des descriptions ? 05/03/2004 Raphaël Troncy

15 1. Problématique 2. Ingénierie documentaire et IC 3. Notre architecture 4. Expérimentations 5. Conclusion et perspectives Notre proposition 3.1. Ontologie de l'AV 3.2. Schémas de description 3.3. Instancier un modèle 3.4. Enrichir la BC Utiliser conjointement ces deux types d'approche pour exprimer les descriptions les langages documentaires pour décrire et contrôler la structure des émissions l'ontologie et la RC pour décrire formellement la sémantique véhiculée par leur structure et leur contenu Automatiser le plus possible les passages entre ces deux représentations Elaborer une architecture pour raisonner dans les descriptions documentaires 05/03/2004 Raphaël Troncy

16 Architecture générale
3. Notre architecture 3.1. Ontologie de l'AV 3.2. Schémas de description 3.3. Instancier un modèle 3.4. Enrichir la BC Architecture générale 05/03/2004 Raphaël Troncy

17 Ontologie de l’Audiovisuel
3. Notre architecture 3.1. Ontologie de l'AV 3.2. Schémas de description 3.3. Instancier un modèle 3.4. Enrichir la BC Ontologie de l’Audiovisuel Méthodologie de construction : ARCHONTE [Bachimont] Conceptualisation : principes différentielles Formalisation : définitions formelles, ajout d’axiomes Opérationnalisation : traduction dans un langage de RC Contenu : Objets de production (émission, séquence, genres AV), Propriétés (thèmes), Personnes, Procédés techniques (montage, tournage, post-production), Descripteurs du signal (audio, vidéo), etc. Outils utilisés : Conceptualisation : DOE [Troncy & Isaac, IC’02] Formalisation : OilEd [Bechhofer, KI’01] Langages : OWL Ontologies disponibles sur le Web : 05/03/2004 Raphaël Troncy

18 L'éditeur d'ontologies DOE
3. Notre architecture 3.1. Ontologie de l'AV 3.2. Schémas de description 3.3. Instancier un modèle 3.4. Enrichir la BC L'éditeur d'ontologies DOE 05/03/2004 Raphaël Troncy

19 Formalisation en OWL Basée sur des pratiques professionnelles établies
3. Notre architecture 3.1. Ontologie de l'AV 3.2. Schémas de description 3.3. Instancier un modèle 3.4. Enrichir la BC Formalisation en OWL Basée sur des pratiques professionnelles établies Traduction de l'ontologie dans le langage OWL Résultats : Temps de construction : 4 semaines Ontologie de taille importante : 400 concepts <owl:Class rdf:ID="EmissionTV"/> <owl:Class rdf:ID="EmissionPlateau"> <rdfs:subClassOf rdf:resource="#EmissionTV"/>   <rdfs:subClassOf>    <owl:Restriction>     <owl:onProperty rdf:resource="#contientSequence"/>     <owl:allValuesFrom rdf:resource="#SequencePlateau"/>     </owl:Restriction>   </rdfs:subClassOf> <owl:Class> <owl:ObjectProperty rdf:ID="contientSequence">    <rdf:type rdf:resource="&owl;TransitiveProperty"/>    <rdfs:domain rdf:resource="#EmissionTV"/>    <rdfs:range rdf:resource="#SequenceTV"/> </owl:ObjectProperty> 05/03/2004 Raphaël Troncy

20 Architecture générale
3. Notre architecture 3.1. Ontologie de l'AV 3.2. Schémas de description 3.3. Instancier un modèle 3.4. Enrichir la BC Architecture générale 05/03/2004 Raphaël Troncy

21 Génération de types XML Schema
3. Notre architecture 3.1. Ontologie de l'AV 3.2. Schémas de description 3.3. Instancier un modèle 3.4. Enrichir la BC Génération de types XML Schema Certains concepts (émission, séquence) renvoient à des types de segment audiovisuels OWL Classe Sous-classe Restriction de propriété Union de classes XML Schema Type complexe Extension Elément du modèle de contenu Choix du modèle de contenu transformation 05/03/2004 Raphaël Troncy

22 Extension de MPEG-7 Lier ces types aux types MPEG-7 existants
3. Notre architecture 3.1. Ontologie de l'AV 3.2. Schémas de description 3.3. Instancier un modèle 3.4. Enrichir la BC Extension de MPEG-7 Lier ces types aux types MPEG-7 existants 05/03/2004 Raphaël Troncy

23 Construire des modèles de document
3. Notre architecture 3.1. Ontologie de l'AV 3.2. Schémas de description 3.3. Instancier un modèle 3.4. Enrichir la BC Visionnage de quelques émissions Stade2 construction d’un schéma simple à base de SéquencePlateau, de Reportage et d’Interview le Reportage contient des Extraits de RetransmissionSportive Applicabilité du schéma construit reste valable pour Téléfoot reste valable pour 3 Partout, pour VéloClub n’est PLUS valable pour EddyTime 05/03/2004 Raphaël Troncy

24 Architecture générale
3. Notre architecture 3.1. Ontologie de l'AV 3.2. Schémas de description 3.3. Instancier un modèle 3.4. Enrichir la BC Architecture générale 05/03/2004 Raphaël Troncy

25 SegmenTool [Projet PRIAMM CHAPERON]
3. Notre architecture 3.1. Ontologie de l'AV 3.2. Schémas de description 3.3. Instancier un modèle 3.4. Enrichir la BC SegmenTool [Projet PRIAMM CHAPERON] 05/03/2004 Raphaël Troncy

26 Instancier le modèle de document
3. Notre architecture 3.1. Ontologie de l'AV 3.2. Schémas de description 3.3. Instancier un modèle 3.4. Enrichir la BC <ina:Reportage id="aa23c647c aee-8bce-870ae52a01af"> ... <ina:ReportageDecompositionTemporelle> <ina:Interview id="adb23ab65-f8e7-4b2a-8c da600a"> <mp7:Semantic>...</mp7:Semantic> <mp7:MediaTime> <mp7:MediaTimePoint>T00:24:19</mp7:MediaTimePoint> <mp7:MediaDuration>PT00H00M07S</mp7:MediaDuration> </mp7:MediaTime> <ina:Thematique value="Cyclisme"/> </ina:Interview> </ina:ReportageDecompositionTemporelle> </ina:Reportage> BC triplets RDF 05/03/2004 Raphaël Troncy

27 Architecture générale
3. Notre architecture 3.1. Ontologie de l'AV 3.2. Schémas de description 3.3. Instancier un modèle 3.4. Enrichir la BC Architecture générale 05/03/2004 Raphaël Troncy

28 Ontologie du Cyclisme Méthodologie de construction : Résultats :
3. Notre architecture 3.1. Ontologie de l'AV 3.2. Schémas de description 3.3. Instancier un modèle 3.4. Enrichir la BC Ontologie du Cyclisme Méthodologie de construction : Acquisition terminologique Corpus textuel de mots [LeRoux, 2003] Outil d'extraction de candidats termes : Lexter Conceptualisation et formalisation DOE + OilEd Résultats : Temps de construction : 3 semaines conceptualisation, haut niveau, formalisation Ontologie de taille moyenne : 97 concepts, 61 relations 05/03/2004 Raphaël Troncy

29 Ontologie du Cyclisme 05/03/2004 Raphaël Troncy 3. Notre architecture
3.1. Ontologie de l'AV 3.2. Schémas de description 3.3. Instancier un modèle 3.4. Enrichir la BC Ontologie du Cyclisme 05/03/2004 Raphaël Troncy

30 Enrichissement de la BC
3. Notre architecture 3.1. Ontologie de l'AV 3.2. Schémas de description 3.3. Instancier un modèle 3.4. Enrichir la BC Enrichissement de la BC Domaine du Cyclisme texte Base de Faits + SEIGO [Le Roux, 2003] <rdf about="{URI}/MagazineSportif5/Report3/Interview4"> <!-- assertions formalisées provenant de la base de faits --> </rdf> 05/03/2004 Raphaël Troncy

31 Architecture générale
1. Problématique 2. Ingénierie documentaire et IC 3. Notre architecture 4. Expérimentations 5. Conclusion et perspectives Architecture générale 05/03/2004 Raphaël Troncy

32 Expérimentations 1ère expérimentation 2ème expérimentation
1. Problématique 2. Ingénierie documentaire et IC 3. Notre architecture 4. Expérimentations 5. Conclusion et perspectives Expérimentations 1ère expérimentation Sesame : architecture de stockage de triplets RDF [Broekstra, 2002] Implémente les langages de requêtes RQL et RDQL Implémente la sémantique de RDF Schema (moteur RDF-MT) BOR : raisonneur implémentant la sémantique de DAML+OIL [Simov & Jordanov, 2002] SeBOR : intégration de ces deux systèmes dans le cadre du projet On-To-Knowledge 2ème expérimentation Racer : raisonneur OWL DL [Haarslev & Möller, 2001] Rice : interface de visualisation [Möller et al., 2003] 05/03/2004 Raphaël Troncy

33 1. Problématique 2. Ingénierie documentaire et IC 3. Notre architecture 4. Expérimentations 5. Conclusion et perspectives Conclusion Architecture générale permettant le raisonnement dans les descriptions documentaires : Contrôle de la structure : création de modèles de documents Représentation formelle de la sémantique : ontologie de l'audiovisuel et ontologie de domaine Basée sur des langages standards (MPEG-7, OWL, RDF) et sur l'utilisation de transformations Implémentation et expérimentations Extension générique de MPEG-7 Développement de 2 ontologies à l'aide de DOE Création d’une Base de Connaissances sur des faits relatifs aux épreuves cyclistes et utilisation d’un raisonneur approprié sur les descriptions 05/03/2004 Raphaël Troncy

34 Perspectives Développements en cours Expérimentations envisagées
1. Problématique 2. Ingénierie documentaire et IC 3. Notre architecture 4. Expérimentations 5. Conclusion et perspectives Perspectives Développements en cours Meilleure intégration des outils utilisés Expérimentations envisagées Disposer d’une base conséquente de vidéos annotées et tester le système avec un panel d’utilisateurs Appliquer cette architecture à un autre domaine que le cyclisme Mesurer l'apport de l'ontologie de l'audiovisuel dans un grand fonds documentaire sans modifier les descriptions Perspectives à plus long terme Le langage de description idéal pour l'AV est toujours à rechercher La description pourrait être liée à : une analyse rhétorique des documents une analyse sémiotique des documents 05/03/2004 Raphaël Troncy

35 Questions ? Problématique
Ingénierie documentaire ET ingénierie des connaissances Notre proposition : une architecture pour raisonner dans les descriptions documentaires Expérimentations Conclusion et perspectives 05/03/2004 Raphaël Troncy

36 05/03/2004 Raphaël Troncy

37 05/03/2004 Raphaël Troncy

38 05/03/2004 Raphaël Troncy

39 05/03/2004 Raphaël Troncy

40 05/03/2004 Raphaël Troncy

41 05/03/2004 Raphaël Troncy


Télécharger ppt "recours à la description textuelle"

Présentations similaires


Annonces Google