Université Joseph Fourier - Doctorat en Informatique Formalisation des connaissances documentaires et des connaissances conceptuelles à l'aide des ontologies : application à la description de documents audiovisuels Raphaël Troncy 5 Mars 2004 Université Joseph Fourier - Doctorat en Informatique
recours à la description textuelle Contexte Le document audiovisuel : structuré spatio-temporel non symbolique Le document audiovisuel numérique : offre de nouvelles possibilités : recherche « intelligente » structuration de fonds publication et diffusion nécessite une instrumentation de la description : lier le contenu à la description recours à la description textuelle 05/03/2004 Raphaël Troncy
Plan suivi Problématique Ingénierie documentaire ET ingénierie des connaissances Notre proposition : une architecture pour raisonner dans les descriptions documentaires Expérimentations Conclusion et perspectives 05/03/2004 Raphaël Troncy
La description du contenu AV 1. Problématique 2. Ingénierie documentaire et IC 3. Notre architecture 4. Expérimentations 5. Conclusion et perspectives La description du contenu AV Un processus en 3 étapes : identification ou catalogage du document : utilisation de méta données classiques localisation d’entités spatio-temporelles pertinentes pour une application donnée : utilisation de dates ou de coordonnées cartésiennes caractérisation sémantique et symbolique de ces entités : utilisation de listes d’autorités, de thésaurus ou du texte libre 05/03/2004 Raphaël Troncy
La description du contenu AV 1. Problématique 2. Ingénierie documentaire et IC 3. Notre architecture 4. Expérimentations 5. Conclusion et perspectives La description du contenu AV rendre compte d’une structure logique Localisation repérer et dater des événements Caractérisation typer ces entités selon un genre AV donner une thématique générale décrire la scène (qui, quand, où, quoi, …) décrire la sémantique du contenu 05/03/2004 Raphaël Troncy
1. Problématique 2. Ingénierie documentaire et IC 3. Notre architecture 4. Expérimentations 5. Conclusion et perspectives Exemple 13 [Plateau : 6ème partie] à 18:43:56:00 - 00:09:06:00. - Eurosport Plateau composé de la suite de l'interview en direct de Nice de Sandy CASAR par Jean René GODART au sujet de la course cycliste Paris-Nice et d'une succession de brèves en images commentées par Alexandre BOYON et Laurent PUYAT. Q : Retrouver toutes les séquences AV dialogue d'un coureur cycliste dans le cadre d'une course à étapes Q : Retrouver toutes les séquences AV où Sandy Casar donne une interview dans le cadre d'une course cycliste réponse bruitée : il y a des brèves dans la séquence réponse incomplète : l’interview a commencé dans une séquence précédente requête non généralisable 05/03/2004 Raphaël Troncy
Problèmes rendre les descriptions intelligibles pour les machines 1. Problématique 2. Ingénierie documentaire et IC 3. Notre architecture 4. Expérimentations 5. Conclusion et perspectives Problèmes Faible utilisation des structures documentaires Un cadre qui se prête mal au raisonnement rendre les descriptions intelligibles pour les machines Besoins : contraindre la structure logique des descriptions un magazine contient des reportages qui contiennent des interview représenter le sens porté par la structure un dessin animé est une fiction sans personnage réel représenter le sens du contenu des documents le prologue est toujours le 1er contre la montre individuel Quel(s) langage(s) faut-il utiliser pour satisfaire tous ces besoins ? De quelle(s) structure(s) de connaissance(s) a-t-on besoin ? 05/03/2004 Raphaël Troncy
L'ingénierie documentaire 1. Problématique 2. Ingénierie documentaire et IC 3. Notre architecture 4. Expérimentations 5. Conclusion et perspectives L'ingénierie documentaire 2.1. Ingénierie documentaire 2.2. Ingénierie des connaissances Fournir des modèles, des langages et des outils pour traiter des collections de documents Encoder des documents et des données structurées : XML [W3C, 1998] & XML Schema [W3C, 2001] Distinguer le contenu de sa présentation Des langages pour présenter du multimédia : SMIL Des modèles pour décrire le multimédia de HyTime [ISO, 1997] à MPEG-7 [ISO, 2001] 05/03/2004 Raphaël Troncy
MPEG-7, le nouveau langage de description multimédia ? 2. Ingénierie documentaire et IC 2.1. Ingénierie documentaire 2.2. Ingénierie des connaissances MPEG-7, le nouveau langage de description multimédia ? Standard ISO depuis décembre 2001 Éléments principaux : Descripteurs (Ds) et Schémas de Description (DSs) DDL (XML Schema + extensions) Concerne tous types de média Part 5 - MDS 05/03/2004 Raphaël Troncy
Structure et sémantique 2. Ingénierie documentaire et IC 2.1. Ingénierie documentaire 2.2. Ingénierie des connaissances Structure et sémantique Structure Unité de base : le segment bornes temporelles ou masque Décomposition possible 05/03/2004 Raphaël Troncy
Structure et sémantique 2. Ingénierie documentaire et IC 2.1. Ingénierie documentaire 2.2. Ingénierie des connaissances Structure et sémantique Sémantique entités attributs relations Classification Schemes (CS) relations thésaurales 05/03/2004 Raphaël Troncy
Des modèles alternatifs 2. Ingénierie documentaire et IC 2.1. Ingénierie documentaire 2.2. Ingénierie des connaissances Des modèles alternatifs MPEG-7 = un ensemble de descripteurs, riche mais insuffisant pour couvrir tous les besoins de description Extension de MPEG-7 avec XML Schema : Exemple : TV Anytime, Mdéfi [Tran Thuong, 2003] Problème : ajout de structure sans sémantique Extension de MPEG-7 avec des CS : Exemple : le système COALA [Fatemi, 2003] Problème : expressivité très pauvre Annotation libre orientée « connaissance » Strates-IA [Prié, 1999] : pas de contrôle de structure E-SIA [Egyed-Zs, 2003] : perte de la base des connaissances MPEG-7+XML Schema sont insuffisants ! … mais la RC apporte des solutions 05/03/2004 Raphaël Troncy
2. Ingénierie documentaire et IC 2.2. Ingénierie des connaissances Les ontologies en IC La spécification formelle d'un modèle conceptuel d'un domaine Un ensemble de concepts, de relations et d'axiomes Langages de représentation des connaissances Méthodologies de construction : Adaptation de principes de génie logiciel : Methontology [Gomez-Perez] Acquisition terminologique : [Bachimont], [Aussenac Gilles] Correction à l'aide de propriétés formelles : [Guarino] Outils : Protégé, WebODE, OilEd, OntoEdit, Terminae, DOE 05/03/2004 Raphaël Troncy
Langages de RC pour le Web 2. Ingénierie documentaire et IC 2.1. Ingénierie documentaire 2.2. Ingénierie des connaissances Langages de RC pour le Web RDF : [W3C, 1999 & W3C, 2004] un modèle de données pour annoter des ressources du Web triplets : ressource → propriété → valeur RDFS : [W3C, 2004] définition du vocabulaire utilisé OWL : [W3C, 2004] hiérarchie de classes et de relations axiomes : propriétés algébriques, définition de concepts, opérations ensemblistes, cardinalités <rdf:RDF> <ina:MagazineSportif rdf:about="Stade 2"> <ina:chaineDiff rdf:resource="France2"/> <ina:dateDiff>17-03-2002</ina:dateDiff> </ina:MagazineSportif> </rdf:RDF> (:"Stade 2" rdf:type ina:MagazineSportif) (:"Stade 2" ina:chaineDiff "France2") (:"Stade 2" ina:dateDiff 17-03-2002) 05/03/2004 Raphaël Troncy
Utilisation de OWL+RDF pour décrire des documents AV 2. Ingénierie documentaire et IC 2.1. Ingénierie documentaire 2.2. Ingénierie des connaissances Utilisation de OWL+RDF pour décrire des documents AV Définition de concepts et de relations Définition d’axiomes EmissionSimple EmissionComposite = Inférences si ONPP isA EmPlateau alors seq ONPP, seq isA SeqPlateau <owl:Class rdf:ID="EmissionTV"/> <owl:Class rdf:ID="EmissionPlateau"> <rdfs:subClassOf rdf:resource="#EmissionTV"/> <rdfs:subClassOf> <owl:Restriction> <owl:onProperty rdf:resource="#contientSequence"/> <owl:allValuesFrom rdf:resource="#SequencePlateau"/> </owl:Restriction> </rdfs:subClassOf> <owl:Class> <owl:ObjectProperty rdf:ID="contientSequence"> <rdf:type rdf:resource="&owl;TransitiveProperty"/> <rdfs:domain rdf:resource="#EmissionTV"/> <rdfs:range rdf:resource="#SequenceTV"/> </owl:ObjectProperty> Problème : comment contrôler la structure des descriptions ? 05/03/2004 Raphaël Troncy
1. Problématique 2. Ingénierie documentaire et IC 3. Notre architecture 4. Expérimentations 5. Conclusion et perspectives Notre proposition 3.1. Ontologie de l'AV 3.2. Schémas de description 3.3. Instancier un modèle 3.4. Enrichir la BC Utiliser conjointement ces deux types d'approche pour exprimer les descriptions les langages documentaires pour décrire et contrôler la structure des émissions l'ontologie et la RC pour décrire formellement la sémantique véhiculée par leur structure et leur contenu Automatiser le plus possible les passages entre ces deux représentations Elaborer une architecture pour raisonner dans les descriptions documentaires 05/03/2004 Raphaël Troncy
Architecture générale 3. Notre architecture 3.1. Ontologie de l'AV 3.2. Schémas de description 3.3. Instancier un modèle 3.4. Enrichir la BC Architecture générale 05/03/2004 Raphaël Troncy
Ontologie de l’Audiovisuel 3. Notre architecture 3.1. Ontologie de l'AV 3.2. Schémas de description 3.3. Instancier un modèle 3.4. Enrichir la BC Ontologie de l’Audiovisuel Méthodologie de construction : ARCHONTE [Bachimont] Conceptualisation : principes différentielles Formalisation : définitions formelles, ajout d’axiomes Opérationnalisation : traduction dans un langage de RC Contenu : Objets de production (émission, séquence, genres AV), Propriétés (thèmes), Personnes, Procédés techniques (montage, tournage, post-production), Descripteurs du signal (audio, vidéo), etc. Outils utilisés : Conceptualisation : DOE [Troncy & Isaac, IC’02] Formalisation : OilEd [Bechhofer, KI’01] Langages : OWL Ontologies disponibles sur le Web : http://opales.ina.fr/public/ontologies/ 05/03/2004 Raphaël Troncy
L'éditeur d'ontologies DOE 3. Notre architecture 3.1. Ontologie de l'AV 3.2. Schémas de description 3.3. Instancier un modèle 3.4. Enrichir la BC L'éditeur d'ontologies DOE 05/03/2004 Raphaël Troncy
Formalisation en OWL Basée sur des pratiques professionnelles établies 3. Notre architecture 3.1. Ontologie de l'AV 3.2. Schémas de description 3.3. Instancier un modèle 3.4. Enrichir la BC Formalisation en OWL Basée sur des pratiques professionnelles établies Traduction de l'ontologie dans le langage OWL Résultats : Temps de construction : 4 semaines Ontologie de taille importante : 400 concepts <owl:Class rdf:ID="EmissionTV"/> <owl:Class rdf:ID="EmissionPlateau"> <rdfs:subClassOf rdf:resource="#EmissionTV"/> <rdfs:subClassOf> <owl:Restriction> <owl:onProperty rdf:resource="#contientSequence"/> <owl:allValuesFrom rdf:resource="#SequencePlateau"/> </owl:Restriction> </rdfs:subClassOf> <owl:Class> <owl:ObjectProperty rdf:ID="contientSequence"> <rdf:type rdf:resource="&owl;TransitiveProperty"/> <rdfs:domain rdf:resource="#EmissionTV"/> <rdfs:range rdf:resource="#SequenceTV"/> </owl:ObjectProperty> 05/03/2004 Raphaël Troncy
Architecture générale 3. Notre architecture 3.1. Ontologie de l'AV 3.2. Schémas de description 3.3. Instancier un modèle 3.4. Enrichir la BC Architecture générale 05/03/2004 Raphaël Troncy
Génération de types XML Schema 3. Notre architecture 3.1. Ontologie de l'AV 3.2. Schémas de description 3.3. Instancier un modèle 3.4. Enrichir la BC Génération de types XML Schema Certains concepts (émission, séquence) renvoient à des types de segment audiovisuels OWL Classe Sous-classe Restriction de propriété Union de classes XML Schema Type complexe Extension Elément du modèle de contenu Choix du modèle de contenu transformation 05/03/2004 Raphaël Troncy
Extension de MPEG-7 Lier ces types aux types MPEG-7 existants 3. Notre architecture 3.1. Ontologie de l'AV 3.2. Schémas de description 3.3. Instancier un modèle 3.4. Enrichir la BC Extension de MPEG-7 Lier ces types aux types MPEG-7 existants 05/03/2004 Raphaël Troncy
Construire des modèles de document 3. Notre architecture 3.1. Ontologie de l'AV 3.2. Schémas de description 3.3. Instancier un modèle 3.4. Enrichir la BC Visionnage de quelques émissions Stade2 construction d’un schéma simple à base de SéquencePlateau, de Reportage et d’Interview le Reportage contient des Extraits de RetransmissionSportive Applicabilité du schéma construit reste valable pour Téléfoot reste valable pour 3 Partout, pour VéloClub n’est PLUS valable pour EddyTime 05/03/2004 Raphaël Troncy
Architecture générale 3. Notre architecture 3.1. Ontologie de l'AV 3.2. Schémas de description 3.3. Instancier un modèle 3.4. Enrichir la BC Architecture générale 05/03/2004 Raphaël Troncy
SegmenTool [Projet PRIAMM CHAPERON] 3. Notre architecture 3.1. Ontologie de l'AV 3.2. Schémas de description 3.3. Instancier un modèle 3.4. Enrichir la BC SegmenTool [Projet PRIAMM CHAPERON] 05/03/2004 Raphaël Troncy
Instancier le modèle de document 3. Notre architecture 3.1. Ontologie de l'AV 3.2. Schémas de description 3.3. Instancier un modèle 3.4. Enrichir la BC <ina:Reportage id="aa23c647c-6517-4aee-8bce-870ae52a01af"> ... <ina:ReportageDecompositionTemporelle> <ina:Interview id="adb23ab65-f8e7-4b2a-8c98-807197da600a"> <mp7:Semantic>...</mp7:Semantic> <mp7:MediaTime> <mp7:MediaTimePoint>T00:24:19</mp7:MediaTimePoint> <mp7:MediaDuration>PT00H00M07S</mp7:MediaDuration> </mp7:MediaTime> <ina:Thematique value="Cyclisme"/> </ina:Interview> </ina:ReportageDecompositionTemporelle> </ina:Reportage> BC triplets RDF 05/03/2004 Raphaël Troncy
Architecture générale 3. Notre architecture 3.1. Ontologie de l'AV 3.2. Schémas de description 3.3. Instancier un modèle 3.4. Enrichir la BC Architecture générale 05/03/2004 Raphaël Troncy
Ontologie du Cyclisme Méthodologie de construction : Résultats : 3. Notre architecture 3.1. Ontologie de l'AV 3.2. Schémas de description 3.3. Instancier un modèle 3.4. Enrichir la BC Ontologie du Cyclisme Méthodologie de construction : Acquisition terminologique Corpus textuel de 550 000 mots [LeRoux, 2003] Outil d'extraction de candidats termes : Lexter Conceptualisation et formalisation DOE + OilEd Résultats : Temps de construction : 3 semaines conceptualisation, haut niveau, formalisation Ontologie de taille moyenne : 97 concepts, 61 relations 05/03/2004 Raphaël Troncy
Ontologie du Cyclisme 05/03/2004 Raphaël Troncy 3. Notre architecture 3.1. Ontologie de l'AV 3.2. Schémas de description 3.3. Instancier un modèle 3.4. Enrichir la BC Ontologie du Cyclisme 05/03/2004 Raphaël Troncy
Enrichissement de la BC 3. Notre architecture 3.1. Ontologie de l'AV 3.2. Schémas de description 3.3. Instancier un modèle 3.4. Enrichir la BC Enrichissement de la BC Domaine du Cyclisme texte Base de Faits + SEIGO [Le Roux, 2003] <rdf about="{URI}/MagazineSportif5/Report3/Interview4"> <!-- assertions formalisées provenant de la base de faits --> </rdf> 05/03/2004 Raphaël Troncy
Architecture générale 1. Problématique 2. Ingénierie documentaire et IC 3. Notre architecture 4. Expérimentations 5. Conclusion et perspectives Architecture générale 05/03/2004 Raphaël Troncy
Expérimentations 1ère expérimentation 2ème expérimentation 1. Problématique 2. Ingénierie documentaire et IC 3. Notre architecture 4. Expérimentations 5. Conclusion et perspectives Expérimentations 1ère expérimentation Sesame : architecture de stockage de triplets RDF [Broekstra, 2002] Implémente les langages de requêtes RQL et RDQL Implémente la sémantique de RDF Schema (moteur RDF-MT) BOR : raisonneur implémentant la sémantique de DAML+OIL [Simov & Jordanov, 2002] SeBOR : intégration de ces deux systèmes dans le cadre du projet On-To-Knowledge 2ème expérimentation Racer : raisonneur OWL DL [Haarslev & Möller, 2001] Rice : interface de visualisation [Möller et al., 2003] 05/03/2004 Raphaël Troncy
1. Problématique 2. Ingénierie documentaire et IC 3. Notre architecture 4. Expérimentations 5. Conclusion et perspectives Conclusion Architecture générale permettant le raisonnement dans les descriptions documentaires : Contrôle de la structure : création de modèles de documents Représentation formelle de la sémantique : ontologie de l'audiovisuel et ontologie de domaine Basée sur des langages standards (MPEG-7, OWL, RDF) et sur l'utilisation de transformations Implémentation et expérimentations Extension générique de MPEG-7 Développement de 2 ontologies à l'aide de DOE Création d’une Base de Connaissances sur des faits relatifs aux épreuves cyclistes et utilisation d’un raisonneur approprié sur les descriptions 05/03/2004 Raphaël Troncy
Perspectives Développements en cours Expérimentations envisagées 1. Problématique 2. Ingénierie documentaire et IC 3. Notre architecture 4. Expérimentations 5. Conclusion et perspectives Perspectives Développements en cours Meilleure intégration des outils utilisés Expérimentations envisagées Disposer d’une base conséquente de vidéos annotées et tester le système avec un panel d’utilisateurs Appliquer cette architecture à un autre domaine que le cyclisme Mesurer l'apport de l'ontologie de l'audiovisuel dans un grand fonds documentaire sans modifier les descriptions Perspectives à plus long terme Le langage de description idéal pour l'AV est toujours à rechercher La description pourrait être liée à : une analyse rhétorique des documents une analyse sémiotique des documents 05/03/2004 Raphaël Troncy
Questions ? Problématique Ingénierie documentaire ET ingénierie des connaissances Notre proposition : une architecture pour raisonner dans les descriptions documentaires Expérimentations Conclusion et perspectives 05/03/2004 Raphaël Troncy
05/03/2004 Raphaël Troncy
05/03/2004 Raphaël Troncy
05/03/2004 Raphaël Troncy
05/03/2004 Raphaël Troncy
05/03/2004 Raphaël Troncy
05/03/2004 Raphaël Troncy