La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Annotation et métadonnées

Présentations similaires


Présentation au sujet: "Annotation et métadonnées"— Transcription de la présentation:

1 Annotation et métadonnées
Gaëlle Hignette, AgroParisTech

2 Annotations et métadonnées - Gaëlle Hignette
Plan du cours Annotations et métadonnées, définitions Annotation manuelle Annotation semi-automatique Annotation non supervisée Références 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

3 Annotations et métadonnées - Gaëlle Hignette
Plan du cours Annotations et métadonnées, définitions Annotation manuelle Annotation semi-automatique Annotation non supervisée Références 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

4 Définitions: annotation
Langage courant (dictionnaire le Robert): Note critique ou explicative qu’on écrit sur un texte, un livre En informatique: Commentaire (libre) rattaché à un document ou une portion de document Utilisé dans les bases documentaires, les collecticiels… Concept (prédéfini) rattaché à une portion de document Utilisé pour la recherche et l’extraction d’information En relation avec l'extraction d'information 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

5 Définitions: métadonnées
Langage courant: Néologisme Métalangage: langage qui décrit un autre langage (dit « primaire ») En informatique: Données informatives sur les données courantes ex. auteur, date de modification, … 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

6 Annotations et métadonnées - Gaëlle Hignette
Et le web sémantique? Métadonnées dans le web sémantique Dublin Core Annotations dans le web sémantique Langages du web sémantique peu adaptés à l’annotation au sein du texte Annotations stockées en en-tête de document ou dans un moteur à part, avec pointeurs Annotation de documents provenant du web En vue d’une application précise Stockage local Format au choix, souvent XML Voir comment on fait des annotations avec les langages du web sémantique 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

7 Exemple d’annotation Dublin Core
Le document HTML <HTML><HEAD> <TITLE> Dublin Core Metadata Initiative - Home Page</TITLE> <LINK rel= "meta" href="dcDesc.dcxml"> </HEAD> <BODY> </BODY> </HTML> L’annotation en RDF dans le fichier dcDesc.dcxml <?xml version="1.0"?> <!DOCTYPE rdf:RDF PUBLIC "-//DUBLIN CORE//DCMES DTD //EN "http://dublincore.org/documents/2001/11/28/dcmes-xml/dcmes-xml-dtd.dtd"> <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:dc ="http://purl.org/dc/elements/1.1/"> <rdf:Description rdf:about="http://dublincore.org/"> <dc:title>Dublin Core Metadata Initiative - Home Page</dc:title> <dc:description>The Dublin Core Metadata Initiative Web site.</dc:description> <dc:date> </dc:date> <dc:format>text/html</dc:format> <dc:language>en</dc:language> <dc:contributor>The Dublin Core Metadata Initiative</dc:contributor> </rdf:Description> </rdf:RDF> 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

8 Exemple d’annotation utilisant des pointeurs
penser à mettre un exemple pour le lien 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

9 Exemple d’annotation à l’intérieur du document
<html><head></head><body> <h1>The <b>Semsem</b> team Members</h1> <table> <person> <tr> <td><name>Jack</name></td> <td><theme>KR</theme></td> </tr> </person> <tr> ... </tr> <tr> ... </tr> </table> </body></html> 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

10 Annotations et métadonnées - Gaëlle Hignette
Plan du cours Annotations et métadonnées, définitions Annotation manuelle Qui doit annoter? Quelques outils d’aide à l’annotation Annotation semi-automatique Annotation non supervisée Références 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

11 Annotation manuelle par l'auteur
Charge de travail supportable Métadonnées: génération automatique possible Annotation: au fil de la création du texte À condition de disposer d'outils faciles d'utilisation Mais parfois inutilisable L'auteur ne sait pas comment on va vouloir utiliser ce qu'il publie => quoi annoter? Choix de l'ontologie 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

12 Annotation par "l'utilisateur"
Reprendre tout le web existant: impossible en annotation manuelle Annotation par commentaire libres destinées à la lecture par des humains: nécessairement manuelle, liée à l’utilisation Annotation manuelle par des concepts prédéfinis indispensable comme base pour les techniques d'apprentissage Disponibilité de nombreux outils d’aide à l’annotation 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

13 Annotations et métadonnées - Gaëlle Hignette
Plan du cours Annotations et métadonnées, définitions Annotation manuelle Qui doit annoter? Quelques outils d’aide à l’annotation Annotation semi-automatique Annotation non supervisée Références 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

14 Cadixe, annotation en XML
Pour des fichiers texte Annotation au fil de la lecture Insertion des tags XML dans le désordre, mais tags guidés par une DTD Rendu graphique personnalisable Vérification après-coup de la conformité à la DTD Stockage local des annotations en XML 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

15 Annotations et métadonnées - Gaëlle Hignette
Cadixe: copie d’écran 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

16 CREAM, annotation en RDF
Pour des fichiers HTML 3 modes d’annotation Indépendamment de la page, directement dans l’éditeur d’ontologie À la lecture, de l’éditeur de page vers l’éditeur d’ontologie À l’écriture, de l’éditeur d’ontologie à l’éditeur de page Stockage des annotations dans la page (en-tête en RDF) et/ou dans un serveur d’annotations permettant le raisonnement 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

17 Annotations et métadonnées - Gaëlle Hignette
CREAM: exemple 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

18 CREAM: annotation d’une page existante
06/11/2008 Annotations et métadonnées - Gaëlle Hignette

19 CREAM: création d’une page à partir de l’ontologie
06/11/2008 Annotations et métadonnées - Gaëlle Hignette

20 Annotea, annotations pour le travail collaboratif
Outil du W3C Annotations textuelles par des auteurs Stockage des annotations en XHTML, métadonnées des annotations dans des serveurs RDF ou index local Intégration directe dans un browser spécifique: Amaya Intégration dans le browser Mozilla: Annozilla voir exactement ce que fait Annozilla, voir COHSE 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

21 Annotations et métadonnées - Gaëlle Hignette
Annotea: screenshot 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

22 Annotations et métadonnées - Gaëlle Hignette
Et le multimédia... Vannotea: annotation collaborative de vidéos M-OntoMat-Annotizer: extension de CREAM pour l’annotation de vidéos outils de Mindswap: annotation d’images, d’ s, de HTML et texte Open Ontology Forge: outil de création d’ontologies et d’annotation type CREAM – intégration de l’annotation d’images et de texte revoir les différents outils 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

23 M-OntoMat-Annotizer: screenshot
06/11/2008 Annotations et métadonnées - Gaëlle Hignette

24 Annotations et métadonnées - Gaëlle Hignette
Plan du cours Annotations et métadonnées, définitions Annotation manuelle Annotation semi-automatique Définition de règles pour l’annotation Algorithmes d’apprentissage Systèmes d’annotation semi-automatique Annotation non supervisée Références 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

25 Définition de règles pour l’annotation
Règles spécifiques à un domaine, écrites par un expert Extraction d’entités nommées (noms de personnes, de compagnies, dates...) Extraction basée sur une structure de documents redondante Extraction basée sur des contextes linguistiques 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

26 Extraction d’entités nommées
Généralement basée sur une combinaison de dictionnaire et d’expressions régulières Tâche de base pour des extractions d’information de plus haut niveau Proposé dans la plateforme GATE: chaîne de traitement ANNIE tokenizer sentence splitter gazetteer NE transducer voir KIM, donner un exemple d’extraction de ANNIE 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

27 Mapping de structure avec Lixto
Création d’une classe Choix graphique d’un exemple Création automatique d’un pattern possibilité de modifier manuellement le pattern Test du pattern possibilité de montrer d’autres exemples pour affiner le pattern Eléments définis les uns par rapport aux autres 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

28 Annotations et métadonnées - Gaëlle Hignette
Lixto: screenshot 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

29 Règles linguistiques avec EXCOM
Relations linguistiques indépendantes du domaine lien de causalité rencontre entre personnes formulation d’une hypothèse, d’une conclusion etc. Basé sur la présence d’un indicateur fort, puis d’indices contextuels permettant la désambiguation Gros effort en linguistique impliqué 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

30 Annotations et métadonnées - Gaëlle Hignette
Plan du cours Annotations et métadonnées, définitions Annotation manuelle Annotation semi-automatique Définition de règles pour l’annotation Algorithmes d’apprentissage Systèmes d’annotation semi-automatique Annotation non supervisée Références 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

31 Annotation par apprentissage
Annotation manuelle d'une base d'exemples Application d'un algorithme d'apprentissage Annotation automatique ou semi-automatique des documents restants Risque d'erreur Minimisation de l'effort d'annotation 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

32 Boosted Wrapper Induction
Freitag & Kushmerick, 2000 Fonctionnement concept par concept Tâche de classification des limites Début: cet espace entre deux mots est-il le début d'une instance du concept? Fin: cet espace entre deux mots est-il la fin d'une instance du concept? Matching début/fin: longueur probable 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

33 BWI: Détecteurs de limites
Un pattern est un motif à repérer dans le texte Ex. [Melle <AlphaCap>] reconnaîtra Melle Dupond, Melle Chapitre, Melle Hignette… Un détecteur est constitué de deux patterns: avant limite et après limite Ex. [Melle][<AlphaCap>] Un détecteur a une confiance Melle Dupond 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

34 BWI: Définition du wrapper
Le wrapper est constitué de un ensemble de détecteurs de limite de début, un ensemble de détecteurs de limite de fin, une fonction de distribution de longueur H: N  [0,1] H(k)=Prob("champ a k mots") 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

35 Annotations et métadonnées - Gaëlle Hignette
BWI: Classification Chaque espace entre deux mots reçoit un score de limite de début et un score de limite de fin: Score = somme des confiances des détecteurs qui reconnaissent cet espace Une instance est reconnue entre les espaces i et j si Scoredebut(i)*Scorefin(j)*H(j-i)>t t: paramètre de réglage précision/couverture 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

36 Annotations et métadonnées - Gaëlle Hignette
BWI: Boosting Temps 0: tous les exemples positifs ont le même poids Boucler tant qu'on a moins de T détecteurs choisir un détecteur changer le poids des exemples: plus de poids aux exemples positifs non encore couverts ou aux négatifs couverts par erreur 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

37 BWI: choix des détecteurs
Initialement: détecteur sans préfixe ni suffixe À chaque étape on ajoute un mot ou généralisation au préfixe et au suffixe Maximiser sqrt(poids vrais positifs) - sqrt(poids faux positifs) Arrêt quand l'extension ne permet pas d'éliminer plus de faux positifs / longueur max de pattern atteinte 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

38 Annotations et métadonnées - Gaëlle Hignette
BWI: avantages Bonne précision Couverture: l'union fait la force Fonctionne sur texte libre ou structuré Généralisations: initialement prévu pour des informations de casse mais peut tenir compte d'un pré-traitement (ex. reconnaissance de prénoms, dates, classe grammaticale, etc.) 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

39 Annotations et métadonnées - Gaëlle Hignette
(LP)2 Ciravegna 2001 Algorithme conçu pour tenir compte d'un pré-processing: forme grammaticale, dictionnaires, entités nommées Règles d'insertion de tags ouvrants et de tags fermants Meilleures règles Règles contextuelles Règles de correction Validation: suppression des tags orphelins 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

40 (LP)2: meilleures règles
pour chaque exemple Pattern générateur = w mots avant, w mots après le tag Retenir les k meilleures généralisations taux d'erreur = erreur/succès < seuil plus de matches, moins d'erreurs suppression des règles redondantes retirer les exemples couverts par les règles continuer tant qu'il reste des exemples à couvrir 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

41 (LP)2: règles contextuelles
Seuil de taux d'erreur exigeant Très bonne précision Couverture faible Augmenter la couverture sans trop perdre de précision Appliquer les "meilleures règles" Utiliser les tags créés pour la génération des patterns Exemples utilisés = ceux qui ne sont pas couverts par les meilleures règles Typiquement: fermeture d'un tag… 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

42 (LP)2: règles de correction
Tags insérés parfois mal placés Règles permettant de déplacer un tag de maximum w positions fenêtre de w mots autour du tag mal placé meilleures k généralisations du pattern avec tags action = déplacement du tag dans la fenêtre 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

43 Annotations et métadonnées - Gaëlle Hignette
Plan du cours Annotations et métadonnées, définitions Annotation manuelle Annotation semi-automatique Définition de règles pour l’annotation Algorithmes d’apprentissage Systèmes d’annotation semi-automatique Annotation non supervisée Références 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

44 Annotations et métadonnées - Gaëlle Hignette
SemTag Annotation des instances définies dans une ontologie ex. « Michael Jordan » Désambiguation par le contexte (n mots avant, n mots après) jugements humains sur certains contextes mesures statistiques sur la fréquence des mots ex. Michael Jordan, arguably the greatest player in basketball history ... ≠ Professor Michael Jordan 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

45 S-CREAM: Semi-automatic CREAtion of Metadata
Creation de la base d'exemples: annotation manuelle dans CREAM Extraction d'information par Amilcare, basé sur (LP)2 Préprocessing par Annie Détection des phrases Forme grammaticale Dictionnaire Entités nommées Création des relations entre instances 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

46 De l'extraction d'information aux métadonnées relationnelles
Amilcare CREAM Hôtel de la Chasse 13 rue de l'Orée du Bois 22327 Trégoulec Tel hôtel CP ville telephone prix devise date Hôtel de la chasse INSTANCE_OF hotel Hôtel de la chasse LOCALITE ville1 ville1 INSTANCE_OF ville ville1 NOM Trégoulec Ville1 CP 22327 Hôtel de la chasse PROPOSE_PRIX p1 Hôtel de la chasse PROPOSE_PRIX p2 p1 INSTANCE_OF prix p1 VALEUR 32 p1 DEVISE euros p2 INSTANCE_OF prix p2 VALEUR 40 p2 DEVISE euros Bienvenue sur le site de l'hôtel de la chasse. Nous sommes ouverts du 15 mars au 15 novembre. Le prix d'une nuit en chambre simple est de 32 euros, une nuit en chambre double vous coûtera 40 euros. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

47 De l'extraction d'information aux métadonnées relationnelles
Méthode ad-hoc, dépend de la tâche d’annotation à réaliser Définition du concept maître Création des instances du concept maître Rattachement de toutes les autres instances à l’instance-maître Par typage Par proximité Par remplissage Règles ad-hoc d’aggrégation d’attributs 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

48 Annotations et métadonnées - Gaëlle Hignette
MnM Instances et attributs, mais pas de relations entre instances Interface graphique simple Apprentissage via Amilcare Lien direct entre information extraite et attributs Correction manuelle 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

49 Annotations et métadonnées - Gaëlle Hignette
MnM: screenshot 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

50 Annotations et métadonnées - Gaëlle Hignette
Melita Fonctionne sur le même principe que MnM Permet de régler le degré d’intrusion de l’automatique par rapport au manuel 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

51 Annotations et métadonnées - Gaëlle Hignette
Melita: screenshot 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

52 Annotations et métadonnées - Gaëlle Hignette
Plan du cours Annotations et métadonnées, définitions Annotation manuelle Annotation semi-automatique Annotation non supervisée Utilisation de la redondance sur le web Annotation de tableaux de données Références 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

53 Annotations et métadonnées - Gaëlle Hignette
Armadillo: principe Basé sur la redondance de l’information sur le web Reconnaissance des instances d’une classe ambiguë grâce à sa sur-classe et les classes en relation exemple: classe recherchée = Universitaire sur-classe = Personne, facile à trouver grâce aux systèmes d’extraction d’entités nommées classes en relation: Université (relation Travaille dans), Article (relation Ecrit par) définition: Universitaire = Personne qui Travaille dans une Université, avec au moins un Article Ecrit par cette Personne Armadillo: à donner en papier à travailler 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

54 Armadillo: fonctionnement
Point de départ: « oracle » i.e. données certaines sur une classe source, en relation avec la classe à annoter (ex. liste des universités) Identification des candidats: instances de la sur-classe en lien avec la classe source (ex. personnes dans les pages d’une université) Classification des candidats par utilisation des autres classes liées (ex. sites bibliographiques) 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

55 Annotations et métadonnées - Gaëlle Hignette
KnowItAll Motifs linguistiques d’extraction indépendants du domaine ex: <GNClass> « such as » <GNList> great cities such as Paris, London or Berlin philosophers such as Socrates and Platon Possibilité d’évaluer la confiance dans les motifs sur une base d’exemples Augmentation de la couverture en réutilisant les données extraites par ces motifs 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

56 KnowItAll: augmentation de la couverture
Par apprentissage de motifs d’extraction spécifiques au domaine Par extraction des sous-classes scientists such as mathematicians, physicists and chemists philiosophical mathematicians such as Leibniz and Lambert Par extraction de listes 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

57 Annotations et métadonnées - Gaëlle Hignette
Plan du cours Annotations et métadonnées, définitions Annotation manuelle Annotation semi-automatique Annotation non supervisée Utilisation de la redondance sur le web Annotation de tableaux de données Références 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

58 Annotation de tableaux dans @WEB
Annotation de tableaux de données Ressources: une ontologie du domaine des tableaux à annoter But de l’annotation: Recherche des relations sémantiques représentées par le tableau Rapprochement des valeurs symboliques du tableau avec les termes de l’ontologie 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

59 Prérequis: l’ontologie
types symboliques micro- organismes produits alimentaires Escherichia E. coli E. coli O157 Bacillus B. cereus pathogen UHT milk pasteurized milk milk pasteurized UHT milk relations etc... pH: pas d’unités, [0,14] Temperature: °C ou °F, pas d’intervalle de valeurs 06/11/2008 types numériques

60 Example de tableau à annoter
titres de colonnes Microorganism Minimum Growth Temperature Maximum Growth Temperature Bacillus cereus 5°C 55°C Enterotoxigenic Escherichia coli 7°C 46°C relations sémantiques colonne symbolique colonnes numériques 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

61 Etapes de l’annotation d’un tableau
Distinction entre colonnes symboliques et numériques Calcul des scores de similarité entre termes de l’ontologie et termes issus du web Reconnaissance du type des colonnes symboliques Reconnaissance du type des colonnes numériques Reconnaissance des relations représentées par le tableau Instanciation des relations pour chaque ligne du tableau 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

62 Etape 1: Reconnaissance des colonnes numériques et symboliques
Sur chaque cellule, compter le nombre d’indices numérique sûr: nombre en notation scientifique ou nombre suivi d’une unité indice numérique: nombre ou unité indice symbolique: mot qui n’est ni une unité ni un indicateur de résulat absent Déterminer le type de la cellule numérique si la cellule contient au moins un numérique sûr ou plus d’indices numériques que d’indices symboliques Déterminer le type de la colonne numérique si au moins la moitié des cellules sont numériques 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

63 Annotations et métadonnées - Gaëlle Hignette
Etape 1: exemple Products Samples tested Positive for Campylobacter (%) Year Reference Chilled chicken 22 68.2 1984 Gill and Harris, 1984 Chicken products 1320 (approx – not specified) 0.07 1992/1994 Campbell and Gilbert, 1995 symb. num. num. num. symb. symb. inconnu num. num. symb. symb. num. num. num. symb. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

64 Etape 2: Annotation de termes du web par des termes de l’ontologie
Quels termes de l’ontologie représentent le mieux le terme du web? => calcul d’un score de similarité entre le terme du web et chacun des termes de l’ontologie Les termes sont transformés en vecteurs pondérés Les axes de coordonées représentent l’ensemble de tous les mots lemmatisés possibles Les valeurs des coordonnées représentent le poids de chaque mot dans le terme termes de l’ontologie: poids défini manuellement termes du web: poids de 1 sur chaque mot Mesure de similarité = cosinus de l’angle entre deux vecteurs What is the meaning of two comparable values (with the meaning of the « kind of » relation) with a different preference degree ? Can the hierarchical structure be used to enlarge the user’s query in case of empty or lack of answers ? 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

65 Etape 2: exemple sur un nom d’aliment
coordonnées terme mince beef poultry ground WEB: minced beef 1 ONTOLOGY: minced poultry 0.2 ONTOLOGY: ground beef similarité entre « minced beef » et « minced poultry » : similarité entre « minced beef » et « ground beef »: What is the meaning of two comparable values (with the meaning of the « kind of » relation) with a different preference degree ? Can the hierarchical structure be used to enlarge the user’s query in case of empty or lack of answers ? 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

66 Etape 3a: Reconnaissance du type d’une colonne symbolique: score de contenu
similarités Sommes des similarités aliment : 0.6 Minced beef Chorizo (low-acid fermented sausage) Smoked salmon minced poultry: 0.1 ground beef: 0.5 microorganisme: 0.0 ALIMENT fermented milk: 0.3 smoked sausage: 0.4 dried sausage: 0.4 fresh sausage: 0.4 aliment : 1.5 lactic acid bacteria: 0.3 microorganisme: 0.3 ALIMENT lactic 1, acid 1, bacteria 0.2 fermented 1, milk 1 smoked 0.2, sausage 1 smoked sausage : 0.1 smoked salmon: 1.0 smoked fish: 0.1 aliment : 1.2 microorganisme: 0.0 ALIMENT Pour la colonne: scorecontenu(aliment)=3/3, scorecontenu(microorganisme)=0/3

67 Annotations et métadonnées - Gaëlle Hignette
Etape 3a: Reconnaissance du type d’une colonne symbolique: choix du type Calcul de scoretitre , score d’un type d’après le titre de la colonne = similarité entre titre de la colonne et nom du type Calcul du score final: scorefinal = 1 – (1-scorecontenu)(1-scoretitre) Choix du type de meilleur score pour la colonne (au moins x% supérieur au deuxième meilleur) 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

68 Etape 3 b: Reconnaissance du type d’une colonne numérique
Repérage des unités Types possibles selon les unités Types possibles selon le titre fait partie d’un couple nombre-unité dans le titre °C D-reduction at 50°C 10 min 30 sec 15 min 0.5 D value : 0.5 D value : 0.5 min 0.5 0.5 D 1, reduction 1, at 50°C pas pris en compte D 1, value 0.2 storage time : 0.5 sec 0.5 Pour la colonne, score(type)=1-(1-scoreunité(type))(1-scoretitre(type)) si les valeurs dans la colonne sont compatibles score(D value) = 1 - (1-0.5)(1-0.5) = 0.75 score(storage time) = 1- (1-0.5)(1-0) = 0.5

69 Etape 4: reconnaissance des relations - exemple
Table 2: Conditions of growth for Clostridium botulinum Strain Min pH Max pH Min temperature Max temperature ATCC 3502 5 10 10°C 40°C NCIB 4270 5.2 10.5 3.3°C 35°C inconnu pH pH Temperature Temperature Chercher les relations de l’ontologie dont le type résultat a été reconnu parmi les colonnes du tableau 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

70 Etape 4: exemple (suite)
Relation du web: Conditions of growth for Clostridium botulinum Inconnu pH Temperature Relations de l’ontologie: Relation Signature Score sur les colonnes Score sur le titre Score final Growth parameter - pH pH Microorganism 1/2 0.35 0.68 Product property - pH pH Food product 0.5 Growth parameter - Temperature Temperature Microorganism 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

71 Etape 5: instanciation des relations
Annotation sous forme de sous-ensembles flous Sous-ensemble classique: chaque élément x de l’ensemble de définition appartient ou n’appartient pas au sous-ensemble Sous-ensemble flou: chaque élément x de l’ensemble de définition appartient au sous-ensemble avec un degré d’appartenance m(x) compris entre 0 et 1 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

72 Etape 5a: instanciation des symboliques
Toutes les correspondances trouvées sont conservées à condition qu’elles correspondent au type de la colonne Sémantique de similarité cooked turkey : 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

73 Etape 5b: instanciation des numériques
Rassemblement de toutes les colonnes contenant le même type Sémantique d’optimalité Sémantique d’imprécision 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

74 Annotations et métadonnées - Gaëlle Hignette
Etape 5b: optimalité Définit une plage d’acceptabilité et une plage d’optimalité reconnaissance de mots-clefs dans les titres de colonnes (Minimum, Maximum, Optimum) Exemple Species pH Min pH Opt pH Max Bacillus cereus 5 6 - 7 8.8 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

75 Annotations et métadonnées - Gaëlle Hignette
Etape 5b: imprécision Sémantique par défaut si aucune sémantique d’optimalité n’a été trouvée intervalle dans une cellule – expression régulière moyenne+écart-type dans une cellule – expression régulière moyenne+écart-type dans deux colonnes – mot clef valeur précise 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

76 Annotations et métadonnées - Gaëlle Hignette
Plan du cours Annotations et métadonnées, définitions Annotation manuelle Annotation semi-automatique Annotation non supervisée Références 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

77 Annotations et métadonnées - Gaëlle Hignette
Références Cadixe: Le projet Caderige, Catégorisation Automatique de Documents pour l'Extraction de Réseaux d'Interactions GEniques CREAM: S. Handschuh , S. Staab , R. Studer. Leveraging metadata creation for the Semantic Web with CREAM. KI ' Advances in Artificial Intelligence. Proc. of the Annual German Conference on AI, R. Kruse et al., Springer, Berlin, SEP 2003 LIXTO: R. Baumgartner, O. Frölich, G. Gottlob, P. Harz, M. Herzog, P. Lehmann. Web Data Extraction for Business Intelligence: the Lixto Approach . BTW 2005. Annotea: J. Kahan, M. Koivunen, E. Prud'Hommeaux, and R. Swick. Annotea: An Open RDF Infrastructure for Shared Web Annotations. In Proc. of the WWW10 International Conference. Hong Kong, 2001. BWI: D. Freitag and N. Kushmerick. Boosted wrapper induction. In Proc. of the 17th National Conference on Artificial Intelligence AAAI-2000, pages , 2000. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

78 Annotations et métadonnées - Gaëlle Hignette
Références (2) (LP)2: Fabio Ciravegna. (LP)2, Rule Induction for Information Extraction using Linguistic Constraints. Technical Report no CS-03-07, University of Sheffield, September 2003 SemTag: Stephen Dill, Nadav Eiron, David Gibson, Daniel Gruhl, Ramanathan Guha, Anant Jhingran, Tapas Kanungo, Sridhar Rajagopalan, Andrew Tomkins, John Tomlin, Jason Zien. SemTag and Seeker: Bootstrapping the semantic web via automated semantic annotation , WWW2003 MnM: M. Vargas-Vera, E. Motta, J. Domingue, M. Lanzoni, A. Stutt, F. Ciravegna. MnM: Ontology Driven Semi-Automatic and Automatic Support for Semantic Markup. The 13th International Conference on Knowledge Engineering and Management (EKAW 2002), ed Gomez-Perez, A., Springer Verlag, 2002 Melita: Fabio Ciravegna, Alexiei Dingli, Daniela Petrelli and Yorick Wilks : User-System Cooperation in Document Annotation based on Information Extraction The 13th International Conference on Knowledge Engineering and Management (EKAW 2002), ed Gomez-Perez, A., Springer Verlag, 2002 06/11/2008 Annotations et métadonnées - Gaëlle Hignette

79 Annotations et métadonnées - Gaëlle Hignette
Références (3) Armadillo: Norton, B., Chapman, S., & Ciravegna, F. (2005). The Semantic Web : Research and Applications, chapter Orchestration of Semantic Web Services for Large-Scale Document Annotation, (pp. 649–663). Springer. KnowItAll: Etzioni, Cafarella, Downey, Popescu, Shaked, Soderland, Weld, & Yates (2005). Unsupervised named-entity extraction from the web : an experimental study. Artificial Intelligence,165(1), 91–134. 06/11/2008 Annotations et métadonnées - Gaëlle Hignette


Télécharger ppt "Annotation et métadonnées"

Présentations similaires


Annonces Google