3. Spécifications fonctionnelles

Slides:



Advertisements
Présentations similaires
UTILISATION DE LAPPLICATION e-SIN La restitution des données.
Advertisements

RAS 3,1 Modéliser des situations à l’aide de relations et les utiliser afin de résoudre des problèmes avec et sans l’aide de technologie.
I’m going to talk about myself. (Je vais me présenter.)
Description du format xml utilisé pour limport de thesaurus.
Crepuq- Atelier sur les données numériques La documentation sur les données Une définition –les données sur les données –informations sur l enquête –informations.
DTD Sylvain Salvati
Le tableur Le tableur.
1 Jean-Paul Stromboni, mars 2005, Révision des cinq premières séances S.S.I. Jean-Paul Stromboni, mars 2005, ESSI1 Elève : ______________________ groupe.
1 Jean-Paul Stromboni, mars 2005, Révision des cinq premières séances S.S.I. Jean-Paul Stromboni, mars 2005, ESSI1 Elève : ______________________ groupe.
Scenari-Plateform Module Audio / Ircam Développé par Paul Rouget
Story-board version 1.1 Statut : à valider Rédacteur : Nicole Djuissi
Chapitre 5. Description numérique d’une variable statistique.
JXDVDTEK – Une DVDthèque en Java et XML
Formation Technique 6èmepartie.
Recherche par thésaurus sur BCDI 2.07
Organisation et Management de projet
Logiciel documentaire
R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)
TP 3-4 BD21.
Formulaire HTML Introduction. Définition de formulaire.
Bienvenue à la démonstration de Cisco WebExTM Meeting Center
CREATION DE FEUILLE DE STYLE pour structuré le document XML
Interface Homme Machine IHM Pro
La balise <FORM>:
Le menu démarrer Le menu Démarrer de Windows 7 est le point de départ des différentes actions que vous pouvez entreprendre depuis Windows. Ce menu vous.
Page 1 Introduction à ATEasy 3.0 Page 2 Quest ce quATEasy 3.0? n Ensemble de développement très simple demploi n Conçu pour développer des bancs de test.
Vue générale de Sharpdesk
Thème 5 (suite) : le développement des échelles de mesure
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
Étape 1 : appropriation du cahier des charges
28 novembre 2012 Grégory Petit
1- Qu’est-ce que le thésaurus ?
Français III 4.A. Depuis quand (since when) Quand une action a commencé dans le passé mais qui se passe maintenant. Ex. Depuis quand es-tu prof? Je suis.
MODELE RELATIONNEL concept mathématique de relation
La problématique de la recherche de document Journée de formation 29 février 2008.
Xpath XML Path language par Yves Bekkers
Fast and Furious Decision Tree Induction
Manipulation de formulaires en Javascript
1 GPA435 Systèmes dexploitation et programmation de système Copyright, 2000 © Tony Wong, Ph.D. Chapitre 9 Programmation nawk(1)
Rechercher des documents avec BCDI
Dépannage du 12 mars 2007.
Fonction vs Relation.
Copyright © Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire Les SGBD textuels.
Chapitre 3 Les bibliothèques de balises JSP et la JSTL
Soit la fonction f (x) = x2 + 1
Analyse d’une séance de remédiation sur les consignes
Guillaume TORRENTE Marc BOUISSOU Recherche & Développement
Simplification de fractions rationnelles
XML-schema. Pourquoi XML-schema Les DTD : Pas de typage, peu de contraintes sur les contenus nombre d'apparitions d'un élément à choisir entre 0 et 1.
PROGRAMMATION INFORMATIQUE D’INGÉNIERIE II PRO-1024.
XPath XML Path UP Web Année universitaire
COURS STATISTIQUE - DESCRIPTIVE DEFINITIONS
PROGRAMMATION INFORMATIQUE D’INGÉNIERIE II
Programmation Web : Schémas XSD Jérôme CUTRONA 19:27:07 Programmation Web
Fast and Furious Decision Tree Induction
Fast and Furious Decision Tree Induction Projet 4INFO 1 Andra BLAJ Nicolas DESFEUX Emeline ESCOLIVET Simon MANDEMENT Renaud PHILIPPE Gareth THIVEUX Encadreurs.
Copyright © 2005 Yves MARCOUX1 Concepts XML de base Yves MARCOUX EBSI - Université de Montréal.
Heg Haute école de gestion de Neuchâtel 24/11/00Cahier théorique 02 V1-01 Prise en main (2) Création et gestion d'une association.
Statistiques Séance 7 – 23 nov 2005 Master SDL N. Yamaguchi.
Modélisation des documents: DTD et Schéma
L T I Laboratoire de Téléinformatique 2 Projet de semestre Parseur XML basé sur la DTD : Buts –Utiliser la grammaire définissant un type de fichiers XML.
Comprendre le SGBDR Microsoft Access – partie 2
Visualisation de données complexes en 3D Projet d'algorithmique et de Langage C Auteurs: Jonathan Courtois Pierre Tanguy Encadrant: Mohammed Haouach
Systèmes d'information décisionnels
Évaluation – Panorama 9 Concepts à l’étude. Unité 9.1 Connaître le vocabulaire algébrique :  Coefficient  Terme  Terme constant  Termes semblables.
Bus de terrain Can Open.
Master 1 SIGLIS Java Lecteur Stéphane Tallard Correction du TD Chapitre 3.
A la découverte d’Excel Certificat Informatique et Internet.
CHAPITRE 2 LES SITUATIONS FONCTIONNELLES
Nouveaux éléments des formulaires dans HTML5 Ref:
Transcription de la présentation:

3. Spécifications fonctionnelles

Spécifications fonctionnelles Données en entrée 3 types de descripteurs: discrete : données faisant partie d’une liste prédéfinie (ex: « oui », « non », « peut être »); continuous : valeurs numériques ordonnées (ex : IMC); text : phrases ou expressions; « Fast and Furious Decision Tree Induction » est une application générique qui doit pouvoir traiter des données issues de divers domaines (bioinformatique, ensemble de textes, etc.). C’est pourquoi nous allons développer afin de pouvoir traiter trois types d’attributs différents: – discrete : ce qui signifie que les données présentes dans cette colonne devront forcément faire partie d’une liste prédéfinie (ex : oui, non, je ne sais pas), – continuous : valeurs numériques ordonnées (par exemple, dans notre base médicale : l’IMC), – text : ce qui veut dire que les informations présentes dans ces colonnes sont des phrases, des expressions (par exemple : « merci NCMS joël PRENOM collado NPI »est une expression que l’on peut être amené à rencontrer.

Spécifications fonctionnelles Fichiers en entrée 2 fichiers en entrée: .names : la liste des annotations possibles une description du contenu du fichier de données une description du type des descripteurs ou des attributs .data : les données et les annotations associées Grippe, Rhume. age : continuous : ignore. boutons : discrete : cutoff = 15. imc : continuous. L’application recevra les données en entrée sous forme de deux fichiers. Un fichier « .data » contiendra les données et les annotations associées et un fichier « .names » détiendra la liste des annotations possibles et une description du contenu du fichier de données, du type des descripteurs ou des attributs. Nous allons donc décrire plus précisément le contenu de ces deux fichiers. Dans le fichier « .names », la première ligne correspond à la liste de l’ensemble des annotations que l’on peut trouver dans la base de données. Comme dans le premier fichier, chaque annotation est séparée par une virgule et la liste se finit par un point. Nous pourrons trouver ensuite, dans le fichier, une description des colonnes (type, caractéristique). nom_colonne : type_colonne : options_facultatives Le fichier « .data » contient l’ensemble des exemples que l’on veut fournir à l’application. Dans le fichier .data, chaque ligne représente un exemple. (ex: un ligne se décompose de la façon suivante : Age, toux, maux de tête, IMC 1, diagnostic) Les caractéristiques (dans un ordre précis) et l’annotation (unique, et toujours en fin de ligne), sont séparés par des virgules. Un point en fin de ligne permet d’indiquer le fin de l’exemple. Cette syntaxe particulière est importante pour permettre une bonne lecture du fichier en entrée. En effet, l’ordre des caractéristiques, leur type, et leurs particularités sont décrites dans le fichier « .names », il est donc important que le fichier « .data » soit correctement renseigné, afin que chaque colonne puisse être correctement identifiée. 52, Oui, Oui, 25, Grippe. 45, Oui, Non, 28, Rhume. 28, Non, Non, 20, Rhume.

Spécifications fonctionnelles Génération des questions type discrete : 1 question par valeur de l’attribut. type continuous : pour une valeur donnée de l’attribut, la question cherche à déterminer combien d’exemples ont une valeur supérieur ou inférieure à celle-ci. type text : 3 paramètres pris en compte expert_length : nombre de mots à rechercher expert_type : F-gram, S-gram, N-gram expert_level : 3 niveaux de recherche Pour les descripteurs de type discrete, nous générons à partir des exemples, toutes les questions sur la valeur de l’attribut. Pour les descripteurs de type continuous, nous sélectionnons tous les exemples dont l’attribut testé est supérieur ou inférieur à une valeur donnée (ou calculée). Pour les descripteurs de type text, trois paramètres doivent être pris en compte lors de la génération des questions posées par la méthode des arbres de décision : – expert_length : le nombre de mots à dans l’expression à rechercher (ex : parti socialiste = 2 mots). On parle souvent d’expression de longueur N (N étant le nombre de mot), – expert_type : le type de recherche : – F-gram (Full word-grams of maximal length only) : recherche des expressions d’exactement N mots consécutifs (et pas moins, contrairement à N-gram), – N-gram (all full word-grams up to a maximal length) : recherche dans un premier temps, tous les mots un par un de l’expression, puis tous les couples de mots consécutifs et ainsi de suite jusqu’à constituer des ensembles de N (défini précédemment) mots consécutifs, – S-gram (all Sparse word-grams up to a maximal length) : recherche Ngram + recherche des expressions de trois à N mots consécutifs où un ou plusieurs des mots est remplacé par un « blanc » (un mot quelconque). – expert_level : le niveau de recherche : Il existe généralement plusieurs niveaux de recherche. Ils dépendent du type de texte que l’on a, et de la précision de recherche que l’on veut obtenir (par exemple, si on cherche un verbe, est-il important qu’il soit conjugué ?). On peut définir par exemple 3 niveaux. – niveau 1 : recherche des mots exacts dans le texte (ex : "Un incendie s’est déclaré à Paris") – niveau 2 : recherche des natures et fonctions des mots (ex : "Un NOM COMMUN s’est déclaré à VILLE") – niveau 3 : recherche des radicaux des mots, verbes ou noms (ex : "Un incendie s’ETRE DECLARER à Paris")

Spécifications fonctionnelles Données en sortie Format xml Visualisation graphique <? xml v e r s i on =" 1 . 0 " e n c o d i n g ="UTF-8" ?> <Tree> <Node id =" 1 "> <Result . . . > < !-- compte-rendu des etiquettes . --> <Result number=“1" name=“grippe" percentage=“50" / > < !– Exemple de resultat --> <Question . . >+ < !-- question qui a amenee a la creation de ce noeud --> <Question column=" Fumeur " value=“oui" e n t r o p y =" 1 " nbOcuurence=" 12 "> < !-- Exemple de question --> <TrueNode id="2" / > <!– noeud où la réponse à la question est “oui” --> <Result...> <Question...> <FalseNode id="3" / > <!-- noeud où la réponse à la question est “non”--> </Node> </Tree> Notre application doit être capable de générer un fichier de sortie utilisable. L’objectif est de rendre un fichier que l’utilisateur pourra consulter : avoir une vision de ce qu’est l’arbre, et pouvoir l’interroger (lui fournir les caractéristiques, et avoir l’étiquette la plus probable). Nous avons donc choisi de représenter notre arbre de décision sous forme d’un fichier XML, format qui nous permettra de définir facilement la structure de nos arbres, créant ainsi un fichier lisible décrivant les résultats et les probabilités d’obtenir ce résultat. Le XML nous permettra d’obtenir en sortie un fichier qui n’est pas « opaque » donc facilement analysable, et surtout utilisable en dehors de l’application. De plus, c’est un format très répandu et utilisé, et donc probablement mieux reconnu et compris par les utilisateurs, et pour lequel il existe beaucoup d’outils. Pour pouvoir naviguer dans l ’arbre, on utilise un id associe a chaque Noeud de l ’arbre.