Fast and Furious Decision Tree Induction Projet 4INFO 1 Andra BLAJ Nicolas DESFEUX Emeline ESCOLIVET Simon MANDEMENT Renaud PHILIPPE Gareth THIVEUX Encadreurs.

Slides:



Advertisements
Présentations similaires
LA QUALITE LOGICIELLE Plan du cours La modélisation d’activité 1 h ½
Advertisements

Simulation de flux de personnes dans un parc d’attraction
Le projet HEI 3 – Décembre 2005.
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Classification et prédiction
Etude du cas de la motorisation hybride
CH-IV. L’ORADONNANCEMENT
Sujet BL1 : Simulateur de comportement réactif Bernard Clément Barelli Nicolas Maitrehut Loïc Ould Sidina Mahi Encadrant : Mr Michel Buffa.
Planning et suivi de projet
La construction d ’un réseau PERT
Equipe optimisation TempoSoft
Organisation de chantier
Évaluer pour faire apprendre dans une approche par compétences
LES AUTRES MÉTHODES D’ORDONNANCEMENT
MIAGE MASTER 1 Cours de gestion de projet
Apprentissage du jeu de morpion
Un outil du parcours individualisé
Etude des Technologies du Web services
Gestion et Suivi d’un projet axés sur les résultats
Aide à la décision et à la négociation dans un problème de gestion de production distribuée Jean-Pierre Camalot et Patrick Esquirol LAAS-CNRS 7, avenue.
Étude sciences de gestion
Parcours de formation SIN-7
Oral de la partie pratique Bac STMG
Le Travail Collaboratif ...
Module 6 : Gestion de données à l'aide du système de fichiers NTFS
La conduite du projet DIERE
2nd Pro Maintenance des Véhicules Automobiles
La problématique de la recherche de document Journée de formation 29 février 2008.
Fast and Furious Decision Tree Induction
Fast and Furious Decision Tree Induction
Fast and Furious Decision Tree Induction Soutenance de planification
3. Spécifications fonctionnelles
Présentation du mémoire
Gestion de Fichiers Tri Interne Efficace et Tri Externe.
Module 5 : Publication de ressources dans Active Directory
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Standard Template Library
GPA750 – Gestion de Projets
Gestion de Projet © GlobalProd’.
La technologie en 3ème avec Rob’OK Au collège République Bobigny
GESTION DES UTILISATEURS ET DES GROUPES
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
Arbres binaires et tables de hachage
Fast and Furious Decision Tree Induction
L’Analyse Modulaire des Systèmes
Apprentissage d'EFSA initiale du PAM Session 1.4. Développement du plan d’analyse de l'EFSA initiale.
1 : Le nom du fichier contenant les métadonnées. 2 : Affichage des données du programme (Varie selon le mode – lecture/saisie). 3 : Application de filtres.
Tutorat en bio-informatique Le 14 novembre Au programme… Les objets –Propriétés (attributs) –Constructeurs –Méthodes.
Projet Pluritechnique Encadré
EPOSTL 1. 2 Les origines du PEPELF EPOSTL 3 4 Intentions du projet Fixer des objectifs à la formation des enseignants  compétences-clés Formuler des.
SOMMAIRE 1Informations sur le projet 2Descriptif de MAETIC 3Technique de gestion de projet 4Savoir faire acquis et conclusion.
L T I Laboratoire de Téléinformatique 2 Projet de semestre Parseur XML basé sur la DTD : Buts –Utiliser la grammaire définissant un type de fichiers XML.
Victor Victor Sabourin Marie Sévilla Fraysse Pauline They
Thème du projet: Noël franco-hispano-germanique Faire ensemble: Niveau : 5èmes – 4èmes.
Visualisation de données complexes en 3D Projet d'algorithmique et de Langage C Auteurs: Jonathan Courtois Pierre Tanguy Encadrant: Mohammed Haouach
Nouvelles Technologies Internet & Mobile
Visualisation des flots optiques en 3D
 SAP AG 2003 Alertes et autorisations Gestion des alertes Procédures d'autorisation Contenu :
POIRIER Kévin (Chef de projet) HUCHEDÉ Cédric BEUTIER Kévin LEBRUN Jérémy BESNIER Richard Simulation de décisions de Jury 1.
LA PROCÉDURE.
© Copyright-CNP-EFII-Paris-1998
Vous présente en quelques réalisations un réel savoir-faire, le fruit de longues années d’expériences, aujourd’hui à votre service. Toutes les fonctionnalités.
Victor Sabourin Marie Sévilla Fraysse Pauline They Mathieu Vayssières
System de recommandations
CHAPITRE 2 LES SITUATIONS FONCTIONNELLES
Algorithmes parallèles
LES OUTILS DE GESTION DE PROJET
131, rue de Créqui, Lyon 6ème « L’organisation est une machine à maximiser les forces humaines» - Peter Drucker (économiste )
Vous présente en quelques réalisations un réel savoir-faire, le fruit de longues années d’expériences, aujourd’hui à votre service. Toutes les fonctionnalités.
Réaliser un projet tuteuré!!!!!
Transcription de la présentation:

Fast and Furious Decision Tree Induction Projet 4INFO 1 Andra BLAJ Nicolas DESFEUX Emeline ESCOLIVET Simon MANDEMENT Renaud PHILIPPE Gareth THIVEUX Encadreurs : Nikolaos PARLAVANTZAS Christian RAYMOND le 17/12/10 INSA Rennes

Fast and Furious Decision Tree Induction 1.Contexte 2.Technologies utilisées lors du projet 1.Apprentissage automatique 2.Arbres de décision 3.Map-Reduce 4.Hadoop 3.Spécifications fonctionnelles 1.Données présentes en entrée 2.Données en sortie 3.Arbres de décision dans l’application 4.Parallélisation 4.Planification initiale 5.Conclusion 2/29

1. Contexte 3/29

Contexte (1) Origines du projet Projet lié aux activités de recherche de l’IRISA. Équipe Texmex: exploitation de documents multimédia. Équipe Myriads: développement et administration de systèmes distribués à large échelle. 4/29

Contexte (2) Objectifs Développer un algorithme capable de faire de l’apprentissage automatique. Créer des arbres aidant à la décision. Réduire le temps d’exécution. Généraliser le fonctionnement pour l’adapter à plusieurs domaines. 5/29

2. Technologies utilisées lors du projet 6/29

Technologies utilisées (1) Discipline dans laquelle un outil est capable d’apprendre par lui-même à partir d’une base de données d’exemples. Forme d’intelligence artificielle. Apprentissage Automatique Définition - Fonctionnement 7/29

Technologies utilisées (2) Arbres de décisions 8/29 Tableau de données AgeBoutonsIMCObservationsDiagnostic 25OUI19Mal à la têteRhume 46NON26TousseRhume 37NON17.9FièvreGrippe 68OUI22 Plaques dans le dos Eczéma 51NON35 Plaques dans le dos Eczéma 18OUI17FièvreGrippe

Technologies utilisées (3) Arbre construit à partir du tableau de données 9/29

Technologies utilisées (4) 10/29 Arbres de décisions Algorithme aisément parallélisable au niveau des calculs: – Au niveau des nœuds – Au niveau des questions Nécessité d’utiliser un modèle de parallélisation: MapReduce.

Technologies utilisées (5) Opération exécutée en parallèle – Chaque nœud travaille indépendamment des autres, sur une partie du fichier d’entrée. Traitement différent selon le type: Discrète, Continue ou Texte. MapReduce Partie Map 11/29

Technologies utilisées (6) Partitionnement des données. Multiprocessus. Nœuds esclaves font remonter l'information. Groupement des couples ayant la même clé. Le nœud origine peut, à la fin de l'opération Reduce, donner une réponse. MapReduce Partie Reduce 12/29

Technologies utilisées (7) Projet libre qui permet une implémentation de MapReduce. Un nœud maître et des nœuds esclaves. Fractionnement du traitement sur différentes machines. Hadoop 13/29

Technologies utilisées (8) Système de fichiers distribué propre à Hadoop. Répartition des données entre les Datanodes. Assignation des tâches aux nœuds esclaves. Retour du résultat au nœud maître. Hadoop 14/29

Parallélisation Fichier d’entrée: 1. savoir être et 2. savoir faire 3. sans faire savoir Exemple de fonctionnement de MapReduce, pour compter les occurrences de mots dans un texte. 15/29 Technologies utilisées (9)

Spécification importante du projet → réduire le temps de construction des questions et du parcours de l’arbre. Solution envisagée → utilisation d’un cluster de machines via Hadoop (de manière plug- and-play). Parallélisation – répartition de plusieurs "job" sur plusieurs machines connectées. 16/29 Technologies utilisées (10)

3. Spécifications fonctionnelles 17/29

Spécifications fonctionnelles (1) Données en entrée 18/29 3 types de descripteurs: – discrete : données faisant partie d’une liste prédéfinie (ex: « oui », « non », « peut être »); – continuous : valeurs numériques ordonnées (ex : IMC); – text : phrases ou expressions;

Spécifications fonctionnelles (2) 19/29 Fichiers en entrée 2 fichiers en entrée: - fichier descripteur: la liste des annotations possibles une description du contenu du fichier de données une description du type des descripteurs ou des attributs - fichier de données : les données et les annotations associées 25, Oui, 19, Mal à la tête, Rhume. 46, Non, 26, Tousse, Grippe. 37, Non, 17.9, Fièvre, Rhume. Grippe, Rhume. age : continuous : ignore. boutons : discrete : cutoff = 15. imc : continuous. observation : text.

Spécifications fonctionnelles (3) 20/29 Données en sortie + Format XML

Spécifications fonctionnelles (4) 21/29 Données en sortie Visualisation graphique

Spécifications fonctionnelles (5) 22/29

4. Planification initiale 23/29

Planification initiale (1) 24/29 Calendrier : - 7h par semaine - entre 25 et 28h en semaine de projet - ajout de semaines de congés (semaine de partiels, vacances de Noël …) Ressources : 6 personnes, ayant chacune la même charge, mais avec différentes responsabilités Détermination des tâches : 5 phases, chacune divisées entre 3 et 5 tâches, elles-mêmes découpées en sous-tâches et sous-sous-tâches Estimation des durées : - 1 re estimation basée sur le temps déjà passé sur les tâches - 2 ème estimation grâce au Planning Poker

Planification initiale (2) 25/29

Planification initiale (3) Analyse des risques : -Chemin critique à définir pour prévenir tout retard sur la date finale du projet -Prévenir le risque de la perte de données : SVN sur GoogleCode, Forge INSA, copies locales -Difficultés et éventuels problèmes techniques lors de la mise en place de la parallélisation, utilisation du cluster Hadoop, pannes de PC Suivi de planification : -Rectification et mise à jour du planning. -Affinage de la planification lors de la phase de construction. 26/30

Planification initiale (4) 27/30 Ce que nous avons réalisé : Lecture et analyse des fichiers d’entrée. Génération de tous les types de questions. Agrégation des réponses pour les questions discrètes et continues. Génération d’un fichier qui contient toutes les questions.

5. Conclusion 28/29

Conclusion 29/29 Fast and Furious Decision Tree Induction : Projet à l’origine d’équipes de l’IRISA. Création d’arbres aidant à la décision. Traitement des fichiers de données volumineux grâce à une parallélisation des calculs. Réussite et respect des délais « If you fail to plan then you plan to fail » => une bonne planification et un suivi régulier.