27 Janvier 2015 Représentation d’évènements et peuplement d’ontologie appliqués au domaine de la criminalistique informatique Yoan Chabota,b, Aurélie Bertauxa,

Slides:



Advertisements
Présentations similaires
ZOTERO logiciel de gestion bibliographique
Advertisements

1 1 Projet doption Réalité Virtuelle Simulation dun habitat domotisé Florent Renault Xiaoyu Gao Mercredi 27 mai 2009.
Koha - Greenstone Symposium Koha Miramas 28 mai 2010
Le langage de requêtes SPARQL SPARQL Protocol And RDF Query Language
Stage serveur web sémantique
Classe : …………… Nom : …………………………………… Date : ………………..
Utilisation ou copie interdites sans citation Rémi Bachelet – Ecole Centrale de Lille 1 CentraleWiki : fonctionnement Image : SourceSource École Centrale.
Conception d’une interface pour ordinateur de plongée
Projet de Base de Données Groupe Moteur encadré par Mr MAINGUENAUD KikiTeam – ASI3 – 19 / 06 / 2002 Soizic Geslin Minh Le Hoai Samy Fouilleux Maxime Chambreuil.
CPeyronnet | | Veille et recherche sur Internet : concepts, méthodologies, outils... 1 CvTic Veille et recherche sur Internet.
ACCESS Découverte.
1 DISIC Option Systèmes Intelligents / Données, Documents et Connaissances DISIC Option Systèmes Intelligents / Données, Documents et Connaissances.
Présentation du référentiel CAP « PRO Elec »
Travaux pratiques sur Nooj
Interface Homme Machine IHM Pro
Gestion de la communication par établissement sur le site ville
Utilisation du fil RSS du site du Master-Chimie d Aix-Marseille Université Tutoriel réalisé par Fabien.
Université Mouloud Mammeri de Tizi-Ouzou
PROJET HANDICAPS Certificat de Qualification Professionnelle
Formation Centra - GDE.
Comment détecter et éliminer
Romain Picot-Clémente – - Equipe de projet Checksem – Laboratoire Electronique Informatique et
Projet .NET : Projet GEn A4RIL
1 Bibdoc 37 – Regards croisés Bibliothèques virtuelles, usages réels 7 avril 2009 – Tours « Les usages des bibliothèques virtuelles » Jean-Philippe Accart.
Collecte de données en ligne
le profil UML en temps réel MARTE
Lycée Louis Vincent Séance 1
Le portail documentaire de Paris 1
OLAP : Un pas vers la navigation
Des outils pour le développement logiciel
Internet : la mémoire courte ? Capture de sites Web en ligne Conférence B.N.F, Avril 2004 Xavier Roche(HTTrack)
22 Intéropérabilité Silverlight & PHP Le 8 février 2010 GIACOPINO Cyril Directeur pôle technologie TEQUILARAPIDO.
Formation Centra sur les usages du TNI
WikiViz La visualisation dun réseau sémantique Travail de diplôme 2005 Urs Richle / 31 it.
Word Gabarit les étapes à suivre? C) Synthèse /rapport personnel (disponible sur votre site dans la site section travaux) et la version graphe finale.
Ecaterina Giacomini Pacurar
Web sémantique : Web de demain
SYSTEMES MIXTES MOBILES ET COLLABORATIFS
PhP-MySQL Pagora 2012/2013 CTD 1 - Presentation de moi ^^
Conception des Réalisé par : Nassim TIGUENITINE.
Introduction Evolution technologique –Puissance des machines –Réseau rapides (ADSL : 30 euros/mois) –Manipulation digitale de l'audio et de la vidéo Applications.
Rosa María Gómez de Regil Paris, 25 janvier 2011
Découverte de correspondances entre ontologies distribuées
Brevet Informatique et Internet
Soutenance finale 12 mars 2004 Présenté par : Alban HERMET
Veolia Consommateurs Contenu
Convertisseur OWL vers RDF/RDFS
1 Modèle pédagogique d’un système d’apprentissage (SA)
Introduction.
Le langage XHTML 420-S4W-GG Programmation Web Client
Conférence du groupe X- Environnement, 24 avril 2013 L’impact écologique des infrastructures numériques Cédric Gossart Institut Mines-Télécom Télécom Ecole.
1 Architecture orientée service SOA Architecture orientée service SOA (Service Oriented Architecture)
Application de gestion de candidatures
Travail de diplôme José Garrido Professeur : Philippe Freddi Explorer Internet en toute sécurité Surf Safe SPY INTERNET.
Outil de gestion des cartes grises
L’identité numérique : outil de bonne gouvernance
Approche Big Data et Web Sémantique pour la fouille et la classification automatique de données Web Ces travaux sont effectués dans le cadre d’un partenariat.
1 F o r m a t i o n A R S World Wide Web (WWW). 2 F o r m a t i o n A R S Contributions m Création: Claude Gross (UREC) m Modifications: Bernard Tuy,
1. 1.Présentation 2. 2.Recherche 3. 3.Création 4. 4.Elaboration 5. 5.Démonstration 6. 6.Conclusion Réalisation d’un site web pour l’association « Les passeurs.
FRANÇOIS-XAVIER PARÉ Bibliothécaire BUREAU DES SYSTÈMES 11 novembre 2009 L A BARRE D’OUTILS L IB X : L A RECHERCHE À UN CLIC Merci à Lucie Geoffroy et.
Sécurité et confidentialité dans Microsoft Internet Explorer William Keener Développement de contenu Global Service Automation Microsoft Corporation.
Tirer le meilleur parti d’Office /10/ Vincent Bippus IT/OIS 07 octobre 2014.
Approches Formelles en Systèmes d'information
Atelier technique SAS – 19 juin 2001
Soutenance ProJet Individuel
Réalisé par : Mr IRZIM Hédi Mr JRAD Firas
Formation ADBS – septembre 2014 – 1 Approfondir son expertise en recherche d'information 3-4 & 5 septembre 2014.
1TD Urbanisation des Systèmes d'information - le SI de la mission Mars Exploration Rover Les documents et les sections qui contiennent des informations.
Web sémantique est pratique documentaire
10 juin 2008 Journée Technologies et Enjeux de l'Apprentissage Mobile Equipe SIMBAD.
Transcription de la présentation:

27 Janvier 2015 Représentation d’évènements et peuplement d’ontologie appliqués au domaine de la criminalistique informatique Yoan Chabota,b, Aurélie Bertauxa, Christophe Nicollea and M-Tahar Kechadib yoan.chabot@checksem.fr a Equipe CheckSem, Laboratoire Le2i, Université de Bourgogne, Dijon, FRANCE b School of Computer Science & Informatics, University College Dublin, IRLANDE 1

Plan de la présentation Enoncé du problème Verrous Etat de l’art Reconstruction de scénarios Modèle pour la représentation d’évènements Limites de l’existant Connaissances génériques Traçabilité des informations Connaissances métiers Peuplement Chaîne d’extraction Exploitation de l’ontologie Exploitation des connaissances 4 parties : -Introduction du problème auquel on s’intéresse dans ces travaux : reconstruction de scénarios -Solutions existantes, mise en évidence des limites et présentation de notre solution : l’introduction d’une ontologie -Présentation des outils gravitant autour de l’ontologie pour mener à bien l’investigation -Conclusion Travaux futurs Contributions Conclusion 2

Conclusions de l’enquête Enoncé du problème Reconstruction de scénarios pour le domaine de la criminalistique informatique Traces Conclusions de l’enquête Chronologie Le domaine de la criminalistique informatique propose des méthodes visant à assister l’enquêteur durant une investigation numérique et à fournir à la justice des pièces à conviction afin de déterminer la culpabilité ou l’innocence de suspects. Nos travaux s’intéressent plus particulièrement au problème de la reconstruction de scénarios. La reconstruction de scénario est un processus dans lequel les enquêteurs collectent des traces dans une scène de crime dans le but de déterminer les évènements survenus durant un incident. En sortie de ce processus, les enquêteurs obtiennent une chronologie pouvant être analysées pour comprendre ce qu’il s’est passé et déterminer les responsabilités de chaque protagoniste de l’affaire. Objectif Déterminer le déroulement de l’incident (1) en respectant les exigences légales (2) 3

Scène de crime numérique Verrous Verrous techniques Scène de crime numérique Grands volumes de données Hétérogénéité La reconstruction de scénarios est un processus complexe soulevant plusieurs problèmes. Le premier d’entre eux est que les enquêteurs sont confrontés à de grandes quantité de données. Cela est dû à l’importance grandissante des technologies dans le quotidien. Cette grande quantité de données à traiter rend l’analyse complexe et fastidieuse. De plus, les informations étant éparpillées dans plusieurs sources à travers la scène de crime, la reconstruction de scénarios doit faire face à des problèmes d’hétérogénéité. Par exemple, des historiques de navigateur Web peuvent être utilisées pour obtenir des infos sur le comportement de l’utilisateur sur le net tandis que des informations provenant du dossier Prefetch de Windows peuvent être utilisées pour connaître quel logiciels ont été lancés sur la machine. Chacune de ces informations est préciseuse pour une enquête mais elles sont stockées de manière différente, avec des formats différents. Il y a également des verrous liés aux exigences légales. Pour produire des résultats admissibles dans une courte de justice, il est nécessaire de s’assurer que ces résultats respectent certains caractéristiques parmi lesquelles la crédibilité, la véracité, la précision et la reproducibilité des processus. Exigences légales Crédibilité Reproductibilité Véracité Précision 4

Etat de l’art ECF, FORE, Finite state machine approach, Zeitline, Neural networks appraoch, CyberForensic TimeLab, etc. log2timeline par Kristinn Gudjonsson Super-chronologies basées sur un grand nombre de sources de traces Journaux d’évènements Windows Historiques de navigateurs Web Journaux Apache Métadonnées de documents PDF Journaux de Firewall etc. Plusieurs approches de reconstruction de scénarios à partir de scènes de crimes sont proposées dans la littérature. Nous avons notamment étudié l’outil log2timeline développé par Kristinn Gudjonsson. Cet outil est utilisé pour construire des super chronologies (une chronologie tirant partie de plusieurs sources d’informations ,dans le cas de Plaso, journaux d’évènements Windows, historiques de navigateurs web, etc.) Nous avons choisi de nous intéresser plus spécifiquement à Plaso dans cette présentation car il s’agit de l’outil traitant la plus grande variété de sources d’informations. Cet outil est très efficace et peut traiter des grosses images disques en peu de temps. 5

Limites de l’existant 6 Contraintes : Automatisation des processus Complétude et sémantisation Consultation des informations Traçabilité Une fois ces deux commandes exécutées, nous obtenons un fichier contenant tous les évènements ayant pu être identifié à partir de l’image disque. Cela représente une quantité de données significative et non conviviale à la consultation. Une chronologie produite à l’aide de ces outils, à partir de l’image disque d’une machine ayant fonctionné environ trente minutes avec une utilisation standard, est composée d’environ 300 000 entrées. Cette quantité de données rend le travail d’analyse très laborieux. Les enquêteurs travaillent « manuellement » sur ce types de fichiers (e.g. grep, recherche par dates, etc.). Par conséquent, la question que nous posons dans nos travaux est « Comment rendre l’interprétation et l’analyse de la chronologie moins fastidieuse pour les enquêteurs? ». Quatre objectifs découlent de ce besoin : La nécessité de proposer des processus d’analyses automatiques capables de faire face aux volumes de données en présence. Le besoin d’avoir un modèle suffisamment complet afin de permettre une représentation précise des évènements passées. La possibilité pour les enquêteurs de consulter les informations de manière simple et intuitive. La traçabilité des informations afin de répondre aux exigences légales. 6

Approche Automatisation des processus Complétude du modèle Définition de la sémantique des données Inférence et analyse Complétude du modèle Expressivité des langages ontologiques OWL 2 RL Consultation des informations Outils d’interrogation Représentation sous forme de graphes La solution que nous proposons est l’utilisation d’une représentation des évènements plus avancée que le format textuel  modèle sémantiquement riche  ontologie. Cette ontologie permet de répondre aux quatre objectifs : -L’automatisation des processus : L’utilisation d’une ontologie implémentée en OWL 2 nous permet d’avoir recours à des processus d’inférence et d’analyse basée sur les systèmes de règles. On est ainsi en mesure d’aider l’enquêteur dans l’analyse de la chronologie. -La complétude du modèle : Cet objectif est atteint grâce à l’expressivité du langage OWL 2 RL. -L’utilisabilité du modèle : De part la facilité de présenter et d’accéder à des connaissances contenues dans une ontologie notamment via des représentations graphiques sous forme de graphe et des outils d’interrogation comme SPARQL. -La traçabilité des informations : Des informations sur les étapes de l’enquête et la manière dont chaque conclusion est trouvée sont mémorisées dans l’ontologie afin de donner du crédit aux conclusions (on est capable d’expliquer comment on a trouvé nos résultats) et de permettre la reproductibilité de ces derniers. Cette ontologie est utilisée pour traduire ces données brutes en un modèle formel permettant l’emploi de processus de raisonnement automatisé. Le fichier texte produit par Plaso est utilisé en entrée de notre approche pour alimenter notre modèle. Traçabilité des informations Représentation des activités d’investigation 7

Connaissances génériques Localisation Est localisé création utilisation Est daté Objet Evènement Temps modification suppression participe impacte La couche CKL est utilisée pour stocker des connaissances génériques sur les évènements. Son objectif est d’obtenir une représentation uniforme des évènements composant un incident afin de simplifier les tâches d’analyse en aval. Elle modélise notamment : -les évènements (tout évènement numérique survenant sur une machine) (Event) -des connaissances temporelles et la localisation de ces derniers -les protagonistes impliqués dans les évènements (Subject) -des informations sur les objets utilisés/modifiés/supprimés/créés par chaque évènement (Object) Sujet 8

Connaissances métiers Web Firefox Chrome Internet Explorer Opera Safari Windows Filestat Tâches planifiées Liens OLECF Corbeille Prefetch Registre Autres sources Google Drive Java IDX Skype Fichiers Exécutable Liens Archives Image PDF OLECF Comptes Windows Unix Skype Objets Web Page Web Ressource Web Marque page Cookie Site Web Préférence Formulaire Communication Message instantané SMS MMS Email Clés de registre Notre approche permet de collecter des informations à partir d’une multitude de sources données en haut de cette diapo. La couche SKL est utilisée pour stocker des connaissances spécialisées et dépendantes de chaque type de sources. Elle permet notamment de modéliser des connaissances techniques sur tout objet numérique pouvant être identifié dans une scène de crime numérique. Les informations techniques sur les évènements (adresses IP, chemin et métadonnées de fichiers, etc.) stockées dans cette couche sont des informations de valeur durant la phase d’analyse. 9

Tâche d’investigation Traçabilité des informations Localisation Est localisé Outil Utilise Tâche d’investigation Est daté Temps Contribue à Enquêteur Est supporté par Est identifié par La couche TKL stocke des informations sur la manière dont l’enquête est menée (e.g. participants, étapes de l’enquête, informations en entrée/sortie de chaque étape, etc.). L’objectif de cette couche est de satisfaire les exigences légales en assurant d’une part la reproductibilité des résultats via la mémorisation de chaque action et d’une autre part la crédibilité des résultats en conservant le cheminement et les données utilisées pour produire les résultats. Chaque tâche de l’enquête est utilisée pour augmenter la connaissance des enquêteurs sur les évènements survenus durant l’incident. Ainsi, chaque tâche de l’enquête est liée aux évènements ainsi qu’aux sujets et objets qu’elle a permis d’identifier. Pour certaines tâches, les enquêteurs doivent raisonner sur des informations déjà existantes pour produire de nouvelles connaissances. La propriété d’objet isSupportedBy modélise ce principe en liant les instances de InvestigativeOperation aux informations utilisées par celles-ci. Entité est un est un est un Sujet Evènement Objet 10

Tâche d’investigation Exemple Téléchargement d’un fichier distant à l’aide du navigateur Chrome : Technique type : Information Source Technique name : Extraction using log2timeline Source name : Google Chrome History log2timeline Tâche d’investigation intervalle2 utilise Est daté Est identifié par participe Est daté googleChrome Evènement intervalle1 Est localisé type : Chrome History subtype : Download of a file localisation utilise crée La couche TKL stocke des informations sur la manière dont l’enquête est menée (e.g. participants, étapes de l’enquête, informations en entrée/sortie de chaque étape, etc.). L’objectif de cette couche est de satisfaire les exigences légales en assurant d’une part la reproductibilité des résultats via la mémorisation de chaque action et d’une autre part la crédibilité des résultats en conservant le cheminement et les données utilisées pour produire les résultats. Chaque tâche de l’enquête est utilisée pour augmenter la connaissance des enquêteurs sur les évènements survenus durant l’incident. Ainsi, chaque tâche de l’enquête est liée aux évènements ainsi qu’aux sujets et objets qu’elle a permis d’identifier. Pour certaines tâches, les enquêteurs doivent raisonner sur des informations déjà existantes pour produire de nouvelles connaissances. La propriété d’objet isSupportedBy modélise ce principe en liant les instances de InvestigativeOperation aux informations utilisées par celles-ci. Ressource web Fichier exe size : 244336 url : https://download-installer.cdn.mozilla.net... size : 244336 path : C:\\Users\\User1\\Downloads\\Firefox Setup… 11

Opérateurs de consolidation Opérateurs d’extraction et de peuplement Ontologie et opérateurs Traces présentes sur la scène de l’incident Opérateurs de consolidation log2timeline Connexions de graphes Inférence à base de règles Ontologie Fichier CSV Opérateurs d’analyse Opérateurs d’extraction et de peuplement Corrélation d’évènements Identification d’actions illicites Résumé de chronologies Chronologie avancée Conclusions L’ontologie proposée est associée à des opérateurs permettant : -L’extraction des informations contenues dans la scène de crime et le peuplement de l’ontologie à partir des ces informations. -Des opérateurs d’inférences permettant de consolider les connaissances contenues dans l’ontologie en déduisant de nouvelles connaissances à partir des connaissances existantes. -Des opérateurs d’analyse utilisés pour tirer des conclusions en utilisant les connaissances contenues dans l’ontologie. En sortie de notre approche, nous sommes en mesure de proposer aux enquêteurs une chronologie enrichie avec des informations à propos des évènements, des ressources utilisés et des sujets impliqués dans chaque évènement. Dans les prochaines diapos, je vais présenter + dans le détail chaque type d’opérateurs. 12

Extraction et peuplement L’introduction de techniques d’extraction et de peuplement automatisées est primordiale pour permettre le traitement des grands volumes de données extraits lors d’une enquête. Le processus proposé dans notre approche est composé de trois étapes : -Extraction des informations à partir des images disques des machines saisies dans la scène de crime. Pour cela, on utilise l’outil log2timeline qui génère un fichier au format CSV (L’évènement extrait représente le téléchargement d’un fichier .exe à l’aide de Google Chrome) -Extraction des informations contenues dans le fichier CSV (certaines informations ne nécessitent pas de traitements, d’autres comme le champ description contiennent des informations multiples dépendant de la source d’information (Dans le cas de l’exemple, correspondant au téléchargement d’un fichier à l’aide de Google Chrome, on extrait du champ desc l’URL du fichier téléchargé et le chemin local utilisé pour son stockage ainsi que la taille du fichier. ). Il est nécessaire d’utiliser des expressions régulières pour extraire les informations. -Peuplement de l’ontologie à l’aide des informations extraites précédemment. 13

Corrélation d’évènements Event rdf:type rdf:type o2 sadfc:creation rdf:type sadfc:modification e3 o1 Object sadfc:utilization 1/3 1/3 sadfc:modification e1 e2 o3 rdf:type sadfc:creation 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 𝑂 𝑒,𝑥 = 𝑂 𝑒 ∩ 𝑂 𝑥 /max(| 𝑂 𝑒 |,| 𝑂 𝑥 |) Le premier outil d’analyse proposé dans notre approche est un outil de corrélation d’évènements permettant de détecter des couples d’évènements liés. L’identification de tels couples est réalisée à l’aide de quatre critères : l’interaction des deux évènements avec des objets communs ou des sujets communs, la proximité temporelle et la validation ou non de règles métiers définies par les spécialistes. Corrélation d’évènements Corrélation d’objets Corrélation de sujets Corrélation temporelle Corrélation basée sur les connaissances métiers 14

Corrélation d’évènements rdfs:subClassOf Event Subject rdfs:subClassOf Person Process rdf:type rdf:type rdf:type rdf:type s1 e3 sadfc:participation s3 sadfc:participation rdf:type 1/2 sadfc:participation s2 e1 e2 s4 sadfc:consequence sadfc:participation 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 𝑆 𝑒,𝑥 = 𝑆 𝑒 ∩ 𝑆 𝑥 /max(| 𝑆 𝑒 |,| 𝑆 𝑥 |) Corrélation d’évènements Corrélation d’objets Corrélation de sujets Corrélation temporelle Corrélation basée sur les connaissances métiers 15

Corrélation d’évènements 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 𝑇 𝑒,𝑥 =𝛼×𝑠𝑡𝑎𝑟𝑡𝑠 𝑒,𝑥 +𝛼×𝑒𝑞𝑢𝑎𝑙𝑠 𝑒,𝑥 +𝑚𝑒𝑒𝑡𝑠 𝑒,𝑥 +𝑜𝑣𝑒𝑟𝑙𝑎𝑝𝑠 𝑒,𝑥 +𝑑𝑢𝑟𝑖𝑛𝑔 𝑒,𝑥 +𝑓𝑖𝑛𝑖𝑠ℎ𝑒𝑠 𝑒,𝑥 +𝑏𝑒𝑓𝑜𝑟𝑒 𝑒,𝑥 Corrélation d’évènements Corrélation d’objets Corrélation de sujets Corrélation temporelle Corrélation basée sur les connaissances métiers 16

Corrélation d’évènements 2014-06-20T13:57:16.544000+00:00 | Creation Time | WEBHIST | Firefox History | Bookmark URL CheckSem - Semantic Intelligence Research  (http://checksem.u-bourgogne.fr/www/)| sqlite | TSK:/Users/Yoan/AppData/Roaming/Mozilla/Firefox/Profiles/94zxtt2a.default/places.sqlite | - | 3 | 373176 Visite d’une page Création d’un marque page 2014-06-20T13:57:21.474000+00:00 | Page Visited | WEBHIST | Firefox History | http://checksem.u-bourgogne.fr/www/ (CheckSem - Semantic Intelligence Research  Host: checksem.u-bourgogne.fr visited from: http://checksem.u-bourgogne.fr/www/ (checksem.u-bourgogne.fr) Transition: BOOKMARK | sqlite | TSK:/Users/Yoan/AppData/Roaming/Mozilla/Firefox/Profiles/94zxtt2a.default/places.sqlite | - | 3 | 373182 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 𝐾𝐵𝑅 𝑒,𝑥 = 𝑟=1 𝑛 𝑟𝑢𝑙𝑒 𝑟 (𝑒,𝑥) Avec 𝑟𝑢𝑙𝑒 𝑟 𝑒,𝑥 =1 si la règle est satisfaite et 0 sinon Corrélation d’évènements Corrélation d’objets Corrélation de sujets Corrélation temporelle Corrélation basée sur les connaissances métiers 17

Corrélation d’évènements 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 𝑒,𝑥 = 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 𝑇 𝑒,𝑥 + 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 𝑆 𝑒,𝑥 + 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 𝑂 𝑒,𝑥 + 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 𝐾𝐵𝑅 (𝑒,𝑥) 𝑪𝒐𝒓𝒓𝒆𝒍𝒂𝒕𝒊𝒐𝒏 𝒆𝟏,𝒆𝟐 ≈1,143 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 𝑂 𝑒1,𝑒2 : o1  1/1 = 1 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 𝑆 𝑒1,𝑒2 : ∅  0/1 = 0 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 𝑇 𝑒1,𝑒2 : 2014-07-03T07:36:39 <-> 2014-07-03T07:36:46  ≈0,143 18

Corrélation d’évènements 𝑪𝒐𝒓𝒓𝒆𝒍𝒂𝒕𝒊𝒐𝒏 𝒆𝟏,𝒆𝟑 ≈𝟎 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 𝑂 𝑒1,𝑒3 : ∅  0/1= 0 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 𝑆 𝑒1,𝑒3 : ∅  0/1= 0 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 𝑇 𝑒1,𝑒3 : 2014-07-03T07:36:39 <-> 2010-11-20T04:58:26 ≈0 19

Contributions 20 Volume Hétérogénéité Crédibilité et Reproductibilité Automatisation des traitements Représentation unifiée des connaissances Traçabilité des informations Technologies supportant la charge Extracteurs dédiés à chaque source Pour conclure, nous avons présenté une architecture composée d’une ontologie et d’opérateurs permettant d’extraire des connaissances à partir d’une scène de crime, de peupler l’ontologie et d’analyser ces connaissances automatiquement. L’approche présentée offert des réponses à trois problème majeurs du domaine de la reconstruction de scenarios. Tout d’abord, nous apportons des réponses au besoin de traiter de grands volumes de données. L’utilisation d’un modèle explicitant la sémantique et notamment les relations entre entités nous permet d’avoir recours à des processus d’analyse automatiques tels que l’outil de correlation d’évènements. Notre approche est également implémentée en utilisant des technologies supportant la montée en charge notamment le triple store Stardog. Pour faire face à l’hétérogénéité, l’utilisation d’une ontologie nous permet de représenter les évènements de manière homogène et ce, quelque soit leur provenance. Les problèmes d’hétérogénéité sont également résolus de part l’utilization de l’outil Plaso proposant un ensemble d’extracteurs dédiés à chaque source d’informations. Enfin, notre approche donne également des réponses aux exigencies légales. L’ontologie proposée permet notamment de stocker des informations sur la provenance de chaque information donnant ainsi de la crédibilité aux résultats. 20

Travaux futurs 21 Diversité Analyse Efficacité Interface Antivirus Android/Mac Analyse Composition d’évènements Identification d’actions illicites Efficacité Cas moyen : 500 000 évènements Volumétrie : 20 000 000 triplets Les travaux futures vont se concentrer sur l’intégration de nouvelles sources d’évènements afin de compléter notre vision des incidents. Nous essayons également ajouter de nouveaux opérateurs d’analyse. Notamment un opérateur permettant de produire des résumés de chronologies en identifiant des relations de composition. Un troisième objectif est l’introduction de nouveaux mécanismes pour répondre aux exigences légales. Nous réfléchissons notamment à un outil de vérification de la cohérence de l’ontologie pour s’assurer que les conclusions ajoutées manuellement dans l’ontologie par un enquêteur respectent ce que l’on connait de l’incident. Enfin nous sommes confrontés à des problèmes de performance. Interface Chronologies avancées et interactives Outils d’interrogation et de consultation avancées 21

27 Janvier 2015 Représentation d’évènements et peuplement d’ontologie appliqués au domaine de la criminalistique informatique Yoan Chabota,b, Aurélie Bertauxa, Christophe Nicollea and M-Tahar Kechadib yoan.chabot@checksem.fr a Equipe CheckSem, Laboratoire Le2i, Université de Bourgogne, Dijon, FRANCE b School of Computer Science & Informatics, University College Dublin, IRLANDE 22