27 Janvier 2015 Représentation d’évènements et peuplement d’ontologie appliqués au domaine de la criminalistique informatique Yoan Chabota,b, Aurélie Bertauxa,

27 Janvier 2015 Représentation d’évènements et peuplement d’ontologie appliqués au domaine de la criminalistique informatique Yoan Chabota,b, Aurélie Bertauxa, Christophe Nicollea and M-Tahar Kechadib a Equipe CheckSem, Laboratoire Le2i, Université de Bourgogne, Dijon, FRANCE b School of Computer Science & Informatics, University College Dublin, IRLANDE 1

Plan de la présentation
Enoncé du problème Verrous Etat de l’art Reconstruction de scénarios Modèle pour la représentation d’évènements Limites de l’existant Connaissances génériques Traçabilité des informations Connaissances métiers Peuplement Chaîne d’extraction Exploitation de l’ontologie Exploitation des connaissances 4 parties : -Introduction du problème auquel on s’intéresse dans ces travaux : reconstruction de scénarios -Solutions existantes, mise en évidence des limites et présentation de notre solution : l’introduction d’une ontologie -Présentation des outils gravitant autour de l’ontologie pour mener à bien l’investigation -Conclusion Travaux futurs Contributions Conclusion 2

Conclusions de l’enquête
Enoncé du problème Reconstruction de scénarios pour le domaine de la criminalistique informatique Traces Conclusions de l’enquête Chronologie Le domaine de la criminalistique informatique propose des méthodes visant à assister l’enquêteur durant une investigation numérique et à fournir à la justice des pièces à conviction afin de déterminer la culpabilité ou l’innocence de suspects. Nos travaux s’intéressent plus particulièrement au problème de la reconstruction de scénarios. La reconstruction de scénario est un processus dans lequel les enquêteurs collectent des traces dans une scène de crime dans le but de déterminer les évènements survenus durant un incident. En sortie de ce processus, les enquêteurs obtiennent une chronologie pouvant être analysées pour comprendre ce qu’il s’est passé et déterminer les responsabilités de chaque protagoniste de l’affaire. Objectif Déterminer le déroulement de l’incident (1) en respectant les exigences légales (2) 3

Scène de crime numérique
Verrous Verrous techniques Scène de crime numérique Grands volumes de données Hétérogénéité La reconstruction de scénarios est un processus complexe soulevant plusieurs problèmes. Le premier d’entre eux est que les enquêteurs sont confrontés à de grandes quantité de données. Cela est dû à l’importance grandissante des technologies dans le quotidien. Cette grande quantité de données à traiter rend l’analyse complexe et fastidieuse. De plus, les informations étant éparpillées dans plusieurs sources à travers la scène de crime, la reconstruction de scénarios doit faire face à des problèmes d’hétérogénéité. Par exemple, des historiques de navigateur Web peuvent être utilisées pour obtenir des infos sur le comportement de l’utilisateur sur le net tandis que des informations provenant du dossier Prefetch de Windows peuvent être utilisées pour connaître quel logiciels ont été lancés sur la machine. Chacune de ces informations est préciseuse pour une enquête mais elles sont stockées de manière différente, avec des formats différents. Il y a également des verrous liés aux exigences légales. Pour produire des résultats admissibles dans une courte de justice, il est nécessaire de s’assurer que ces résultats respectent certains caractéristiques parmi lesquelles la crédibilité, la véracité, la précision et la reproducibilité des processus. Exigences légales Crédibilité Reproductibilité Véracité Précision 4

Etat de l’art ECF, FORE, Finite state machine approach, Zeitline, Neural networks appraoch, CyberForensic TimeLab, etc. log2timeline par Kristinn Gudjonsson Super-chronologies basées sur un grand nombre de sources de traces Journaux d’évènements Windows Historiques de navigateurs Web Journaux Apache Métadonnées de documents PDF Journaux de Firewall etc. Plusieurs approches de reconstruction de scénarios à partir de scènes de crimes sont proposées dans la littérature. Nous avons notamment étudié l’outil log2timeline développé par Kristinn Gudjonsson. Cet outil est utilisé pour construire des super chronologies (une chronologie tirant partie de plusieurs sources d’informations ,dans le cas de Plaso, journaux d’évènements Windows, historiques de navigateurs web, etc.) Nous avons choisi de nous intéresser plus spécifiquement à Plaso dans cette présentation car il s’agit de l’outil traitant la plus grande variété de sources d’informations. Cet outil est très efficace et peut traiter des grosses images disques en peu de temps. 5

Limites de l’existant 6 Contraintes : Automatisation des processus
Complétude et sémantisation Consultation des informations Traçabilité Une fois ces deux commandes exécutées, nous obtenons un fichier contenant tous les évènements ayant pu être identifié à partir de l’image disque. Cela représente une quantité de données significative et non conviviale à la consultation. Une chronologie produite à l’aide de ces outils, à partir de l’image disque d’une machine ayant fonctionné environ trente minutes avec une utilisation standard, est composée d’environ entrées. Cette quantité de données rend le travail d’analyse très laborieux. Les enquêteurs travaillent « manuellement » sur ce types de fichiers (e.g. grep, recherche par dates, etc.). Par conséquent, la question que nous posons dans nos travaux est « Comment rendre l’interprétation et l’analyse de la chronologie moins fastidieuse pour les enquêteurs? ». Quatre objectifs découlent de ce besoin : La nécessité de proposer des processus d’analyses automatiques capables de faire face aux volumes de données en présence. Le besoin d’avoir un modèle suffisamment complet afin de permettre une représentation précise des évènements passées. La possibilité pour les enquêteurs de consulter les informations de manière simple et intuitive. La traçabilité des informations afin de répondre aux exigences légales. 6

Approche Automatisation des processus Complétude du modèle
Définition de la sémantique des données Inférence et analyse Complétude du modèle Expressivité des langages ontologiques OWL 2 RL Consultation des informations Outils d’interrogation Représentation sous forme de graphes La solution que nous proposons est l’utilisation d’une représentation des évènements plus avancée que le format textuel  modèle sémantiquement riche  ontologie. Cette ontologie permet de répondre aux quatre objectifs : -L’automatisation des processus : L’utilisation d’une ontologie implémentée en OWL 2 nous permet d’avoir recours à des processus d’inférence et d’analyse basée sur les systèmes de règles. On est ainsi en mesure d’aider l’enquêteur dans l’analyse de la chronologie. -La complétude du modèle : Cet objectif est atteint grâce à l’expressivité du langage OWL 2 RL. -L’utilisabilité du modèle : De part la facilité de présenter et d’accéder à des connaissances contenues dans une ontologie notamment via des représentations graphiques sous forme de graphe et des outils d’interrogation comme SPARQL. -La traçabilité des informations : Des informations sur les étapes de l’enquête et la manière dont chaque conclusion est trouvée sont mémorisées dans l’ontologie afin de donner du crédit aux conclusions (on est capable d’expliquer comment on a trouvé nos résultats) et de permettre la reproductibilité de ces derniers. Cette ontologie est utilisée pour traduire ces données brutes en un modèle formel permettant l’emploi de processus de raisonnement automatisé. Le fichier texte produit par Plaso est utilisé en entrée de notre approche pour alimenter notre modèle. Traçabilité des informations Représentation des activités d’investigation 7

Connaissances génériques
Localisation Est localisé création utilisation Est daté Objet Evènement Temps modification suppression participe impacte La couche CKL est utilisée pour stocker des connaissances génériques sur les évènements. Son objectif est d’obtenir une représentation uniforme des évènements composant un incident afin de simplifier les tâches d’analyse en aval. Elle modélise notamment : -les évènements (tout évènement numérique survenant sur une machine) (Event) -des connaissances temporelles et la localisation de ces derniers -les protagonistes impliqués dans les évènements (Subject) -des informations sur les objets utilisés/modifiés/supprimés/créés par chaque évènement (Object) Sujet 8

Connaissances métiers
Web Firefox Chrome Internet Explorer Opera Safari Windows Filestat Tâches planifiées Liens OLECF Corbeille Prefetch Registre Autres sources Google Drive Java IDX Skype Fichiers Exécutable Liens Archives Image PDF OLECF Comptes Windows Unix Skype Objets Web Page Web Ressource Web Marque page Cookie Site Web Préférence Formulaire Communication Message instantané SMS MMS Clés de registre Notre approche permet de collecter des informations à partir d’une multitude de sources données en haut de cette diapo. La couche SKL est utilisée pour stocker des connaissances spécialisées et dépendantes de chaque type de sources. Elle permet notamment de modéliser des connaissances techniques sur tout objet numérique pouvant être identifié dans une scène de crime numérique. Les informations techniques sur les évènements (adresses IP, chemin et métadonnées de fichiers, etc.) stockées dans cette couche sont des informations de valeur durant la phase d’analyse. 9

Tâche d’investigation
Traçabilité des informations Localisation Est localisé Outil Utilise Tâche d’investigation Est daté Temps Contribue à Enquêteur Est supporté par Est identifié par La couche TKL stocke des informations sur la manière dont l’enquête est menée (e.g. participants, étapes de l’enquête, informations en entrée/sortie de chaque étape, etc.). L’objectif de cette couche est de satisfaire les exigences légales en assurant d’une part la reproductibilité des résultats via la mémorisation de chaque action et d’une autre part la crédibilité des résultats en conservant le cheminement et les données utilisées pour produire les résultats. Chaque tâche de l’enquête est utilisée pour augmenter la connaissance des enquêteurs sur les évènements survenus durant l’incident. Ainsi, chaque tâche de l’enquête est liée aux évènements ainsi qu’aux sujets et objets qu’elle a permis d’identifier. Pour certaines tâches, les enquêteurs doivent raisonner sur des informations déjà existantes pour produire de nouvelles connaissances. La propriété d’objet isSupportedBy modélise ce principe en liant les instances de InvestigativeOperation aux informations utilisées par celles-ci. Entité est un est un est un Sujet Evènement Objet 10

Tâche d’investigation
Exemple Téléchargement d’un fichier distant à l’aide du navigateur Chrome : Technique type : Information Source Technique name : Extraction using log2timeline Source name : Google Chrome History log2timeline Tâche d’investigation intervalle2 utilise Est daté Est identifié par participe Est daté googleChrome Evènement intervalle1 Est localisé type : Chrome History subtype : Download of a file localisation utilise crée La couche TKL stocke des informations sur la manière dont l’enquête est menée (e.g. participants, étapes de l’enquête, informations en entrée/sortie de chaque étape, etc.). L’objectif de cette couche est de satisfaire les exigences légales en assurant d’une part la reproductibilité des résultats via la mémorisation de chaque action et d’une autre part la crédibilité des résultats en conservant le cheminement et les données utilisées pour produire les résultats. Chaque tâche de l’enquête est utilisée pour augmenter la connaissance des enquêteurs sur les évènements survenus durant l’incident. Ainsi, chaque tâche de l’enquête est liée aux évènements ainsi qu’aux sujets et objets qu’elle a permis d’identifier. Pour certaines tâches, les enquêteurs doivent raisonner sur des informations déjà existantes pour produire de nouvelles connaissances. La propriété d’objet isSupportedBy modélise ce principe en liant les instances de InvestigativeOperation aux informations utilisées par celles-ci. Ressource web Fichier exe size : url : size : path : C:\\Users\\User1\\Downloads\\Firefox Setup… 11

Opérateurs de consolidation Opérateurs d’extraction et de peuplement
Ontologie et opérateurs Traces présentes sur la scène de l’incident Opérateurs de consolidation log2timeline Connexions de graphes Inférence à base de règles Ontologie Fichier CSV Opérateurs d’analyse Opérateurs d’extraction et de peuplement Corrélation d’évènements Identification d’actions illicites Résumé de chronologies Chronologie avancée Conclusions L’ontologie proposée est associée à des opérateurs permettant : -L’extraction des informations contenues dans la scène de crime et le peuplement de l’ontologie à partir des ces informations. -Des opérateurs d’inférences permettant de consolider les connaissances contenues dans l’ontologie en déduisant de nouvelles connaissances à partir des connaissances existantes. -Des opérateurs d’analyse utilisés pour tirer des conclusions en utilisant les connaissances contenues dans l’ontologie. En sortie de notre approche, nous sommes en mesure de proposer aux enquêteurs une chronologie enrichie avec des informations à propos des évènements, des ressources utilisés et des sujets impliqués dans chaque évènement. Dans les prochaines diapos, je vais présenter + dans le détail chaque type d’opérateurs. 12

Extraction et peuplement
L’introduction de techniques d’extraction et de peuplement automatisées est primordiale pour permettre le traitement des grands volumes de données extraits lors d’une enquête. Le processus proposé dans notre approche est composé de trois étapes : -Extraction des informations à partir des images disques des machines saisies dans la scène de crime. Pour cela, on utilise l’outil log2timeline qui génère un fichier au format CSV (L’évènement extrait représente le téléchargement d’un fichier .exe à l’aide de Google Chrome) -Extraction des informations contenues dans le fichier CSV (certaines informations ne nécessitent pas de traitements, d’autres comme le champ description contiennent des informations multiples dépendant de la source d’information (Dans le cas de l’exemple, correspondant au téléchargement d’un fichier à l’aide de Google Chrome, on extrait du champ desc l’URL du fichier téléchargé et le chemin local utilisé pour son stockage ainsi que la taille du fichier. ). Il est nécessaire d’utiliser des expressions régulières pour extraire les informations. -Peuplement de l’ontologie à l’aide des informations extraites précédemment. 13

Corrélation d’évènements
Event rdf:type rdf:type o2 sadfc:creation rdf:type sadfc:modification e3 o1 Object sadfc:utilization 1/3 1/3 sadfc:modification e1 e2 o3 rdf:type sadfc:creation 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 𝑂 𝑒,𝑥 = 𝑂 𝑒 ∩ 𝑂 𝑥 /max(| 𝑂 𝑒 |,| 𝑂 𝑥 |) Le premier outil d’analyse proposé dans notre approche est un outil de corrélation d’évènements permettant de détecter des couples d’évènements liés. L’identification de tels couples est réalisée à l’aide de quatre critères : l’interaction des deux évènements avec des objets communs ou des sujets communs, la proximité temporelle et la validation ou non de règles métiers définies par les spécialistes. Corrélation d’évènements Corrélation d’objets Corrélation de sujets Corrélation temporelle Corrélation basée sur les connaissances métiers 14

rdfs:subClassOf Event Subject rdfs:subClassOf Person Process rdf:type rdf:type rdf:type rdf:type s1 e3 sadfc:participation s3 sadfc:participation rdf:type 1/2 sadfc:participation s2 e1 e2 s4 sadfc:consequence sadfc:participation 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 𝑆 𝑒,𝑥 = 𝑆 𝑒 ∩ 𝑆 𝑥 /max(| 𝑆 𝑒 |,| 𝑆 𝑥 |) Corrélation d’évènements Corrélation d’objets Corrélation de sujets Corrélation temporelle Corrélation basée sur les connaissances métiers 15

𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 𝑇 𝑒,𝑥 =𝛼×𝑠𝑡𝑎𝑟𝑡𝑠 𝑒,𝑥 +𝛼×𝑒𝑞𝑢𝑎𝑙𝑠 𝑒,𝑥 +𝑚𝑒𝑒𝑡𝑠 𝑒,𝑥 +𝑜𝑣𝑒𝑟𝑙𝑎𝑝𝑠 𝑒,𝑥 +𝑑𝑢𝑟𝑖𝑛𝑔 𝑒,𝑥 +𝑓𝑖𝑛𝑖𝑠ℎ𝑒𝑠 𝑒,𝑥 +𝑏𝑒𝑓𝑜𝑟𝑒 𝑒,𝑥 Corrélation d’évènements Corrélation d’objets Corrélation de sujets Corrélation temporelle Corrélation basée sur les connaissances métiers 16

T13:57: :00 | Creation Time | WEBHIST | Firefox History | Bookmark URL CheckSem - Semantic Intelligence Research ( sqlite | TSK:/Users/Yoan/AppData/Roaming/Mozilla/Firefox/Profiles/94zxtt2a.default/places.sqlite | - | 3 | Visite d’une page Création d’un marque page T13:57: :00 | Page Visited | WEBHIST | Firefox History | (CheckSem - Semantic Intelligence Research Host: checksem.u-bourgogne.fr visited from: (checksem.u-bourgogne.fr) Transition: BOOKMARK | sqlite | TSK:/Users/Yoan/AppData/Roaming/Mozilla/Firefox/Profiles/94zxtt2a.default/places.sqlite | - | 3 | 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 𝐾𝐵𝑅 𝑒,𝑥 = 𝑟=1 𝑛 𝑟𝑢𝑙𝑒 𝑟 (𝑒,𝑥) Avec 𝑟𝑢𝑙𝑒 𝑟 𝑒,𝑥 =1 si la règle est satisfaite et 0 sinon Corrélation d’évènements Corrélation d’objets Corrélation de sujets Corrélation temporelle Corrélation basée sur les connaissances métiers 17

𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 𝑒,𝑥 = 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 𝑇 𝑒,𝑥 + 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 𝑆 𝑒,𝑥 + 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 𝑂 𝑒,𝑥 + 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 𝐾𝐵𝑅 (𝑒,𝑥) 𝑪𝒐𝒓𝒓𝒆𝒍𝒂𝒕𝒊𝒐𝒏 𝒆𝟏,𝒆𝟐 ≈1,143 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 𝑂 𝑒1,𝑒2 : o1  1/1 = 1 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 𝑆 𝑒1,𝑒2 : ∅  0/1 = 0 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 𝑇 𝑒1,𝑒2 : T07:36:39 <-> T07:36:46  ≈0,143 18

𝑪𝒐𝒓𝒓𝒆𝒍𝒂𝒕𝒊𝒐𝒏 𝒆𝟏,𝒆𝟑 ≈𝟎 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 𝑂 𝑒1,𝑒3 : ∅  0/1= 0 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 𝑆 𝑒1,𝑒3 : ∅  0/1= 0 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 𝑇 𝑒1,𝑒3 : T07:36:39 <-> T04:58:26 ≈0 19

Contributions 20 Volume Hétérogénéité Crédibilité et Reproductibilité
Automatisation des traitements Représentation unifiée des connaissances Traçabilité des informations Technologies supportant la charge Extracteurs dédiés à chaque source Pour conclure, nous avons présenté une architecture composée d’une ontologie et d’opérateurs permettant d’extraire des connaissances à partir d’une scène de crime, de peupler l’ontologie et d’analyser ces connaissances automatiquement. L’approche présentée offert des réponses à trois problème majeurs du domaine de la reconstruction de scenarios. Tout d’abord, nous apportons des réponses au besoin de traiter de grands volumes de données. L’utilisation d’un modèle explicitant la sémantique et notamment les relations entre entités nous permet d’avoir recours à des processus d’analyse automatiques tels que l’outil de correlation d’évènements. Notre approche est également implémentée en utilisant des technologies supportant la montée en charge notamment le triple store Stardog. Pour faire face à l’hétérogénéité, l’utilisation d’une ontologie nous permet de représenter les évènements de manière homogène et ce, quelque soit leur provenance. Les problèmes d’hétérogénéité sont également résolus de part l’utilization de l’outil Plaso proposant un ensemble d’extracteurs dédiés à chaque source d’informations. Enfin, notre approche donne également des réponses aux exigencies légales. L’ontologie proposée permet notamment de stocker des informations sur la provenance de chaque information donnant ainsi de la crédibilité aux résultats. 20

Travaux futurs 21 Diversité Analyse Efficacité Interface Antivirus
Android/Mac Analyse Composition d’évènements Identification d’actions illicites Efficacité Cas moyen : évènements Volumétrie : triplets Les travaux futures vont se concentrer sur l’intégration de nouvelles sources d’évènements afin de compléter notre vision des incidents. Nous essayons également ajouter de nouveaux opérateurs d’analyse. Notamment un opérateur permettant de produire des résumés de chronologies en identifiant des relations de composition. Un troisième objectif est l’introduction de nouveaux mécanismes pour répondre aux exigences légales. Nous réfléchissons notamment à un outil de vérification de la cohérence de l’ontologie pour s’assurer que les conclusions ajoutées manuellement dans l’ontologie par un enquêteur respectent ce que l’on connait de l’incident. Enfin nous sommes confrontés à des problèmes de performance. Interface Chronologies avancées et interactives Outils d’interrogation et de consultation avancées 21

27 Janvier 2015 Représentation d’évènements et peuplement d’ontologie appliqués au domaine de la criminalistique informatique Yoan Chabota,b, Aurélie Bertauxa, Christophe Nicollea and M-Tahar Kechadib a Equipe CheckSem, Laboratoire Le2i, Université de Bourgogne, Dijon, FRANCE b School of Computer Science & Informatics, University College Dublin, IRLANDE 22

27 Janvier 2015 Représentation d’évènements et peuplement d’ontologie appliqués au domaine de la criminalistique informatique Yoan Chabota,b, Aurélie Bertauxa,

Présentations similaires

Présentation au sujet: "27 Janvier 2015 Représentation d’évènements et peuplement d’ontologie appliqués au domaine de la criminalistique informatique Yoan Chabota,b, Aurélie Bertauxa,"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

27 Janvier 2015 Représentation d’évènements et peuplement d’ontologie appliqués au domaine de la criminalistique informatique Yoan Chabota,b, Aurélie Bertauxa,

Présentations similaires

Présentation au sujet: "27 Janvier 2015 Représentation d’évènements et peuplement d’ontologie appliqués au domaine de la criminalistique informatique Yoan Chabota,b, Aurélie Bertauxa,"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back