Human Knowledge La nouvelle génération de moteurs sémantiques
Fleur Thesmar – Directeur Commercial Human Knowledge -HK fondée par des chercheurs en linguistique, ethnologie et informatique. -Notre problématique: celle de la compréhension automatique, de textes en langue naturelle, appropriée en contexte. -Obtention d’une méthode universelle de construction dynamique de sens -Le sens n’est pas pris pour un donné -Universaux sémantiques Wierzbicka, grammaires de dépendance, analyse structurale de Tesnière… -La connaissance linguistique: morphologie, syntaxe, sémantique linguistique -Analyses du contexte : texte et cognition -Par essence multilingue -Langage écrit (formats eml, txt…)
Fleur Thesmar – Directeur Commercial Enjeux du TAL (1) -Internet est un monde mouvant -Difficultés rencontrées: des contextes fluctuants. -Modes de communication évoluent, du mail vers les réseaux sociaux -Vocabulaires, produits/marques, orthographes… utilisés évoluent constamment -Organisation interne de chaque « client entreprise » structure le tri: process, produits, FAQ, risque… Sans compter le « client particulier » -Cette évolution permanente nécessite classiquement le travail de « linguistes cachés » -Peu acceptable pour le client, prix du produit cache prix d’un service -Investisseurs? Rentabilité non durable, coût adaptation permanente Outils actuels TAL : répondent mal à la dynamique accélérée du web
Fleur Thesmar – Directeur Commercial Enjeux du TAL (2) -Internet fournit une partie des solutions -Internet/ monde digital fournissent des Corpus de textes -Offre une connaissance statistique des usages -Permet de replacer des textes dans un contexte -Existence d’une structure organisée à travers le réseau à travers les liens hypertextes -Réseaux sociaux -Permettent d’envisager des applications où les utilisateurs participent au classement des concepts -Modèle du # Limite des méthodes purement statistiques / structurelles / web dans un contexte donné => théorie linguistique nécessaire
Fleur Thesmar – Directeur Commercial Expérience / Marchés -Analyses de Corpus dans le but de trier les s: -Assurance / prêt conso -APCE -Tri des s en fonction de 200 catégories de FAQ -Toute question portant sur la création d’entreprise -Stand-by -Fraude -SignalSpam et Pacitel, en cours -Documentation (ex. CV, juridique) -Analyse qualitative (sondages, twitter…) -Web
Fleur Thesmar – Directeur Commercial Méthode de HK (1) -Approche de HK fondée sur l’analyse du contexte -Ex. « Système d’application » sur google -mauvaise traduction française de « système d’exploitation » -« Système d’application de la loi dans le temps » -« Que pensez-vous du système d’application? » de Genifique Yeux Light- Pearl TM ? -HK propose un système permettant à un client de catégoriser, i.e. partitionner les corpus, automatiquement -Administration par un client lambda de ses types de catégories -Tri automatique des corpus
Fleur Thesmar – Directeur Commercial Méthode de HK (2) -Linguistique: confrontation universel/particulier -Ars Magna de Lulle / logique de Leibniz : créer un système logique universel, à la manière d’un moteur sémantique ou d’une ontologie modernes… -… mais: nécessité de créer une encyclopédie qui organise le classement des lexies -… et un tel classement est en fait descriptif du contexte -Internet fournit une sorte « d’encyclopédie » mais pas ne dispose pas d’un système qui lui permettrait de « penser » les contextes et les idées… -Non disputemus, calculemus (Leibniz) - Investisseurs ou clients: besoin d’un produit « scalable », réellement automatique, notamment création des catégories - A partir du contexte donné par un corpus, construction du sens par étapes successives - Pas de réduction du langage, toute la richesse de la langue prise en compte - Ontologie « universelle » permet d’organiser les concepts indépendamment des langues