LES RESEAUX SOCIAUX: UNE MINE ENCORE A EXPLORER Luca Dini ho2s.com LES RESEAUX SOCIAUX: UNE MINE ENCORE A EXPLORER Luca Dini ho2s.com “It is a capital mistake to theorize before one has data. ” ― Arthur Conan Doyle, Sherlock Holmes
Les réseaux sociaux, ça reste du texte 58 millions de tweets par jour. 3 millions des messages Facebook toutes les 20 minutes. Quantité incalculable de textes sur les forums : Futura Sciences : messages Aufeminin.com : messages Doctissimo : messages 54% des consommateurs sont convaincus que les communautés les plus petites ont une plus grande influence que les grandes. LinkedIn est disponible dans 20 langages.
Que-est ce qu’on cherche là- dedans ? Structurer et agréger l’information pour qu’elle soit utilisable. D’habitude, l’information la plus intéressante est subjective. Il y a différents degrés de subjectivité : Elle fait km/h en 10 secondes Elle va très vite J’aime énormément son accélération
Bien choisir sa mine... Quelles sont les sources (réseaux) les mieux adaptées ? Le client est toujours le mieux placé pour décider. Critères : Masse vs. variété (cible). Concentration informationnelle. Extension temporelle. Facilité/possibilité de déchargement.
...et savoir reconnaître l’or A minima: L’expression d’une polarité ou d’un sentiment: Nuancement Attitude psychologique L’objet sur lequel porte le sentiment. La cause du sentiment.
Un exemple les éponges végétales carrefour sont de bons produits pour les gros travaux de nettoyage Senti Miner Objet Sentiment Cause
Connexion avec les données structurées
Comment se positionne ma marque par rapport à la concurrence ? Impact NégatifImpact Positif
Pendant quelles périodes parle-t-on le plus de ma marque ?
Quelles sont les caractéristiques les plus faibles de mes produits ?
Quels sont les mots de la positivité ?
Quelques défis
Ne pas sous-estimer la complexité du problème Viser plusieurs langues... ... Mais se méfier du « indépendant de la langue » Avoir des objectifs clairs ... Mais procéder toujours à partir des données. Demander une base générique ... Mais être conscient qu’en sémantique le « prêt à porter » n’existe pas (ex. chauffer).
Éviter les approches de type «classification» Les approches de type classification automatique ne peuvent pas prendre en compte la complexité de la langue. Je ne l’aime pas, il est trop compliqué Je l’aime trop: il n’est pas compliqué Elles considèrent le document comme unité, ce qui n’est jamais correct. En moyenne 77% des textes contiennent un mélange d’opinions positives et négatives.
Ouvrir la boite de Camembert ! Trop souvent le côté quantitatif prend la relève. Une analyse des données par échantillonnage est primordiale. La plateforme doit avoir un pouvoir explicatif systématique.
Les défis du futur Les liens anaphoriques à longue distance. Les dialogues. L’ironie. La fiabilité des sources.