La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Comment classer les pages web. Principe du moteur de recherche Mise en mémoire des pages web Associer chaque page à des mot-clefs Objectif : Classification.

Présentations similaires


Présentation au sujet: "Comment classer les pages web. Principe du moteur de recherche Mise en mémoire des pages web Associer chaque page à des mot-clefs Objectif : Classification."— Transcription de la présentation:

1 Comment classer les pages web

2 Principe du moteur de recherche Mise en mémoire des pages web Associer chaque page à des mot-clefs Objectif : Classification selon deux critères : pertinence et popularité

3 Première approche

4 Exploitation

5 Comptage naïf Avec le comptage naïf, la page 1 et la page 9 arrivent en tête : m 1 = m 9 = 4.

6 Comptage pondéré La page 7 reçoit des liens depuis les pages 5, 6 et 8. Venant de la page 5, il s'agit d'un lien parmi 3 liens émis, ℓ 5 = 3. De même, ℓ 6 = ℓ 8 = 2. Donc avec le comptage pondéré, m 7 = 1 / ℓ 5 + 1 / ℓ 6 + 1 / ℓ 8 = 1/3 + 1/2 + 1/2 = 4/3. l j : Nombre de liens émis par la source j vers i.

7 Comptage récursif P 1 P 2 P 3 P 4 P 5 P 6 P 7 P 8 P 9 P 10 P 11 P 12 M = ( 2 ; 1 ; 1 ; 1 ; 3 ; 1 ; 2 ; 1 ; 2 ; 1 ; 1 ;1 ) m : poids de la source j vers i.

8 Promenade aléatoire P1P1 P2P2 P3P3 P4P4 P5P5 P6P6 P7P7 P8P8 P9P9 P 10 P 11 P 12 t=00.00 1.000.00 t=10.00 1.000.00 t=20.00 0.33 0.00 t=30.170.00 0.330.000.330.000.170.00 t=40.000.04 0.420.11 0.000.04 t=50.120.02 0.110.140.250.140.120.02 … t=290.120.06 0.120.060.120.060.120.06 t=300.120.06 0.120.060.120.060.120.06

9 Cas des « trous noirs » m = (0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1).

10 Modèle utilisé par Google Pour échapper aux trous noirs, Google utilise un modèle plus raffiné : avec une probabilité fixée c, le surfeur abandonne sa page actuelle P j et recommence sur une des n pages du web, choisie de manière équiprobable; sinon, avec la probabilité 1 − c, le surfeur suit un des liens de la page P j, choisi de manière équiprobable. Cette astuce de « téléportation » évite de se faire piéger par une page sans issue, et garantit d’arriver n’importe où dans le graphe. (c/n) provient de la « téléportation » Avec 0 < c ≤ 1

11 Conclusion Pour être utile, un moteur de recherche doit non seulement énumérer les résultats d’une requête, mais les classer par ordre d’importance. Or, estimer la pertinence des pages web est un profond défi de modélisation. En première approximation, Google analyse le graphe formé par les liens entre pages web. Interprétant un lien j → i comme « vote » de la page P j en faveur de la page P i, le modèle Page-Rank (6) définit une mesure de « popularité ». Le théorème du point fixe assure que cette équation admet une unique solution, et justifie l’algorithme itératif (5) pour l’approcher. Celui-ci est facile à implémenter et assez efficace pour les graphes de grandeur nature. Muni de ces outils mathématiques et d’une habile stratégie d’entreprise, Google gagne des milliards de dollars. Il fallait y penser !

12 Source http://interstices.info/jcms/c_47076/commen t-google-classe-les-pages-web


Télécharger ppt "Comment classer les pages web. Principe du moteur de recherche Mise en mémoire des pages web Associer chaque page à des mot-clefs Objectif : Classification."

Présentations similaires


Annonces Google