RA19 Lycee G SNT 2nd Pagerank 1156204 PDF
RA19 Lycee G SNT 2nd Pagerank 1156204 PDF
RA19 Lycee G SNT 2nd Pagerank 1156204 PDF
Informer et accompagner
les professionnels de l’éducation
VOIE GÉNÉRALE
Contenus
Moteurs de recherche : principes et usages
Capacités attendues
Mener une analyse critique des résultats fournis par un moteur de recherche.
Comprendre les enjeux de la publication d’informations.
Note d’intention
Le moteur de recherche, véritable révolution, a bouleversé de nombreux métiers. Cette
activité propose de comprendre un des algorithmes qui peut se cacher derrière. Nous nous
intéresserons ici au moteur de recherche du PageRank de GOOGLE.
Il se pose aussi la difficulté de gérer le très grand nombre de pages évoquant une requête
(plusieurs millions au minimum) ainsi que l’actualisation fréquente de ce classement.
• une deuxième solution serait de demander aux internautes eux-mêmes de voter, pour
chaque domaine, et de choisir le classement sur la base de ce vote, considérant que,
compte tenu du grand nombre de votants, le classement obtenu serait pertinent.
Ces deux modèles, pourtant intéressants et logiques (ils sont mis en œuvre par Wikipédia),
font intervenir l’humain et trouvent leur limite dans le trop grand nombre de pages à gérer qui,
de plus, sont évolutives.
Dans cette optique, Google a cherché un modèle de hiérarchisation qui soit exploitable dans
tous les domaines, utilisable pour tous les mots clés, adaptable à un très grand nombre de
données, même évolutives, tout en étant automatisable et suffisamment efficace.
C’est en répondant à ce cahier des charges que ce nouveau venu à réussi l’exploit, en quelques
mois et malgré l’émergence de Bing ou encore Qwant, à obtenir le quasi-monopole de la
rechercher thématique sur le web.
L’idée à la base du modèle de Larry Page et Sergey Brin, fondateurs de Google, revient à
attribuer à chaque page un nombre positif entre 0 et 1, appelé score (en anglais PageRank)
de la page, qui caractérisera la pertinence de cette page. Ils proposent alors de déterminer ce
score à partir des deux règles suivantes :
R1 - Le score attribué à une page doit être d’autant plus élevé que celle-ci est
référencée dans une page faisant autorité (dont le score élevé) ;
R2 - Le score attribué à une page doit être d’autant moins élevé que celle-ci est
référencée dans une page contenant un grand nombre de références.
Les sites sont alors affichés dans l’ordre décroissant de leur nombre de visites.
Ainsi pour un certain mot clé rentré, il s’intéresse aux sites qui évoquent ce mot-clé, mais
également aux liens hypertextes qui permettent de passer d’un site à l’autre.
Exercices
Exercice 1 - et concrètement ?
Pour illustrer comment un algorithme de calcul peut être mis en place à partir de ces règles,
nous allons prendre l’exemple du classement de quatre pages.
Le problème de l’attribution du score peut être représenté par un graphe orienté : les quatre
pages sont représentées par les quatre sommets d’un graphe dont les arêtes orientées
représentent les références (liens) pouvant exister entre ces différentes pages.
Dans ce graphe, la flèche allant de 1 vers 2 signifie que la page 1 référence la page 2 et
l’absence de flèche de 2 vers 4 signifie que la page 2 ne référence pas la page 4.
1. Choisissez un site parmi les 4 qui sera votre point de départ pour tout l’exercice.
2. Précisez comment avec un dé vous pouvez simuler un déplacement aléatoire de notre
surfeur.
3. Simulez pendant un certain temps le surfeur aléatoire en n’oubliant pas de noter le nombre
de fois où il est passé par site.
Site 1 2 3 4
Nombre de visites
Commentaires
Ce premier exercice a pour but de faire manipuler le surfeur aléatoire aux élèves au moyen
d’un dé. Il permet de réexpliquer la consigne éventuellement à des groupes qui l’auraient mal
comprise.
En effet, la convergence des fréquences étant assez rapide, avec une trentaine de sauts, les
différents groupes devraient avoir le même classement. Un groupe qui aurait un classement
divergeant est vraisemblablement un groupe qui a mal compris le principe.
D’autre part, sans autres consignes, notamment sur le nombre de surfs aléatoires à exécuter, la
comparaison des effectifs n’a que peu de sens (même si l’ordre de classement sera le même).
L’idée est de faire émerger que la bonne quantité à comparer est la fréquence de visite de chaque
site.
Commentaires
Après avoir pris un temps de remédiation pour les groupes qui n’avaient pas tout à fait compris le
principe du surf, cet exercice, où l’on invitera les différents groupes à donner la fréquence plutôt
que l’effectif, permet d’illustrer le principe de l’algorithme.
Les fréquences sont très similaires, et cela indépendamment du site de départ.
Cet exercice permet aussi une deuxième remédiation pour des groupes qui n’auraient toujours
pas compris le principe du surf aléatoire et la modélisation proposée pour l’illustrer.
Commentaires
Cet exercice présenter le premier écueil de l’algorithme : que faire quand un site n’a aucun lien
vers d’autres sites ?
Assez spontanément, les élèves ont tendance à rajouter des flèches vers les autres sites. Cette
solution : le surf équiprobable permet de résoudre cette difficulté.
Exercice 4 - puits
1. Calculez les PageRank du graphe suivant. Le comparer avec les autres groupes.
2. Indiquez le problème moral soulevé par ce graphe.
3. Proposez, si possible, une solution pour pallier ce problème.
Commentaires
Ces deux exercices présentent le principal écueil de l’algorithme : le blocage dans un puits ou une
poche du web.
Même si les élèves peuvent avoir de nombreuses idées pour s’en sortir, la solution choisie par
Google ne peut être trouvée à cause de la trop grande difficulté mathématique : les chaines de
Markov et le théorème de Peyron-Froebenius se trouvant en dehors de leur connaissance.
C’est le moment de leur présenter la solution mise en place par Google.
Détail de l’idée :
• à chaque étape, on continue la promenade aléatoire précédente avec une probabilité de
0,85 ;
• et avec probabilité de 0,15, on fait un saut aléatoire (vers n’importe quelle page) avec une
probabilité 1/n de tomber sur une page donnée, où n est le nombre de pages.
Il est possible de démontrer mathématiquement que cette façon de procéder permet de faire
systématiquement rentrer le graphe considéré dans le champ d’application du théorème de
Peyron-Froebenius.
Cela garantit donc la convergence des fréquences vers des valeurs limites qui seront
considérées comme étant les pages-Rank. Leur méthode résout au passage le cas des puits
car elle empêche de se retrouver dans une poche du web sans pouvoir en sortir.
De plus, plutôt que de calculer les valeurs limites, calculs qui se révèlent dans la pratique très
longs, l’algorithme du PageRank simule comme l’on vient de le faire un surfeur aléatoire et
prend les fréquences trouvées comme estimation des valeurs limites.
Exercices
Exercice 6 - modélisation de leur idée
1. Proposez un protocole pour modéliser leur idée avec un dé à 100 faces.
Exercice 7 - et en pratique
1. Grâce à la méthode des fondateurs de Google, proposez un classement des pages des
quatrième et cinquième graphes.
2. Indiquez si leur méthode aboutie modifie le classement de pages pour lesquelles il n’y
avait pas de problème.
Commentaires
Ces exercices peuvent être à traiter en classe, s’il reste du temps ou à la maison.