Le Lézard

Le bug de Google


Vous rappelez-vous qu'en 1999 nous étions tous en train de craindre le pire bug informatique, le bug de l’an 2000 ? Il y a maintenant des rumeurs que Google aurait un bug semblable; le célèbre moteur de recherche pourrait atteindre sa capacité maximale de pages indexées.



Les URL auraient été indexés dans la base de données sur une clef de 4 octets seulement, ce qui donne la possibilité de trouver 4,294,967,296 pages indexées (2^32) dans le populaire moteur de recherche. Mais, en faisant une recherche du mot-clé «the», le mot qui donne le plus de résultats, on s'aperçoit que Google indexe déjà près de 3,720,000,000 pages avec ce mot. Ce qui est près de la limite.

Google éprouverait d’autres problèmes aussi. Une fois par mois, Google fait une mise à jour de sa base de données. Il réévalue la position de chaque page en calculant le PageRank de chacune d’elle. Avant de mettre la version finale de la base de données rafraîchie, Google utilise des serveurs pour faire des tests sur la nouvelle base de données (www-ex.google.com, www-sj.google.com, www-va.google.com, www-dc.google.com, www-ab.google.com, www-in.google.com, www-zu.google.com, www-cw.google.com, www-fi.google.com). Lors de la mise en place du nouvel index le 11 avril dernier, les résultats des recherches n’étaient pas très pertinents. La transition de l’index avait duré quinze jours au lieu de cinq. Au mois de mai, les résultats dataient de février-mars; on pouvait croire que la dernière mise à jour avait été retirée. De plus, le PageRank des nouvelles pages était indéterminé. Les pages créées en février ou mars étaient parfois les plus souvent absentes de l’index.

Une solution pour régler le manque d’espace serait d’augmenter la clef à 8 octets. Toutefois, il faudrait utiliser une plus grande puissance de calcul et cela augmenterait l’espace disque inutilement. L’idéal serait d’aller vers une clef de 5 octets. Le hic avec cette solution est qu'il n’existe aucune fonction qui supporte en standard les entiers de 5 octets. Google serait programmé majoritairement en C/C++ et roule en Linux.

Publié le 25/06/2003 à 21h14 par Ludovic Goix



Autres nouvelles publiées en ce 25 juin:

2002
Distribution de faux MP3
Nouveau cinéma sur PDA dans les avions
2004
Hotmail suit la tendance
Une pile à l'hydrogène miniaturisée
2005
Les logiciels Windows sur Mac OS X
2006
Sonic a 15 ans
Des oiseaux en état d'ébriété
2007
Les Têtes à claques attirent la France
YouTube nous offre la version française, et plus encore !
Jeux DirectX 10 : bientôt compatibles Windows XP