[ Yolin | 2003 | Sommaire ]

1.2.1.3.2 Les annuaires et moteurs de recherche : trouver une information parmi des milliards de documents

On estimait en 2001 le nombre de documents publiées par les entreprises, les chercheurs, les institutions ou les particuliers à 1.300 milliards (ceci comprend en particulier toutes les bases de données) dont 2,5 Milliards accessibles par une recherche sur le Web et s'accroissent de 7 millions par jour dont 85% par des Américains!:

S'il est aisé de trouver un document dont vous connaissez l'adresse et, en suivant les "liens", de naviguer d'un document à l'autre à la recherche d'information, ce type de "navigation" au hasard sur le Web trouve rapidement ses limites:

Une des innovations majeures qui ont concouru au développement du Web sont les "Moteur de Recherche" et les annuaires

Ces outils informatiques puissants et conviviaux, permettent de trier parmi cette masse d'information considérable et il n'est pas exclu de trouver une aiguille dans une botte de foin parmi le millard de documents qu'ils analysent et indexent (par exemple des informations juridiques, technologiques, commerciales,...)

Les recherches se font

Des "métamoteurs" font travailler en parallèle plusieurs moteurs et font une synthèse des résultats

Des "portails" (comme Yahoo!) associent annuaire, moteur de recherche (ils sous-traitent souvent le moteur à des entreprises comme Inktomi ou Google) et offrent de nombreux services

Par ailleurs les logiciels de traduction automatique, quoique encore perfectibles (on devrait plutôt parler d'outils de compréhension voir page 31), permettent de ne pas limiter sa recherche aux sites dont on comprend la langue

Ces moteurs sont utilisés plusieurs centaines de millions de fois par jour

Les plus visités sont de la catégorie "portail" ont pour nom Yahoo! www.yahoo.com, Excite www.excite.com, Infoseek www.infoseek.com, Lycos www.lycos.com, HotBot www.hotbot.com ou Alta Vista www.altavista.com,

Dans la catégorie "métamoteurs Parmi les plus connus : MetaCrawler www.metacrawler.com Mega Francité http://mega.francite.com, SavvySearch www.savvysearch.com, Fast Search www.alltheweb.com Notons également Kartoo, www.kartoo.com, qui présente les résultats de ses recherche sous forme graphique à partir d'une analyse sémantique des sites trouvés, permettant une recherche intuitive, par approximations successives extrêmement intéressante

Un moteur s'est complètement détaché du lot en 2002 : et Google http://google.com avec 34 millions d'utilisateurs et 150 millions de requêtes par jour en 2002 : il référence plus de 3 milliards de documents (dont 2 milliard de pages html et 330 millions d'images) et est considéré par beaucoup comme le plus efficace www.google.com/press/pressrel/3billion.html

Google est en fait dérivé de " googol ", un terme mathématique pour l'équivalent du chiffre 1 suivi de 100 zéros, censé symboliser la formidable exhaustivité du moteur

En octobre 2001, d'après le site Canadien Cyberpresse, le détective Patterson Jorgensen s'est contenté pour retrouver un homme recherché depuis 30 ans par le FBI de taper son nom sur Google pour retrouver sa trace... www.cyberpresse.ca/reseau/internet/ 0110/int_101100021811.html

d'autres moteurs plus spécialisés, prenant acte du fait que les moteurs généralistes ont du mal à suivre l'explosion du nombre de sites et n'en référencent plus qu'une partie, permettent de meilleurs résultats dans certains domaines

La recherche d'adresses avec Voilà www.adressemail.voilà.fr Yahoo! Annuaires http://fr.people.yahoo.com Lycos WhoWhere http://french.whowhere.lycos.com,

La recherche d'emploi Keljob.com www.keljob.com

La recherche de logiciels avec Filez.com www.filez.com,

La recherche d'hébergeur www.abchebergement.com

La gastronomie avec Gourmetsecker www.gourmetsecker.com  , EatinParis www.eatinparis.com

Le monde agricole Web-agri http://www.Web-agri.com

Ou une région Click'in! Auvergne http://clickin.gdebussac.fr , Nantes www.cybernantes.com ,la façade atlantique www.alouest.net , Breizhoo www.breizhoo.com pour la Bretagne

Certains moteurs permettent également de rechercher de la musique comme http://mp3search.lycos.com ,

Notify http://cs.uni-bonn.de/info5/index-ge.html de Michael Clausen reconnait les morceaux de musique en une fraction de seconde : lorsqu'on lui donne une breve serie de note, le programme parcourt une enorme banque de donnees de plus de 12 000 morceaux et retrouve la melodie recherchee. A l'avenir, le programme devrait meme pouvoir reconnaitre une melodie qui serait chantonnee ou sifflee dans un micro. Frank Kurth , un collaborateur du professeur Clausen, travaille sur une variante de ce appelee "audentify" qui devrait par exemple non seulement reconnaitre un morceau de musique classique comme etant "Les quatre saisons de Vivaldi" mais en plus savoir qu'il s'agit de la version du 15 mars jouee dans la salle Beethoven a Bonn et non pas a la philharmonie de Berlin Source : Herve Loquais, Handelsblatt 7.05.2001

voire même des image ou vidéo avec LTU Technologies (ex-lookthatup) www.ltutech.com (recherche d'objet sur ebay, d'images illicites, Media Finder http://image.altavista.com ou www.compaq.com/speechbot

L' Inria a développé Surfimage qui permet de retrouver les images qui " ressemblent " le plus au modèle proposé www-rocq.inria.fr/cgi-bin/imedia/surfimage.cgi qui sera développé par la start-up Elucid Technologie

Ya-Hooka www.yahooka.com est spécialisé dans le cannabis (le Monde 16/5/00)

pour un panorama complet et à jour sur les moteurs, avec banc d'essai, classement par catégorie,... voir www.lapasserelle.com/sm/formation_veille.html www.abondance.com, www.searchengines.net, www.beaucoup.com, www.search.com, http://searchenginewatch.com http://solutions.journaldunet.com/dossiers/moteurs/sommaire.shtml

de logiciels spécialisés dans l' intelligence économique compétitive permettent, comme nous le verrons plus loin, des recherches beaucoup plus élaborées voir page 163

sur Evariste sur le Web
nous écrire
Evariste ©1996-2007
URL : http://www.evariste.org/new/index.html

(Last update : Fri, 9 Feb 2007)