Titre: moteur de recherche
Posté par: mci21 le le 26-11-2006 a 17:25:08
Aller je pose ma question qui concerne les moteurs de recherches.
Donc je sais que les moteurs scrutent le web a l'aide de robots, qu'ils indexent les titres balises et contenu dans une enorme base de donnée après avoir analysé ce contenu a l'aide de logiciels pour en déterminé le sens et la pertinance sur un sujet ou un autres.
Mes questions sont: 1 / quelles technologies utilisent il pour créer cette base de donnée?
2 / Quand on tappe une requete par exemple "maison" comment le moteur reagit -il? fait il une recherche dans la base de donné immédiatement ou alors le moteur a t'il deja prédefini les reponse pour chaque requete? car google donne une reponse en moin d'une seconde et je voi mal comment en ce laps de temps il pourrai intérroger sont énorme base de donné.
3 / connaissai vous des logiciel ou méthode d'analyse semantique , qui permettent d'analyser le sens de phrase ou de page, qui permettent de suggerer un synonime ou une autre recherche...
J'espere avoir des réponse de votre part
mci |
Titre: Re:moteur de recherche
Posté par: theonlydrayk le le 26-11-2006 a 19:31:33
salut je suis pas expert mais je crois que les reponses sont simple.
1) Google fonctionne sur une grande liste de petit ordinateur pas tres performant. Environ 500,000 servers. Sous Linux. Le server web est GWS.
2) Les servers web et les servers de base de donner ce partage les demande de recherches. Les mots clef sont deja indexer dans la base de donner lors du google dance. (possiblement avec un reverse proxy ou une autre methode de cache)
3) Ce script en php permet de trouver des mots dont les 'son' sont similaire. http://www.un-programmeur-php.ca/articles/recherche_phonetique.php (http://www.un-programmeur-php.ca/articles/recherche_phonetique.php)
On peut facilement (avec de la patience) aussi creer un dictionaire des synonmes le mettre dans une base de donner. Il y en a surment plusieurs gratuit sur Internet. |
Titre: Re:moteur de recherche
Posté par: mci21 le le 26-11-2006 a 21:07:46
Merci theonlydrayk même si comme tu le dis tu n'est pas expert tes réponses sont précises.
1 / Sur le fait qu'ils utilisent de petits serveurs en effet j'en est enttendu parler, ils appellent ça mettre les serveurs en grappes si j'ai bien compris. quelqu'un serai ce qu'est les serveurs en cluster ?
2 / Merci la aussi en effet ils stock bien les données mais la ce que je voulai savoir c'est quel preincipe utilisent ils pour renvoyer instantannément une liste de réponse car j'imagine bien qu'ils on deja classé les sites et tout mais si tu demande par exemple "ballai a chiotte" désolé pour l'image je ne pense pas qu'ils est prévu une liste de reponse pour cette combinaison . j'éspere que tu as compris ma question ..
3 / un garnd merci pour le liens , oui en effet il doit en exister pas mal et je pense que la force de tel ou tel moteur ce joue pas mal sur leur capacités a être pointu sur toute cette sémantique |
Titre: Re:moteur de recherche
Posté par: theonlydrayk le le 26-11-2006 a 21:41:17
Cluster ca ne veut pas dire grande chose. La meilleur definition c'est : Une liste de server connecter ensemble. Il y a plusieurs type :
Un cluster redondant : c'est 2 ou plusieurs server qui sont des copies identiques du site web / base de donner.
Load-balancing : Cluster redondant + un autre server est utiliser pour envoyer les clients vers les serveurs qui ne sont pas occuper. Generalement les servers sont tous un a coter de l'autre physiquement et il n'ont pas besoin d'effectuer aucune verification de securiter pour les informations qui passe entre eux.
Server Grid : c'est un clusters de plusieurs servers qui ne sont pas physiquement dans la meme piece et qui ne se font pas confiance. (Chaque donner est verifier avant d'etre utiliser) Un bon exemple de ca est le SETI@Home http://setiathome.ssl.berkeley.edu/ (http://setiathome.ssl.berkeley.edu/) Qui utilise les ordinateurs personels des internautes pour effectuer des calculs. Tu peut donwloader le program gratuitement et offrir du temps de ton processeur pour aider le project. Meme chose pour FightAIDS@Home http://fightaidsathome.scripps.edu/ (http://fightaidsathome.scripps.edu/) qui utilise les ordinateurs des internautes pour tenter de trouver une solutions au virus du SIDA.
On appelle souvent les clusters en francais 'grappes' ou servers farms en anglais.
Pour la base de donnees les mots sont mits dans des index, il sont deja prets a etre retirer. Il ont uniquement a faire plusieurs requetes pour chaque mots avec un JOIN (ou un AND LIKE %%) entre les commandes sql. C'est le logiciel et le server de base de donner qui s'occupe de tout. Tout est deja fait tu peut downloader la base de donner mysql et regarder la documentation tu va voir que toute les commandes de recherche sont incluse. MySQL (Systeme de base de donner open-source, gratuit) http://www.mysql.com/ (http://www.mysql.com/) |
Titre: Re:moteur de recherche
Posté par: mci21 le le 26-11-2006 a 22:09:42
Merci pour tes réponses très claires et précisent.
En efft j'avai parlé de même chose en disant cluster et grappe merci de m'avoir expliqué tout ça.
J'essai d'apprendre le fonctionnement d'un moteur de recherche comme tu la compris, ça parai simple quand on l'utilise mais en fait c'est un énorme boulot derriere.
Je susi en train de regarder tout ce qui est sémantique et m'apperçoit qu'elle est elle même divisée en de multiple catégories... |
Titre: Re:moteur de recherche
Posté par: mci21 le le 06-12-2006 a 14:33:53
Maintenant une nouvelle question,
Qu'est-ce qui manque selon vous sur les moteurs de recherche actuels, ou qu'est-ce qui pourrai être amélioré ? |
Forum-webmaster | Actionné par YaBB SE
© 2001-2003, YaBB SE Dev Team. Tous droits réservés.
|