Aranya web

De Viquipèdia
Dreceres ràpides: navegació, cerca
Funcionament d'una aranya web

Una aranya web o robot web (web crawler en anglès) és un programari que inspecciona pàgines Web de forma metòdica i automatitzada. Les aranyes web, s'utilitzen per a crear una còpia de totes les pàgines web visitades per al seu processament posterior per un motor de recerca que indexa les pàgines proporcionant un sistema de recerques ràpid.

Aquests programes, comencen visitant una llista d'URLs, identifica els hiperenllaços que contenen i els afegeix a la llista d'URLs a visitar de manera recurrent d'acord a un determinat conjunt de regles. El seu funcionament usual, és a partir d'un grup d'adreces inicials que es proporciona a aquest programa, l'aranya les descarrega, n'analitza les pàgines i cerca enllaços a pàgines noves. Després descarrega aquestes pàgines noves, n'analitza els enllaços, i així successivament ad nauseam.

Les tasques més comunes de les aranyes són:

  • Crear l'índex d'una màquina de recerca.
  • Analitzar els enllaços d'un lloc per a buscar enllaços trencats.
  • Recol·lectar informació d'un cert tipus, com preus de productes per a recopilar un catàleg.

Els administradors de webs, poden controlar relativament, l'accés de les aranyes a les seves webs, creant l'arxiu "robots.txt", que usa una sintaxi definida per a guiar aquests robots per l'estructura d'aquella web. Podeu veure per exemple l'arxiu; http://ca.wikipedia.org/robots.txt

Enllaços externs[modifica | modifica el codi]