Aranya web

De Viquipèdia
(S'ha redirigit des de: Robot web)
Jump to navigation Jump to search
Funcionament d'una aranya web

Una aranya web o robot web (web crawler en anglès) és un programari que inspecciona pàgines Web de forma metòdica i automatitzada. Les aranyes web, s'utilitzen per a crear una còpia de totes les pàgines web visitades per al seu processament posterior per un motor de recerca que indexa les pàgines proporcionant un sistema de recerques ràpid.

Aquests programes comencen visitant una llista d'URLs identifiquen els hiperenllaços que contenen i els afegeixen a la llista d'URLs a visitar de manera recurrent d'acord a un determinat conjunt de regles. El seu funcionament usual és a partir d'un grup d'adreces inicials que es proporciona a aquest programa, l'aranya les descarrega, n'analitza les pàgines i cerca enllaços a pàgines noves. Després descarrega aquestes pàgines noves, n'analitza els enllaços, i així successivament ad nauseam.

Les tasques més comunes de les aranyes són:

  • Crear l'índex d'una màquina de recerca.
  • Analitzar els enllaços d'un lloc per a buscar enllaços trencats.
  • Recol·lectar informació d'un cert tipus, com preus de productes per a recopilar un catàleg.

Els administradors de webs poden controlar relativament l'accés de les aranyes a les seves webs creant l'arxiu "robots.txt", que usa una sintaxi definida per a guiar aquests robots per l'estructura d'aquella web. Podeu veure per exemple l'arxiu; http://ca.wikipedia.org/robots.txt

Enllaços externs[modifica]