Nutch

De Viquipèdia
Dreceres ràpides: navegació, cerca

Nutch és un projecte de motor de cerca construït sota la filosofia del codi obert i basat en el Lucene per la indexació i cerca de pàgines web. L'indexador ("robot" o "web crawler") ha estat escrit des de zero només per aquest projecte. Nutch disposa d'una arquitectura altament modular, permetent als desenvolupadors crear plugins per les activitats següents: lectura d'arxius no text, recuperació de dades, consultes i clustering. El juny del 2005, Nutch fou certificat per l'Apache Incubator, i ara és un subproject de Lucene. Està escrit en Java, i les dades estan escrites en formats independents del llenguatge. Al juny del 2003, es va assolir l'éxit d'una pàgina demo que havia indexat 100 milions de planes d'internet. Per satisfer la necessitat de processar amb diferents màquines en les tasques d'indexació, el projecte nutch ha implementat també el MapReduce i un sistema de fitxers distribuït. Ambdós entorns han desembocat en un nou subprojecte anomenat Hadoop.

Escalabilitat[modifica | modifica el codi]

IBM Research va estudiar el rendiment [1] de Nutch/Lucene com a part del seu projecte Commercial Scale Out (CSO) project [2] . Les seves conclusions van ser que Nutch/Lucene podia assolir un nivell de rendiment sobre un cluster de blades que no era abastable per un ordinador escalable, com podia ser el Power5.

Projectes relacionats[modifica | modifica el codi]

Hadoop

Motors de cerca construïts amb Nutch[modifica | modifica el codi]

Referències[modifica | modifica el codi]

  1. Escalabilitat del motor de cerca Nutch (anglès)
  2. Sistema operatiu de base per aprovisionar i portar un Superordinador Comercial (anglès)

Enllaços externs[modifica | modifica el codi]