Nutch

De Viquipèdia
Dreceres ràpides: navegació, cerca
Nutch
Nutch logo.svg
Escrit en Java
Plataforma Màquina Virtual Java
Tipus Q21127166, programari lliure i Llibreria informàtica
Llicència Llicència Apache
Lloc web http://nutch.apache.org
Modifica dades a Wikidata

Nutch és un projecte de motor de cerca construït sota la filosofia del codi obert i basat en el Lucene per la indexació i cerca de pàgines web. L'indexador ("robot" o "web crawler") ha estat escrit des de zero només per aquest projecte.

Nutch disposa d'una arquitectura altament modular que permet als desenvolupadors crear plugins per a les activitats següents: lectura d'arxius no text, recuperació de dades, consultes i clustering. El juny del 2005, Nutch fou certificat per l'Apache Incubator, i ara és un subproject de Lucene. Està escrit en Java, i les dades estan escrites en formats independents del llenguatge. Al juny del 2003, es va assolir l'èxit d'una pàgina demo que havia indexat cent milions de planes d'internet. Per satisfer la necessitat de processar amb diferents màquines en les tasques d'indexació, el projecte nutch ha implementat també el MapReduce i un sistema de fitxers distribuït. Ambdós entorns han desembocat en un nou subprojecte anomenat Hadoop.

Escalabilitat[modifica | modifica el codi]

IBM Research va estudiar el rendiment [1] de Nutch/Lucene com a part del seu projecte Commercial Scale Out (CSO) project [2] . Les seves conclusions van ser que Nutch/Lucene podia assolir un nivell de rendiment sobre un cluster de blades que no era abastable per un ordinador escalable, com podia ser el Power5.

Projectes relacionats[modifica | modifica el codi]

Hadoop

Motors de cerca construïts amb Nutch[modifica | modifica el codi]

Referències[modifica | modifica el codi]

Enllaços externs[modifica | modifica el codi]