Vés al contingut

Stemming

De la Viquipèdia, l'enciclopèdia lliure

Stemming és un mètode per a reduir una paraula a la seua raïl o (en anglès) a un stem. Hi ha alguns algorismes de stemming que ajuden en sistemes de recuperació d'informació. L'stemming augmenta el recall, que és una mesura sobre el nombre de documents que es poden trobar amb una consulta. Per exemple una consulta sobre "biblioteques" també troba documents en els quals només aparega "bibliotecari" perquè el stem de les dues paraules és el mateix ("bibliotec").

Algorismes[modifica]

L'algorisme més comú per a stemming és l'algorisme de Porter.[1] Existeixen a més mètodes basats en anàlisi lexicogràfica i altres algorismes similars (KSTEM, stemming amb cos, mètodes lingüístics…).

Programari[modifica]

Snowball és un petit llenguatge de programació per al maneig de cadenes de text que permet aplicar algorismes de stemming amb facilitat. Es pot generar codi en ANSI C i Java. Les pàgines de Snowball contenen stemmers per a 12 idiomes (inclòs el català). 

Stemming en cercadors comercials[modifica]

Google utilitza stemming, igual que MSN search (on ha d'activar-se explícitament). En general, els cercadors comercials no donen moltes explicacions sobre els algorismes utilitzats.

Referències[modifica]

  1. Porter, Martin. «The Porter Stemming Algorithm». [Consulta: 26 maig 2021].

Enllaços externs[modifica]