n-grama

De Viquipèdia
Dreceres ràpides: navegació, cerca

Donada una seqüència, anomenem n-grama a una subseqüència de n elements. Els elements poden ser tant lletres com paraules. S'utilitzen en diverses tasques de la traducció automàtica estadística, i també en altres camps de la investigació científica com l'anàlisi de seqüències genètiques.

Anomenem unigrama al n-grama quan n=1, bigrama amb n=2, trigrama amb n=3, etc. Els models de n-grames també es coneixen com a "Models de Markov no-ocults", ja que es coneixen les probabilitats de transició entre els diferents estats.

Model de n-grames[modifica | modifica el codi]

Un model de n-grames ens permet generar, gràcies a les propietats estadístiques dels n-grames, models de llenguatges naturals.

Aquesta idea va nàixer amb un experiment realitzat per Claude Shannon per a la seva Teoria de la informació. Donada una seqüència de lletres, va estudiar quina era la següent lletra més probable. A partir d'un conjunt de dades d'aprenentatge, es pot deduir una distribució de probabilitat amb què obtenir quina és aquesta lletra.

A l'hora de modelar llenguatges, concretament, un model de n-grama és capaç de predir x_{i} donades x_{i-1}, x_{i-2}, \dots, x_{i-n}. Degut a limitacions computacionals i també a què, en principi, una llengua pot tindre infinites paraules possibles, se simplifica de manera que cadascun dels elements (en aquest cas paraules) només depén d'un nombre finit de n paraules.

Tècniques de suavitzat[modifica | modifica el codi]

Els models de n-grames poden presentar alguns problemes: algunes probabilitats poden ser zero, si no s'ha vist mai el n-grama corresponent. Per això, se solen utilitzar algunes tècniques de suavitzat. Aquestes es poden dividir en dos grans tipus: tècniques per interpolació i tècniques back-off. En grans línies, la principal diferència entre ambdós tipus és que les tècniques d'interpolació sempre utilitzen informació de k-grames inferiors, mentre que les de back-off només ho fan si la probabilitat del n-grama és zero.

Tècniques basades en interpolació[modifica | modifica el codi]

Les tècniques basades en interpolació calculen la probabilitat de manera ponderada entre el n-grama, corregit amb un factor \lambda i una probabilitat més robusta (que no presenta zeros) del n-grama i una història simplificada.

p(w|h) = \lambda \frac{N(hw)}{\displaystyle\sum_{w'}{hw'}} + (1-\lambda) \beta(w|\hat{h})

  • h: història detallada (w_{1}w_{2}w)
  • \beta: probabilitat més robusta
  • \hat{h}: història simplificada (w_{2}w)

Tècniques basades en back-off[modifica | modifica el codi]

Les tècniques basades en back-off calculen la probabilitat de la manera normal en els n-grames vistos durant la fase d'entrenament, i per als casos on aquesta probabilitat és zero, utilitzen una emprant una probabilitat més robusta i una història simplificada.


p(w|h)= \lambda \frac{N(hw)}{\sum_{w'}{N(hw')}}
, si N(hw)>0


p(w|h)=(1-\lambda) \frac{\beta(w|\hat{h})}{\sum_{w':N(hw')=0}{\beta(w'|\hat{h})}}
, si N(hw)=0

Vegeu també[modifica | modifica el codi]

Referències[modifica | modifica el codi]