Model bossa de paraules

De la Viquipèdia, l'enciclopèdia lliure

El model bossa de paraules (de l'anglès, Bag of Words) és un mètode que s'utilitza en el processament del llenguatge per representar documents ignorant l'ordre de les paraules. En aquest model, cada document sembla una bossa que conté algunes paraules. Per tant, aquest mètode permet un modelatge de les paraules basat en diccionaris on cada bossa conté unes quantes paraules del diccionari. En el camp de reconeixement d'objectes, s'utilitza una idea similar per a les representacions d'imatges, és a dir, una imatge pot ser tractada com un document i les característiques extretes d'uns certs punts de la imatge són considerades paraules visuals. Els principals avantatges d'utilitzar aquest model és la seva facilitat d'ús i la seva eficiència computacional.


Anotació de la imatge[modifica]

La distribució de continguts audiovisuals és un dels serveis més oferts a la xarxa i creix de forma exponencial degut als avenços de les tecnologies informàtiques i multimèdia. Això ha comportat que el procés de recuperació d'aquests continguts sigui més complicat i com a conseqüència s'han de dissenyar sistemes de recuperació d'imatges que permeten resoldre cerques en grans repositoris multimèdia de manera eficient. Per tant, cal una automatització del procés d'anotació, ja que l'anotació manual és massa costosa per a grans volums de dades.

L'anotació de la imatge és el procés d'assignació automàtica de paraules clau a les imatges. Es pot fer la categorització d'una imatge a partir d'una sèrie de classes o de característiques predefinides. Però el rendiment de l'anotació de la imatge depèn sobretot de la representació característica de la imatge. El model bossa de paraules es va aplicar primerament al camp de la imatge i la recuperació de vídeo i s'ha mostrat en general un gran rendiment per l'anotació de la imatge i les tasques de recuperació.

Implementació del model[modifica]

Per a la implementació del model cal seguir uns passos dissenyats per augmentar la precisió del classificador i reduir el cost computacional.

Detecció i descripció dels punts d'interès[modifica]

El primer pas és la detecció dels punts o regions d'interès. Aquests punts es guarden en un vector de característiques. Es poden utilitzar diferents tipus de detectors.

  • Quadrícula regular

Aquest tipus de mètode és un dels més simples i eficaços que es poden utilitzar per detectar característiques. La imatge es divideix en parts iguals i aquestes parts són els punts d'interès. L'única limitació que hi ha en aquest mètode és que utilitza poca informació de la imatge.

  • Detector dels punts d'interès

Aquest tipus de detectors marquen com a punts d'interès les taques o bores de la imatge. Considera que aquest són els punts més importants perquè són els primers que detecta l'ull humà.

  • Hessian-Laplace

És un detector basat en la matriu Hessiana. Aquest detector aplica el determinant per escollir la posició i l'escala. Per tant, donat un punt p = (x,y) de la imatge I, la matriu Hessiana H(p,o) es defineix com:


  • DoG

El detector DoG (Difference of Gaussians) és un algoritme que fa la detecció de les vores d'una imatge fent dos desenfocaments Gaussians a la mateixa imatge amb diferents radis i treu les dues versions per obtenir el resultat final.

  • Altres mètodes

També s'utilitza mostreig aleatori i models de segmentació per a la detecció de característiques.

Càlcul de descriptors locals[modifica]

Quan els punts d'interès de la imatge han sigut extrets amb el descriptor, s'ha de triar la part més important del vector de característiques. Un bon descriptor ha de tenir l'habilitat de controlar la intensitat, la rotació, l'escala i les variacions de la mateixa dimensió, quan l'ordre dels diferents vectors és indiferent. Alguns descriptors locals i individuals s'extreuen amb el descriptor Scale Invariant Feature Transform (SIFT), que extreu els gradients de la imatge i seguidament es formen els Keypoint Descriptors, o amb el descriptor Speeded Up Robust Features (SURF). Aquests descriptors identifiquen textures al voltant dels punts.

Quantificació dels descriptors en paraules per formar el vocabulari visual[modifica]

Un cop s'han detectat els punts claus i les seves característiques i s'han extret amb el descriptor, el següent pas és generar un llibre de codis (codebook) de les característiques. Aquest pas es fa fent una quantificació vectorial amb mètodes de clustering, com per exemple l'algoritme k-means, ja que els mètodes basats en clusters s'utilitzen molt en l'aprenentatge de vocabulari visual. Aquests vectors es divideixen en grups que són similars i s'uneixen per formar el codebook. Les dades estan organitzades en diferents clusters que es corresponen amb paraules visuals (codewords). Un cop tenim definits els clusters, cada un d'ells formarà una bossa de paraules. És a dir, tindrem a cada bossa les característiques que hem extret de cada imatge.

Histograma de freqüència de paraules[modifica]

Un cop s'han obtingut les bosses de paraules, s'ha de crear l'histograma per saber què és l'objecte que es vol identificar. Per cada imatge que es vol identificar, prèviament s'haurà utilitzat un algorisme d'aprenentatge amb el qual s'hauran guardat les característiques més importants de les imatges d'entrenament en una bossa. Un cop acabada la classificació de les imatges d'entrenament, es realitza el càlcul de l'histograma per cada imatge que es vol reconèixer. A l'eix “X” es col·loquen les característiques extretes de les imatges d'entrenament i a l'eix “Y” el nombre de vegades que apareix cada característica a la imatge que es vol analitzar.

Bibliografia[modifica]

Enllaços externs[modifica]