Categorització d'objectes a partir de la cerca d'imatges

De la Viquipèdia, l'enciclopèdia lliure

En visió per computador, el problema de la categorització d'objectes a partir de la cerca d'imatges és el problema d'entrenar un classificador per reconèixer categories d'objectes, utilitzant només les imatges recuperades automàticament amb un motor de cerca d'Internet. Idealment, la recollida automàtica d'imatges permetria entrenar els classificadors amb res més que els noms de les categories com a entrada. Aquest problema està estretament relacionat amb el de la recuperació d'imatges basada en contingut (CBIR), on l'objectiu és retornar millors resultats de cerca d'imatges en lloc d'entrenar un classificador per al reconeixement d'imatges.

Tradicionalment, els classificadors s'entrenen utilitzant conjunts d'imatges que s'etiqueten a mà. Recollir aquest conjunt d'imatges sovint és un procés que requereix molt de temps i laboriós. L'ús de motors de cerca d'Internet per automatitzar el procés d'adquisició de grans conjunts d'imatges etiquetades s'ha descrit com una forma potencial de facilitar enormement la investigació en visió per ordinador.[1][2]

Desafiaments[modifica]

Imatges no relacionades[modifica]

Un problema amb l'ús dels resultats de cerca d'imatges a Internet com a conjunt d'entrenament per a un classificador és l'alt percentatge d'imatges no relacionades dins dels resultats. S'ha estimat que, quan un motor de cerca com ara Google imatges es consulta amb el nom d'una categoria d'objectes (com ara un avió? , fins a un 85% de les imatges retornades no estan relacionades amb la categoria.[3]

Variabilitat intraclasse[modifica]

Un altre repte que planteja l'ús dels resultats de la cerca d'imatges a Internet com a conjunts d'entrenament per als classificadors és que hi ha una gran quantitat de variabilitat dins de les categories d'objectes, en comparació amb les categories que es troben en conjunts de dades etiquetats a mà com Caltech 101 i Pascal. Les imatges d'objectes poden variar àmpliament en una sèrie de factors importants, com ara l'escala, la postura, la il·luminació, el nombre d'objectes i la quantitat d'oclusió.

Enfocament pLSA[modifica]

En un article de 2005 de Fergus et al., pLSA (anàlisi semàntica latent probabilística) i extensions d'aquest model es van aplicar al problema de la categorització d'objectes a partir de la cerca d'imatges. El pLSA es va desenvolupar originalment per a la classificació de documents, però des de llavors s'ha aplicat a la visió per ordinador. Es suposa que les imatges són documents que s'ajusten al model de la bossa de paraules.

Model[modifica]

De la mateixa manera que els documents de text estan formats per paraules, cadascuna de les quals es pot repetir dins del document i entre documents, les imatges es poden modelar com a combinacions de paraules visuals . De la mateixa manera que un diccionari defineix tot el conjunt de paraules de text, tot el conjunt de paraules visuals es defineix en un diccionari de paraules en codi.[4]

Referències[modifica]

  1. «[file:///home/rai/Downloads/Fergus2010p11824P_Ieee.pdf Learning Object Categories From Internet Image Searches]» (en anglès). [Consulta: 13 octubre 2023].
  2. Galleguillos, Carolina; Belongie, Serge «Context based object categorization: A critical survey». Computer Vision and Image Understanding, 114, 6, 01-06-2010, pàg. 712–722. DOI: 10.1016/j.cviu.2010.02.004. ISSN: 1077-3142.
  3. «Image classification and tagging | Algolia» (en anglès). [Consulta: 13 octubre 2023].
  4. Kinnunen, Teemu; Lankinen, Jukka; Kämäräinen, Joni-Kristian; Lensu, Lasse; Kälviäinen, Heikki «Unsupervised Visual Object Categorisation with BoF and Spatial Matching» (en anglès). Unsupervised Visual Object Categorisation with BoF and Spatial Matching. Springer [Berlin, Heidelberg], 2013, pàg. 384–395. DOI: 10.1007/978-3-642-38886-6_37.