Caltech 101

De la Viquipèdia, l'enciclopèdia lliure

Caltech 101 és un conjunt de dades d'imatges digitals creat el setembre del 2003 i compilat per Fei-Fei Li, Marco Andreetto, Marc 'Aurelio Ranzato i Pietro Perona a l'Institut Tecnològic de Califòrnia. Està pensat per facilitar la investigació i les tècniques de visió per computador i és més aplicable a les tècniques que impliquen classificació i categorització de reconeixement d'imatges. Caltech 101 conté un total de 9.146 imatges, dividides en 101 categories d'objectes diferents (cares, rellotges, formigues, pianos, etc.) i una categoria de fons. Amb les imatges es proporcionen un conjunt d'anotacions que descriuen els contorns de cada imatge, juntament amb un script de Matlab per visualitzar-lo.

Propòsit[modifica]

La majoria dels algorismes de visió per ordinador i d'aprenentatge automàtic funcionen entrenant-se amb entrades d'exemple. Requereixen un conjunt ampli i variat de dades d'entrenament per funcionar de manera eficaç. Per exemple, el mètode de detecció de cares en temps real utilitzat per Paul Viola i Michael J. Jones es va entrenar en 4.916 cares etiquetades a mà.[1]

Retallar, redimensionar i marcar a mà els punts d'interès és tediós i requereix molt de temps.

Històricament, la majoria de conjunts de dades utilitzats en la investigació en visió per computador s'han adaptat a les necessitats específiques del projecte en el qual es treballa. Un gran problema a l'hora de comparar les tècniques de visió per ordinador és el fet que la majoria de grups utilitzen els seus propis conjunts de dades. Cada conjunt pot tenir propietats diferents que fan que els resultats reportats de diferents mètodes siguin més difícils de comparar directament. Per exemple, les diferències en la mida de la imatge, la qualitat de la imatge, la ubicació relativa dels objectes dins de les imatges i el nivell d'oclusió i el desordre present poden donar lloc a resultats diferents.[2]

El conjunt de dades Caltech 101 pretén alleujar molts d'aquests problemes comuns.

  • Les imatges es retallen i es redimensionen.
  • Es representen moltes categories, la qual cosa s'adapta tant als algorismes de reconeixement de classes individuals com múltiples.
  • Els contorns detallats dels objectes estan marcats.
  • Disponible per a ús general, Caltech 101 actua com un estàndard comú per comparar diferents algorismes sense biaix a causa de diferents conjunts de dades.

Tanmateix, un estudi recent [3] demostra que les proves basades en imatges naturals no controlades (com el conjunt de dades Caltech 101) poden ser seriosament enganyoses, i poden orientar el progrés en la direcció equivocada.

Conjunt de dades[modifica]

Imatges[modifica]

El conjunt de dades de Caltech 101 consta d'un total de 9.146 imatges, dividides en 101 categories d'objectes diferents, així com una categoria addicional de fons/desordre.

Cada categoria d'objectes conté entre 40 i 800 imatges. Les categories habituals i populars, com ara cares, solen tenir un nombre d'imatges més gran que altres.

Cada imatge és d'uns 300x200 píxels. Les imatges d'objectes orientats com ara avions i motocicletes es van reflectir per alinear-se d'esquerra a dreta i les estructures orientades verticalment, com ara edificis, es van girar per quedar fora de l'eix.

Usos[modifica]

El conjunt de dades Caltech 101 es va utilitzar per entrenar i provar diversos algorismes de reconeixement i classificació de visió per ordinador. El primer article que va utilitzar Caltech 101 va ser un enfocament bayesià incremental per a l'aprenentatge d'un sol cop, un intent de classificar un objecte utilitzant només uns quants exemples, basant-se en el coneixement previ d'altres classes.

Les imatges de Caltech 101, juntament amb les anotacions, es van utilitzar per a un altre document d'aprenentatge d'un sol cop a Caltech.[4]

Altres documents de Computer Vision que informen que utilitzen el conjunt de dades Caltech 101 inclouen:

  • Concordança de formes i reconeixement d'objectes mitjançant correspondència de baixa distorsió. Alexander C. Berg, Tamara L. Berg, Jitendra Malik. CVPR 2005
  • The Pyramid Match Kernel: Classificació discriminativa amb conjunts de característiques d'imatge. K. Grauman i T. Darrell. Conferència Internacional sobre Visió per Computador (ICCV), 2005
  • Combinació de models generatius i nuclis de Fisher per al reconeixement de classes d'objectes. Holub, AD. Welling, M. Perona, P. International Conference on Computer Vision (ICCV), 2005
  • Reconeixement d'objectes amb característiques inspirades en Visual Cortex. T. Serre, L. Wolf i T. Poggio. Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2005), IEEE Computer Society Press, San Diego, juny de 2005.
  • SVM-KNN: Classificació discriminativa del veïnat més proper per al reconeixement visual de categories. Hao Zhang, Alex Berg, Michael Maire, Jitendra Malik. CVPR, 2006
  • Més enllà de les bosses de característiques: Coincidència de piràmides espacials per reconèixer categories d'escenes naturals. Svetlana Lazebnik, Cordelia Schmid i Jean Ponce. CVPR, 2006
  • Estudi empíric de bancs de filtres multiescala per a la categorització d'objectes. MJ Mar韓-Jim閚ez, and N. P閞ez de la Blanca. desembre 2005
  • Reconeixement d'objectes multiclasse amb característiques escasses i localitzades. Jim Mutch i David G. Lowe. , pàg. 11-18, CVPR 2006, IEEE Computer Society Press, Nova York, juny de 2006
  • Ús de regions dependents o categorització d'objectes en un marc generatiu. G. Wang, Y. Zhang i L. Fei-Fei. IEEE Comp. Vis. Patt. Recog. 2006

Referències[modifica]

  1. Viola, Paul; Jones, Michael J. International Journal of Computer Vision, 57, 2, 2004, pàg. 137–154. DOI: 10.1023/B:VISI.0000013087.49260.fb.
  2. Oertel, Carsten. «Current challenges in automating visual perception». A: 2008 37th IEEE Applied Imagery Pattern Recognition Workshop (en anglès), 2008, p. 1–8. DOI 10.1109/AIPR.2008.4906457. ISBN 978-1-4244-3125-0. 
  3. Pinto, Nicolas; Cox, David D.; Dicarlo, James J. PLOS Computational Biology, 4, 1, 2008, pàg. e27. Bibcode: 2008PLSCB...4...27P. DOI: 10.1371/journal.pcbi.0040027. PMC: 2211529. PMID: 18225950.
  4. L. Fei-Fei; R. Fergus; P. Perona «Còpia arxivada». IEEE Transactions on Pattern Analysis and Machine Intelligence, 28, 4, April 2006, pàg. 594–611. Arxivat de l'original el 2007-06-09. DOI: 10.1109/TPAMI.2006.79. PMID: 16566508 [Consulta: 16 gener 2008].