Reconeixement d'objectes

De Viquipèdia
Dreceres ràpides: navegació, cerca

El reconeixement d'objectes és un procés en el que l'objectiu principal és identificar un determinat objecte dins d'una imatge estàtica o video. L'eśser humà realitza aquest procés i pot detectar una multitud d'objectes satisfactòriament tenim en compte diferents factors com són els diferents punts de vista, la mida, l'escala o fins i tot si l'objecte pateix transformacions.

Avui en dia aquest tipus de detecció és aplicada a màquines electróniques mitjançant diferents métodes i algoritmes de reconeixement, aquestes técniques s'estudien a la branca de Visió Artificial que está dins el camp de la Inteligéncia Artificial.


Mètodes de reconeixement[modifica | modifica el codi]

Mètodes basats en la similitud[modifica | modifica el codi]

Aquest mètode utilitza imatges referència (o plantilles) dels objectes per a realitzar el reconeixement.

S'ha de tenir en compte les diferents condicions en les quals pot estar l'objecte:


  • Els canvis en la il·luminació o el color.
  • Diferents punts de vista de la posició de l'objecte.
  • Canvis en la mida i la forma.


No obstant això, és impossible representar totes les similituds d'un objecte.


Correspondència de vores (Edge Matching)[modifica | modifica el codi]

Exemple detecció de vores amb algorisme Operador Sobel.

Utilitza tècniques de detecció de vores, com la detecció de vores Canny. S'ha de tenir en compte que els canvis en la il·luminació i de color no tenen cap mena d'efecte a les vores de la imatge.

Procediment:

  1. Detecció de vores a la plantilla i a la imatge.
  2. Comparar les imatges per trobar les semblances.
  3. Ha de tenir en compte diverses posicions de la plantilla.


Podem obtenir 3 tipus d'aproximacions:

  • Acceptable - nombre de vores superposades. No és robust als canvis de forma.
  • Bona - nombre de píxels de les vores amb un cert marge amb la imatge cerca.
  • Excel·lent - Determina la distribució de probabilitat de la distància a la vora més propera amb la imatge cerca.

Cerca Divideix i venceràs (“Divide-and-Conquer”)[modifica | modifica el codi]

És una tècnica recursiva que tracta de dividir els problemes de reconèixer un objecte a sub-problemes més senzills per tal de poder tractar oclusions o objectes trencats.

Procediment:

  • Dividir la imatge en diferents cel·les amb informació rellevant.
  • Determinar la menor diferència respecte a la imatge referència.
  • Si aquesta és massa gran, retallar la cel·la de cerca.
  • Si és acceptable, dividir les cel·les en sub-cel·les i tornar a cercar recursivament.
  • El procés acaba quan la cel·la és relativament petita.

Aquesta tècnica s'ajuda d'avançades equacions algebraiques per tal d'ignorar dades confuses o irrellevants i fer generalitzacions simplificades sobre les dades visuals.

Correspondència d'escala de grisos[modifica | modifica el codi]

Les vores són molt robustes als canvis d'il·luminació, encara que es pot extreure molta informació.

Calcula la distància dels pixels en funció tant de la posició com la intensitat d'aquests.

També es pot aplicar al color.


Correspondència de gradients[modifica | modifica el codi]

Una altra tècnica per no perdre informació envers la robustesa de les vores als canvis d'il·luminació és comparar els gradients de la imatge. La correspondència es realitza comparant imatges en escala de grisos.

El principal avantatge d'aquesta tècnica és que la majoria de les dades aconseguides d'una imatge referència es poden utilitzar per reduir les càrregues dels processadors.

En la majoria d'aplicacions, la correspondència de gradients dóna una interpretació molt més acurada que qualsevol dels altres mètodes de correspondència per escala de grisos.

Correspondència a partir de bases de dades[modifica | modifica el codi]

Exemple d'eigenfaces

Una aproximació per a la cerca eficient a una base de dades per a una imatge específica es utilitzar els “eigenvectors” de les imatges referència (anomenats eigenfaces en agnlès).

Aquest mètode s'utilitza sobretot en el reconeixement facial humà i tracta sobre una base de dades d'imatges de cares amb un conjunt mínim de paràmetres.

Per aconseguir-ho, utilitza l'anàlisi de components principals (PCA) per a generar les imatges semblants a cares, anomenades eigenpictures, que utilitzarà per a fer la correspondència amb altres imatges.

També es pot tenir una base de dades amb “eigenfaces” d'altres objectes per al reconeixement d'aquests.

Mètodes basats en funcions[modifica | modifica el codi]

La cerca s'utilitza per trobar coincidències possibles entre les característiques de l'objecte i la imatge.

Els següents mètodes extreuen les característiques bàsiques per ser reconegut un objecte i la imatge a cercar:

  • Característiques de la superfície
  • Cantonades
  • Vores lineals


Estructura en arbre[modifica | modifica el codi]

Exemple d'una estructura en arbre

Mètode basat en recórrer tots els nodes d'una estructura en arbre de manera ordenada. La cerca consisteix en buscar a cada node un conjunt de semblances.

  • El node arrel representa un conjunt.
  • La resta de nodes és la unió de les coincidències en el node pare i una altra coincidència addicional.

Els nodes són eliminats quan el conjunt de semblances no és possible. És un mètode antic, però important, encara que avui en dia s'utilitza amb menys freqüència.






Hipòtesi i prova[modifica | modifica el codi]

Consisteix en formular una hipòtesi d'una correspondència entre un conjunt de característiques de la imatge i un conjunt de trets representatius de l'objecte. Amb aquestes dades es genera una hipòtesi sobre la projecció de l'objecte, utilitzat per a la seva representació.


Trobem diferents formes de generar una hipòtesi:

  • Per limitacions geomètriques
  • Construir una correspondència per petits conjunts de trets representatius de l'objecte a cada subconjunt de grandària adequada de punts de la imatge.


En trobem tres enfocaments bàsics:

  • Obtenció d'hipòtesi per posició de coherència
  • Obtenció d'hipòtesi per agrupació de posicions
  • Obtenció d'hipòtesi mitjançant sistemes invariants


Posició de coherència[modifica | modifica el codi]

També se'l coneix com alineació, ja que l'objecte està alineat a la imatge. Les correspondències entre les característiques de la imatge i els trets representatius del model no són independents.

Procediment:

  • Generarem una hipòtesi amb un nombre petit de correspondències.
  • Utilitza un altre model en la imatge per verificar les correspondències addicionals entre elles.


Agrupament de posició (clustering)[modifica | modifica el codi]

Consisteix en la classificació d'objectes similars en diferents grups, o més precisament, la partició de les dades en diferents subconjunts (o clusters). Així doncs, les dades de cada subgrup idealment comparteixen un tret comú. Utilitza una matriu acumuladora que representa l'espai per a cada objecte. Bàsicament és una transformada de Hough. Una de les principals aplicacions es intentar eliminar els sorolls.

\, x\cos (\rho)+\, y\sin (\rho) =\phi

Invariància[modifica | modifica el codi]

Hi ha propietats geomètriques que no varien amb las transformacions de la càmera. Aquesta manca de canvis s'aprofita per a poder identificar objectes. Resulta més útil aplicat sobre objectes plans o seccions dels mateixos, tot i poder utilitzar-se en altres casos.


Hashing geomètric[modifica | modifica el codi]

S'utilitza un algorisme basat en invariàncies geomètriques per formular hipòtesis sobre l'objecte a reconèixer. Quant al seu funcionament és similar a la tècnica d'agrupament per postura però tenint en compte la seva geometria en comptes de la postura. S'utilitza en l'àmbit de reconeixement de patrons, CAD/CAM, i imatges mèdiques.


SIFT (Transformada de característiques variants en escala)[modifica | modifica el codi]

Els marcadors dels objectes s'extreuen mitjançant un mètode piramidal amb successius filtres Gaussians d'un conjunt d'imatges de referència emmagatzemades en una base de dades en forma de vectors. Aquests vectors contenen les característiques locals i invariants a la translació, escalament i rotació. Parcialment invariants als canvis d'il·luminació i a la projecció 3D o afí. Un objecte és reconegut en una nova imatge contrastant cada característica de la nova imatge amb les existents dins la base de dades. Es procedeix trobant les característiques susceptibles de ser una correspondència mitjançant la distància euclidiana entre els seus vectors de característiques.

SURF (Característiques robustes accelerades)[modifica | modifica el codi]

És un mètode inspirat en la transformada de característiques variants en escala (SIFT). La versió standard supera la velocitat d'execució del SIFT diverses vegades. Es tracta d'un detector i descriptor d'imatges robust que utilitza l'addició de respostes 2D Haar wavelet.

Altres mètodes[modifica | modifica el codi]

Model "Bag of words"[modifica | modifica el codi]

Esquema de model bag of words

Aquest model en llenguatge de processat és un mètode popular per representar documents que fa cas omís a l'ordre de les paraules, és a dir, “un bon llibre” i “llibre bon un” seria el mateix. Aleshores, permet un modelatge basat en diccionaris on cada document es veu com una “borsa” (bag) que conté algunes paraules del diccionari. En el camp de reconeixement d'objectes, una imatge pot ésser tractada també com un document, i les característiques extretes de la imatge són considerades com paraules.

Usos de la representació BoW:

  • Vector de característiques per classificador estàndard.
  • Conjunt de vectors BoW sobre la col·lecció d'imatges.
  • Models jeràrquics (descompondre objecte).

S'utilitza SVM (Support Vector Machines) per la classificació de l'objecte.





Vectors Bag of Words


Per text literaris utilitzem els segúents models:

  • Probabilistic latent semantic analysis (pLSA)
  • Latent Dirichlet allocation (LDA)

Model "Part-based"[modifica | modifica el codi]

Els models 'part-based' es refereixen a una àmplia classe d'algoritmes de detecció usats sobre imatges, en les quals diverses parts de la imatge, s'utilitzen separadament per determinar si i on un objecte d'interés existeix. Aquests objectes es representen per una col·lecció de parts, caracteritzats tant per les seves aparicions visuals com per les posicions. Les categories d'objectes són modelades per l'aspecte i les distribucions espacials d'aquestes parts característiques.


Mètodes discriminatius[modifica | modifica el codi]

La detecció d'objecte i el reconeixement són formulats com un problema de classificació. La imatge es divideix en un conjunt de finestres que es sobreposen, i a cada finestra es pren la decisió de si conté un objecte o no. Cada finestra es representa extreient un gran nombre de característiques que codifiquen la informació com fronteres, textures, estructura de color…


Exemple de model discriminatiu


Aplicacions[modifica | modifica el codi]

  • Robots mòbils
  • Reconeixement de senyals de trànsit
  • Posició de telèfon mòbil o reconeixement d'objectes
  • Panorames, modelat d'escena 3D, realitat augmentada
  • Búsqueda d'imatges a la web
  • Estabilització de vídeo
  • Posicionament i seguiment visual
  • Sistemes d'automatització d'estacionament de vehicles
  • Reconeixement òptic de caràcters
  • Control de qualitat de fabricació


Vegeu també[modifica | modifica el codi]

Enllaços externs[modifica | modifica el codi]