Vés al contingut

Reconeixement d'objectes

De la Viquipèdia, l'enciclopèdia lliure

El reconeixement d'objectes és la capacitat d'identificar un element concret dins d'una imatge o d'un vídeo. En humans és una habilitat gairebé automàtica: es poden reconèixer cares, animals o objectes, fins i tot si els veiem des d'un angle diferent, a una altra mida o amb petits canvis en la forma. Actualment, aquesta mateixa habilitat s'ha portat a les màquines gràcies a la visió artificial, una branca de la intel·ligència artificial que utilitza mètodes i algorismes perquè ordinadors, càmeres i robots puguin «veure» i entendre el que tenen davant.

Mètodes de reconeixement

[modifica]

Mètodes basats en la similitud

[modifica]

Aquest mètode s'utilitza imatges de referència (o plantilles) dels objectes per a realitzar el reconeixement. S'han de tenir en compte les diferents condicions en què pot estar l'objecte:

  • Els canvis en la il·luminació o el color.
  • Diferents punts de vista de la posició de l'objecte.
  • Canvis en la mida i la forma.

No obstant això, és impossible representar totes les similituds d'un objecte.

Correspondència de vores (Edge Matching)

[modifica]
Exemple detecció de vores amb algorisme operador Sobel.

Fa servir tècniques com la detecció de vores Canny. Cal tenir en compte que els canvis en la il·luminació i de color no afecten a les vores de la imatge.

Procediment:

  1. Detectar vores a la plantilla i a la imatge.
  2. Comparar les imatges per trobar les semblances.
  3. Ha de tenir en compte diverses posicions de la plantilla.

Es poden obtenir 3 tipus d'aproximacions:

  • Acceptable - nombre de vores superposades. No és sensible als canvis de forma.
  • Bona - nombre de píxels de les vores amb un cert marge amb la imatge de prop.
  • Excel·lent - Determina la distribució de probabilitat de la distància a la vora més propera amb la imatge que se cerca.

Cerca «Divideix i venceràs» (Divide-and-Conquer)

[modifica]
Mètode de dividir i conquerir.

És una tècnica recursiva que divideix els problemes de reconeixement d’un objecte en subproblemes més senzills per tractar oclusions o objectes trencats.

Procediment:

  • Dividir la imatge en diferents cel·les amb informació rellevant.
  • Determinar la menor diferència respecte a la imatge de referència.
  • Si aquesta és massa gran, retallar la cel·la de cerca.
  • Si és acceptable, dividir les cel·les en subcel·les i tornar a cercar recursivament.
  • El procés acaba quan la cel·la és relativament petita.

Aquesta tècnica s'ajuda d'equacions algebraiques avançades per tal d'ignorar dades confuses o irrellevants i fer generalitzacions simplificades sobre les dades visuals.

Correspondència d'escala de grisos

[modifica]

Les vores són molt resistents als canvis d'il·luminació, tot i que se'n pot extreure molta informació. La correspondència calcula la distància dels píxels en funció tant de la posició com de la intensitat.

També es pot aplicar al color.

Correspondència de gradients

[modifica]

Una altra tècnica per no perdre informació derivada de la resistència de les vores als canvis d'il·luminació, es comparen els gradients de la imatge. La correspondència es realitza comparant imatges en escala de grisos.

El principal avantatge d'aquesta tècnica és que la majoria de les dades obtingudes d'una imatge de referència es poden utilitzar per reduir les càrregues de processament.

En la majoria d'aplicacions, la correspondència de gradients ofereix una interpretació més acurada que altres mètodes de correspondència en escala de grisos.

Correspondència a partir de bases de dades

[modifica]
Exemple d'eigenfaces

Una aproximació eficient per a la cerca en una base de dades per d'una imatge específica és utilitzar els «eigenvectors» de les imatges referència (anomenats eigenfaces en anglès).

Aquest mètode s'utilitza sobretot en el reconeixement facial humà i funciona sobre una base de dades d'imatges de cares amb un conjunt mínim de paràmetres.

Per aconseguir-ho, utilitza l'anàlisi de components principals (PCA) per a generar les imatges semblants a cares, anomenades eigenpictures, que s'utilitzen per a fer la correspondència amb altres imatges.

També es pot tenir una base de dades amb eigenfaces d'altres objectes per al reconeixement d'aquests.

Mètodes basats en funcions

[modifica]

La cerca es fa servir per a trobar coincidències possibles entre les característiques de l'objecte i la imatge. Els mètodes següents extreuen les característiques bàsiques per ser reconegut un objecte i la imatge a cercar:

  • Característiques de la superfície.
  • Cantonades.
  • Vores lineals.

Estructura en arbre

[modifica]
Exemple d'una estructura en arbre

Mètode basat a recórrer tots els nodes d'una estructura en arbre de manera ordenada. La cerca consisteix a buscar a cada node un conjunt de semblances.

  • El node arrel representa un conjunt.
  • La resta de nodes és la unió de les coincidències en el node pare i una altra coincidència addicional.

Els nodes s'eliminen quan el conjunt de semblances no és possible. És un mètode antic però important, tot i que avui en dia s'utilitza amb menys freqüència.

Hipòtesi i prova

[modifica]

Consisteix a formular una hipòtesi d'una correspondència entre un conjunt de característiques de la imatge i un conjunt de trets representatius de l'objecte. Amb aquestes dades es genera una hipòtesi sobre la projecció de l'objecte, que s'utilitza per a la seva representació.

Formes de generar hipòtesis:

  • Per limitacions geomètriques.
  • Construint correspondències per petits conjunts de trets representatius de l'objecte en subconjunts de grandària adequada de punts de la imatge.

Enfocaments principals:

  • Obtenció d'hipòtesis per posició de coherència.
  • Obtenció d'hipòtesis per agrupació de posicions.
  • Obtenció d'hipòtesis mitjançant sistemes invariants.

Posició de coherència

[modifica]

També conegut com a alineació, atès que l'objecte s'alinea amb la imatge. Les correspondències entre les característiques de la imatge i els trets del model no són independents.

Procediment:

  • Generació d'una hipòtesi amb un nombre petit de correspondències.
  • Ús d'un altre model en la imatge per verificar les correspondències addicionals entre elles.

Agrupament de posició (clustering)

[modifica]

Consisteix en la classificació d'objectes similars en diferents grups, o més precisament, en la partició de les dades en diferents subconjunts (clústers). Les dades de cada subgrup idealment comparteixen un tret comú. Aplica una matriu acumuladora que representa l'espai per a cada objecte; essencialment és una transformada de Hough. Una de les principals aplicacions l'eliminació de soroll.

Invariància

[modifica]

Hi ha propietats geomètriques que no varien amb les transformacions de la càmera. Aquesta manca de canvis s'aprofita per a poder identificar objectes. Resulta més útil aplicat sobre objectes plans o seccions d'aquests, tot i poder utilitzar-se en altres casos.

Hashing geomètric

[modifica]

S'utilitza un algorisme basat en invariàncies geomètriques per formular hipòtesis sobre l'objecte a reconèixer. Quant al funcionament, és similar a la tècnica d'agrupament per postura, però tenint en compte la seva geometria en lloc de la postura. S'empra en l'àmbit de reconeixement de patrons, CAD/CAM, i les imatges mèdiques.

SIFT (Transformada de característiques variants en escala)

[modifica]

Els marcadors dels objectes s'extreuen mitjançant un mètode piramidal amb successius filtres gaussians d'un conjunt d'imatges de referència emmagatzemades en una base de dades en forma de vectors. Aquests vectors contenen les característiques locals i invariants a la translació, escalament i rotació, i són parcialment invariants als canvis d'il·luminació i a la projecció 3D o afí. Es reconeix un objecte en una nova imatge per mitjà del contrast de cada característica de la nova imatge amb les existents dins la base de dades. El procediment consisteix a trobar les característiques susceptibles de ser una correspondència mitjançant la distància euclidiana entre els vectors de característiques.

SURF (Característiques robustes accelerades)

[modifica]

És un mètode inspirat en la transformada de característiques variants en escala (SIFT). La versió estàndard supera la velocitat d'execució del SIFT diverses vegades. Es tracta d'un detector i descriptor d'imatges robust que fa servir l'addició de respostes 2D Haar wavelet.

Altres mètodes

[modifica]
Esquema de model bag of words

Aquest model en llenguatge de processament és un mètode popular per representar documents que ignora l'ordre de les paraules, per exemple, «un bon llibre» i «llibre bon un» es tracten de la mateixa manera. Permet un modelatge basat en diccionaris on cada document es veu com una «borsa» (bag) que conté algunes paraules del diccionari. En el reconeixement d'objectes, una imatge pot ser tractada també com un document, i les característiques extretes de la imatge es consideren paraules.

Usos de la representació BoW:

  • Vector de característiques per classificador estàndard.
  • Conjunt de vectors BoW sobre la col·lecció d'imatges.
  • Models jeràrquics (descompondre objecte).

S'utilitzen SVM (Support Vector Machines) per a la classificació de l'objecte.

Vectors Bag of Words

Per a textos literaris es fan servir els següents models:

Model "Part-based"

[modifica]

Els models «part-based» es refereixen a una àmplia classe d'algorismes de detecció utilitzats sobre imatges en que diverses parts de la imatge s'utilitzen separadament per a determinar si, i on, existeix un objecte d'interès. Aquests objectes es representen mitjançant una col·lecció de parts i es caracteritzen tant per les seves aparicions visuals com per les posicions. Les categories d'objectes es modelen per l'aspecte i les distribucions espacials d'aquestes parts característiques.

Mètodes discriminatius

[modifica]

La detecció d'objecte i el reconeixement es formulen com un problema de classificació. La imatge es divideix en un conjunt de finestres que se sobreposen i, a cada finestra, es pren la decisió de si conté un objecte o no. Cada finestra es representa mitjançant l'extracció d'un gran nombre de característiques que codifiquen la informació com fronteres, textures, estructura de color…

Exemple de model discriminatiu

Aplicacions

[modifica]
  • Robots mòbils
  • Reconeixement de senyals de trànsit
  • Posició de telèfon mòbil o reconeixement d'objectes
  • Panorames, modelat d'escena 3D, realitat augmentada
  • Cerca d'imatges a la web
  • Estabilització de vídeo
  • Posicionament i seguiment visual
  • Sistemes d'automatització d'estacionament de vehicles
  • Reconeixement òptic de caràcters
  • Control de qualitat de fabricació

Vegeu també

[modifica]

Enllaços externs

[modifica]