Vés al contingut

Transformació de característiques d'escala invariant

De la Viquipèdia, l'enciclopèdia lliure
Exemple de mise en correspondance de deux images par la méthode SIFT : des lignes vertes relient entre eux les descripteurs communs à un tableau et une photo de ce même tableau, de moindre qualité, ayant subi des transformations.
Exemple del resultat de la comparació de dues imatges pel mètode SIFT (Fantasia o Jeu de la Poudre, davant la porta d'entrada a la vila de Méquinez, d'Eugène Delacroix, 1832).

La transformació de característiques d'escala invariant (SIFT) és un algorisme de visió per ordinador per detectar, descriure i combinar característiques locals en imatges, inventat per David Lowe el 1999. Les aplicacions inclouen reconeixement d'objectes, mapes i navegació robòtica, costura d'imatges, modelatge 3D, reconeixement de gestos, seguiment de vídeo, identificació individual de la fauna i moviment de coincidències.[1]

Els punts clau SIFT dels objectes s'extreuen primer d'un conjunt d'imatges de referència i s'emmagatzemen en una base de dades. Un objecte es reconeix en una imatge nova comparant individualment cada característica de la imatge nova amb aquesta base de dades i trobant característiques de concordança candidates basades en la distància euclidiana dels seus vectors de característica. A partir del conjunt complet de coincidències, s'identifiquen subconjunts de punts clau que coincideixen amb l'objecte i la seva ubicació, escala i orientació a la nova imatge per filtrar les bones coincidències. La determinació de clústers consistents es realitza ràpidament utilitzant una implementació eficient de taula hash de la transformada de Hough generalitzada. Cada grup de 3 o més característiques que coincideixen amb un objecte i la seva posició està subjecte a una verificació més detallada del model i, posteriorment, es descarten els valors atípics. Finalment, es calcula la probabilitat que un conjunt particular de característiques indiqui la presència d'un objecte, donada la precisió de l'ajust i el nombre de possibles coincidències falses. Les coincidències d'objectes que superen totes aquestes proves es poden identificar com a correctes amb alta confiança.[2]

Schéma illustrant la construction d'une pyramide de différences de gaussiens (DoG) à partir de la pyramide de gradients. 3 octaves de 5 gradients sont représentées, et sous chaque octave, sont représentées les différences de gaussiennes issues de chaque paire d'images successives.
Construcció de la piràmide de diferències de gaussianes (DoG) a partir de la piràmide de gradients.

Visió general[modifica]

Per a qualsevol objecte d'una imatge, es poden extreure punts interessants de l'objecte per proporcionar una "descripció de la característica" de l'objecte. Aquesta descripció, extreta d'una imatge d'entrenament, es pot utilitzar per identificar l'objecte quan s'intenta localitzar l'objecte en una imatge de prova que conté molts altres objectes. Per realitzar un reconeixement fiable, és important que les característiques extretes de la imatge d'entrenament siguin detectables fins i tot amb canvis d'escala de la imatge, soroll i il·luminació. Aquests punts normalment es troben en regions de gran contrast de la imatge, com ara les vores d'un objecte.[3]

Exemple de détection d'extremums dans l'espace des échelles. Ici, sont représentés trois portions de DoGs successifs, ainsi que la position d'un extrémum dans l'espace des échelles.
Exemple de detecció d'extrems a l'espai d'escala.

SIFT pot identificar objectes de manera robusta fins i tot entre desordres i sota oclusió parcial, perquè el descriptor de la característica SIFT és invariant a l'escala uniforme, l'orientació, els canvis d'il·luminació i parcialment invariant a la distorsió afina. Aquesta secció resumeix l'algoritme SIFT original i esmenta algunes tècniques competidores disponibles per al reconeixement d'objectes sota desordre i oclusió parcial.

Problema Tècnica Avantatge
localització de claus / escala / rotació Diferència de gaussians / piràmide escala-espai / assignació d'orientació precisió, estabilitat, escala i invariància rotacional
distorsió geomètrica desenfocament / remuestreig dels plans d'orientació de la imatge local invariància afí
indexació i concordança veí més proper / Best Bin Primera cerca Eficiència/velocitat
Identificació del clúster Votació Hough Transform models de poses fiables
Verificació del model / detecció de valors atípics Mínims quadrats lineals millor tolerància a errors amb menys coincidències
Acceptació de la hipòtesi Anàlisi de probabilitat bayesiana fiabilitat

Tipus de característiques[modifica]

Cette illustration représente trois fois la même image à des étapes différentes de la détection des extremums. Sur la première image sont représentés tous les points bruts tels que déterminés par l'algorithme. Sur la deuxième image, les point de faible contraste ont été éliminés. Sur la dernière image, les points situés sur les arêtes ont été éliminés.
Després de la detecció dels extrems a l'espai de les escales (les seves posicions s'indiquen a la imatge superior), l'algoritme elimina els punts de baix contrast (els punts restants apareixen a la imatge del mig), després els punts situats a les crestes. La resta de punts es mostren a la imatge inferior.

La detecció i descripció de les característiques de la imatge local pot ajudar en el reconeixement d'objectes. Les característiques SIFT són locals i es basen en l'aparença de l'objecte en punts d'interès particulars, i són invariants a l'escala i la rotació de la imatge. També són robusts als canvis d'il·luminació, soroll i canvis menors de punt de vista. A més d'aquestes propietats, són molt distintives, relativament fàcils d'extreure i permeten la identificació correcta d'objectes amb poca probabilitat de desajustament. Són relativament fàcils de comparar amb una base de dades (gran) de característiques locals, però, tanmateix, l'alta dimensionalitat pot ser un problema i, en general, s'utilitzen algorismes probabilistes com ara arbres kd amb la millor cerca de primer bin. La descripció de l'objecte per conjunt de característiques SIFT també és robusta a l'oclusió parcial; tan sols 3 característiques SIFT d'un objecte són suficients per calcular la seva ubicació i posada. El reconeixement es pot realitzar en temps proper al real, almenys per a bases de dades petites i en maquinari informàtic modern.[4]

Referències[modifica]

  1. «Scale-Invariant Feature Transform» (en anglès). https://www.baeldung.com.+[Consulta: 12 agost 2023].
  2. Burger, Wilhelm; Burge, Mark J. Scale-Invariant Feature Transform (SIFT) (en anglès). London: Springer, 2016, p. 609–664. DOI 10.1007/978-1-4471-6684-9_25. ISBN 978-1-4471-6684-9. 
  3. «[https://inst.eecs.berkeley.edu/~ee225b/sp14/StudentPresentations/SIFT.pdf Scale Invariant Feature Transform by David Lowe]» (en anglès). https://inst.eecs.berkeley.ed.+[Consulta: 12 agost 2023].
  4. Tyagi, Deepanshu. «Introduction to SIFT( Scale Invariant Feature Transform)» (en anglès), 07-04-2020. [Consulta: 12 agost 2023].