Transformació de característiques d'escala invariant

La transformació de característiques d'escala invariant (SIFT) és un algorisme de visió per ordinador per detectar, descriure i combinar característiques locals en imatges, inventat per David Lowe el 1999. Les aplicacions inclouen reconeixement d'objectes, mapes i navegació robòtica, costura d'imatges, modelatge 3D, reconeixement de gestos, seguiment de vídeo, identificació individual de la fauna i moviment de coincidències.^[1]

Els punts clau SIFT dels objectes s'extreuen primer d'un conjunt d'imatges de referència i s'emmagatzemen en una base de dades. Un objecte es reconeix en una imatge nova comparant individualment cada característica de la imatge nova amb aquesta base de dades i trobant característiques de concordança candidates basades en la distància euclidiana dels seus vectors de característica. A partir del conjunt complet de coincidències, s'identifiquen subconjunts de punts clau que coincideixen amb l'objecte i la seva ubicació, escala i orientació a la nova imatge per filtrar les bones coincidències. La determinació de clústers consistents es realitza ràpidament utilitzant una implementació eficient de taula hash de la transformada de Hough generalitzada. Cada grup de 3 o més característiques que coincideixen amb un objecte i la seva posició està subjecte a una verificació més detallada del model i, posteriorment, es descarten els valors atípics. Finalment, es calcula la probabilitat que un conjunt particular de característiques indiqui la presència d'un objecte, donada la precisió de l'ajust i el nombre de possibles coincidències falses. Les coincidències d'objectes que superen totes aquestes proves es poden identificar com a correctes amb alta confiança.^[2]

Schéma illustrant la construction d'une pyramide de différences de gaussiens (DoG) à partir de la pyramide de gradients. 3 octaves de 5 gradients sont représentées, et sous chaque octave, sont représentées les différences de gaussiennes issues de chaque paire d'images successives. — Construcció de la piràmide de diferències de gaussianes (DoG) a partir de la piràmide de gradients.

Visió general[modifica]

Per a qualsevol objecte d'una imatge, es poden extreure punts interessants de l'objecte per proporcionar una "descripció de la característica" de l'objecte. Aquesta descripció, extreta d'una imatge d'entrenament, es pot utilitzar per identificar l'objecte quan s'intenta localitzar l'objecte en una imatge de prova que conté molts altres objectes. Per realitzar un reconeixement fiable, és important que les característiques extretes de la imatge d'entrenament siguin detectables fins i tot amb canvis d'escala de la imatge, soroll i il·luminació. Aquests punts normalment es troben en regions de gran contrast de la imatge, com ara les vores d'un objecte.^[3]

Exemple de détection d'extremums dans l'espace des échelles. Ici, sont représentés trois portions de DoGs successifs, ainsi que la position d'un extrémum dans l'espace des échelles. — Exemple de detecció d'extrems a l'espai d'escala.

SIFT pot identificar objectes de manera robusta fins i tot entre desordres i sota oclusió parcial, perquè el descriptor de la característica SIFT és invariant a l'escala uniforme, l'orientació, els canvis d'il·luminació i parcialment invariant a la distorsió afina. Aquesta secció resumeix l'algoritme SIFT original i esmenta algunes tècniques competidores disponibles per al reconeixement d'objectes sota desordre i oclusió parcial.

Problema	Tècnica	Avantatge
localització de claus / escala / rotació	Diferència de gaussians / piràmide escala-espai / assignació d'orientació	precisió, estabilitat, escala i invariància rotacional
distorsió geomètrica	desenfocament / remuestreig dels plans d'orientació de la imatge local	invariància afí
indexació i concordança	veí més proper / Best Bin Primera cerca	Eficiència/velocitat
Identificació del clúster	Votació Hough Transform	models de poses fiables
Verificació del model / detecció de valors atípics	Mínims quadrats lineals	millor tolerància a errors amb menys coincidències
Acceptació de la hipòtesi	Anàlisi de probabilitat bayesiana	fiabilitat

Tipus de característiques[modifica]

La detecció i descripció de les característiques de la imatge local pot ajudar en el reconeixement d'objectes. Les característiques SIFT són locals i es basen en l'aparença de l'objecte en punts d'interès particulars, i són invariants a l'escala i la rotació de la imatge. També són robusts als canvis d'il·luminació, soroll i canvis menors de punt de vista. A més d'aquestes propietats, són molt distintives, relativament fàcils d'extreure i permeten la identificació correcta d'objectes amb poca probabilitat de desajustament. Són relativament fàcils de comparar amb una base de dades (gran) de característiques locals, però, tanmateix, l'alta dimensionalitat pot ser un problema i, en general, s'utilitzen algorismes probabilistes com ara arbres kd amb la millor cerca de primer bin. La descripció de l'objecte per conjunt de característiques SIFT també és robusta a l'oclusió parcial; tan sols 3 característiques SIFT d'un objecte són suficients per calcular la seva ubicació i posada. El reconeixement es pot realitzar en temps proper al real, almenys per a bases de dades petites i en maquinari informàtic modern.^[4]

Referències[modifica]

↑ «Scale-Invariant Feature Transform» (en anglès). https://www.baeldung.com.+[Consulta: 12 agost 2023].
↑ Burger, Wilhelm; Burge, Mark J. Scale-Invariant Feature Transform (SIFT) (en anglès). London: Springer, 2016, p. 609–664. DOI 10.1007/978-1-4471-6684-9_25. ISBN 978-1-4471-6684-9.
↑ «[https://inst.eecs.berkeley.edu/~ee225b/sp14/StudentPresentations/SIFT.pdf Scale Invariant Feature Transform by David Lowe]» (en anglès). https://inst.eecs.berkeley.ed.+[Consulta: 12 agost 2023].
↑ Tyagi, Deepanshu. «Introduction to SIFT( Scale Invariant Feature Transform)» (en anglès), 07-04-2020. [Consulta: 12 agost 2023].

[1] «Scale-Invariant Feature Transform» (en anglès). https://www.baeldung.com.+[Consulta: 12 agost 2023].

[2] Burger, Wilhelm; Burge, Mark J. Scale-Invariant Feature Transform (SIFT) (en anglès). London: Springer, 2016, p. 609–664. DOI 10.1007/978-1-4471-6684-9_25. ISBN 978-1-4471-6684-9.

[3] «[https://inst.eecs.berkeley.edu/~ee225b/sp14/StudentPresentations/SIFT.pdf Scale Invariant Feature Transform by David Lowe]» (en anglès). https://inst.eecs.berkeley.ed.+[Consulta: 12 agost 2023].

[4] Tyagi, Deepanshu. «Introduction to SIFT( Scale Invariant Feature Transform)» (en anglès), 07-04-2020. [Consulta: 12 agost 2023].

[1]

[2]

[3]

[4]